AI技术研报-这里有最前沿的人工智能技术解读

智能体丝滑玩手机，决策延迟0.7秒！MSRA等提出验证器架构，不直接依赖大模型生成最终操作

随着人工智能和大语言模型（LLMs）的不断突破，如何将其优势赋能于现实世界中可实际部署的高效工具，成为了业界关注的焦点。

来自主题: AI技术研报

2717 点击 2025-04-03 15:19

让AI替码农卷复杂任务，贾佳亚团队提出MoTCoder，准确率刷新SOTA

大模型写代码早就是基操了，但让它写算法竞赛题或企业级系统代码，就像让只会煮泡面的人去做满汉全席 —— 生成的代码要么是 “铁板一块” 毫无章法，要么是 “一锅乱炖” 难以维护。

来自主题: AI技术研报

8085 点击 2025-04-03 15:12

视觉SSL终于追上了CLIP！Yann LeCun、谢赛宁等新作，逆转VQA任务固有认知

扩展无语言的视觉表征学习。

来自主题: AI技术研报

5953 点击 2025-04-03 15:06

OpenAI 刚刚开源了 PaperBench，用于评估 Agent 复现顶尖论文能力！

PaperBench 是一个由 OpenAI 开发的基准测试，旨在评估 AI Agent 复现尖端 AI 研究的能力。它专注于测试 AI 是否能理解研究论文、独立开发代码并执行实验以复现研究结果。

来自主题: AI技术研报

7141 点击 2025-04-03 10:57

类比的长河，为何流到大模型就被截流？

当我们遇到新问题时，往往会通过类比过去的经验来寻找解决方案，大语言模型能否如同人类一样类比？在对大模型的众多批判中，人们常说大模型只是记住了训练数据集中的模式，并没有进行真正的推理。

来自主题: AI技术研报

9298 点击 2025-04-03 10:50

双人动作生成新SOTA！浙大提出TIMotion框架 | CVPR 2025

双人动作生成新SOTA！

来自主题: AI技术研报

7067 点击 2025-04-03 10:36

CVPR 2025：单图秒变专业影棚，几何/材质/光影全搞定，数据训练代码全开源

如何从一张普通的单幅图像准确估计物体的三维法线和材质属性，是计算机视觉与图形学领域长期关注的难题。

来自主题: AI技术研报

2615 点击 2025-04-03 10:11

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

一个7B奖励模型搞定全学科，大模型强化学习不止数学和代码。

来自主题: AI技术研报

8157 点击 2025-04-03 09:58

语音界Deepseek！百度最新跨模态端到端语音交互，成本最高降90%

没想到，文小言接入推理模型的大更新背后，百度还藏了一手“质变”级技术大招？？？

来自主题: AI技术研报

7094 点击 2025-04-03 09:55

6000字+6个案例：写给普通人的MCP入门指南

最近 MCP 协议很火，自己也发掘了一些玩法，但是目前来看 MCP 的配置还是过于繁琐了，对普通人门槛有点高。这几天终于摸索出来了一些方法让大家可以相对容易理解的方式配置 MCP 服务。

来自主题: AI技术研报

9251 点击 2025-04-02 16:55

用多模态模型，写新一代爬虫

字节有一个很实用但不怎么火的项目，叫 Midscene.js，Chrome 商店上的安装数仅有 1 万，它是一个由多模态模型驱动的前端自动化测试插件。自动化测试我平常很少用到，但我发现它特别适合用来写爬虫……

来自主题: AI技术研报

8345 点击 2025-04-02 16:09

我终于成为了全栈开发，各种AI工具加持的全过程记录

本文从一个需求出发，全程记录如何进行全栈开发。

来自主题: AI技术研报

6130 点击 2025-04-02 15:59

从USB到MCP：AI 工具生态接口的革新

上周，OpenAI 正式支持 MCP 协议的消息，无疑成为 AI 基础设施演进的重要里程碑。短短几个月内，从 Anthropic 首次提出到微软、OpenAI 等巨头先后加入，这一标准正在以惊人的速度完成从提出、验证到主流采纳的跃迁。

来自主题: AI技术研报

3866 点击 2025-04-02 15:21

动态场景，开放文本查询！清华哈佛联合建模4D语言场 | CVPR 2025

4D LangSplat通过结合多模态大语言模型和动态三维高斯泼溅技术，成功构建了动态语义场，能够高效且精准地完成动态场景下的开放文本查询任务。该方法利用多模态大模型生成物体级的语言描述，并通过状态变化网络实现语义特征的平滑建模，显著提升了动态语义场的建模能力。

来自主题: AI技术研报

3737 点击 2025-04-02 15:05

美国奥数题撕碎AI数学神话，顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭

在数学推理中，大语言模型存在根本性局限：在美国数学奥赛，顶级AI模型得分不足5%！来自ETH Zurich等机构的MathArena团队，一下子推翻了AI会做数学题这个神话。

来自主题: AI技术研报

7502 点击 2025-04-02 14:58

AI理解27分钟长视频超越GPT-4o，港理工新国立开源新框架：角色化推理+链式LoRA

AI能像人类一样理解长视频。

来自主题: AI技术研报

5988 点击 2025-04-02 14:54

细节厘米级还原、实时渲染，MTGS方法突破自动驾驶场景重建瓶颈

在自动驾驶领域，高精度仿真系统扮演着 “虚拟练兵场” 的角色。工程师需要在数字世界中模拟暴雨、拥堵、突发事故等极端场景，反复验证算法的可靠性。

来自主题: AI技术研报

6374 点击 2025-04-02 14:48

在DeepSearch中用DeepSeek-R1来做动作决策会更好么？

众所周知，DeepSeek R1 这种模型在推理任务上很能打，尤其是在数学和编程这些逻辑性强的领域。那么我们能直接把这种强大的推理能力搬到 DeepSearch 这种需要动态规划、多轮交互的深度搜索场景里吗？

来自主题: AI技术研报

5790 点击 2025-04-02 14:40

自动学会工具解题，RL扩展催化奥数能力激增17%

在大模型推理能力提升的探索中，工具使用一直是克服语言模型计算局限性的关键路径。不过，当今的大模型在使用工具方面还存在一些局限，比如预先确定了工具的使用模式、限制了对最优策略的探索、实现透明度不足等。

来自主题: AI技术研报

9015 点击 2025-04-02 10:09

LLM如何高效理解用户？淘天发布首个基于用户表征的问答基准UQABench

LLM正推动推荐系统革新，以用户表征为「软提示」的范式开辟了高效推荐新路径。在此趋势下，淘天团队发布了首个基于用户表征的个性化问答基准UQABench，系统评估了用户表征的提示效能。

来自主题: AI技术研报

2576 点击 2025-04-02 09:50

颠覆逆向工程！GhidraMCP让AI自主反编译程序，开发者必备神器！

当AI“入侵”逆向工程，效率提升100倍！

来自主题: AI技术研报

5227 点击 2025-04-01 16:46

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

DeepSeek-R1 的成功离不开一种强化学习算法：GRPO（组相对策略优化）。

来自主题: AI技术研报

5922 点击 2025-04-01 16:16

ICLR 2025 Oral | IDEA联合清华北大提出ChartMoE：探究下游任务中多样化对齐MoE的表征和知识

最近，全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果：由 IDEA、清华大学、北京大学、香港科技大学（广州）联合团队提出的 ChartMoE 成功入选 Oral (口头报告) 论文。据了解，本届大会共收到 11672 篇论文，被选中做 Oral Presentation（口头报告）的比例约为 1.8%

来自主题: AI技术研报

3748 点击 2025-04-01 15:27

一脑多机！智源的新发布，让不同机器人轻松协作

3 月 29 日，智源研究院在 2025 中关村论坛 “未来人工智能先锋论坛” 上发布首个跨本体具身大小脑协作框架 RoboOS 与开源具身大脑 RoboBrain，可实现跨场景多任务轻量化快速部署与跨本体协作，推动单机智能迈向群体智能，为构建具身智能开源统一生态加速场景应用提供底层技术支持。

来自主题: AI技术研报

5934 点击 2025-04-01 15:19

让机器人在人群中穿梭自如，港科广&港科大突破社交导航盲区 | ICRA 2025

机器人落地复杂场景，社交导航能力一定是避不开的关键一点。

来自主题: AI技术研报

4848 点击 2025-04-01 15:14

这篇综述，LLM代理的方法、应用和挑战，2025的Agent势头特别猛。| 重磅

2025年，人工智能领域正在经历一场由LLM Agent引发的深刻变革，不管普通人的衣食住行还是研究者的尖端研究，都很难不受Agent的影响。

来自主题: AI技术研报

9366 点击 2025-04-01 10:06

奥赛级AI基准来了：难倒所有模型，GPT-4o仅考34分，上海交大出品

为了进一步挑战AI系统，大家已经开始研究一些最困难的竞赛中的问题，特别是国际奥林匹克竞赛和算法挑战。

来自主题: AI技术研报

3771 点击 2025-04-01 09:49

一秒十图！英伟达MIT联手刷新SOTA，一步扩散解锁实时高质量可控图像生成

SANA-Sprint是一个高效的蒸馏扩散模型，专为超快速文本到图像生成而设计。通过结合连续时间一致性蒸馏（sCM）和潜空间对抗蒸馏（LADD）的混合蒸馏策略，SANA-Sprint在一步内实现了7.59 FID和0.74 GenEval的最先进性能。SANA-Sprint仅需0.1秒即可在H100上生成高质量的1024x1024图像，在速度和质量的权衡方面树立了新的标杆。

来自主题: AI技术研报

8163 点击 2025-03-31 16:16

清华朱军团队 | 从点云到高保真三维网格：DeepMesh突破自回归生成瓶颈

在三维数字内容生产领域，三角形网格作为核心的几何表示形式，其质量直接影响虚拟资产在影视、游戏和工业设计等应用场景中的表现与效率。

来自主题: AI技术研报

4611 点击 2025-03-31 15:31

中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失

在视觉强化学习中，许多方法未考虑序列决策过程，导致所学表征缺乏关键的长期信息的空缺被填补上了。

来自主题: AI技术研报

2572 点击 2025-03-31 15:16

AI技术研报-这里有最前沿的人工智能技术解读

智能体丝滑玩手机，决策延迟0.7秒！MSRA等提出验证器架构，不直接依赖大模型生成最终操作

让AI替码农卷复杂任务，贾佳亚团队提出MoTCoder，准确率刷新SOTA

视觉SSL终于追上了CLIP！Yann LeCun、谢赛宁等新作，逆转VQA任务固有认知

OpenAI 刚刚开源了 PaperBench，用于评估 Agent 复现顶尖论文能力！

类比的长河，为何流到大模型就被截流？

双人动作生成新SOTA！浙大提出TIMotion框架 | CVPR 2025

CVPR 2025：单图秒变专业影棚，几何/材质/光影全搞定，数据训练代码全开源

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科， 不用思维链也能做题

语音界Deepseek！百度最新跨模态端到端语音交互，成本最高降90%

6000字+6个案例：写给普通人的MCP入门指南

用多模态模型，写新一代爬虫

我终于成为了全栈开发，各种AI工具加持的全过程记录

从USB到MCP：AI 工具生态接口的革新

动态场景，开放文本查询！清华哈佛联合建模4D语言场 | CVPR 2025

美国奥数题撕碎AI数学神话，顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭

AI理解27分钟长视频超越GPT-4o，港理工新国立开源新框架：角色化推理+链式LoRA

细节厘米级还原、实时渲染，MTGS方法突破自动驾驶场景重建瓶颈

在DeepSearch中用DeepSeek-R1来做动作决策会更好么？

自动学会工具解题，RL扩展催化奥数能力激增17%

LLM如何高效理解用户？淘天发布首个基于用户表征的问答基准UQABench

颠覆逆向工程！GhidraMCP让AI自主反编译程序，开发者必备神器！

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

ICLR 2025 Oral | IDEA联合清华北大提出ChartMoE：探究下游任务中多样化对齐MoE的表征和知识

一脑多机！智源的新发布，让不同机器人轻松协作

让机器人在人群中穿梭自如，港科广&港科大突破社交导航盲区 | ICRA 2025

这篇综述，LLM代理的方法、应用和挑战，2025的Agent势头特别猛。| 重磅

奥赛级AI基准来了：难倒所有模型，GPT-4o仅考34分，上海交大出品

一秒十图！英伟达MIT联手刷新SOTA，一步扩散解锁实时高质量可控图像生成

清华朱军团队 | 从点云到高保真三维网格：DeepMesh突破自回归生成瓶颈

中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题