AI资讯新闻榜单内容搜索-训练

告别数据标注！SQLM让大模型自我博弈，RL自主推理新范式！

一句话概括，本文探索了语言模型的终极内卷模式：不再依赖人类投喂，通过“自问自答”的左右互搏，硬生生把自己逼成了学霸。AlphaGo下棋我懂，这大模型自己给自己出数学题做就有点离谱了，堪称AI界的“闭关修炼”，出关即无敌。

来自主题: AI资讯

8015 点击 2025-08-10 14:29

ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步

在可验证强化学习（RLVR）的推动下，大语言模型在单轮推理任务中已展现出不俗表现。然而在真实推理场景中，LLM 往往需要结合外部工具进行多轮交互，现有 RL 算法在平衡模型的长程推理与多轮工具交互能力方面仍存在不足。

来自主题: AI技术研报

6395 点击 2025-08-10 13:29

独家｜陈天桥布局端到端Deep Research生态赛道，MiroMind发布全栈开源深度研究项目ODR

全栈开源生态系统：涵盖Agent框架（MiroFlow）、模型（MiroThinker）、数据（MiroVerse）和训练基础设施（MiroTrain / MiroRL）的全栈开源方案，所有组件和流程均开放共享，便于学习、复用与二次开发。

来自主题: AI资讯

7161 点击 2025-08-09 17:11

本科必学Dijkstra算法被超越！清华段然团队打破图灵奖得主证明的普遍最优性

本科经典算法Dijkstra，被清华团队超越了！这个被用来解决最短路径问题的经典算法，去年才被图灵奖得主Tarjan团队证明具有普遍最优性。

来自主题: AI资讯

6914 点击 2025-08-09 16:13

史上最大高质量科学推理后训练数据集开源，快速让Qwen3等变“科学家”

有史规模最大的开源科学推理后训练数据集来了！上海创智学院、上海交通大学（GAIR Lab）发布MegaScience。该数据集包含约125万条问答对及其参考答案，广泛覆盖生物学、化学、计算机科学、经济学、数学、医学、物理学等多个学科领域，旨在为通用人工智能系统的科学推理能力训练与评估提供坚实的数据。

来自主题: AI技术研报

6575 点击 2025-08-09 15:52

首篇WebAgents综述：大模型赋能AI Agent，实现下一代Web自动化

互联网技术的发展极大地便利了我们的生活，但许多网络任务重复繁琐，降低了效率。为了解决这一问题，研究人员正在开发基于大型基础模型（LFMs）的智能体——WebAgents，通过感知环境、规划推理和执行交互来完成用户指令，显著提升便利性。香港理工大学的研究人员从架构、训练和可信性等角度，总结了WebAgents的代表性方法，全面梳理了相关研究进展。

来自主题: AI技术研报

7603 点击 2025-08-09 11:24

扩散LLM推理新范式：打破生成长度限制，实现动态自适应调节

随着 Gemini-Diffusion，Seed-Diffusion 等扩散大语言模型（DLLM）的发布，这一领域成为了工业界和学术界的热门方向。但是，当前 DLLM 存在着在推理时必须采用预设固定长度的限制，对于不同任务都需要专门调整才能达到最优效果。

来自主题: AI资讯

7232 点击 2025-08-09 11:16

3B模型性能小钢炮，“AI下半场应该训练+验证两条腿跑步”丨上海AI Lab&澳门大学

当大模型把人类曾经的终极考题变成日常练习，AI的奔跑却悄悄瘸了腿—— 训练能力突飞猛进，验证答案的本事却成了拖后腿的短板。为此，上海AI Lab和澳门大学联合发布通用答案验证模型CompassVerifier与评测集VerifierBench。填补了Verifier领域没有建立验证->提升->验证的循环迭代体系的空白。

来自主题: AI技术研报

6748 点击 2025-08-09 11:11

Agent怎么运维？中科院清华重磅发布：AgentOps来了！

从“模型即服务”（MaaS）到“智能体即服务”（AaaS）的转变，标志着AI行业进入了新的发展阶段。我们不再满足于AI的“对话能力”，而是期望它能成为自主完成复杂任务的“全能机器人”。

来自主题: AI资讯

6030 点击 2025-08-09 10:55

造不如买？特斯拉倒向英伟达/AMD，马斯克Dojo梦碎，核心团队全跑了

特斯拉Dojo超级计算机团队被解散！特斯拉自动驾驶的「算力心脏」Dojo已被终止。马斯克放弃训练算力，而核心团队另立山头。

来自主题: AI资讯

7427 点击 2025-08-08 17:23