AI资讯新闻榜单内容搜索-深度推理

不是所有token都平等！谷歌提出真·深度思考：思维链长≠深度推理

大模型的思维链越长，推理能力就越强？谷歌Say No——token数量和推理质量，真没啥正相关，因为token和token还不一样，有些纯凑数，深度思考token才真有用。新研究抛弃字数论，甩出衡量模型推理质量的全新标准DTR，专门揪模型是在真思考还是水字数。

来自主题: AI技术研报

7904 点击 2026-02-25 14:32

字节Seed用化学思想搞AI，把DeepSeek-R1的脑回路拆成了分子结构

字节Seed都开始用化学思想搞大模型了——深度推理是共价键、自我反思是氢键、自我探索是范德华力？！

来自主题: AI技术研报

9174 点击 2026-02-24 15:37

北大彭一杰教授课题组提出RiskPO，用风险度量优化重塑大模型后训练

当强化学习（RL）成为大模型后训练的核心工具，「带可验证奖励的强化学习（RLVR）」凭借客观的二元反馈（如解题对错），迅速成为提升推理能力的主流范式。从数学解题到代码生成，RLVR 本应推动模型突破「已知答案采样」的局限，真正掌握深度推理逻辑 —— 但现实是，以 GRPO 为代表的主流方法正陷入「均值优化陷阱」。

来自主题: AI技术研报

6689 点击 2025-10-15 14:19

四万字·深度求索｜泛聊一下强化学习(RL)下的深度推理(DR)对真实世界(RW)建模与泛化的本质

强化学习·RL范式尝试为LLMs应用于广泛的Agentic AI甚至构建AGI打开了一扇“深度推理”的大门，而RL是否是唯一且work的一扇门，先按下不表（不作为今天跟大家唠的重点），至少目前看来，随着o1/o3/r1/qwq..等一众语言推理模型的快速发展，正推动着LLMs和Agentic AI在不同领域的价值与作用，

来自主题: AI技术研报

10769 点击 2025-06-13 10:48