AI资讯新闻榜单内容搜索-模型训练

大语言模型真的会「推理」吗？一项系统性研究梳理 LLM 的结构性推理失败

近期发表于 TMLR 的论文《Large Language Model Reasoning Failures》对这一问题进行了系统性梳理。该研究并未围绕 “模型是否真正理解” 展开哲学层面的争论，而是采取更加务实的路径 —— 通过整理现有文献中的失败现象，构建统一框架，系统分析大语言模型的推理短板。

来自主题: AI技术研报

7345 点击 2026-02-26 10:52

五角大楼极限施压Anthropic，要求周六前解除所有AI安全限制

美国五角大楼正向 Anthropic 极限施压，要求彻底解除 Claude 的军事应用限制。会后，Anthropic 发布新版政策。公司正式放弃了「单方面暂停大模型训练」的安全承诺。在政治与商业的双重压力下，AI 安全理想主义最终向现实妥协。

来自主题: AI资讯

7990 点击 2026-02-25 21:40

Gemini 3仅得33.6分！清华发布首个「约束流形」空间智能基准

SSI-Bench是首个在约束流形中评估模型空间推理能力的基准，强调真实结构与约束条件，通过排序任务考察模型是否能准确理解三维结构的几何与拓扑关系，揭示当前大模型在空间智能上严重依赖2D信息，实际表现远低于人类。研究指出，模型需提升三维构型识别和约束推理能力，才能真正理解空间问题。

来自主题: AI技术研报

9098 点击 2026-02-25 14:33

不是所有token都平等！谷歌提出真·深度思考：思维链长≠深度推理

大模型的思维链越长，推理能力就越强？谷歌Say No——token数量和推理质量，真没啥正相关，因为token和token还不一样，有些纯凑数，深度思考token才真有用。新研究抛弃字数论，甩出衡量模型推理质量的全新标准DTR，专门揪模型是在真思考还是水字数。

来自主题: AI技术研报

7895 点击 2026-02-25 14:32

ICLR2026 Oral | 当情感识别不再是分类题：EmotionThinker 让 SpeechLLM 学会“解释情绪”

SpeechLLM 是否具备像人类一样解释 “为什么” 做出情绪判断的能力？为此，研究团队提出了EmotionThinker—— 首个面向可解释情感推理（Explainable Emotion Reasoning）的强化学习框架，尝试将 SER 从 “分类任务” 提升为 “多模态证据驱动的推理任务”。

来自主题: AI技术研报

8120 点击 2026-02-25 14:28

又快又省？仅5%参数、训练快4倍！ArcFlow用「非线性」魔法实现FLUX/Qwen推理40倍加速

复旦大学与微软亚洲研究院带来的 ArcFlow 给出了答案：如果路是弯的，那就学会 “漂移”，而不是把路修直。在扩散模型中，教师模型（Pre-trained Teacher）的生成过程本质上是在高维空间中求解微分方程并进行多步积分。由于图像流形的复杂性，教师模型原本的采样轨迹通常是一条蜿蜒的曲线，其切线方向（即速度场）随时间步不断变化。

来自主题: AI技术研报

7438 点击 2026-02-25 14:15

Agent为什么都在疯狂外挂“Skills”？首个SkillsBench来了，讲透性能暴涨的底层逻辑

在2026当下的智能体（Agent）开发体系中，“为LLM加Skills”已经成为事实上的行业标准。您的Agent表现不好，是因为底层的LLM参数量不够，还是因为您喂给它的“Skills”写得一塌糊涂？无论是日常使用的各类CLI工具，还是最近的Openclaw，其底层能力的跃升很大程度上都依赖于这些特定领域的Agent Skills。

来自主题: AI技术研报

8561 点击 2026-02-25 14:09