AI资讯新闻榜单内容搜索-数学推理

ACL 2026 Oral｜语义推理如鲠在喉：大模型被「短语」难住了

AI 的能力边界正在不断被刷新。从数学推理到代码生成，再到数字化白领，语言模型和语言智能体在诸多基准测试中已展现出超越人类专家的表现。一个看似顺理成章的判断早已成为共识：语言模型已经具备了扎实的语言理解和语义推理能力。然而，ACL 2026 Oral 的一项研究工作从一个更基础的层面重新审视了这个问题：语言模型真的理解（短语）语义吗？

来自主题: AI技术研报

8368 点击 2026-06-11 14:32

ICML 2026 | 清华姚权铭团队提出LMNet，让语言模型学会自己「组网」

大语言模型正在成为人工智能系统的核心组件。从文本生成、数学推理到代码编写，单个大模型已经展现出强大的能力。

来自主题: AI技术研报

7910 点击 2026-06-01 09:26

LLM 仅靠自身就能增强推理？SePT 给出简洁在线自训练范式

在推理后训练里，多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号，只使用模型自身生成的答案进行自训练，是否仍然能够提升推理能力？是的！SePT（Self-evolving Post-Training）给出肯定答案，简洁的自训练方法，可在数学推理任务准确率直升10个点！

来自主题: AI技术研报

5979 点击 2026-04-23 14:05

ICLR 2026｜UIUC：一行代码彻底解决LLM推理的过度思考！

2025 年 1 月 20 日，DeepSeek 发布了推理大模型 DeepSeek-R1，在学术界和工业界引发了对大模型强化学习方法的广泛关注与研究热潮。研究者发现，在数学推理等具有明确答案的任务

来自主题: AI技术研报

7139 点击 2026-02-08 11:52

强化学习远不是最优，CMU刚刚提出最大似然强化学习

在大模型时代，从代码生成到数学推理，再到自主规划的 Agent 系统，强化学习几乎成了「最后一公里」的标准配置。

来自主题: AI技术研报

7672 点击 2026-02-06 10:34

非Transformer架构的新突破，Liquid AI开源LFM2.5-1.2B-Thinking模型

就在刚刚，Liquid AI 又一次在 LFM 模型上放大招。他们正式发布并开源了 LFM2.5-1.2B-Thinking，一款可完全在端侧运行的推理模型。Liquid AI 声称，该模型专门为简洁推理而训练；在生成最终答案前，会先生成内部思考轨迹；在端侧级别的低延迟条件下，实现系统化的问题求解；在工具使用、数学推理和指令遵循方面表现尤为出色。

来自主题: AI资讯

12517 点击 2026-01-22 11:59

字节Seed发布最强数学模型：一招“打草稿”，IMO银牌变金牌

字节最新数学推理专用模型，刚刚刷新战绩：拿下IMO金牌成绩。

来自主题: AI技术研报

10768 点击 2025-12-26 10:34

DeepSeek强势回归，开源IMO金牌级数学模型

就在刚刚，DeepSeek 又悄咪咪在 Hugging Face 上传了一个新模型：DeepSeek-Math-V2。顾名思义，这是一个数学方面的模型。它的上一个版本 ——DeepSeek-Math-7b 还是一年多以前发的。当时，这个模型只用 7B 参数量，就达到了 GPT-4 和 Gemini-Ultra 性能相当的水平。相关论文还首次引入了 GRPO，显著提升了数学推理能力。

来自主题: AI资讯

9639 点击 2025-11-27 22:47

清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

如果有人告诉你：不用分阶段做强化学习、不搞课程学习、不动态调参，只用最基础的 RL 配方就能达到小模型数学推理能力 SOTA，你信吗？

来自主题: AI技术研报

7176 点击 2025-11-13 09:37

Qwen拿半成品刷下AIME'25满分，给别人留点面子吧……

半成品模型，已经刷下高难度数学推理测试AIME 25满分战绩。

来自主题: AI资讯

7556 点击 2025-11-04 17:32