AI资讯新闻榜单内容搜索-数学推理

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 数学推理

ICML 2025 | 大模型能在信息不完备的情况下问出正确的问题吗？

ICML 2025 | 大模型能在信息不完备的情况下问出正确的问题吗？

ICML 2025 | 大模型能在信息不完备的情况下问出正确的问题吗？

大语言模型（Large Language Model, LLM）在复杂推理任务中表现卓越。借助链式思维（Chain-of-Thought, CoT），LLM 能够将复杂问题分解为简单步骤，充分探索解题思路并得出正确答案。LLM 已在多个基准上展现出优异的推理能力，尤其是数学推理和代码生成。

来自主题: AI技术研报

7582 点击 2025-07-24 15:10

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方：通过Scaling RL，Polaris让4B模型的数学推理能力（AIME25上取得79.4，AIME24上取得81.2）超越了一众商业大模型，如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

来自主题: AI资讯

8309 点击 2025-07-09 12:10

野生DeepSeek火了，速度碾压官方版，权重开源

野生DeepSeek火了，速度碾压官方版，权重开源

野生DeepSeek火了，速度碾压官方版，权重开源

没等来 DeepSeek 官方的 R2，却迎来了一个速度更快、性能不弱于 R1 的「野生」变体！这两天，一个名为「DeepSeek R1T2」的模型火了！这个模型的速度比 R1-0528 快 200%，比 R1 快 20%。除了速度上的显著优势，它在 GPQA Diamond（专家级推理能力问答基准）和 AIME 24（数学推理基准）上的表现均优于 R1，但未达到 R1-0528 的水平。

来自主题: AI资讯

10158 点击 2025-07-04 22:18

强化学习新发现：无需数学样本，仅游戏训练AI推理大增

强化学习新发现：无需数学样本，仅游戏训练AI推理大增

强化学习新发现：无需数学样本，仅游戏训练AI推理大增

最近，强化学习领域出现了一个颠覆性发现：研究人员不再需要大量数学训练样本，仅仅让 AI 玩简单游戏，就能显著提升其数学推理能力。

来自主题: AI技术研报

9736 点击 2025-06-24 15:25

推理正确率下降65.5%！斯坦福、MIT等用「不等式」拷问AI逻辑极限

推理正确率下降65.5%！斯坦福、MIT等用「不等式」拷问AI逻辑极限

推理正确率下降65.5%！斯坦福、MIT等用「不等式」拷问AI逻辑极限

大语言模型在数学证明中常出现推理漏洞，如跳步或依赖特殊值。斯坦福等高校团队提出IneqMath基准，将不等式证明拆解为可验证的子任务。结果显示，模型的推理正确率远低于答案正确率，暴露出其在数学推理上的缺陷。

来自主题: AI技术研报

10196 点击 2025-06-23 14:41

细粒度视觉推理链引入数学领域，准确率暴涨32%，港中文MMLab打破多模态数学推理瓶颈

细粒度视觉推理链引入数学领域，准确率暴涨32%，港中文MMLab打破多模态数学推理瓶颈

细粒度视觉推理链引入数学领域，准确率暴涨32%，港中文MMLab打破多模态数学推理瓶颈

思维链（Chain of Thought, CoT）推理方法已被证明能够显著提升大语言模型（LLMs）在复杂任务中的表现。而在多模态大语言模型（MLLMs）中，CoT 同样展现出了巨大潜力。

来自主题: AI技术研报

10942 点击 2025-06-17 10:21

10% KV Cache实现无损数学推理！这个开源方法解决推理大模型「记忆过载」难题

10% KV Cache实现无损数学推理！这个开源方法解决推理大模型「记忆过载」难题

10% KV Cache实现无损数学推理！这个开源方法解决推理大模型「记忆过载」难题

推理大模型虽好，但一个简单的算数问题能推理整整三页，还都是重复的“废话”，找不到重点……

来自主题: AI技术研报

8908 点击 2025-06-16 15:50

103K「硬核」题，让大模型突破数学推理瓶颈

103K「硬核」题，让大模型突破数学推理瓶颈

103K「硬核」题，让大模型突破数学推理瓶颈

本文将介绍 DeepMath-103K 数据集。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。

来自主题: AI技术研报

10736 点击 2025-06-11 14:50

首次解释LLM如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

首次解释LLM如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

首次解释LLM如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

推理模型常常表现出类似自我反思的行为，但问题是——这些行为是否真的能有效探索新策略呢？

来自主题: AI技术研报

8519 点击 2025-06-02 17:48

中兴星云拿下推理总分榜一！SuperCLUE 5月成绩出炉

中兴星云拿下推理总分榜一！SuperCLUE 5月成绩出炉

中兴星云拿下推理总分榜一！SuperCLUE 5月成绩出炉

就在刚刚，中兴通讯星云大模型获推理榜总分第一，总榜并列第二！而在数学推理、科学推理、代码生成的细分赛道上，它同样表现抢眼。更难得的是，它是业内少数通过国家级权威安全认证的大模型。

来自主题: AI资讯

10320 点击 2025-05-31 11:40

上一页当前第3页,共8页下一页