AI资讯新闻榜单内容搜索-数学推理

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 数学推理

野生DeepSeek火了，速度碾压官方版，权重开源

野生DeepSeek火了，速度碾压官方版，权重开源

野生DeepSeek火了，速度碾压官方版，权重开源

没等来 DeepSeek 官方的 R2，却迎来了一个速度更快、性能不弱于 R1 的「野生」变体！这两天，一个名为「DeepSeek R1T2」的模型火了！这个模型的速度比 R1-0528 快 200%，比 R1 快 20%。除了速度上的显著优势，它在 GPQA Diamond（专家级推理能力问答基准）和 AIME 24（数学推理基准）上的表现均优于 R1，但未达到 R1-0528 的水平。

来自主题: AI资讯

9816 点击 2025-07-04 22:18

强化学习新发现：无需数学样本，仅游戏训练AI推理大增

强化学习新发现：无需数学样本，仅游戏训练AI推理大增

强化学习新发现：无需数学样本，仅游戏训练AI推理大增

最近，强化学习领域出现了一个颠覆性发现：研究人员不再需要大量数学训练样本，仅仅让 AI 玩简单游戏，就能显著提升其数学推理能力。

来自主题: AI技术研报

9446 点击 2025-06-24 15:25

推理正确率下降65.5%！斯坦福、MIT等用「不等式」拷问AI逻辑极限

推理正确率下降65.5%！斯坦福、MIT等用「不等式」拷问AI逻辑极限

推理正确率下降65.5%！斯坦福、MIT等用「不等式」拷问AI逻辑极限

大语言模型在数学证明中常出现推理漏洞，如跳步或依赖特殊值。斯坦福等高校团队提出IneqMath基准，将不等式证明拆解为可验证的子任务。结果显示，模型的推理正确率远低于答案正确率，暴露出其在数学推理上的缺陷。

来自主题: AI技术研报

9981 点击 2025-06-23 14:41

细粒度视觉推理链引入数学领域，准确率暴涨32%，港中文MMLab打破多模态数学推理瓶颈

细粒度视觉推理链引入数学领域，准确率暴涨32%，港中文MMLab打破多模态数学推理瓶颈

细粒度视觉推理链引入数学领域，准确率暴涨32%，港中文MMLab打破多模态数学推理瓶颈

思维链（Chain of Thought, CoT）推理方法已被证明能够显著提升大语言模型（LLMs）在复杂任务中的表现。而在多模态大语言模型（MLLMs）中，CoT 同样展现出了巨大潜力。

来自主题: AI技术研报

10545 点击 2025-06-17 10:21

10% KV Cache实现无损数学推理！这个开源方法解决推理大模型「记忆过载」难题

10% KV Cache实现无损数学推理！这个开源方法解决推理大模型「记忆过载」难题

10% KV Cache实现无损数学推理！这个开源方法解决推理大模型「记忆过载」难题

推理大模型虽好，但一个简单的算数问题能推理整整三页，还都是重复的“废话”，找不到重点……

来自主题: AI技术研报

8699 点击 2025-06-16 15:50

103K「硬核」题，让大模型突破数学推理瓶颈

103K「硬核」题，让大模型突破数学推理瓶颈

103K「硬核」题，让大模型突破数学推理瓶颈

本文将介绍 DeepMath-103K 数据集。该工作由腾讯 AI Lab 与上海交通大学团队共同完成。

来自主题: AI技术研报

10523 点击 2025-06-11 14:50

首次解释LLM如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

首次解释LLM如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

首次解释LLM如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

推理模型常常表现出类似自我反思的行为，但问题是——这些行为是否真的能有效探索新策略呢？

来自主题: AI技术研报

8362 点击 2025-06-02 17:48

中兴星云拿下推理总分榜一！SuperCLUE 5月成绩出炉

中兴星云拿下推理总分榜一！SuperCLUE 5月成绩出炉

中兴星云拿下推理总分榜一！SuperCLUE 5月成绩出炉

就在刚刚，中兴通讯星云大模型获推理榜总分第一，总榜并列第二！而在数学推理、科学推理、代码生成的细分赛道上，它同样表现抢眼。更难得的是，它是业内少数通过国家级权威安全认证的大模型。

来自主题: AI资讯

10006 点击 2025-05-31 11:40

挑战AI数学推理极限！大规模形式化数学基准FormalMATH发布，最强模型成功率仅16%

挑战AI数学推理极限！大规模形式化数学基准FormalMATH发布，最强模型成功率仅16%

挑战AI数学推理极限！大规模形式化数学基准FormalMATH发布，最强模型成功率仅16%

最强AI模型面对5560道数学难题，成功率仅16.46%？背后真相大揭秘。

来自主题: AI技术研报

10360 点击 2025-05-08 10:36

深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

就在刚刚，DeepSeek-Prover-V2技术报告也来了！34页论文揭秘了模型的训练核心——递归+强化学习，让数学推理大提升。有人盛赞：DeepSeek已找到通往AGI的正确路径！

来自主题: AI资讯

9895 点击 2025-05-01 10:49

上一页当前第3页,共7页下一页