AI资讯新闻榜单内容搜索-数学推理

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 数学推理

3710亿数学tokens，全面开放！史上最大高质量开源数学预训练数据集MegaMath发布

3710亿数学tokens，全面开放！史上最大高质量开源数学预训练数据集MegaMath发布

3710亿数学tokens，全面开放！史上最大高质量开源数学预训练数据集MegaMath发布

在大模型迈向推理时代的当下，数学推理能力已成为衡量语言模型智能上限的关键指标。

来自主题: AI技术研报

5693 点击 2025-04-14 09:01

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

尽管这些论文的结论统统指向了强化学习带来的显著性能提升，但来自图宾根大学和剑桥大学的研究者发现，强化学习导致的许多「改进」可能只是噪音。「受推理领域越来越多不一致的经验说法的推动，我们对推理基准的现状进行了严格的调查，特别关注了数学推理领域评估算法进展最广泛使用的测试平台之一 HuggingFaceH4，2024；AI - MO。」

来自主题: AI技术研报

6285 点击 2025-04-13 15:59

美国奥数题撕碎AI数学神话，顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭

美国奥数题撕碎AI数学神话，顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭

美国奥数题撕碎AI数学神话，顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭

在数学推理中，大语言模型存在根本性局限：在美国数学奥赛，顶级AI模型得分不足5%！来自ETH Zurich等机构的MathArena团队，一下子推翻了AI会做数学题这个神话。

来自主题: AI技术研报

10109 点击 2025-04-02 14:58

DeepSeek-V3深夜惊爆上新！代码数学飙升剑指GPT-5，一台Mac可跑

DeepSeek-V3深夜惊爆上新！代码数学飙升剑指GPT-5，一台Mac可跑

DeepSeek-V3深夜惊爆上新！代码数学飙升剑指GPT-5，一台Mac可跑

685B的DeepSeek-V3新版本，就在昨夜悄悄上线了。参数量685B的V3，代码数学推理再次显著提升，甚至代码追平Claude 3.7，网友们实测后大呼强到离谱！有人预测说，按照此前的节奏，DeepSeek-R2大概率几周内就将上线。

来自主题: AI技术研报

11489 点击 2025-03-25 12:09

32B本地部署！阿里开源最新多模态模型：主打视觉语言，数学推理也很强

32B本地部署！阿里开源最新多模态模型：主打视觉语言，数学推理也很强

32B本地部署！阿里开源最新多模态模型：主打视觉语言，数学推理也很强

就在DeepSeek-V3更新的同一夜，阿里通义千问Qwen又双叒叕一次梦幻联动了——

来自主题: AI资讯

11373 点击 2025-03-25 11:47

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

多模态大模型虽然在视觉理解方面表现出色，但在需要深度数学推理的任务上往往力不从心，尤其是对于参数量较小的模型来说更是如此。

来自主题: AI技术研报

6327 点击 2025-03-19 09:43

大模型全军覆没，中科院自动化所推出多图数学推理新基准 | CVPR 2025

大模型全军覆没，中科院自动化所推出多图数学推理新基准 | CVPR 2025

大模型全军覆没，中科院自动化所推出多图数学推理新基准 | CVPR 2025

挑战多图数学推理新基准，大模型直接全军覆没？！

来自主题: AI技术研报

8587 点击 2025-03-11 17:22

1.5B硬刚GPT-4o，CMU祭出LCPO提示可控思考！每token性能较S1暴涨2倍

1.5B硬刚GPT-4o，CMU祭出LCPO提示可控思考！每token性能较S1暴涨2倍

1.5B硬刚GPT-4o，CMU祭出LCPO提示可控思考！每token性能较S1暴涨2倍

CMU团队用LCPO训练了一个15亿参数的L1模型，结果令人震惊：在数学推理任务中，它比S1相对提升100%以上，在逻辑推理和MMLU等非训练任务上也能稳定发挥。更厉害的是，要求短推理时，甚至击败了GPT-4o——用的还是相同的token预算！

来自主题: AI技术研报

6981 点击 2025-03-10 10:22

7B级形式化推理与验证小模型，媲美满血版DeepSeek-R1，全面开源！

7B级形式化推理与验证小模型，媲美满血版DeepSeek-R1，全面开源！

7B级形式化推理与验证小模型，媲美满血版DeepSeek-R1，全面开源！

随着 DeepSeek-R1 的流行与 AI4Math 研究的深入，大模型在辅助形式化证明写作方面的需求日益增长。作为数学推理最直接的应用场景，形式化推理与验证（formal reasoning and verification），也获得持续关注。

来自主题: AI技术研报

6397 点击 2025-03-09 10:31

视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

通过针对视觉的细分类、目标检测等任务设计对应的规则奖励，Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领域的认知，为视觉语言模型的训练开辟了全新路径！

来自主题: AI技术研报

8261 点击 2025-03-04 20:09

上一页当前第4页,共7页下一页