AI资讯新闻榜单内容搜索-数学推理

We-Math 2.0：全新多模态数学推理数据集 × 首个综合数学知识体系

近期，多模态大模型在图像问答与视觉理解等任务中进展迅速。随着 Vision-R1 、MM-Eureka 等工作将强化学习引入多模态推理，数学推理也得到了一定提升。

来自主题: AI技术研报

9099 点击 2025-08-28 12:20

Gemini再揽金牌，力压大学学霸，AI数学推理时代来了！

Gemini奥数金牌，实至名归！ETH Zurich博士在大学生国际数学竞赛（IMC）中，测试了Gemini的三种模式，表现远高于前8%的金牌门槛，远超普通大学生。

来自主题: AI资讯

8344 点击 2025-08-10 15:40

思维链监督和强化的图表推理，7B模型媲美闭源大尺寸模型

近期，随着OpenAI-o1/o3和Deepseek-R1的成功，基于强化学习的微调方法（R1-Style）在AI领域引起广泛关注。这些方法在数学推理和代码智能方面展现出色表现，但在通用多模态数据上的应用研究仍有待深入。

来自主题: AI技术研报

8344 点击 2025-08-01 16:08

ICML 2025 | 大模型能在信息不完备的情况下问出正确的问题吗？

大语言模型（Large Language Model, LLM）在复杂推理任务中表现卓越。借助链式思维（Chain-of-Thought, CoT），LLM 能够将复杂问题分解为简单步骤，充分探索解题思路并得出正确答案。LLM 已在多个基准上展现出优异的推理能力，尤其是数学推理和代码生成。

来自主题: AI技术研报

6422 点击 2025-07-24 15:10

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方：通过Scaling RL，Polaris让4B模型的数学推理能力（AIME25上取得79.4，AIME24上取得81.2）超越了一众商业大模型，如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

来自主题: AI资讯

7228 点击 2025-07-09 12:10

野生DeepSeek火了，速度碾压官方版，权重开源

没等来 DeepSeek 官方的 R2，却迎来了一个速度更快、性能不弱于 R1 的「野生」变体！这两天，一个名为「DeepSeek R1T2」的模型火了！这个模型的速度比 R1-0528 快 200%，比 R1 快 20%。除了速度上的显著优势，它在 GPQA Diamond（专家级推理能力问答基准）和 AIME 24（数学推理基准）上的表现均优于 R1，但未达到 R1-0528 的水平。

来自主题: AI资讯

9087 点击 2025-07-04 22:18