AI资讯新闻榜单内容搜索-R1

首次结合RL与SFT各自优势，动态引导模型实现推理⾼效训练

新一代大型推理模型，如 OpenAI-o3、DeepSeek-R1 和 Kimi-1.5，在复杂推理方面取得了显著进展。该方向核心是一种名为 ZERO-RL 的训练方法，即采用可验证奖励强化学习（RLVR）逐步提升大模型在强推理场景 (math, coding) 的 pass@1 能力。

来自主题: AI技术研报

5285 点击 2025-07-28 10:36

任务级奖励提升App Agent思考力，淘天提出Mobile-R1，3B模型可超32B

现有Mobile/APP Agent的工作可以适应实时环境，并执行动作，但由于它们大部分都仅依赖于动作级奖励（SFT或RL）。

来自主题: AI技术研报

9778 点击 2025-07-21 12:25

「DeepSeek二代」来袭！数学暴击o3，英伟达开源LLM登顶

基于Qwen2.5架构，采用DeepSeek-R1-0528生成数据，英伟达推出的OpenReasoning-Nemotron模型，以超强推理能力突破数学、科学、代码任务，在多个基准测试中创下新纪录！数学上，更是超越了o3!

来自主题: AI资讯

7762 点击 2025-07-20 23:43

2025 IMO真题撕碎AI数学神话，全球顶尖模型齐翻车！冠军铜牌都拿不到

AI做奥数的神话，刚刚被戳破了！最新出炉的2025 IMO数学竞赛中，全球顶尖AI模型无一例外翻车了。即便是冠军Gemini也只拿下可怜的31分，连铜牌都摸不到。Grok-4更是摆烂到底，连DeepSeek-R1都令人失望。看来，AI想挑战人类奥数大神，还为时尚早。

来自主题: AI资讯

6137 点击 2025-07-18 17:37

DeepSeek使用率断崖式下跌？

半年前，DeepSeek R1 的推出轰动了全球，无论东西方都是火的一塌糊涂，更是被外网称为 AI 领域的 Sputnik 时刻。

来自主题: AI资讯

8114 点击 2025-07-18 14:12

面对无解问题大模型竟会崩溃？港中文&华为联合提出首个大模型推理可靠性评估基准

今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能，引起广泛的热度。然而在面对一些无法回答或本身无解的问题时，这些模型竟试图去虚构不存在的信息去推理解答，生成了大量的事实错误、无意义思考过程和虚构答案，也被称为模型「幻觉」问题，如下图（a）所示，造成严重资源浪费且会误导用户，严重损害了模型的可靠性（Reliability）。

来自主题: AI技术研报

6769 点击 2025-07-17 11:24