AI资讯新闻榜单内容搜索-DeepSeek-R

混合数学编程逻辑数据，一次性提升AI多领域强化学习能力 | 上海AI Lab

近年来，AI大模型在数学计算、逻辑推理和代码生成领域的推理能力取得了显著突破。特别是DeepSeek-R1等先进模型的出现，可验证强化学习（RLVR）技术展现出强大的性能提升潜力。

来自主题: AI技术研报

7886 点击 2025-08-16 16:45

冗长响应缩减80%，DeepSeek GRPO获得颠覆性改进，微软GFPO问世

用过 DeepSeek-R1 等推理模型的人，大概都遇到过这种情况：一个稍微棘手的问题，模型像陷入沉思一样长篇大论地推下去，耗时耗算力，结果却未必靠谱。现在，我们或许有了解决方案。

来自主题: AI技术研报

7206 点击 2025-08-15 11:26

爆出！DeepSeek R2预计8月发布！R2为何一直不发，内部紧急发声

GPT-5刚发布没多久，DeepSeek-R2就快来了，好热闹的8月份！ DeepSeek预计将于8月发布其新一代旗舰模型DeepSeek-R2。

来自主题: AI资讯

9446 点击 2025-08-14 12:32

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

强化学习（RL）是锻造当今顶尖大模型（如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5）推理能力与对齐的核心 “武器”，但它也像一把双刃剑，常常导致模型行为脆弱、风格突变，甚至出现 “欺骗性对齐”、“失控” 等危险倾向。

来自主题: AI技术研报

8732 点击 2025-08-13 16:29

又是王冠：27M小模型超越o3-mini！拒绝马斯克的00后果然不同

27M小模型超越o3-mini-high和DeepSeek-R1！推理还不靠思维链。开发者是那位拒绝了马斯克、还要挑战Transformer的00后清华校友，Sapient Intelligence的创始人王冠。

来自主题: AI技术研报

7987 点击 2025-08-10 15:00

中国AI开源16强，最新出炉

知名AI大模型评测Chatbot Arena放榜！阿里Qwen3-235B-A22B-Instruct-2507位列大语言模型总榜第三，月之暗面Kimi-K2-0711-preview、深度求索DeepSeek-R1-0528并列为总榜第五，以开源之姿超越Claude 4、GPT-4.1等顶尖闭源模型。

来自主题: AI资讯

10249 点击 2025-08-05 10:47