AI资讯新闻榜单内容搜索-DeepSeek-R

隐式推理，继CoT思维链之后，LLM的下一个技术奇点系统性综述来了｜港科大最新

您对“思维链”（Chain-of-Thought）肯定不陌生，从最早的GPT-o1到后来震惊世界的Deepseek-R1，它通过让模型输出详细的思考步骤，确实解决了许多复杂的推理问题。但您肯定也为它那冗长的输出、高昂的API费用和感人的延迟头疼过，这些在产品落地时都是实实在在的阻碍。

来自主题: AI技术研报

6959 点击 2025-09-05 10:22

DeepSeek-V3.1震撼发布，全球开源编程登顶！R1/V3首度合体，训练量暴增10倍

DeepSeek-V3.1官宣了，作为首款「混合推理」模型，将开启智能体新时代。新模型共有671B参数，编码实力碾压DeepSeek-R1、Claude 4 Opus，登顶编程开源第一。

来自主题: AI资讯

6697 点击 2025-08-22 11:52

混合数学编程逻辑数据，一次性提升AI多领域强化学习能力 | 上海AI Lab

近年来，AI大模型在数学计算、逻辑推理和代码生成领域的推理能力取得了显著突破。特别是DeepSeek-R1等先进模型的出现，可验证强化学习（RLVR）技术展现出强大的性能提升潜力。

来自主题: AI技术研报

5733 点击 2025-08-16 16:45

冗长响应缩减80%，DeepSeek GRPO获得颠覆性改进，微软GFPO问世

用过 DeepSeek-R1 等推理模型的人，大概都遇到过这种情况：一个稍微棘手的问题，模型像陷入沉思一样长篇大论地推下去，耗时耗算力，结果却未必靠谱。现在，我们或许有了解决方案。

来自主题: AI技术研报

5355 点击 2025-08-15 11:26

爆出！DeepSeek R2预计8月发布！R2为何一直不发，内部紧急发声

GPT-5刚发布没多久，DeepSeek-R2就快来了，好热闹的8月份！ DeepSeek预计将于8月发布其新一代旗舰模型DeepSeek-R2。

来自主题: AI资讯

7094 点击 2025-08-14 12:32

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

强化学习（RL）是锻造当今顶尖大模型（如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5）推理能力与对齐的核心 “武器”，但它也像一把双刃剑，常常导致模型行为脆弱、风格突变，甚至出现 “欺骗性对齐”、“失控” 等危险倾向。

来自主题: AI技术研报

6654 点击 2025-08-13 16:29

又是王冠：27M小模型超越o3-mini！拒绝马斯克的00后果然不同

27M小模型超越o3-mini-high和DeepSeek-R1！推理还不靠思维链。开发者是那位拒绝了马斯克、还要挑战Transformer的00后清华校友，Sapient Intelligence的创始人王冠。

来自主题: AI技术研报

5926 点击 2025-08-10 15:00

中国AI开源16强，最新出炉

知名AI大模型评测Chatbot Arena放榜！阿里Qwen3-235B-A22B-Instruct-2507位列大语言模型总榜第三，月之暗面Kimi-K2-0711-preview、深度求索DeepSeek-R1-0528并列为总榜第五，以开源之姿超越Claude 4、GPT-4.1等顶尖闭源模型。

来自主题: AI资讯

7792 点击 2025-08-05 10:47

思维链监督和强化的图表推理，7B模型媲美闭源大尺寸模型

近期，随着OpenAI-o1/o3和Deepseek-R1的成功，基于强化学习的微调方法（R1-Style）在AI领域引起广泛关注。这些方法在数学推理和代码智能方面展现出色表现，但在通用多模态数据上的应用研究仍有待深入。

来自主题: AI技术研报

6618 点击 2025-08-01 16:08

SPIRAL：零和游戏自对弈成为语言模型推理训练的「免费午餐」

近年来，OpenAI o1 和 DeepSeek-R1 等模型的成功证明了强化学习能够显著提升语言模型的推理能力。通过基于结果的奖励机制，强化学习使模型能够发展出可泛化的推理策略，在复杂问题上取得了监督微调难以企及的进展。

来自主题: AI技术研报

4463 点击 2025-07-31 10:10