AI资讯新闻榜单内容搜索-DeepSeek-R

「推理革命」爆发100天：DeepSeek-R1复现研究全揭秘！

本文深入梳理了围绕DeepSeek-R1展开的多项复现研究，系统解析了监督微调（SFT）、强化学习（RL）以及奖励机制、数据构建等关键技术细节。

来自主题: AI技术研报

6038 点击 2025-05-06 10:53

阿里Qwen3凌晨开源，正式登顶全球开源大模型王座！它的性能全面超越DeepSeek-R1和OpenAI o1，采用MoE架构，总参数235B，横扫各大基准。这次开源的Qwen3家族，8款混合推理模型全部开源，免费商用。

来自主题: AI资讯

8378 点击 2025-04-29 08:49

最近，DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展（length scaling），通过强化学习（比如 PPO、GPRO）训练模型生成很长的推理链（CoT），并在奥数等高难度推理任务上取得了显著的效果提升。

来自主题: AI技术研报

5616 点击 2025-04-28 14:09

AIMO2冠军「答卷」公布了！英伟达团队NemoSkills拔得头筹，开源了OpenMath-Nemotron系列AI模型，1.5B小模型击败14B-DeepSeek「推理大模型」！

来自主题: AI技术研报

5949 点击 2025-04-26 17:17

OpenAI 的 o1 系列模型、Deepseek-R1 带起了推理模型的研究热潮，但这些推理模型大多关注数学、代码等专业领域。

来自主题: AI技术研报

5888 点击 2025-04-26 15:31

什么开源算法自称为DeepSeek-R1（-Zero）框架的第一个复现？

来自主题: AI技术研报

7022 点击 2025-04-25 15:35

OpenAI 的 o1 系列和 DeepSeek-R1 的成功充分证明，大规模强化学习已成为一种极为有效的方法，能够激发大型语言模型（LLM) 的复杂推理行为并显著提升其能力。

来自主题: AI技术研报

6856 点击 2025-04-23 14:04

DeepSeek-R1是近年来推理模型领域的一颗新星，它不仅突破了传统LLM的局限，还开启了全新的研究方向「思维链学」（Thoughtology）。这份长达142页的报告深入剖析了DeepSeek-R1的推理过程，揭示了其推理链的独特结构与优势，为未来推理模型的优化提供了重要启示。

来自主题: AI技术研报

8080 点击 2025-04-22 18:59

只靠模型尺寸变大已经不行了？大语言模型（LLM）推理需要强化学习（RL）来「加 buff」。

来自主题: AI技术研报

7173 点击 2025-04-22 16:58