AI资讯新闻榜单内容搜索-SFT

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

「尽管经过 SFT 的模型可能看起来在进行推理，但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理能力的伪推理形式。」

来自主题: AI技术研报

9147 点击 2025-06-02 15:24

本文深入梳理了围绕DeepSeek-R1展开的多项复现研究，系统解析了监督微调（SFT）、强化学习（RL）以及奖励机制、数据构建等关键技术细节。

来自主题: AI技术研报

8082 点击 2025-05-06 10:53

当前，强化学习（RL）方法在最近模型的推理任务上取得了显著的改进，比如 DeepSeek-R1、Kimi K1.5，显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能不过，基于 RL 的后训练进展主要受限于自回归的大语言模型（LLM），它们通过从左到右的序列推理来运行。

来自主题: AI技术研报

7404 点击 2025-04-22 08:39

基于规则的强化学习（RL/RFT）已成为替代 SFT 的高效方案，仅需少量样本即可提升模型在特定任务中的表现。

来自主题: AI技术研报

6815 点击 2025-04-09 09:14

让大语言模型更懂特定领域知识，有新招了！

来自主题: AI技术研报

10368 点击 2025-04-07 15:26

在面对复杂的推理任务时，SFT往往让大模型显得力不从心。最近，CMU等机构的华人团队提出了「批判性微调」（CFT）方法，仅在 50K 样本上训练，就在大多数基准测试中优于使用超过200万个样本的强化学习方法。

来自主题: AI技术研报

8772 点击 2025-03-09 13:32

回顾 AGI 的爆发，从最初的 pre-training (model/data) scaling，到 post-training (SFT/RLHF) scaling，再到 reasoning (RL) scaling，找到正确的 scaling 维度始终是问题的本质。

来自主题: AI技术研报

6698 点击 2025-03-06 09:46

由UCLA等机构共同组建的研究团队，全球首次在20亿参数非SFT模型上，成功实现了多模态推理的DeepSeek-R1「啊哈时刻」！就在刚刚，我们在未经监督微调的2B模型上，见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」！

来自主题: AI技术研报

8785 点击 2025-03-05 20:42

o1/DeepSeek-R1背后秘诀也能扩展到多模态了！

来自主题: AI技术研报

5843 点击 2025-03-05 13:39

微软 ( NASDAQ: MSFT) 2025 年第一季度营收激增，同时还有大规模的人工智能投资（1000 亿美元）。此后，该股表现略逊于市场（标准普尔 500 指数，+3.65%），价格回报率为负 1%。几天前，该公司公布了第二季度业绩。

来自主题: AI资讯

9141 点击 2025-02-12 11:49