AI资讯新闻榜单内容搜索-RL

Sebastian Raschka长文：DeepSeek-R1、o3背后，RL推理训练正悄悄突破上限

只靠模型尺寸变大已经不行了？大语言模型（LLM）推理需要强化学习（RL）来「加 buff」。

来自主题: AI技术研报

8112 点击 2025-04-22 16:58

当前，强化学习（RL）方法在最近模型的推理任务上取得了显著的改进，比如 DeepSeek-R1、Kimi K1.5，显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能不过，基于 RL 的后训练进展主要受限于自回归的大语言模型（LLM），它们通过从左到右的序列推理来运行。

来自主题: AI技术研报

6263 点击 2025-04-22 08:39

强化学习之父Richard Sutton和DeepMind强化学习副总裁David Silver对我们发出了当头棒喝：如今，人类已经由数据时代踏入经验时代。通往ASI之路要靠RL，而非人类数据！

来自主题: AI技术研报

9020 点击 2025-04-21 10:52

o3编码直逼全球TOP 200人类选手，却存在一个致命问题：幻觉率高达33%，是o1的两倍。Ai2科学家直指，RL过度优化成硬伤。

来自主题: AI技术研报

7924 点击 2025-04-21 09:41

近年来，大模型（Large Language Models, LLMs）在数学、编程等复杂任务上取得突破，OpenAI-o1、DeepSeek-R1 等推理大模型（Reasoning Large Language Models，RLLMs）表现尤为亮眼。但它们为何如此强大呢？

来自主题: AI技术研报

9075 点击 2025-04-16 15:00

人类生成的数据推动了人工智能的惊人进步，但接下来会怎样呢？

来自主题: AI资讯

9743 点击 2025-04-16 14:48

移动GUI自动化智能体V-Droid采用「验证器驱动」架构，通过离散化动作空间并利用LLM评估候选动作，实现了高效决策。在AndroidWorld等多个基准测试中任务成功率分别达到59.5%、38.3%和49%，决策延迟仅0.7秒，接近实时响应。

来自主题: AI技术研报

6716 点击 2025-04-15 14:53

近年来，大语言模型（LLMs）的对齐研究成为人工智能领域的核心挑战之一，而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习（RLHF），还是基于「RL-Free」的各类直接偏好优化方法（例如 DPO），都离不开高质量偏好数据集的构建。

来自主题: AI技术研报

8236 点击 2025-04-15 14:29

世界模型领域最新进展，要比拼“世界生成”了。

来自主题: AI技术研报

10358 点击 2025-04-10 12:15

基于规则的强化学习（RL/RFT）已成为替代 SFT 的高效方案，仅需少量样本即可提升模型在特定任务中的表现。

来自主题: AI技术研报

5777 点击 2025-04-09 09:14