AI资讯新闻榜单内容搜索-RL

VaseVQA：考古领域实现专家级，诊断+补弱RL框架

在文化遗产与人工智能的交叉处，有一类问题既美也难：如何让机器「看懂」古希腊的陶器——不仅能识别它的形状或图案，还能推断年代、产地、工坊甚至艺术归属？有研究人员给出了一条实用且富有启发性的答案：把大型多模态模型（MLLM）放在「诊断—补弱—精细化评估」的闭环中训练，并配套一个结构化的评测基准，从而让模型在高度专业化的文化遗产领域表现得更接近专家级能力。

来自主题: AI技术研报

7141 点击 2025-10-29 09:53

DeepMind再登Nature：AI Agent造出了最强RL算法！

当AI开始「自己学会学习」，人类的角色正在被重写。DeepMind最新研究DiscoRL，让智能体在多环境交互中自主发现强化学习规则——无需人类设计算法。它在Atari基准中击败MuZero，在从未见过的游戏中依旧稳定高效。

来自主题: AI技术研报

9909 点击 2025-10-28 14:56

刚刚，Thinking Machines Lab博客提出在策略蒸馏，Qwen被cue 38次

刚刚，不发论文、爱发博客的 Thinking Machines Lab （以下简称 TML）再次更新，发布了一篇题为《在策略蒸馏》的博客。在策略蒸馏（on-policy distillation）是一种将强化学习 (RL) 的纠错相关性与 SFT 的奖励密度相结合的训练方法。在将其用于数学推理和内部聊天助手时，TML 发现在策略蒸馏可以极低的成本超越其他方法。

来自主题: AI技术研报

8200 点击 2025-10-28 10:50

让VLM学会「心中有世界」：VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

当今的 AI 智能体（Agent）越来越强大，尤其是像 VLM（视觉-语言模型）这样能「看懂」世界的智能体。但研究者发现一个大问题：相比于只处理文本的 LLM 智能体，VLM 智能体在面对复杂的视觉任务时，常常表现得像一个「莽撞的执行者」，而不是一个「深思熟虑的思考者」。

来自主题: AI技术研报

7594 点击 2025-10-28 09:26

看似万能的 AI，其实比你想的更脆弱和邪恶

十月，《纽约时报》发表了题为《The A.I. Prompt That Could End the World》（《那个可能终结世界的 AI 提示词》）的文章。作者 Stephen Witt 采访了多位业内人士：有 AI 先驱，图灵奖获奖者 Yoshua Bengio；以越狱测试著称的 Leonard Tang；以及专门研究模型欺骗的 Marius Hobbhahn。

来自主题: AI技术研报

9380 点击 2025-10-27 15:58

最新Agentic Search综述，RL让Agent自主检索，RAG逐渐成为过去式

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。

来自主题: AI技术研报

6884 点击 2025-10-23 11:41

清华、快手提出AttnRL：让大模型用「注意力」探索

从 AlphaGo 战胜人类棋手，到 GPT 系列展现出惊人的推理与语言能力，强化学习（Reinforcement Learning, RL）一直是让机器「学会思考」的关键驱动力。

来自主题: AI技术研报

7747 点击 2025-10-22 11:46

AGI前夜重磅：RL突破模型「认知上限」，真·学习发生了！

UC Berkeley、UW、AI2 等机构联合团队最新工作提出：在恰当的训练范式下，强化学习（RL）不仅能「打磨」已有能力，更能逼出「全新算法」级的推理模式。他们构建了一个专门验证这一命题的测试框架 DELTA，并观察到从「零奖励」到接近100%突破式跃迁的「RL grokking」现象。

来自主题: AI技术研报

8031 点击 2025-10-22 11:33

NeurIPS 2025 | CMU、清华、UTAustin开源ReinFlow，用在线RL微调机器人流匹配策略

今年，流匹配无疑是机器人学习领域的大热门：作为扩散模型的一种优雅的变体，流匹配凭借简单、好用的特点，成为了机器人底层操作策略的主流手段，并被广泛应用于先进的 VLA 模型之中 —— 无论是 Physical Intelligence 的，LeRobot 的 SmolVLA, 英伟达的 GR00T 和近期清华大学发布的 RDT2。

来自主题: AI技术研报

7636 点击 2025-10-21 16:10

AI资讯新闻榜单内容搜索-RL

VaseVQA：考古领域实现专家级，诊断+补弱RL框架

DeepMind再登Nature：AI Agent造出了最强RL算法！

刚刚，Thinking Machines Lab博客提出在策略蒸馏，Qwen被cue 38次

让VLM学会「心中有世界」：VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

看似万能的 AI，其实比你想的更脆弱和邪恶

最新Agentic Search综述，RL让Agent自主检索，RAG逐渐成为过去式

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

清华、快手提出AttnRL：让大模型用「注意力」探索

AGI前夜重磅：RL突破模型「认知上限」，真·学习发生了！

NeurIPS 2025 | CMU、清华、UTAustin开源ReinFlow，用在线RL微调机器人流匹配策略