连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步
7144点击    2026-03-30 09:29

当世界模型越来越大,真正制约它走向「内部模拟器」的,未必是表征能力,而可能是动力学建模。


世界模型(World Models)的目标,是在模型内部构建一个可以进行未来推演的环境。过去几年,这个方向在状态表征上进展迅速:更强的编码器、更好的潜变量表示、更成熟的序列建模方法,不断提升模型对环境的压缩和表达能力。


但另一块同样关键、甚至更决定「世界模型到底能不能真正用起来」的问题,却长期没有被同等力度地推进——动力学建模


原因很简单。世界模型不只是要「看懂」世界,更要能够稳定地推演世界。它不仅要把当前观测压缩成内部状态,还要回答一个更难的问题:状态在动作作用下会如何持续演化。


这正是南京大学LAMDA 强化学习小组博士生林浩鑫连续两篇 ICLR 工作所聚焦的核心问题。2025 年和 2026 年,他作为第一作者先后发表:


  • Any-step Dynamics Model Improves Future Predictions for Online and Offline Reinforcement Learning(ICLR 2025)
  • 作者:Haoxin Lin, Yu-Yan Xu, Yihao Sun, Zhilong Zhang, Yi-Chen Li, Chengxing Jia, Junyin Ye, Jiaji Zhang, Yang Yu. 


  • ADM-v2: Pursuing Full-Horizon Roll-out in Dynamics Models for Offline Policy Learning and EvaluationICLR 2026)
  • 作者:Haoxin Lin, Siyuan Xiao, Yi-Chen Li, Zhilong Zhang, Yihao Sun, Chengxing Jia, Yang Yu.


两篇论文沿着同一条主线持续推进:世界模型中的动力学,到底该如何建模,才能稳定支持长时域未来预测。


其中,ADM-v2 的代表性突破在于:在离线强化学习的动力学模型设定下,它首次将完整时域滚动推演(full-horizon roll-out)稳定推进到上千步规模这意味着,世界模型正从「能做多步预测」进一步迈向「能够完成近整回合级别全程推演」的内部模拟器。


世界模型不只要「看懂」世界,

还要「推演」世界


经典论文《World Models》奠定了这一方向的基本框架。一个完整的世界模型通常包含两个核心部分,如图 1:


  1. V 模型,即状态表征:将原始观测压缩为紧凑、可计算的内部状态;
  2. M 模型,即动力学建模:在内部状态空间中预测未来状态如何随动作变化。


前者解决「模型看到了什么」,后者解决「模型如何推演未来」。


连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

图 1:David Ha 与 Jurgen Schmidhuber《World Models》论文中的整体框架图。


过去几年,世界模型相关工作的很多进展都集中在状态表征上。更强的视觉编码器、更有效的潜变量表示、更长上下文的序列建模,都显著提升了模型对环境信息的压缩和表达能力。


相比之下,动力学建模虽然直接决定模型能否稳定推演未来,却长期没有得到同等强度的系统推进。


但从系统能力上看,动力学建模恰恰是最关键的一环。因为世界模型最核心的价值,不是「把环境压缩一下」,而是允许智能体先在模型内部滚动推演 (roll-out),再决定是否与真实环境交互。


这件事直接关系到:模型型强化学习、离线强化学习、策略评估,以及更一般的具身智能规划与决策。


一旦世界模型只能做短程预测,它更像是一个局部预测器;只有当它能够稳定支撑长程甚至完整时域推演时,它才真正接近「内部模拟器」。


为什么动力学建模难:

问题出在「自举式预测」


连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步


这种做法在短程预测中很自然,但一旦进入长程推演,就会暴露出明显局限。原因在于,模型在连续 roll-out 时,需要不断把自己刚刚预测出的状态再次作为下一步输入。这个过程就是典型的自举式预测 (bootstrapping prediction)。


它的核心问题非常突出:


  • 只要某一步出现偏差,后续预测就会建立在这个偏差之上;
  • 误差会在滚动推演中持续累积并不断放大;
  • 预测 horizon 越长,轨迹偏移通常越严重。


很多世界模型「短程有效、长程失稳」的根源,其实都在这里。也因此,过去不少模型式方法往往会主动限制 rollout 的长度,用更短的 horizon 来控制 model bias。


与之相对的思路,是直接预测 (direct prediction)。


所谓直接预测,不是一步一步层层递推,而是从一个更稳定的起始状态出发,结合一段动作序列,跨多步直接预测未来状态。这样做的核心收益在于:它显著缩短了误差传播链条,因此更适合长时域推演。


围绕动力学建模的改进,最终都会落到几个最根本的问题上:


  • 长程推演时,误差是否可控;
  • 面对未见过的动作序列,模型能否泛化;
  • 不确定性估计是否可靠;
  • 模型是否真的能支撑完整回合级别的未来推演。


ADM:不再一步一步猜未来,

而是「任意步直接预测」


林浩鑫在 ICLR 2025 的论文《Any-step Dynamics Model》中,正面切入了这个问题。


核心想法:未来不一定非要靠「上一步预测结果」来推出来


连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步


ADM 则提出:未来状态不一定非要依赖上一步预测结果层层递推得到,也可以从更早的状态出发,结合一段动作序列,直接预测若干步后的状态


这里最关键的操作是回溯 (backtracking)。模型从不同长度的历史视角出发,对未来状态进行任意步直接预测,因此被命名为 Any-step Dynamics Model


这背后的变化,看起来只是「预测方式不一样了」,但本质上是在重写未来推演的计算路径:


  • 过去是单步自举、层层递推;
  • 现在是跨时域直接预测、减少误差链条。


误差不再需要在每一步都传递一次,长程 roll-out 的稳定性也就自然提升了。


连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

图 2:Any-step Dynamics Model 模型结构以及不同回溯长度下的预测机制。


一个模型,也能做出类似集成的不确定性估计


ADM 的另一个亮点,在于它对不确定性估计的处理。


在很多离线强化学习方法中,最常见的办法之一是模型集成 (ensemble):训练多个动力学模型,再用模型之间的预测分歧来估计某个区域是否可靠。


ADM 提出了一种更有结构的思路:同一个模型在不同回溯长度下的预测差异,本身就可以作为不确定性信号。


从直觉上看:


  • 如果模型处在训练数据覆盖充分的区域,那么不同回溯尺度下的预测应当相对一致;
  • 如果模型进入数据稀疏区域或分布外区域,那么不同时间尺度上的预测分歧就会明显变大。


换句话说,ADM 相当于把「不同时间跨度上的预测视角」组织成了一种更轻量、也更结构化的内部集成方式。


这让它在不依赖大规模模型集成的情况下,也能获得有用的不确定性估计。


连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

图 3:ADM 与模型集成在不确定性估计上的相关性对比。


连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

图 4:ADM、模型集成和普通 RNN 动力学模型在长程滚动推演误差增长上的对比。


实验结果:未来预测改善带来策略学习提升


基于 ADM,论文进一步构建了:


  • ADMPO-ON:面向在线模型型强化学习;
  • ADMPO-OFF:面向离线模型型强化学习。


实验结果表明,ADM 带来的不是局部性质上的改动,而是对未来预测质量和最终策略性能的同步提升:


  • 在在线设置中,ADMPO-ON 具备更高的样本效率;
  • 在离线设置中,ADMPO-OFF 在 D4RL 和 NeoRL 上优于多种强基线。


连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

表 1:D4RL 上与 BC、CQL、MOPO、MOBILE 等方法的对比结果。


连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

表 2:此处插入 ADM 论文 Table 2,展示 NeoRL 上的对比结果。


连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

图 5:ADM 与自举式预测、模型集成自举式预测的误差累积曲线。


这篇工作系统地证明了,动力学建模不必局限于「单步自举式预测」这一条路径。世界模型中的未来预测,可以通过任意步、跨时域的直接预测方式得到重新组织。


ADM-v2:首次把完整时域

滚动推演推进到上千步


如果说 ADM 回答的是「未来能不能不靠单步自举来预测」,那么 2026 年的 ADM-v2 回答的则是更进一步的问题:


动力学模型能否真正支撑完整时域滚动推演 (full-horizon roll-out)?


这里的「完整时域」,并不是简单地把 rollout 拉长一点,而是要尽可能覆盖接近完整回合的推演过程,而不只是几步、十几步的局部展开。


这件事为什么重要?因为它对应的是世界模型能力层级上的一次跃迁。


  • 如果模型只能做短程推演,它更像一个局部预测器;
  • 如果模型能够稳定支撑完整时域推演,它才更接近一个真正的内部模拟器。


ADM-v2 的关键突破就在于:在离线强化学习的动力学模型设定下,它首次将 full-horizon roll-out 稳定推进到上千步规模。


这不是一个普通实验数字,而是一个能力门槛。它意味着,模型式方法开始从「短程近似预测」走向「近整回合级别的连续推演」。


结构改进:状态负责初始化,动作负责演化


原始 ADM 在循环过程中会反复引入起始状态,这使内部表征与起点状态存在较强耦合。


ADM-v2 对这一结构做了更自然的重构:


  • 先将起始状态编码为隐表示;
  • 将这一隐表示作为循环单元的初始隐藏状态;
  • 后续递推只输入动作序列,不再重复输入起始状态。


这种设计把「状态初始化」和「动作驱动演化」明确分开,提升了多步直接预测的灵活性和稳定性。


连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

图 6:ADM 与 ADM-v2 的结构差异对比。


PARoll:并行任意步滚动推演


ADM-v2 进一步提出了并行任意步滚动推演 (PARoll, Parallel Any-step Roll-out)。


它的核心思想是:在长程推演过程中,同时维护多个由不同时间步幅构成的预测视角,并行地产生未来状态预测,再利用这些预测之间的差异来估计不确定性。


这样做带来两方面收益:


  • 任意步直接预测可以更高效地执行;
  • 不确定性估计可以自然伴随长程 rollout 一起产生。


但更关键的是,PARoll 的价值不只在「更快」或者「更方便」。它真正把 ADM-v2 从「概念上能做长程预测」推进到了「实际上能够执行上千步 full-horizon 推演」这一层。


也就是说,ADM-v2 不再只是证明「任意步预测是个好主意」,而是进一步证明:这条路线确实可以支撑近整回合级别的长程推演。


连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

图 7:PARoll 的并行结构和多时间线预测机制。


从「学策略」走向「评策略」


ADM-v2 的一个重要扩展,是把动力学模型进一步用于离线策略评估


这是一个非常关键的落点。因为在离线强化学习以及具身智能场景中,新策略往往不能轻易回到真实环境中反复试验,如何评估策略价值就变得非常重要。


从理想状态出发,最直接的方式当然是:让策略先在世界模型中完整运行若干个回合,再估计它的总回报。


但这对动力学模型提出了极高要求。只有当模型在长程滚动推演中误差足够可控时,这样的评估才具有可信度。


ADM-v2 在这方面取得了明显进展。论文在 DOPE benchmark 上的结果表明,基于 ADM-v2 的完整时域滚动推演评估优于多种离线策略评估方法,也优于其他动力学模型方案。


更重要的是,这篇工作首次验证了动力学模型可以稳定支撑上千步的全程推演,并在这一尺度上同时服务于策略学习与策略评估。


这件事的意义在于,它让世界模型开始摆脱「短程预测工具」的角色,进一步走向「可用于整回合模拟的内部环境」。


连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

图 8:DOPE benchmark 上不同离线策略评估方法的整体对比结果。


在离线策略学习任务中,ADM-v2 同样表现突出。


论文报告,基于 ADM-v2 的 ADM2PO-fh 在 D4RL 和 NeoRL 上取得了新的最好结果;与此前强基线相比,平均性能提升分别超过 4.6% 和 12.8%


更值得注意的是,很多已有方法在 rollout 长度增加时,性能往往会明显下降。原因很直接:一旦模型偏差在长时域上迅速累积,更长的推演反而会变成噪声来源。


但 ADM-v2 展现出一种不同的趋势:它能够持续从更长时域的推演中获益。


这恰恰说明,ADM-v2 的改进不是「把 rollout 拉长了」,而是让更长时域的 rollout 真正变得可用


连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

表 3:D4RL 上与 CQL、EDAC、MOPO、MOBILE、MOREC 等方法的对比。


连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

表 4:NeoRL 上的对比结果。


连续两篇 ICLR,南京大学林浩鑫将世界模型动力学推演推进到上千步

图 9:不同滚动推演长度对性能的影响。


把模型做大的同时,

也要把动力学建模做对


如果把这两篇工作放在一起看,它们可以构成一条连续推进的技术主线。


第一步,ADM 证明: 动力学模型不必局限于单步自举式预测。未来状态可以通过任意步、跨时域的直接预测来重构,从而缓解长程误差累积。


第二步,ADM-v2 进一步证明: 在 Any-step 路线已经被验证有效之后,通过更合理的模型结构和并行滚动推演机制,动力学模型可以真正支撑上千步级别的完整时域滚动推演。


第三步,这条路线最终指向的是: 把世界模型从「局部预测工具」推进为更接近「数据驱动模拟器」的系统形态。


今天的世界模型研究,很容易把注意力集中在更大的参数规模、更长的上下文、更丰富的数据和更强的表征能力上。


这些当然重要,但如果未来预测仍然主要依赖误差会不断累积和放大的自举式路径,那么模型即使变得更大,也未必能稳定支撑长程推演、规划和评估。


从这个意义上说,林浩鑫这两篇工作的价值,不只是提出了两个新方法,而是把注意力重新拉回到一个更底层的问题上:世界模型的动力学,必须被认真建模。


只有在动力学建模本身做对的前提下,模型规模的增长才更有可能转化为真实的系统能力。尤其当目标从短程预测走向长期推演、从样本生成走向策略评估时,动力学建模的重要性只会继续上升。


如果说 ADM 证明了「未来预测不必依赖单步自举去完成」,那么 ADM-v2 则进一步证明了:在离线强化学习的动力学模型语境下,世界模型已经开始具备承担上千步整回合推演任务的能力。


对于离线强化学习、机器人学习、通用智能体,以及更大规模的世界模型系统而言,这条路线的潜力还远没有被完全展开。下一阶段,动力学建模很可能会成为世界模型继续向前演化时,最无法回避的关键问题之一。


文章来自于"机器之心",作者 "机器之心"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md