连续两篇 ICLR，南京大学林浩鑫将世界模型动力学推演推进到上千步

7739点击 2026-03-30 09:29

当世界模型越来越大，真正制约它走向「内部模拟器」的，未必是表征能力，而可能是动力学建模。

世界模型（World Models）的目标，是在模型内部构建一个可以进行未来推演的环境。过去几年，这个方向在状态表征上进展迅速：更强的编码器、更好的潜变量表示、更成熟的序列建模方法，不断提升模型对环境的压缩和表达能力。

但另一块同样关键、甚至更决定「世界模型到底能不能真正用起来」的问题，却长期没有被同等力度地推进——动力学建模。

原因很简单。世界模型不只是要「看懂」世界，更要能够稳定地推演世界。它不仅要把当前观测压缩成内部状态，还要回答一个更难的问题：状态在动作作用下会如何持续演化。

这正是南京大学LAMDA 强化学习小组博士生林浩鑫连续两篇 ICLR 工作所聚焦的核心问题。2025 年和 2026 年，他作为第一作者先后发表：

Any-step Dynamics Model Improves Future Predictions for Online and Offline Reinforcement Learning（ICLR 2025）
作者：Haoxin Lin, Yu-Yan Xu, Yihao Sun, Zhilong Zhang, Yi-Chen Li, Chengxing Jia, Junyin Ye, Jiaji Zhang, Yang Yu.

ADM-v2: Pursuing Full-Horizon Roll-out in Dynamics Models for Offline Policy Learning and Evaluation（ICLR 2026）
作者：Haoxin Lin, Siyuan Xiao, Yi-Chen Li, Zhilong Zhang, Yihao Sun, Chengxing Jia, Yang Yu.

两篇论文沿着同一条主线持续推进：世界模型中的动力学，到底该如何建模，才能稳定支持长时域未来预测。

其中，ADM-v2 的代表性突破在于：在离线强化学习的动力学模型设定下，它首次将完整时域滚动推演（full-horizon roll-out）稳定推进到上千步规模。这意味着，世界模型正从「能做多步预测」进一步迈向「能够完成近整回合级别全程推演」的内部模拟器。

世界模型不只要「看懂」世界，

还要「推演」世界

经典论文《World Models》奠定了这一方向的基本框架。一个完整的世界模型通常包含两个核心部分，如图 1：

V 模型，即状态表征：将原始观测压缩为紧凑、可计算的内部状态；
M 模型，即动力学建模：在内部状态空间中预测未来状态如何随动作变化。

前者解决「模型看到了什么」，后者解决「模型如何推演未来」。

连续两篇 ICLR，南京大学林浩鑫将世界模型动力学推演推进到上千步

图 1：David Ha 与 Jurgen Schmidhuber《World Models》论文中的整体框架图。

过去几年，世界模型相关工作的很多进展都集中在状态表征上。更强的视觉编码器、更有效的潜变量表示、更长上下文的序列建模，都显著提升了模型对环境信息的压缩和表达能力。

相比之下，动力学建模虽然直接决定模型能否稳定推演未来，却长期没有得到同等强度的系统推进。

但从系统能力上看，动力学建模恰恰是最关键的一环。因为世界模型最核心的价值，不是「把环境压缩一下」，而是允许智能体先在模型内部滚动推演 (roll-out)，再决定是否与真实环境交互。

这件事直接关系到：模型型强化学习、离线强化学习、策略评估，以及更一般的具身智能规划与决策。

一旦世界模型只能做短程预测，它更像是一个局部预测器；只有当它能够稳定支撑长程甚至完整时域推演时，它才真正接近「内部模拟器」。

为什么动力学建模难：

问题出在「自举式预测」

连续两篇 ICLR，南京大学林浩鑫将世界模型动力学推演推进到上千步

这种做法在短程预测中很自然，但一旦进入长程推演，就会暴露出明显局限。原因在于，模型在连续 roll-out 时，需要不断把自己刚刚预测出的状态再次作为下一步输入。这个过程就是典型的自举式预测 (bootstrapping prediction)。

它的核心问题非常突出：

只要某一步出现偏差，后续预测就会建立在这个偏差之上；
误差会在滚动推演中持续累积并不断放大；
预测 horizon 越长，轨迹偏移通常越严重。

很多世界模型「短程有效、长程失稳」的根源，其实都在这里。也因此，过去不少模型式方法往往会主动限制 rollout 的长度，用更短的 horizon 来控制 model bias。

与之相对的思路，是直接预测 (direct prediction)。

所谓直接预测，不是一步一步层层递推，而是从一个更稳定的起始状态出发，结合一段动作序列，跨多步直接预测未来状态。这样做的核心收益在于：它显著缩短了误差传播链条，因此更适合长时域推演。

围绕动力学建模的改进，最终都会落到几个最根本的问题上：

长程推演时，误差是否可控；
面对未见过的动作序列，模型能否泛化；
不确定性估计是否可靠；
模型是否真的能支撑完整回合级别的未来推演。

ADM：不再一步一步猜未来，

而是「任意步直接预测」

林浩鑫在 ICLR 2025 的论文《Any-step Dynamics Model》中，正面切入了这个问题。

核心想法：未来不一定非要靠「上一步预测结果」来推出来

连续两篇 ICLR，南京大学林浩鑫将世界模型动力学推演推进到上千步

ADM 则提出：未来状态不一定非要依赖上一步预测结果层层递推得到，也可以从更早的状态出发，结合一段动作序列，直接预测若干步后的状态。

这里最关键的操作是回溯 (backtracking)。模型从不同长度的历史视角出发，对未来状态进行任意步直接预测，因此被命名为 Any-step Dynamics Model。

这背后的变化，看起来只是「预测方式不一样了」，但本质上是在重写未来推演的计算路径：

过去是单步自举、层层递推；
现在是跨时域直接预测、减少误差链条。

误差不再需要在每一步都传递一次，长程 roll-out 的稳定性也就自然提升了。

连续两篇 ICLR，南京大学林浩鑫将世界模型动力学推演推进到上千步

图 2：Any-step Dynamics Model 模型结构以及不同回溯长度下的预测机制。

一个模型，也能做出类似集成的不确定性估计

ADM 的另一个亮点，在于它对不确定性估计的处理。

在很多离线强化学习方法中，最常见的办法之一是模型集成 (ensemble)：训练多个动力学模型，再用模型之间的预测分歧来估计某个区域是否可靠。

ADM 提出了一种更有结构的思路：同一个模型在不同回溯长度下的预测差异，本身就可以作为不确定性信号。

从直觉上看：

如果模型处在训练数据覆盖充分的区域，那么不同回溯尺度下的预测应当相对一致；
如果模型进入数据稀疏区域或分布外区域，那么不同时间尺度上的预测分歧就会明显变大。

换句话说，ADM 相当于把「不同时间跨度上的预测视角」组织成了一种更轻量、也更结构化的内部集成方式。

这让它在不依赖大规模模型集成的情况下，也能获得有用的不确定性估计。

连续两篇 ICLR，南京大学林浩鑫将世界模型动力学推演推进到上千步

图 3：ADM 与模型集成在不确定性估计上的相关性对比。

连续两篇 ICLR，南京大学林浩鑫将世界模型动力学推演推进到上千步

图 4：ADM、模型集成和普通 RNN 动力学模型在长程滚动推演误差增长上的对比。

实验结果：未来预测改善带来策略学习提升

基于 ADM，论文进一步构建了：

ADMPO-ON：面向在线模型型强化学习；
ADMPO-OFF：面向离线模型型强化学习。

实验结果表明，ADM 带来的不是局部性质上的改动，而是对未来预测质量和最终策略性能的同步提升：

在在线设置中，ADMPO-ON 具备更高的样本效率；
在离线设置中，ADMPO-OFF 在 D4RL 和 NeoRL 上优于多种强基线。

连续两篇 ICLR，南京大学林浩鑫将世界模型动力学推演推进到上千步

表 1：D4RL 上与 BC、CQL、MOPO、MOBILE 等方法的对比结果。

连续两篇 ICLR，南京大学林浩鑫将世界模型动力学推演推进到上千步

表 2：此处插入 ADM 论文 Table 2，展示 NeoRL 上的对比结果。

连续两篇 ICLR，南京大学林浩鑫将世界模型动力学推演推进到上千步

图 5：ADM 与自举式预测、模型集成自举式预测的误差累积曲线。

这篇工作系统地证明了，动力学建模不必局限于「单步自举式预测」这一条路径。世界模型中的未来预测，可以通过任意步、跨时域的直接预测方式得到重新组织。

ADM-v2：首次把完整时域

滚动推演推进到上千步

如果说 ADM 回答的是「未来能不能不靠单步自举来预测」，那么 2026 年的 ADM-v2 回答的则是更进一步的问题：

动力学模型能否真正支撑完整时域滚动推演 (full-horizon roll-out)？

这里的「完整时域」，并不是简单地把 rollout 拉长一点，而是要尽可能覆盖接近完整回合的推演过程，而不只是几步、十几步的局部展开。

这件事为什么重要？因为它对应的是世界模型能力层级上的一次跃迁。

如果模型只能做短程推演，它更像一个局部预测器；
如果模型能够稳定支撑完整时域推演，它才更接近一个真正的内部模拟器。

ADM-v2 的关键突破就在于：在离线强化学习的动力学模型设定下，它首次将 full-horizon roll-out 稳定推进到上千步规模。

这不是一个普通实验数字，而是一个能力门槛。它意味着，模型式方法开始从「短程近似预测」走向「近整回合级别的连续推演」。

结构改进：状态负责初始化，动作负责演化

原始 ADM 在循环过程中会反复引入起始状态，这使内部表征与起点状态存在较强耦合。

ADM-v2 对这一结构做了更自然的重构：

先将起始状态编码为隐表示；
将这一隐表示作为循环单元的初始隐藏状态；
后续递推只输入动作序列，不再重复输入起始状态。

这种设计把「状态初始化」和「动作驱动演化」明确分开，提升了多步直接预测的灵活性和稳定性。

连续两篇 ICLR，南京大学林浩鑫将世界模型动力学推演推进到上千步

图 6：ADM 与 ADM-v2 的结构差异对比。

PARoll：并行任意步滚动推演

ADM-v2 进一步提出了并行任意步滚动推演 (PARoll, Parallel Any-step Roll-out)。

它的核心思想是：在长程推演过程中，同时维护多个由不同时间步幅构成的预测视角，并行地产生未来状态预测，再利用这些预测之间的差异来估计不确定性。

这样做带来两方面收益：

任意步直接预测可以更高效地执行；
不确定性估计可以自然伴随长程 rollout 一起产生。

但更关键的是，PARoll 的价值不只在「更快」或者「更方便」。它真正把 ADM-v2 从「概念上能做长程预测」推进到了「实际上能够执行上千步 full-horizon 推演」这一层。

也就是说，ADM-v2 不再只是证明「任意步预测是个好主意」，而是进一步证明：这条路线确实可以支撑近整回合级别的长程推演。

连续两篇 ICLR，南京大学林浩鑫将世界模型动力学推演推进到上千步

图 7：PARoll 的并行结构和多时间线预测机制。

从「学策略」走向「评策略」

ADM-v2 的一个重要扩展，是把动力学模型进一步用于离线策略评估。

这是一个非常关键的落点。因为在离线强化学习以及具身智能场景中，新策略往往不能轻易回到真实环境中反复试验，如何评估策略价值就变得非常重要。

从理想状态出发，最直接的方式当然是：让策略先在世界模型中完整运行若干个回合，再估计它的总回报。

但这对动力学模型提出了极高要求。只有当模型在长程滚动推演中误差足够可控时，这样的评估才具有可信度。

ADM-v2 在这方面取得了明显进展。论文在 DOPE benchmark 上的结果表明，基于 ADM-v2 的完整时域滚动推演评估优于多种离线策略评估方法，也优于其他动力学模型方案。

更重要的是，这篇工作首次验证了动力学模型可以稳定支撑上千步的全程推演，并在这一尺度上同时服务于策略学习与策略评估。

这件事的意义在于，它让世界模型开始摆脱「短程预测工具」的角色，进一步走向「可用于整回合模拟的内部环境」。

连续两篇 ICLR，南京大学林浩鑫将世界模型动力学推演推进到上千步

图 8：DOPE benchmark 上不同离线策略评估方法的整体对比结果。

在离线策略学习任务中，ADM-v2 同样表现突出。

论文报告，基于 ADM-v2 的 ADM2PO-fh 在 D4RL 和 NeoRL 上取得了新的最好结果；与此前强基线相比，平均性能提升分别超过 4.6% 和 12.8%。

更值得注意的是，很多已有方法在 rollout 长度增加时，性能往往会明显下降。原因很直接：一旦模型偏差在长时域上迅速累积，更长的推演反而会变成噪声来源。

但 ADM-v2 展现出一种不同的趋势：它能够持续从更长时域的推演中获益。

这恰恰说明，ADM-v2 的改进不是「把 rollout 拉长了」，而是让更长时域的 rollout 真正变得可用。

连续两篇 ICLR，南京大学林浩鑫将世界模型动力学推演推进到上千步

表 3：D4RL 上与 CQL、EDAC、MOPO、MOBILE、MOREC 等方法的对比。

连续两篇 ICLR，南京大学林浩鑫将世界模型动力学推演推进到上千步

表 4：NeoRL 上的对比结果。

连续两篇 ICLR，南京大学林浩鑫将世界模型动力学推演推进到上千步

图 9：不同滚动推演长度对性能的影响。

把模型做大的同时，

也要把动力学建模做对

如果把这两篇工作放在一起看，它们可以构成一条连续推进的技术主线。

第一步，ADM 证明：动力学模型不必局限于单步自举式预测。未来状态可以通过任意步、跨时域的直接预测来重构，从而缓解长程误差累积。

第二步，ADM-v2 进一步证明：在 Any-step 路线已经被验证有效之后，通过更合理的模型结构和并行滚动推演机制，动力学模型可以真正支撑上千步级别的完整时域滚动推演。

第三步，这条路线最终指向的是：把世界模型从「局部预测工具」推进为更接近「数据驱动模拟器」的系统形态。

今天的世界模型研究，很容易把注意力集中在更大的参数规模、更长的上下文、更丰富的数据和更强的表征能力上。

这些当然重要，但如果未来预测仍然主要依赖误差会不断累积和放大的自举式路径，那么模型即使变得更大，也未必能稳定支撑长程推演、规划和评估。

从这个意义上说，林浩鑫这两篇工作的价值，不只是提出了两个新方法，而是把注意力重新拉回到一个更底层的问题上：世界模型的动力学，必须被认真建模。

只有在动力学建模本身做对的前提下，模型规模的增长才更有可能转化为真实的系统能力。尤其当目标从短程预测走向长期推演、从样本生成走向策略评估时，动力学建模的重要性只会继续上升。

如果说 ADM 证明了「未来预测不必依赖单步自举去完成」，那么 ADM-v2 则进一步证明了：在离线强化学习的动力学模型语境下，世界模型已经开始具备承担上千步整回合推演任务的能力。

对于离线强化学习、机器人学习、通用智能体，以及更大规模的世界模型系统而言，这条路线的潜力还远没有被完全展开。下一阶段，动力学建模很可能会成为世界模型继续向前演化时，最无法回避的关键问题之一。

文章来自于"机器之心"，作者 "机器之心"。

关键词: AI新闻 , 模型训练 , 林浩鑫 , 世界模型 , 动力学建模

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md