当世界模型越来越大,真正制约它走向「内部模拟器」的,未必是表征能力,而可能是动力学建模。
世界模型(World Models)的目标,是在模型内部构建一个可以进行未来推演的环境。过去几年,这个方向在状态表征上进展迅速:更强的编码器、更好的潜变量表示、更成熟的序列建模方法,不断提升模型对环境的压缩和表达能力。
但另一块同样关键、甚至更决定「世界模型到底能不能真正用起来」的问题,却长期没有被同等力度地推进——动力学建模。
原因很简单。世界模型不只是要「看懂」世界,更要能够稳定地推演世界。它不仅要把当前观测压缩成内部状态,还要回答一个更难的问题:状态在动作作用下会如何持续演化。
这正是南京大学LAMDA 强化学习小组博士生林浩鑫连续两篇 ICLR 工作所聚焦的核心问题。2025 年和 2026 年,他作为第一作者先后发表:
两篇论文沿着同一条主线持续推进:世界模型中的动力学,到底该如何建模,才能稳定支持长时域未来预测。
其中,ADM-v2 的代表性突破在于:在离线强化学习的动力学模型设定下,它首次将完整时域滚动推演(full-horizon roll-out)稳定推进到上千步规模。这意味着,世界模型正从「能做多步预测」进一步迈向「能够完成近整回合级别全程推演」的内部模拟器。
经典论文《World Models》奠定了这一方向的基本框架。一个完整的世界模型通常包含两个核心部分,如图 1:
前者解决「模型看到了什么」,后者解决「模型如何推演未来」。

图 1:David Ha 与 Jurgen Schmidhuber《World Models》论文中的整体框架图。
过去几年,世界模型相关工作的很多进展都集中在状态表征上。更强的视觉编码器、更有效的潜变量表示、更长上下文的序列建模,都显著提升了模型对环境信息的压缩和表达能力。
相比之下,动力学建模虽然直接决定模型能否稳定推演未来,却长期没有得到同等强度的系统推进。
但从系统能力上看,动力学建模恰恰是最关键的一环。因为世界模型最核心的价值,不是「把环境压缩一下」,而是允许智能体先在模型内部滚动推演 (roll-out),再决定是否与真实环境交互。
这件事直接关系到:模型型强化学习、离线强化学习、策略评估,以及更一般的具身智能规划与决策。
一旦世界模型只能做短程预测,它更像是一个局部预测器;只有当它能够稳定支撑长程甚至完整时域推演时,它才真正接近「内部模拟器」。

这种做法在短程预测中很自然,但一旦进入长程推演,就会暴露出明显局限。原因在于,模型在连续 roll-out 时,需要不断把自己刚刚预测出的状态再次作为下一步输入。这个过程就是典型的自举式预测 (bootstrapping prediction)。
它的核心问题非常突出:
很多世界模型「短程有效、长程失稳」的根源,其实都在这里。也因此,过去不少模型式方法往往会主动限制 rollout 的长度,用更短的 horizon 来控制 model bias。
与之相对的思路,是直接预测 (direct prediction)。
所谓直接预测,不是一步一步层层递推,而是从一个更稳定的起始状态出发,结合一段动作序列,跨多步直接预测未来状态。这样做的核心收益在于:它显著缩短了误差传播链条,因此更适合长时域推演。
围绕动力学建模的改进,最终都会落到几个最根本的问题上:
林浩鑫在 ICLR 2025 的论文《Any-step Dynamics Model》中,正面切入了这个问题。

ADM 则提出:未来状态不一定非要依赖上一步预测结果层层递推得到,也可以从更早的状态出发,结合一段动作序列,直接预测若干步后的状态。
这里最关键的操作是回溯 (backtracking)。模型从不同长度的历史视角出发,对未来状态进行任意步直接预测,因此被命名为 Any-step Dynamics Model。
这背后的变化,看起来只是「预测方式不一样了」,但本质上是在重写未来推演的计算路径:
误差不再需要在每一步都传递一次,长程 roll-out 的稳定性也就自然提升了。

图 2:Any-step Dynamics Model 模型结构以及不同回溯长度下的预测机制。
ADM 的另一个亮点,在于它对不确定性估计的处理。
在很多离线强化学习方法中,最常见的办法之一是模型集成 (ensemble):训练多个动力学模型,再用模型之间的预测分歧来估计某个区域是否可靠。
ADM 提出了一种更有结构的思路:同一个模型在不同回溯长度下的预测差异,本身就可以作为不确定性信号。
从直觉上看:
换句话说,ADM 相当于把「不同时间跨度上的预测视角」组织成了一种更轻量、也更结构化的内部集成方式。
这让它在不依赖大规模模型集成的情况下,也能获得有用的不确定性估计。

图 3:ADM 与模型集成在不确定性估计上的相关性对比。

图 4:ADM、模型集成和普通 RNN 动力学模型在长程滚动推演误差增长上的对比。
基于 ADM,论文进一步构建了:
实验结果表明,ADM 带来的不是局部性质上的改动,而是对未来预测质量和最终策略性能的同步提升:

表 1:D4RL 上与 BC、CQL、MOPO、MOBILE 等方法的对比结果。

表 2:此处插入 ADM 论文 Table 2,展示 NeoRL 上的对比结果。

图 5:ADM 与自举式预测、模型集成自举式预测的误差累积曲线。
这篇工作系统地证明了,动力学建模不必局限于「单步自举式预测」这一条路径。世界模型中的未来预测,可以通过任意步、跨时域的直接预测方式得到重新组织。
如果说 ADM 回答的是「未来能不能不靠单步自举来预测」,那么 2026 年的 ADM-v2 回答的则是更进一步的问题:
动力学模型能否真正支撑完整时域滚动推演 (full-horizon roll-out)?
这里的「完整时域」,并不是简单地把 rollout 拉长一点,而是要尽可能覆盖接近完整回合的推演过程,而不只是几步、十几步的局部展开。
这件事为什么重要?因为它对应的是世界模型能力层级上的一次跃迁。
ADM-v2 的关键突破就在于:在离线强化学习的动力学模型设定下,它首次将 full-horizon roll-out 稳定推进到上千步规模。
这不是一个普通实验数字,而是一个能力门槛。它意味着,模型式方法开始从「短程近似预测」走向「近整回合级别的连续推演」。
原始 ADM 在循环过程中会反复引入起始状态,这使内部表征与起点状态存在较强耦合。
ADM-v2 对这一结构做了更自然的重构:
这种设计把「状态初始化」和「动作驱动演化」明确分开,提升了多步直接预测的灵活性和稳定性。

图 6:ADM 与 ADM-v2 的结构差异对比。
ADM-v2 进一步提出了并行任意步滚动推演 (PARoll, Parallel Any-step Roll-out)。
它的核心思想是:在长程推演过程中,同时维护多个由不同时间步幅构成的预测视角,并行地产生未来状态预测,再利用这些预测之间的差异来估计不确定性。
这样做带来两方面收益:
但更关键的是,PARoll 的价值不只在「更快」或者「更方便」。它真正把 ADM-v2 从「概念上能做长程预测」推进到了「实际上能够执行上千步 full-horizon 推演」这一层。
也就是说,ADM-v2 不再只是证明「任意步预测是个好主意」,而是进一步证明:这条路线确实可以支撑近整回合级别的长程推演。

图 7:PARoll 的并行结构和多时间线预测机制。
ADM-v2 的一个重要扩展,是把动力学模型进一步用于离线策略评估。
这是一个非常关键的落点。因为在离线强化学习以及具身智能场景中,新策略往往不能轻易回到真实环境中反复试验,如何评估策略价值就变得非常重要。
从理想状态出发,最直接的方式当然是:让策略先在世界模型中完整运行若干个回合,再估计它的总回报。
但这对动力学模型提出了极高要求。只有当模型在长程滚动推演中误差足够可控时,这样的评估才具有可信度。
ADM-v2 在这方面取得了明显进展。论文在 DOPE benchmark 上的结果表明,基于 ADM-v2 的完整时域滚动推演评估优于多种离线策略评估方法,也优于其他动力学模型方案。
更重要的是,这篇工作首次验证了动力学模型可以稳定支撑上千步的全程推演,并在这一尺度上同时服务于策略学习与策略评估。
这件事的意义在于,它让世界模型开始摆脱「短程预测工具」的角色,进一步走向「可用于整回合模拟的内部环境」。

图 8:DOPE benchmark 上不同离线策略评估方法的整体对比结果。
在离线策略学习任务中,ADM-v2 同样表现突出。
论文报告,基于 ADM-v2 的 ADM2PO-fh 在 D4RL 和 NeoRL 上取得了新的最好结果;与此前强基线相比,平均性能提升分别超过 4.6% 和 12.8%。
更值得注意的是,很多已有方法在 rollout 长度增加时,性能往往会明显下降。原因很直接:一旦模型偏差在长时域上迅速累积,更长的推演反而会变成噪声来源。
但 ADM-v2 展现出一种不同的趋势:它能够持续从更长时域的推演中获益。
这恰恰说明,ADM-v2 的改进不是「把 rollout 拉长了」,而是让更长时域的 rollout 真正变得可用。

表 3:D4RL 上与 CQL、EDAC、MOPO、MOBILE、MOREC 等方法的对比。

表 4:NeoRL 上的对比结果。

图 9:不同滚动推演长度对性能的影响。
如果把这两篇工作放在一起看,它们可以构成一条连续推进的技术主线。
第一步,ADM 证明: 动力学模型不必局限于单步自举式预测。未来状态可以通过任意步、跨时域的直接预测来重构,从而缓解长程误差累积。
第二步,ADM-v2 进一步证明: 在 Any-step 路线已经被验证有效之后,通过更合理的模型结构和并行滚动推演机制,动力学模型可以真正支撑上千步级别的完整时域滚动推演。
第三步,这条路线最终指向的是: 把世界模型从「局部预测工具」推进为更接近「数据驱动模拟器」的系统形态。
今天的世界模型研究,很容易把注意力集中在更大的参数规模、更长的上下文、更丰富的数据和更强的表征能力上。
这些当然重要,但如果未来预测仍然主要依赖误差会不断累积和放大的自举式路径,那么模型即使变得更大,也未必能稳定支撑长程推演、规划和评估。
从这个意义上说,林浩鑫这两篇工作的价值,不只是提出了两个新方法,而是把注意力重新拉回到一个更底层的问题上:世界模型的动力学,必须被认真建模。
只有在动力学建模本身做对的前提下,模型规模的增长才更有可能转化为真实的系统能力。尤其当目标从短程预测走向长期推演、从样本生成走向策略评估时,动力学建模的重要性只会继续上升。
如果说 ADM 证明了「未来预测不必依赖单步自举去完成」,那么 ADM-v2 则进一步证明了:在离线强化学习的动力学模型语境下,世界模型已经开始具备承担上千步整回合推演任务的能力。
对于离线强化学习、机器人学习、通用智能体,以及更大规模的世界模型系统而言,这条路线的潜力还远没有被完全展开。下一阶段,动力学建模很可能会成为世界模型继续向前演化时,最无法回避的关键问题之一。
文章来自于"机器之心",作者 "机器之心"。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md