过去两年,世界模型(World Model)正在成为大模型演进的重要方向。
从具身智能到自动驾驶,研究者希望 AI 不再只是理解数据,而是能够在内部构建一个可预测、可推演的 “世界”。模型学会物体如何运动、环境如何变化,甚至能够在行动发生之前完成模拟。
但一个关键盲区始终存在:今天几乎所有世界模型,理解的都是 “人类肉眼可见的世界”。
街道、人物、机械运动可以被成功建模,而一旦尺度缩小到细胞、组织乃至分子层级,现有模型往往只是在生成视觉纹理,而非真实过程本身。
然而,微观世界建模面临着截然不同的挑战:尺度跨度巨大、动态过程高度复杂、真实数据稀缺,同时还必须满足物理与生物约束。
在这样的背景下,本文提出 MicroVerse — 一个面向微观世界(Micro-World)的模拟框架,尝试让生成模型首次从 “宏观场景建模” 走向微尺度科学过程模拟。
与传统视频生成不同,MicroVerse 的目标并非生成更逼真的画面,而是回答一个更根本的问题:AI 能否像科学模拟系统一样,理解并重建微观世界的运行机制?
这一工作将世界模型的研究边界,从可见世界进一步推进到了不可见尺度。

在宏观世界,我们可以通过摄像头记录一切。但在微观尺度,生命活动的本质 — 从血液流动的物质交换到 DNA 的精密复制 — 都发生在肉眼不可见的方寸之间。

微观模拟的意义远非 “视觉奇观”,它是理解生命运作的钥匙:
尽管学术界近期涌现出诸如 MedOS [1](聚焦手术机器人的临床感知与动作决策)、CLARITY [2](侧重肿瘤演化轨迹的抽象潜空间建模)以及 MeWM [3](致力于术后 CT 影像的视觉预测)等优秀的医学世界模型,但其核心大多锚定于宏观层面的临床决策支持或医疗影像模拟,本质上是服务于诊疗逻辑的 “预言机”。与之不同的是,我们关注的是分子与细胞层面的微观世界模型,而这一领域目前的视频生成范式正面临严重的效能危机。研究团队对比发现,当要求生成 “细胞分裂” 或 “DNA 复制” 时,SOTA 模型虽然画面精美,却存在三大致命硬伤:
1. 违反物理结构:血管纹理反自然,细胞器排布杂乱。
2. 生物形态错误:模拟 RNA 时产生错误的形变,DNA 链条随意断裂。
3. 时间动态不一致:例如在模拟细胞有丝分裂时,细胞核会凭空消失,过程完全不符合生物学逻辑。
一句话总结:AI 生成的微观视频 “像真的”,但机制全错了。 它们只学习了宏观视觉统计,未学习微观物理规律。
为了纠正视频生成模型在微观世界的 “信口开河”,研究团队提出了 MicroWorldBench — 这是全球首个针对微观生物模拟的量表化评测基准。

如果说以前的视频评测是看 “电影感”,那么 MicroWorldBench 就是一场严苛的 “生物奥林匹克竞赛”。它不再满足于画面是否高清,而是要给每一帧画面进行 “切片检查”。
层次分明的 “考题” 设计
研究团队从数万个候选任务中,精选出 459 项 核心模拟任务,构建了一个跨越尺度的三层模拟体系:
专家级 “监考官”:拒绝视觉欺骗
为了确保评分的权威性,MicroWorldBench 引入了 LLM + 领域专家 的联合评审机制:
1. 科学真实性(Scientific Fidelity):这是 “一票否决权”。专家制定了极细的加权规则,比如:模拟有丝分裂时,如果中期染色体没有在赤道板对齐,画质再好也要打低分。
2. 视觉质量(Visual Quality):评估视频是否存在闪烁、噪点,是否达到了实验室级的显微成像质感。
3. 指令一致性(Instruction Following):测试 AI 能否精准响应复杂指令,如 “生成一段受损肝细胞自我修复的微观过程”。
扎心的真相:视觉巨人,科学矮子

在 MicroWorldBench 的严苛审视下,一个残酷的现状浮出水面:当前最顶尖的视频生成模型,正陷入一种 “像素级真实,机制级崩塌” 的尴尬境地。
视觉高分,科学低分:它们能生成令人惊叹的景深效果、细腻的细胞质感和真实的显微光影。在涉及因果律和生物逻辑的环节,这些模型表现得像个 “只会临摹的画家,却不懂解剖学的医生”;
宏观统计规律无法推导微观物理约束:当前模型本质上是在学习像素流的统计关联。在宏观世界,人类活动的数据量极其庞大,AI 能够通过 “暴力学习” 摸清重力和惯性的规律。但在微观世界,由于缺乏庞大的数据,AI 只能用宏观的 “视觉经验” 去强行解释微观的 “生物逻辑”,导致了严重的科学偏差。
MicroWorldBench 的意义在于确立了一个科学的秩序:视频生成的下一场革命,不再是分辨率的竞赛,而是世界知识嵌入的竞赛。 研究者指出,如果不能在模型底层引入物理约束与领域知识监督,AI 将永远停留在 “特效模拟” 阶段,而无法成为真正的 “科学模拟器”。
如果说此前的视频模型只是在 “画出” 生命的形状,那么 MicroVerse 则是试图在比特世界里 “重建” 生命的算法。
MicroSim-10K:为 AI 补齐缺失的 “微观常识”
任何世界模型的预测能力都受限于其 “认知边际”。MicroVerse 的核心基石是 MicroSim-10K — 这是全球首个专注于微观机制的大规模专家级数据集。
架构演进:从 “视觉模仿” 到 “动力学推演”
在模型层面,MicroVerse 通过引入初级的物理约束与领域知识监督,实现了生成表现的跨越:


突破:从 “特效” 到 “科学模拟” 的 POC
通过对比可以直白地看到 MicroVerse 带来的改变,它将视频生成从 “视觉游戏” 变成了真正的概念验证(POC):
这些突破证明:生成模型可以被引导去学习生命过程的底层物理与生物规律。
视频生成技术已经能够逼真地重现人类社会的街景与繁华,但生命最核心的奥秘,始终隐藏在那些肉眼不可见、规律极其复杂的微尺度动态之中。
MicroVerse 的意义,绝不仅仅在于它生成了几段高清的生物视频,而在于它在生成式 AI 与严谨科学模拟之间,强行破开了一道通往未来的裂缝:
这本质上是一条从 “世界模型” 通往 “生命模型” 的必经之路。当 AI 能够精准模拟细胞的律动与分子的呼吸,它就不再仅仅是作画的工具,而是一个运行在硅基芯片上的虚拟生命实验场。
从观察生命,到模拟生命,再到最终理解生命。微观世界的生成时代,才刚刚开始。
作者介绍
本文的共同第一作者为王荣胜与吴铭昊,均来自香港中文大学(深圳)。两位作者均在王本友教授的指导下进行研究,王教授及其团队长期致力于语音与医疗大模型、自然语言处理和多模态学习等前沿领域的探索。
王荣胜,香港中文大学(深圳)一年级博士生,研究方向为可信医疗大模型与多模态生成。
吴铭昊,香港中文大学(深圳)数据科学学院一年级博士,研究方向为 LLM Agent 与视频生成。曾在 NeurIPS, ICLR 发表论文。
相关工作
[1] Yang Y, Wang Z Y, Liu Q, et al. Medical world model: Generative simulation of tumor evolution for treatment planning [J]. arXiv preprint arXiv:2506.02327, 2025.
[2] Ding T, Zou Y, Chen C, et al. CLARITY: Medical World Model for Guiding Treatment Decisions by Modeling Context-Aware Disease Trajectories in Latent Space [J]. arXiv preprint arXiv:2512.08029, 2025.
[3] Wu Y C, Yin M, Shi B, et al. MedOS: AI-XR-Cobot World Model for Clinical Perception and Action [J]. medRxiv, 2026: 2026.02. 18.26345936.
文章来自于“机器之心”,作者 “机器之心”。
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md