国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

8824点击 2026-01-29 20:16

刚刚，国内AI公司，又给了业界不小的震撼。

蚂蚁灵波科技发布的LingBot-World，刚刚成为开源SOTA级的世界模型。

可以说，它已经全面对标了谷歌Genie 3，甚至在一些性能指标上超越了Genie 3！

更令人震撼的是，LingBot-World是开源的。开源阵营，又一次领跑，彻底打破了闭源垄断。

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

Demo一放出，立刻惊呆了外国网友。

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

才没过多久，X上已经被LingBot-World刷屏了，直接登顶了热搜榜的TOP 1。

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

海外网友疯狂打call，直呼这个来自中国的模型太震撼了！

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

更耐人寻味的是，LingBot-World在X上发布后，Genie甚至宣布将于近期开源。

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

全面对标Genie 3

在可交互性、生成质量、物理一致性和生成时长上，LingBot-World都能全面对标Genie 3。

可能你会问，为什么要对标Genie 3？

不可否认的是，谷歌DeepMind发布的Genie 3，代表着该领域的最高水平。

然而Genie 3有一个大问题：它是闭源的，因而社区无法基于它进行开发和迭代。因此如果学术界和初创公司想训练一个高质量世界模型，门槛是极高的。

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

Genie 3仍处于闭源状态

但蚂蚁灵波的这次开源，直接就让大家拥有了SOTA级的物理仿真底座，根本无需从零造轮子。

无论是代码、权重还是数据管线，都全部公开，全球社区都将依此打造无限可玩的下一代虚拟世界！

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

在多个领域，LingBot-World都能打造高保真、高动态、高物理一致性的可交互动态环境，包括照片级真实景观、科学可视化和风格和的艺术世界

让我们具体来看看，LingBot-World具有哪些性能优势？

首先，这是一个高保真的世界模型。

它能进行多模态的角色模拟，具备强大的泛化能力。猫怎么跳、蚂蚁怎么爬，关羽怎么挥刀、龙骑士怎么起飞，这背后复杂的物理动态和行为逻辑，它都能理解和模拟。同时，还能模拟极具表现力的动态环境。

细粒度可控性，让它实现了对角色相机的精准控制；Zero-shot的交互生成，还能把故宫实拍这类真实场景和游戏截图直接生成可交互的视频流。

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

LingBot-World高保真模拟与精准控制能力令人惊叹

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

关羽骑马挥刀动作背后的物理动态和行为逻辑，模拟得十分精确

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

故宫这类真实场景的可交互视频流，看不出破绽

其次，它有着SOTA级长视频生成能力，还是完全开源的！

一个真正厉害的世界模型，就在于不仅记得住，还能记得久。

LingBot-World的长时记忆，即便在大幅度运镜或长时间跨度下，依然能让主体特征保持稳定性，不漂移、不遗忘。

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

林教头风雪山神庙的的多种场景中，始终保持着长时序的一致性与记忆

对它来说，60秒的无损生成只是起点。依托强大的记忆能力，它突破了时序一致性的瓶颈，直接实现了10分钟的高质量无损输出！

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

从此，我们不必担心再多看一会就要穿帮，在这个连续运行的世界里，角色、环境和故事都可以自然地发生。世界模型，真正开始「像一个世界」。

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

选择一个世界设定和一个特定事件，它就能生成一个世界

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

最后，它的下游应用潜力也是巨大的。

因为整个世界都能讲得通，物理仿真环境前后一致、逻辑自洽，还有稳定的长时记忆，它就成为了3D场景重建和具身智能、游戏Agent训练的理想底座。

可以说，这是一个永远不会塌的训练场：世界是稳定的，时间是连续的，智能体可以在里面不断试错、不断成长。

LingBot-World，摘下圣杯

长期以来，理解并模拟物理世界的技术，一直都是AI领域的圣杯。

然而，尽管当前的SOTA模型在渲染视觉连贯的短片段时已经非常逼真，但本质上，它们却仍然是基于统计关联性来生成像素过渡，并不能真正理解因果关系、物体恒存性以及交互后果这些底层规律。

可以说，从视频生成到世界模型之间，有着巨大的鸿沟，原因就在于高质量互动数据的稀缺、扩散架构的灾难性遗忘，以及实时控制的计算成本过高。

甚至，该领域最先进的方案始终处于专利垄断状态，而现在LingBot-World框架的诞生，彻底打破了这种壁垒！

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

从此，大规模虚拟世界的研究会更加普及，内容创作、游戏开发、机器人学习的实践，会注入一股强大动力。

对内容创作者来说，灵感不会再被制作成本所限制——一个想法，就能生成一个可持续运转的世界。

游戏里的角色，不再只是在脚本里走流程；机器人也能在稳定的虚拟环境中反复试错。

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

LingBot-World框架不仅是一个生成式模型，更是一个能实时学习虚拟世界动态并进行渲染的完整系统。

而团队创新背后的三大支柱，就是具备层级语义的可扩展数据引擎、多阶段的进化训练流程，以及具身人工智能的多功能应用。

为了构建能稳健处理新视角、复杂动态和长期规划的世界模型，团队将数据引擎结构化为数据采集、数据分析和数据标注协同的统一流程。

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

通过下图这个分析引擎，团队有效弥合了原始视频数据与训练用资源之间的鸿沟。

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

接下来，团队提出了一个多阶段的进化策略，将基础视频生成器转化为交互式的世界模拟器。

在这个训练流程中，第一阶段（预训练）会建立一个通用视频先验。第二阶段（中期训练）会注入世界知识；第三阶段（后训练）则是实现低延迟与严格因果关系。

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

LingBot-World的视频生成流程如下。

左图显示，系统会以图像或视频、噪声潜在变量及用户自定义动作信号为输入，生成具有长期连贯性、空间记忆和精准动作跟随能力的视频序列。

而在右图中，DiT模块首先经过自注意力层，让系统学习时空一致性、发展空间记忆能力，然后通过Plucker编码器注入动作信号，最后通过交叉注意力层，将文本嵌入向量条件化到视频潜在变量上。

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

最终，LingBot-World能生成可控的视觉世界，而非随机的视频生成。

定性分析结果显示，LingBot-World能有效处理不同物体的属性和空间构型，帧与帧之间的过渡极其流畅，并且逻辑自洽。

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

另外，这个世界模型还表现出一个关键特性，就是能自发地保持全局一致性。这就证明：视频模型已经具备了物体重现的隐性记忆！

因此，它不仅能呈现动态视觉效果，还能推理未观测状态的演变。

比如下图第5行中，离开画面的车辆在未被观测的情况下仍会继续其运动轨迹，并在物理上合理的位置重新出现。这就表明，该模型模拟的是现实世界中潜在的时空一致性，而非简单地记忆像素数据。

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

总之，对于交互式世界模型而言，LingBot-World能提供更具动态感和交互性的环境，这就能大大提升用户在交互式场景中的沉浸式体验。

如此强大的效果，让LingBot-World在多个场景中都有着巨大的应用价值。

比如，引入可操控的全局事件，它就可以根据文本提示，来生成多样化的未来轨迹。

结果显示，模型既能处理「冬季」「像素艺术」这样的全局性环境变化，也能精准调控「烟花」「鱼类」这样的局部情境，并且始终保持物理与时间维度的连贯性。另外，它还可以作为一个行动智能体，预测一系列模拟环境探索的动作，转换为相机轨迹，从而驱动后续的世界生成。

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

最后，通过大规模3D重建基础模型，我们还能将生成的视频序列进一步转化为高质量的场景点云。

因为这些点云展现出了高度的空间一致性，就为下游的具身智能训练提供了多样化的数据来源。

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

这一点，我们会在下面详细展开。

蚂蚁灵波为何同时布局VLA和世界模型

巧的是，就在前两天，蚂蚁灵波刚刚发布了空间感知和VLA基座模型。全新开源的LingBot-VLA，刷新了具身智能开源SOTA。

29号，紧接着又发布了LingBot-World世界模型。

从这一系列动作和布局可以看出，蚂蚁灵波在坚持这样一条路线：做「大脑」，做「智能基座」。

为何选择同时布局VLA和世界模型？

原因就在于，VLA负责在真实世界中执行任务（Action），而世界模型负责在虚拟空间中进行低成本试错与推演。

前者是机器人的「大脑」和「手」，后者赋予机器人物理常识，二者分工不同，却天然互补。

VLA擅长直面真实世界，把感知转化为具体动作，真正去完成「拿、放、走、避让」等动作，但真实环境的成本很高，试错代价很大。此时世界模型的出现，恰好补上了这块短板。

后者在虚拟空间中复刻现实世界的物理规律和时序逻辑，让大量失败和修正，都可以在低成本的可控环境中完成，选出最符合物理定律、最安全的路径，然后再迁移到真实世界执行。

二者的深度融合，就形成了「感知-行动-认知」的闭环，解决了具身智能数据获取难、训练成本高、泛化能力弱的行业核心痛点。

这种闭环机制，就从根本上解决了具身智能长期面临的「数据获取难、训练成本高、泛化能力弱」三大难题。

在这些逼真的虚拟环境中，机器人能快速试错、学习，再应用到真实世界，这样就极大降低了研发成本。

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

因此，世界模型也成为兵家必争之地，无论是OpenAI、谷歌还是英伟达，都在押注世界模型。

要知道，机器人完成一项任务，往往要持续很久，但传统模型生成的视频，通常只能稳定几秒，之后画面就会开始崩坏，因此，机器人很难把任务从头到尾顺利完成。

然而LingBot-World却能做到10分钟级别的无损生成，而且在多步骤、长序列任务中都能保证训练的稳定性。这对机器人训练的意义，可以说是范式级的！

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

原因在于，机器人训练里最痛的点之一，就是动作是对的，但过一段时间就全错了。不过，如果模型能稳定生成10分钟级别的视频，意味着它具备了长时记忆状态，以及行为之间的因果一致性。

因此，找 → 拿 → 搬 → 放 → 整理这种多技能组合，都可以在一个连续轨迹里学完，这对通用机器人有决定性的意义，让它们「在脑子里练习」成为真正成为可能。

从此，机器人第一次真正具备了长期行为能力！

国产模型开源封神，谷歌Genie3紧急开源？蚂蚁AGI撕开世界模型闭源防线

部署后实时演示的实拍视频

PhysicalAI时代，谁将成为巨头？

可以看到，世界模型在当下仍然处于前沿探索阶段，技术路径尚未真正收敛，研发投入高、周期长，注定不是一条「快钱」的路线。

但正因如此，选择坚定投入世界模型与VLA融合的公司，本身就做出了一次清晰而长远的判断——他们押注的不是短期应用，而是机器人未来的「理解力」和「行动力」。

这个行业，终究要有人去做「大脑」，而不仅仅是「躯体」。

从表面看，蚂蚁灵波选择打造「智能基座」，似乎是一条与宇树、智元等硬件路线错位竞争的道路，但这恰恰是一条最难的基础设施级赛道。

不过，打造智能基座虽然最难，增量空间也是最大的。

更重要的是，当这样的能力选择对社区开放，接受真实世界的检验与迭代，其影响力将不只属于某一家公司，而会成为推动具身智能乃至整个AI时代向前演进的一股关键力量。

Physical AI时代，感谢有蚂蚁灵波。

文章来自于微信公众号 “新智元”，作者 “新智元”

关键词: AI新闻 , AI视频 , LingBot-World , 蚂蚁灵波

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI