国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线
7184点击    2026-01-29 20:16

刚刚,国内AI公司,又给了业界不小的震撼。


蚂蚁灵波科技发布的LingBot-World,刚刚成为开源SOTA级的世界模型。


可以说,它已经全面对标了谷歌Genie 3,甚至在一些性能指标上超越了Genie 3!


更令人震撼的是,LingBot-World是开源的。开源阵营,又一次领跑,彻底打破了闭源垄断。

国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


Demo一放出,立刻惊呆了外国网友。


国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


才没过多久,X上已经被LingBot-World刷屏了,直接登顶了热搜榜的TOP 1。


国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


海外网友疯狂打call,直呼这个来自中国的模型太震撼了!


国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


更耐人寻味的是,LingBot-World在X上发布后,Genie甚至宣布将于近期开源。


国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


全面对标Genie 3


在可交互性、生成质量、物理一致性和生成时长上,LingBot-World都能全面对标Genie 3。


可能你会问,为什么要对标Genie 3?


不可否认的是,谷歌DeepMind发布的Genie 3,代表着该领域的最高水平。


然而Genie 3有一个大问题:它是闭源的,因而社区无法基于它进行开发和迭代。因此如果学术界和初创公司想训练一个高质量世界模型,门槛是极高的。


国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


Genie 3仍处于闭源状态


但蚂蚁灵波的这次开源,直接就让大家拥有了SOTA级的物理仿真底座,根本无需从零造轮子。


无论是代码、权重还是数据管线,都全部公开,全球社区都将依此打造无限可玩的下一代虚拟世界!


国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


在多个领域,LingBot-World都能打造高保真、高动态、高物理一致性的可交互动态环境,包括照片级真实景观、科学可视化和风格和的艺术世界


让我们具体来看看,LingBot-World具有哪些性能优势?


首先,这是一个高保真的世界模型。


它能进行多模态的角色模拟,具备强大的泛化能力。猫怎么跳、蚂蚁怎么爬,关羽怎么挥刀、龙骑士怎么起飞,这背后复杂的物理动态和行为逻辑,它都能理解和模拟。同时,还能模拟极具表现力的动态环境。


细粒度可控性,让它实现了对角色相机的精准控制;Zero-shot的交互生成,还能把故宫实拍这类真实场景和游戏截图直接生成可交互的视频流。

国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


LingBot-World高保真模拟与精准控制能力令人惊叹

国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


关羽骑马挥刀动作背后的物理动态和行为逻辑,模拟得十分精确


国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线

故宫这类真实场景的可交互视频流,看不出破绽


其次,它有着SOTA级长视频生成能力,还是完全开源的!


一个真正厉害的世界模型,就在于不仅记得住,还能记得久。


LingBot-World的长时记忆,即便在大幅度运镜或长时间跨度下,依然能让主体特征保持稳定性,不漂移、不遗忘。

国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


林教头风雪山神庙的的多种场景中,始终保持着长时序的一致性与记忆


对它来说,60秒的无损生成只是起点。依托强大的记忆能力,它突破了时序一致性的瓶颈,直接实现了10分钟的高质量无损输出!

国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


从此,我们不必担心再多看一会就要穿帮,在这个连续运行的世界里,角色、环境和故事都可以自然地发生。世界模型,真正开始「像一个世界」。

国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


选择一个世界设定和一个特定事件,它就能生成一个世界

国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


最后,它的下游应用潜力也是巨大的。


因为整个世界都能讲得通,物理仿真环境前后一致、逻辑自洽,还有稳定的长时记忆,它就成为了3D场景重建和具身智能、游戏Agent训练的理想底座。


可以说,这是一个永远不会塌的训练场:世界是稳定的,时间是连续的,智能体可以在里面不断试错、不断成长。


LingBot-World,摘下圣杯


长期以来,理解并模拟物理世界的技术,一直都是AI领域的圣杯。


然而,尽管当前的SOTA模型在渲染视觉连贯的短片段时已经非常逼真,但本质上,它们却仍然是基于统计关联性来生成像素过渡,并不能真正理解因果关系、物体恒存性以及交互后果这些底层规律。


可以说,从视频生成到世界模型之间,有着巨大的鸿沟,原因就在于高质量互动数据的稀缺、扩散架构的灾难性遗忘,以及实时控制的计算成本过高。


甚至,该领域最先进的方案始终处于专利垄断状态,而现在LingBot-World框架的诞生,彻底打破了这种壁垒!

国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


从此,大规模虚拟世界的研究会更加普及,内容创作、游戏开发、机器人学习的实践,会注入一股强大动力。


对内容创作者来说,灵感不会再被制作成本所限制——一个想法,就能生成一个可持续运转的世界。


游戏里的角色,不再只是在脚本里走流程;机器人也能在稳定的虚拟环境中反复试错。

国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


LingBot-World框架不仅是一个生成式模型,更是一个能实时学习虚拟世界动态并进行渲染的完整系统。


而团队创新背后的三大支柱,就是具备层级语义的可扩展数据引擎、多阶段的进化训练流程,以及具身人工智能的多功能应用。


为了构建能稳健处理新视角、复杂动态和长期规划的世界模型,团队将数据引擎结构化为数据采集、数据分析和数据标注协同的统一流程。


国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


通过下图这个分析引擎,团队有效弥合了原始视频数据与训练用资源之间的鸿沟。


国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


接下来,团队提出了一个多阶段的进化策略,将基础视频生成器转化为交互式的世界模拟器。


在这个训练流程中,第一阶段(预训练)会建立一个通用视频先验。第二阶段(中期训练)会注入世界知识;第三阶段(后训练)则是实现低延迟与严格因果关系。


国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


LingBot-World的视频生成流程如下。


左图显示,系统会以图像或视频、噪声潜在变量及用户自定义动作信号为输入,生成具有长期连贯性、空间记忆和精准动作跟随能力的视频序列。


而在右图中,DiT模块首先经过自注意力层,让系统学习时空一致性、发展空间记忆能力,然后通过Plucker编码器注入动作信号,最后通过交叉注意力层,将文本嵌入向量条件化到视频潜在变量上。


国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


最终,LingBot-World能生成可控的视觉世界,而非随机的视频生成。


定性分析结果显示,LingBot-World能有效处理不同物体的属性和空间构型,帧与帧之间的过渡极其流畅,并且逻辑自洽。


国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


另外,这个世界模型还表现出一个关键特性,就是能自发地保持全局一致性。这就证明:视频模型已经具备了物体重现的隐性记忆!


因此,它不仅能呈现动态视觉效果,还能推理未观测状态的演变。


比如下图第5行中,离开画面的车辆在未被观测的情况下仍会继续其运动轨迹,并在物理上合理的位置重新出现。这就表明,该模型模拟的是现实世界中潜在的时空一致性,而非简单地记忆像素数据。


国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


总之,对于交互式世界模型而言,LingBot-World能提供更具动态感和交互性的环境,这就能大大提升用户在交互式场景中的沉浸式体验。


如此强大的效果,让LingBot-World在多个场景中都有着巨大的应用价值。


比如,引入可操控的全局事件,它就可以根据文本提示,来生成多样化的未来轨迹。


结果显示,模型既能处理「冬季」「像素艺术」这样的全局性环境变化,也能精准调控「烟花」「鱼类」这样的局部情境,并且始终保持物理与时间维度的连贯性。另外,它还可以作为一个行动智能体,预测一系列模拟环境探索的动作,转换为相机轨迹,从而驱动后续的世界生成。


国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


最后,通过大规模3D重建基础模型,我们还能将生成的视频序列进一步转化为高质量的场景点云。


因为这些点云展现出了高度的空间一致性,就为下游的具身智能训练提供了多样化的数据来源。


国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


这一点,我们会在下面详细展开。


蚂蚁灵波为何同时布局VLA和世界模型


巧的是,就在前两天,蚂蚁灵波刚刚发布了空间感知和VLA基座模型。全新开源的LingBot-VLA,刷新了具身智能开源SOTA。


29号,紧接着又发布了LingBot-World世界模型。


从这一系列动作和布局可以看出,蚂蚁灵波在坚持这样一条路线:做「大脑」,做「智能基座」。


为何选择同时布局VLA和世界模型?


原因就在于,VLA负责在真实世界中执行任务(Action),而世界模型负责在虚拟空间中进行低成本试错与推演。


前者是机器人的「大脑」和「手」,后者赋予机器人物理常识,二者分工不同,却天然互补。


VLA擅长直面真实世界,把感知转化为具体动作,真正去完成「拿、放、走、避让」等动作,但真实环境的成本很高,试错代价很大。此时世界模型的出现,恰好补上了这块短板。


后者在虚拟空间中复刻现实世界的物理规律和时序逻辑,让大量失败和修正,都可以在低成本的可控环境中完成,选出最符合物理定律、最安全的路径,然后再迁移到真实世界执行。


二者的深度融合,就形成了「感知-行动-认知」的闭环,解决了具身智能数据获取难、训练成本高、泛化能力弱的行业核心痛点。


这种闭环机制,就从根本上解决了具身智能长期面临的「数据获取难、训练成本高、泛化能力弱」三大难题。


在这些逼真的虚拟环境中,机器人能快速试错、学习,再应用到真实世界,这样就极大降低了研发成本。


国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


因此,世界模型也成为兵家必争之地,无论是OpenAI、谷歌还是英伟达,都在押注世界模型。


要知道,机器人完成一项任务,往往要持续很久,但传统模型生成的视频,通常只能稳定几秒,之后画面就会开始崩坏,因此,机器人很难把任务从头到尾顺利完成。


然而LingBot-World却能做到10分钟级别的无损生成,而且在多步骤、长序列任务中都能保证训练的稳定性。这对机器人训练的意义,可以说是范式级的!


国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


原因在于,机器人训练里最痛的点之一,就是动作是对的,但过一段时间就全错了。不过,如果模型能稳定生成10分钟级别的视频,意味着它具备了长时记忆状态,以及行为之间的因果一致性。


因此,找 → 拿 → 搬 → 放 → 整理这种多技能组合,都可以在一个连续轨迹里学完,这对通用机器人有决定性的意义,让它们「在脑子里练习」成为真正成为可能。


从此,机器人第一次真正具备了长期行为能力!


国产模型开源封神,谷歌Genie3紧急开源?蚂蚁AGI撕开世界模型闭源防线


部署后实时演示的实拍视


PhysicalAI时代,谁将成为巨头?


可以看到,世界模型在当下仍然处于前沿探索阶段,技术路径尚未真正收敛,研发投入高、周期长,注定不是一条「快钱」的路线。


但正因如此,选择坚定投入世界模型与VLA融合的公司,本身就做出了一次清晰而长远的判断——他们押注的不是短期应用,而是机器人未来的「理解力」和「行动力」。


这个行业,终究要有人去做「大脑」,而不仅仅是「躯体」。


从表面看,蚂蚁灵波选择打造「智能基座」,似乎是一条与宇树、智元等硬件路线错位竞争的道路,但这恰恰是一条最难的基础设施级赛道。


不过,打造智能基座虽然最难,增量空间也是最大的。


更重要的是,当这样的能力选择对社区开放,接受真实世界的检验与迭代,其影响力将不只属于某一家公司,而会成为推动具身智能乃至整个AI时代向前演进的一股关键力量。


Physical AI时代,感谢有蚂蚁灵波。


文章来自于微信公众号 “新智元”,作者 “新智元”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI