谷歌“世界模拟器”深夜上线！一句话生成3D世界，支持分钟级超长记忆

8294点击 2025-08-06 14:05

只需一句话，就能生成可实时交互的3D世界。

刚刚，谷歌DeepMind发布了新一代通用世界模型Genie 3。

性能上，Genie 3相比上一代大幅升级，支持720P画质，每秒24帧实时导航，以及分钟级的一致性保持。

谷歌“世界模拟器”深夜上线！一句话生成3D世界，支持分钟级超长记忆

前DeepMind科学家、AI 3D生成创业者Tejas Kulkarni受邀体验了Genie 3。

他使用Genie 3，生成了长达57秒的城市高空漫游场景（下图为节选）：

谷歌“世界模拟器”深夜上线！一句话生成3D世界，支持分钟级超长记忆

Tejas评价，Genie通用性强，还能学习物理，而且拥有强大的记忆力。

谷歌“世界模拟器”深夜上线！一句话生成3D世界，支持分钟级超长记忆

看了Tejas的测试，Reddit网友直言，这是通往AGI的最后一块拼图。

谷歌“世界模拟器”深夜上线！一句话生成3D世界，支持分钟级超长记忆

目前，Genie 3已经以研究预览的形式发布，邀请专业研究者和创作者进行测试。

长时间多角度物体依然一致

相比前一代Genie 2，Genie 3在画质、交互方式和时长，以及实时性方面均大幅提升。

谷歌“世界模拟器”深夜上线！一句话生成3D世界，支持分钟级超长记忆

Genie 3的生成结果具备3D空间一致性，并且由于是根据世界描述和用户操作逐帧创建的，Genie 3生成的世界更加丰富且更具动态。

而且Genie 3能够模拟世界的物理特性，处理水面等自然现象和复杂的环境相互作用。

谷歌“世界模拟器”深夜上线！一句话生成3D世界，支持分钟级超长记忆

也可以模拟自然世界，创造充满活力的生态系统。

谷歌“世界模拟器”深夜上线！一句话生成3D世界，支持分钟级超长记忆

当然也不局限于现实场景，Genie 3也可以发挥想象力，构建动画等虚拟场景。

比如让毛茸茸的小精灵在童话世界中玩耍奔跑。

谷歌“世界模拟器”深夜上线！一句话生成3D世界，支持分钟级超长记忆

或者跟着萤火虫的轨迹，探秘一片带有魔法色彩的原始森林。

谷歌“世界模拟器”深夜上线！一句话生成3D世界，支持分钟级超长记忆

还能超越地理和时间的界限，探索更多地方和更古老的时代，乘船漫游威尼斯的水上世界。

谷歌“世界模拟器”深夜上线！一句话生成3D世界，支持分钟级超长记忆

当然最让谷歌引以为傲的，还要属Genie 3的长期环境一致性。

为了使AI生成的世界具有沉浸感，画面中的物体必须在很长一段时间内保持物理一致性。

但自回归生成环境通常比生成完整视频更难，因为误差往往会随着时间的推移而累积。

不过Genie 3的环境在几分钟内仍能保持基本一致，视觉记忆甚至可以追溯到一分钟前，谷歌专门展示了相关结果。

比如这是一组在雅典风格建筑中漫步的场景，先来看下完整视频：

谷歌“世界模拟器”深夜上线！一句话生成3D世界，支持分钟级超长记忆

谷歌特别展示了视频开始以及第20、50秒的截图，画面中建筑物左侧的树木反复进入和退出视野后始终保持一致。

谷歌“世界模拟器”深夜上线！一句话生成3D世界，支持分钟级超长记忆

还有这个刷油漆的场景，视角虽然不断变换，但每一步的涂刷操作和结果都被Genie 3准确记住。

谷歌“世界模拟器”深夜上线！一句话生成3D世界，支持分钟级超长记忆

此外，Genie 3还支持基于文本提示在世界当中生成事件。

比如给定一个草原的背景，可以让拖拉机从中开过，还可以把拖拉机换成一只棕熊。

谷歌“世界模拟器”深夜上线！一句话生成3D世界，支持分钟级超长记忆

又如在伦敦的河畔，可以让快艇从水面驶过，也可以让穿着奇装异服的人在岸上奔跑，还能让一只恐龙从天而降。

谷歌“世界模拟器”深夜上线！一句话生成3D世界，支持分钟级超长记忆

推动具身智能体研究

DeepMind介绍，Genie 3也将进一步推动具身智能体研究。

实际上，DeepMind十多年来一直在关注模拟环境领域的研究，从训练智能体掌握实时战略游戏，到开发用于开放式学习和机器人技术的模拟环境。

去年，DeepMind推出了Genie 1和Genie 2这两个基础世界模型，它们同样可以为智能体生成新的环境。

这次的Genie 3，则是DeepMind第一个允许实时交互的世界模型。

为了测试Genie 3创建的世界与未来智能体训练的兼容性，DeepMind为SIMA智能体（用于3D虚拟场景的通用智能体）的最新版本生成了世界。

Genie 3并不知道智能体的目标，而是根据其操作来模拟未来事件。

比如在面包店中，走向搅拌机、冷却架或者玻璃柜。

谷歌“世界模拟器”深夜上线！一句话生成3D世界，支持分钟级超长记忆

或者在农贸市场中走向面包摊、花摊和蔬菜摊位。

谷歌“世界模拟器”深夜上线！一句话生成3D世界，支持分钟级超长记忆

总之，Genie 3相比过去可以执行更长的操作序列，从而实现更复杂的目标。

谷歌期待这项技术在人类迈向AGI的过程中发挥关键作用，并使智能体进一步走进现实世界。

参考链接：

[1]https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

[2]https://x.com/tejasdkulkarni/status/1952737669894574264

文章来自于微信公众号“量子位”，作者是“克雷西”。

关键词: AI新闻 , AI视频 , Genie 3 , 世界模型

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

AI 3D建模

【开源免费】LGM是一个AI建模的项目，它可以将你上传的平面图片，变成一个3D的模型。
项目地址：https://github.com/3DTopia/LGM?tab=readme-ov-file
在线使用：https://replicate.com/camenduru/lgm