10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍
7916点击    2024-10-26 22:20

斯坦福吴佳俊团队与MIT携手打造的最新研究成果,让我们离实时生成开放世界游戏又近了一大步。


从单一图像出发,在用户的实时交互下生成无限延展的3D场景:


只需上传一张图片,就能踏入一个由AI创造的虚拟世界。用户可以通过移动视角和输入文本提示,实时决定接下来要探索的方向和场景内容:


10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍


从鸟瞰图的视角,可以清晰看到虚拟世界的生成过程:


10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍


无论是魔幻森林、现实都市,还是宁静乡村,WonderWorld都能在眨眼间为你呈现:


10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍

10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍

这项工作名为WonderWorld,由斯坦福吴佳俊团队和MIT联合打造。


10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍


WonderWorld的项目主页上还有能以第一视角移动的交互式场景


10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍


资深游戏创业者,GOAT Gamin的首席AI官兴奋地表示:“它还能对非真实感的图片work。有无限多的可能性!”


10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍


在硅谷广受欢迎的Hacker News上,WonderWorld也一度被放在头版讨论:


10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍


要知道,之前的生成式AI方法都需要数十分钟甚至若干小时才能生成一个单独的场景,WonderWorld的速度可谓打开了交互式新世界的大门。


那这究竟是如何做到的?


交互式生成 3D 世界


要让用户来控制生成一个3D世界,最核心的难点在于生成速度。先前的AI生成3D场景的方法大都需要先逐步生成许多目标场景的2D图片来补全被遮挡的部分,然后再优化得到一个3D场景的表示。这个过程耗时颇多。


10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍


WonderWorld的核心突破在于其惊人的速度。


研究团队开发的FLAGS (Fast LAyered Gaussian Surfels) 场景表示方法,使得系统能在短短10秒内生成一个新场景。这一速度比现有方法快了近100倍,真正将交互式3D世界生成推向了实时的门槛。


具体来说,WonderWorld生成新场景时,会先生成一张场景的2D图片(对于第一个场景则是直接使用输入图片),从图片中生成三张layer images,再从layer images来生成 FLAGS 表示。


10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍


FLAGS表示由三层Gaussian surfels组成:天空层,背景层,以及前景层。每一层都从对应的layer image中生成。天空和背景的layer image 都单独进行了遮挡的补全,因此WonderWorld不需要逐步生成多张图片。


另外,FLAGS表示的每个Gaussian surfel都唯一对应一个layer image 上的像素,因此它可以使用估计的像素级别几何信息(如单目深度和单目法向量)来初始化Gaussian surfels的参数,从而加速其优化过程。


10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍


最后,WonderWorld 还针对多个3D场景之间经常出现几何“裂缝”的问题,提出了Guided depth diffusion。核心想法是,利用已经生成的 3D 场景的深度信息作为 guidance,使新生成场景的深度与其一致。只要新旧场景在连接处的深度一致,那么场景的裂缝就得以弥合。


10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍


值得一提的是,无论是2D图片生成还是深度估计模块,都可以直接采用预训练模型,因此整个框架不需要任何训练。


实验测试


由于先前没有任何方法可以做到交互式3D场景生成,研究人员采用了连贯3D场景生成的方法WonderJourney,单一场景生成的Text2Room以及LucidDreamer作对比。


由于缺乏现有可用评估数据集,研究人员生成了28个场景作为测试。


研究人员首先展示了更多的交互式生成的场景,从而说明WonderWorld可以在应用到不同场景类型以及不同视觉风格:


10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍


与基准方法的比较表明,WonderWorld明显优于各个方法:


10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍


从人类偏好评估的角度,WonderWorld 也显著更受青睐:


10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍


此外,从一张输入图片,WonderWorld能够接受不同的用户控制,生成不同的场景内容:


10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍


作者简介


该篇论文主要作者来自斯坦福大学吴佳俊团队。


论文一作俞洪兴,斯坦福大学五年级博士生。


10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍


主要研究领域为重建可交互的物理世界。他曾获得 SIGGRAPH Asia 最佳论文奖,高通奖学金,以及 Meta 奖学金和 NVIDIA 奖学金的提名。


吴佳俊,现任斯坦福大学助理教授,隶属于斯坦福视觉与学习实验室(SVL)和斯坦福人工智能实验室(SAIL)。


10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍



在麻省理工学院完成博士学位,本科毕业于清华大学姚班,曾被誉为“清华十大学神”之一。


论文链接:


https://arxiv.org/pdf/2406.09394


参考链接:


[1]https://x.com/Koven_Yu/status/1835769026934673595


[2]https://kovenyu.com/wonderworld


—  —


文章来自于微信公众号 “量子位”


10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍

关键词: AI , AI 3D , WonderWorld , 模型训练
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI