ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
10秒创造一个世界!吴佳俊团队新作实时交互式3D世界生成,比现有技术快100倍
7640点击    2024-10-26 22:20

斯坦福吴佳俊团队与MIT携手打造的最新研究成果,让我们离实时生成开放世界游戏又近了一大步。


从单一图像出发,在用户的实时交互下生成无限延展的3D场景:


只需上传一张图片,就能踏入一个由AI创造的虚拟世界。用户可以通过移动视角和输入文本提示,实时决定接下来要探索的方向和场景内容:



从鸟瞰图的视角,可以清晰看到虚拟世界的生成过程:



无论是魔幻森林、现实都市,还是宁静乡村,WonderWorld都能在眨眼间为你呈现:


这项工作名为WonderWorld,由斯坦福吴佳俊团队和MIT联合打造。



WonderWorld的项目主页上还有能以第一视角移动的交互式场景



资深游戏创业者,GOAT Gamin的首席AI官兴奋地表示:“它还能对非真实感的图片work。有无限多的可能性!”



在硅谷广受欢迎的Hacker News上,WonderWorld也一度被放在头版讨论:



要知道,之前的生成式AI方法都需要数十分钟甚至若干小时才能生成一个单独的场景,WonderWorld的速度可谓打开了交互式新世界的大门。


那这究竟是如何做到的?


交互式生成 3D 世界


要让用户来控制生成一个3D世界,最核心的难点在于生成速度。先前的AI生成3D场景的方法大都需要先逐步生成许多目标场景的2D图片来补全被遮挡的部分,然后再优化得到一个3D场景的表示。这个过程耗时颇多。



WonderWorld的核心突破在于其惊人的速度。


研究团队开发的FLAGS (Fast LAyered Gaussian Surfels) 场景表示方法,使得系统能在短短10秒内生成一个新场景。这一速度比现有方法快了近100倍,真正将交互式3D世界生成推向了实时的门槛。


具体来说,WonderWorld生成新场景时,会先生成一张场景的2D图片(对于第一个场景则是直接使用输入图片),从图片中生成三张layer images,再从layer images来生成 FLAGS 表示。



FLAGS表示由三层Gaussian surfels组成:天空层,背景层,以及前景层。每一层都从对应的layer image中生成。天空和背景的layer image 都单独进行了遮挡的补全,因此WonderWorld不需要逐步生成多张图片。


另外,FLAGS表示的每个Gaussian surfel都唯一对应一个layer image 上的像素,因此它可以使用估计的像素级别几何信息(如单目深度和单目法向量)来初始化Gaussian surfels的参数,从而加速其优化过程。



最后,WonderWorld 还针对多个3D场景之间经常出现几何“裂缝”的问题,提出了Guided depth diffusion。核心想法是,利用已经生成的 3D 场景的深度信息作为 guidance,使新生成场景的深度与其一致。只要新旧场景在连接处的深度一致,那么场景的裂缝就得以弥合。



值得一提的是,无论是2D图片生成还是深度估计模块,都可以直接采用预训练模型,因此整个框架不需要任何训练。


实验测试


由于先前没有任何方法可以做到交互式3D场景生成,研究人员采用了连贯3D场景生成的方法WonderJourney,单一场景生成的Text2Room以及LucidDreamer作对比。


由于缺乏现有可用评估数据集,研究人员生成了28个场景作为测试。


研究人员首先展示了更多的交互式生成的场景,从而说明WonderWorld可以在应用到不同场景类型以及不同视觉风格:



与基准方法的比较表明,WonderWorld明显优于各个方法:



从人类偏好评估的角度,WonderWorld 也显著更受青睐:



此外,从一张输入图片,WonderWorld能够接受不同的用户控制,生成不同的场景内容:



作者简介


该篇论文主要作者来自斯坦福大学吴佳俊团队。


论文一作俞洪兴,斯坦福大学五年级博士生。



主要研究领域为重建可交互的物理世界。他曾获得 SIGGRAPH Asia 最佳论文奖,高通奖学金,以及 Meta 奖学金和 NVIDIA 奖学金的提名。


吴佳俊,现任斯坦福大学助理教授,隶属于斯坦福视觉与学习实验室(SVL)和斯坦福人工智能实验室(SAIL)。




在麻省理工学院完成博士学位,本科毕业于清华大学姚班,曾被誉为“清华十大学神”之一。


论文链接:


https://arxiv.org/pdf/2406.09394


参考链接:


[1]https://x.com/Koven_Yu/status/1835769026934673595


[2]https://kovenyu.com/wonderworld


—  —


文章来自于微信公众号 “量子位”


关键词: AI , AI 3D , WonderWorld , 模型训练
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI