李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则
6071点击    2024-12-03 10:58

就在刚刚,李飞飞空间智能首个项目突然发布:


仅凭借1张图,就能生成一个3D游戏世界的AI系统!


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


重点在于,生成的3D世界具有交互性


能够像玩游戏那样,自由地移动相机来探索这个3D世界,浅景深、希区柯克变焦等操作均可行。


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


随便输入一张图:


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


除了这张图本体,可探索的3D世界里,所有东西都是AI生成的:


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


这些场景在浏览器中实时渲染,配备了可控的摄像机效果和可调节的模拟景深(DoF)


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


你甚至可以改变其中物体颜色,动态调整背景光影,在场景中插入其他对象。


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则

李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则

李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


此外,之前大多数生成模型预测的是像素,而这个AI系统直接预测3D场景


所以场景在你移开视线再回来时不会发生变化,并且遵循基本的3D几何物理规则。


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


网友们直接炸开锅,评论区“难以置信”一词直接刷屏。


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


其中不乏Shopify创始人Tobi Lutke等知名人士点赞:


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


还有不少网友认为这直接为VR打开了新世界。


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


官方则表示“这仅仅是3D原生生成AI未来的一个缩影”:


我们正在努力尽快将这项技术交到用户手中!


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


李飞飞本人也第一时间分享了这项成果并表示:


无论怎么理论化这个想法,用语言很难描述通过一张照片或一句话生成的3D场景互动的体验,希望大家喜欢。


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


目前候补名单申请已开启,有内容创作者已经用上了。


羡慕的口水不争气地从眼角落了下来。


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


Beyond the input image


官方博文表示,今天,World labs迈出了通往空间智能的第一步:


发布一个从单张图片生成3D世界的AI系统。

Beyond the input image, all is generated。


而且是输入任何图片。


而且是能够互动的3D世界——用户可以通过W/A/S/D键来控制上下左右视角,或者用鼠标拖动画面来逛这个生成的世界。


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


官网博文中放了很多个可以试玩的demo。


这次真的推荐大家都去试玩一下,上手体验和看视频or动图的感受非常的不一样。


(直通车按惯例,放在文末)


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


好,问题来了,这个AI系统生成的3D世界还有什么值得探究的细节之处?


摄影机效果


World Labs表示,一旦生成,这个3D世界就会在浏览器中实时渲染,给人的感觉跟在看一个虚拟摄像头似的。


而且,用户能够精准地控制这个摄像头。


所谓“精准控制”,有2种玩法,


一是能够模拟景深效果,也就是只能清晰对焦距离相机一定距离的物体。


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


二是能模拟滑动变焦(Dolly Zoom),也就是电影拍摄技巧中非常经典的希区柯克变焦。


它的特点是“镜头中的主体大小不变,而背景大小改变”。


很多驴友去西藏、新疆玩儿的时候都希望用希区柯克变焦拍视频,有很强的视觉冲击力。


在World Labs展示中,效果如下(不过在这个玩法里,没办法控制视角)


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


3D效果


World Labs表示,大多数生成模型预测的都是像素,与它们不同,咱这个AI预测的是3D场景。


官方博文罗列了三点好处:


第一,持久现实。


一旦生成一个世界,它就会一直存在。


不会因为你看向别的视角,再看回来,原视角的场景就会改变了。


第二,实时控制。


生成场景后,用户可以通过键盘或鼠标控制,实时在这个3D世界畅游移动。


你甚至可以仔细观察一朵花的细节,或者在某个地方暗中观察,用上帝视角注意这个世界的一举一动。


第三,遵循正确的几何规则。


这个AI系统生成的世界,是遵守3D集合物理基本规则的。


某些AI生成的视频,虽然效果很梦核,但可没有咱的这种深度的真实感哟(doge)


官方博文中还写道,创造一个可视化3D场景,最简单的办法是绘制深度图。


图中每个像素的颜色,都是由它和摄像头的距离来决定的。


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


当然了,用户可以使用3D场景结构来构建互动效果——


单击就能与场景互了,包括但不限于突然给场景打个聚光灯。


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


动画效果?


那也是so easy啦。


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


走进绘画世界


团队还玩儿了一把,以“全新的方式”体验一些经典的艺术作品。


全新,不仅在于可互动的交互方式,还在于就靠输入进去的那一张图,就能补全原画里没有的部分。


然后变成3D世界。


这是梵高的《夜晚露天咖啡座》:


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


这是爱德华·霍普的《夜行者》:


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


创造性的工作流


团队表示,3D世界生成可以非常自然地和其它AI工具相结合。


这让创作者们可以用他们已经用顺手的工具感受新的工作流体验。


举个栗子:


可以先用文生图模型,从文本世界来到图像世界。


因为不同模型有各自擅长的风格特点,3D世界可以把这些风格迁徙、继承过来。


在同一prompt下,输入不同风格的文生图模型生成的图片,可以诞生不同的3D世界


一个充满活力的卡通风格青少年卧室,床上铺着五彩斑斓的毯子,桌子上杂乱地摆放着电脑,墙上挂着海报,散落着运动器材。一把吉他靠在墙上,中间铺着一块舒适的花纹地毯。窗户透进的光线给房间增添了一丝温暖和青春的气息。


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


World Labs和空间智能


“World Labs”公司,由斯坦福大学教授、AI教母李飞飞在今年4月创立。


这也是她被曝出的首次创业。


而她的创业方向是一个新概念——空间智能,即:


视觉化为洞察;看见成为理解;理解导致行动。


在李飞飞看来,这是“解决人工智能难题的关键拼图”。


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则


只用了3个月时间,公司就突破了10亿美元估值,成为新晋独角兽。


公开资料显示,a16z、NEA和Radical Ventures是领投方,Adobe、AMD、Databricks,以及老黄的英伟达也都在投资者之列。


个人投资者中也不乏大佬:Karpathy、Jeff Dean、Hinton……


今年5月,李飞飞有一场公开的15分钟TED演讲。


她洋洋洒洒,分享了对于空间智能的更多思考,要点包括:


  • 视觉能力被认为引发了寒武纪大爆发——一个动物物种大量进入化石记录的时期。最初是被动体验,简单让光线进入的定位,很快变得更加主动,神经系统开始进化……这些变化催生了智能。


  • 多年来,我一直在说拍照和理解不是一回事。今天,我想再补充一点:仅仅看是不够的。看,是为了行动和学习。


  • 如果我们想让AI超越当前能力,我们不仅想要能够看到和说话的AI,我们还想要能够行动的AI。空间智能的最新里程碑是,教计算机看到、学习、行动,并学习看到和行动得更好。


  • 随着空间智能的加速进步,一个新时代在这个良性循环中正在我们眼前展开。这种循环正在催化机器人学习,这是任何需要理解和与3D世界互动的具身智能系统的关键组成部分。


据报道,该公司的目标客户包括视频游戏开发商和电影制片厂。除了互动场景之外,World Labs还计划开发一些对艺术家、设计师、开发人员、电影制作人和工程师等专业人士有用的工具。


如今伴随着空间智能首个项目的发布,他们要做的事也逐渐具象化了起来。


但World Labs表示,目前发布的只是一个“早期预览”:


我们正在努力改进我们生成的世界的规模和逼真度,并尝试新的方式让用户与之互动。


参考链接:


[1]https://www.worldlabs.ai/blog


[2]https://mp.weixin.qq.com/s/3MWUv3Qs7l-Eg9A9_3SnOA?token=965382502&lang=zh_CN


[3]https://x.com/theworldlabs/status/1863617989549109328


文章来自于“量子位”,作者“衡宇、西风”。


李飞飞空间智能首秀:AI靠单图生成3D世界,可探索,遵循基本物理几何规则

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0