# 热门搜索 #
搜索
无人车团队跨维进军好莱坞!推出电影级视觉AI特效,“新时代皮克斯”
4738点击    2024-07-09 15:20

好莱坞级视觉AI横空出世!一个demo已令网友疯狂~


来,我们直接看视频:



以上来自Odyssey,能够打造好莱坞级山脉、平原、植被、海洋、河流等故事镜头。


其最大亮点在于,实现了对视觉叙事核心层的完全控制,使用户能够完全控制场景的每个生成元素和方面。


这突破了现有视频AI最大的障碍——可控性


看完效果,有网友振臂高呼:


新时代皮克斯!



其他人更是第一时间争当起Beta测试人员。



为什么Odyssey值得关注?接下来一起扒一扒。


好莱坞级视觉AI


Odyssey灵感来自80、90年代开创性的计算机图形研究以及皮克斯的创立故事。


这里涉及两个核心:一是技术,二是故事。


Odyssey要做的事儿,是用人工智能制作电影、电视节目和视频游戏。



在实现这一目标的过程中,人们当前遇到的最大障碍是——AI可控性


对此,Odyssey提出了新的解决方案:


更强大的模型。


他们正在训练4个生成模型,以实现对视觉叙事核心层的完全控制。


这4个单独模型将分别生成,比如高质量几何图形:



生成真实感材质:



生成逼真光影(控制时间、四季变化):



生成可控运动:



总之,单个模型可以实现精确配置场景细节,而结合起来将生成完整的视频或场景。


此外,Odyssey允许用户不断迭代,其生成工作流程将与专业级版本控制相结合。


其创始人提到:


Odyssey已经被设计成可以轻松整合进好莱坞以及其他地区正在使用的现有工作流程或系统中


Odyssey正在围绕这些为高级用户量身定制的模型构建工作流程,并与好莱坞、游戏等领域使用的现有制作工作流程进行集成。


其创建的所有内容都可以在标准化的3D文件格式中进行编辑和导出,例如使用USD格式



不过有一说一,虽然Odyssey看起来效果还不错,但眼尖的网友还是发现了一些小bug


比如00:30处手部细节:



最后,官方还放出了一段工作原理的渲染视频:



关于团队


比较有意思的是,Odyssey的团队与自动驾驶汽车关系颇深。


据创始人透露,其大部分成员花费了数年时间来构建AV(自动驾驶汽车)技术。


比如两位核心创始人。


CEO Oliver Cameron, 60多家DeepTech初创公司的天使投资人,职业早期一直从事自动驾驶汽车领域。



CTO Jeff Hawke,负责Odyssey可定向视觉AI,研究领域涉及机器学习、计算机视觉、机器人等。


他曾在牛津机器人研究所读博期间,开发了一种用于自动驾驶和移动机器人的专家混合视觉系统。


此外,他曾在Wayve(自动驾驶汽车制造商)工作期间创建了行业首个在公共道路上使用深度学习和计算机视觉学习驾驶的自动驾驶汽车。



用创始人Jeff Hawke的一句话来描述:


自动驾驶汽车被教导如何驾驭世界,Odyssey被教导如何生成世界。


至于与AV的关联性,他归结为了3点:


  • AV必须推动视觉AI中的SOTA发布


  • AV扩展性能与真实数据


  • AV需要可扩展、物理精确的模拟系统



鉴于团队在自动驾驶汽车方面的丰富经验,Odyssey自然转向了3D,并生成了多层3D世界。


且通过多个生成模型,Odyssey能够实现细节微调控制



另外,为了打造好莱坞级视觉AI,Odyssey招募了一支由AI研究人员和好莱坞艺术家组成的团队。


研究人员来自Cruise、Wayve、Waymo、Tesla、Meta等,艺术家是《沙丘》、《哥斯拉》、《复仇者联盟》等作品的幕后制作者。




那么你觉得Odyssey的效果如何呢?


参考链接:

[1]https://x.com/olivercameron/status/1810335663197413406

[2]https://x.com/jeffrey_hawke/status/1810435686136197303


文章来自于微信公众号“量子位”,作者 “一水”



关键词: Odyssey , AI , AI视频 , AI电影
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner