DeepSeek R1面世之后,似乎整个AI行业再次被推入了一个前所未有的加速轨道。
“深度思考”成为模型的标配,Manus这样会干活的Agent也开始介入我们的工作流,GPT-4o的生图功能让每个人都能做出媲美专业的风格。
今天凌晨,Runway的新版本Gen-4又试图解决AI视频的一个关键难题,让AI视频更靠近电影级。
这一切都只发生在短短的2个多月内,很难想象今年AI会发展到什么程度,或许今年将会是GPT-3.5后真正的AI爆发年。
这是一个导演酝酿了十余年却始终未能用AI实现的故事。
在此之前,要用AI打造这部视频,需攻克一系列难题:角色形象的连贯性、情感表达的细腻度、物理效果的真实感、叙事的连续性,以及整体风格的统一性。
直到老牌AI视频生成巨头最新模型Runway Gen-4的到来,这款号称全球首款实现“世界一致性”的模型横空出世,意味着用户可以创建具有一致环境、物体、位置和角色的连贯世界,才让导演的梦想照进现实。
现在Runway Gen-4已向所有付费用户和企业客户开放。Runway团队还透露,用于角色、位置和物体一致性的场景参考功能即将推出。
官网显示,Gen-4的核心亮点包括:
Runway联合创始人兼CEO Cristóbal Valenzuela Barrera在X平台发文称:
我们新一代用于媒体生成与世界一致性的AI模型系列来了。欢迎Gen-4的到来。这个模型非常特别,我们从零开始完全为一个目标打造它:讲述精彩的故事。
如开篇所说,Gen-4的最大亮点在于实现了“世界一致性”——能够在多个场景中精准生成人物、场景和物体,并保持其视觉特征的一致性。
用户只需设定好整体风格和视觉效果,模型就能在保持每一帧独特风格、氛围和电影质感的同时,维持连贯的世界环境。而这一切无需精调或额外训练。
通过结合视觉参考和文字指令,Gen-4能够生成风格、主题、场景高度一致的图像和视频,大幅简化了专业内容创作的流程,用户现在可以制作5秒和10秒的720p高清视频片段。
为了展现Gen-4的潜力,Runway团队精心打造了一系列短片。
开场镜头设定了《The Lonely Little Flame》整个短片的基调、感觉和氛围。在其中一个场景中,有一只臭鼬在寻找什么东西。借助Gen 4,创作者可以直接指导主体穿越场景。
他们为臭鼬设定了两个关键标记点,精确控制其移动路径——先移动到场景一侧,再折返回来,成功营造出“寻找”的动态感。
“就像所有伟大的动画一样,你可以在角色设计和场景移动中看到丰富的表现力,”团队成员解释道,“同一角色在不同场景、不同光照条件下保持一致性,同时能够表现不同的情绪和动作。”
为了制作这个片段,Runway团队的一名成员在几个小时内生成了几百个单独的视频片段,然后将它们编辑成一个连贯的片段。音效是另外添加的。
在接受彭博社的采访时,Runway联合创始人兼CEO Cristóbal Valenzuela Barrera表示,整个过程花了几天时间。
传统的视觉特效制作往往需要耗费大量时间进行建模、渲染和后期调整,Runway Gen-4引入生成式视觉特效(GVFX)技术,能够通过AI驱动的生成能力,大幅缩短了这一过程。
GVFX的技术核心在于其高效性和适应性。
用户只需提供简单的视觉参考或文字描述,例如角色的动作、场景的氛围或特定的特效需求,Gen-4便能在短时间内生成高质量的视频片段。
一个具体的应用案例是Runway团队在演示中展示的“木制玩具”场景。
Runway团队成员拿出一个木制玩具,用手机拍摄照片后导入Gen-4作为参考,同时上传了此前拍摄的纽约街景作为背景。通过一句简单描述:“木制玩具靠在纽约街道的人行道旁”,Gen-4迅速生成了四张图像。
挑选其中一张,挑选一张,并为画面添加了行人从玩具前走过的动画效果。“你可以将这个玩具放在任何地方——山脉中、沙漠里,基本上你想做什么都可以。”
《牛群》是一部扣人心弦的短片,讲述了一名年轻男子在夜晚被追赶穿越一片牛群的故事。仅凭Gen-4和几张简单的图像参考,Runway团队构建了角色的每个镜头以及雾气弥漫的牛群场景。
与此同时,Runway还运用了Act-One技术,进一步增强了画面的表现力与连贯性。
在这部短片中,制作团队特别强调了两大技术亮点:在牛的眼睛中可以看到人物的倒影,以及火焰在草地上蔓延的逼真物理效果。
这个案例展现了Gen-4如何利用一致的角色、物体和环境贯穿多个场景。创作者可以从一个精心设计的角色入手,构建氛围与外观,再生成全新图像,并为不同镜头和视角提供多样变化。
Gen-4对现实物理世界的理解达到了新高度。
《纽约》短片将纽约不同区域的真实照片结合动物的真实照片,清晰地展示了Gen-4对物理、动物重量、它们如何在表面移动以及与环境互动方式的理解。
复杂的创意作品往往从一个简单的构想开始。
视频创作的过程也能像滚雪球一样逐渐壮大,Runway团队以一个音乐视频为例,最初只是一张普普通通的猴子图像,最终发展成一部内容丰富、节奏紧凑的完整音乐视频。
Runway CEO去年曾做出过一个重要论断,“AI正在成为像电力或互联网一样的基础设施。在今天称自己为AI公司,就像在2024年称自己为互联网公司一样。这没有意义,因为人人都在用——每家公司都使用互联网;每家公司都将使用AI。”
正如电力革命不是关于发电厂,而是关于电灯、电视和电冰箱如何改变生活。在他看来,Runway不是一家AI公司,而是一家媒体和娱乐公司。
Runway此前已为美剧《大卫王朝》(House of David)生成影视场景,以及为Puma制作广告等。
影视行业一直是AI视频生成工具攻坚的重要一环。去年9月,Runway与著名电影制作公司狮门影业(Lionsgate)达成合作,这是首个大型电影公司与AI视频模型供应商直接签订的协议。
Runway将利用狮门影业超过两万部影视作品的资料库,包括《饥饿游戏》等知名影片,构建一个定制的AI视频制作和编辑模型。该模型将应用于故事板制作、背景创建和特效制作。
一支好的钢笔不会让作家思考墨水流动的物理原理,优秀的AI创作工具也不应让导演分心于算法细节。
Valenzuela也指出,公司在训练其模型时,更多地参考了电影行业的术语,而不是过去的方式,目的是让使用该模型的电影制作人在编写提示时能够更加自然。
我们后续将带来Gen-4具体的实测,但无论此次实际效果如何,一个不争的趋势是,生成式AI视频生成工具正在颠覆我们所知的电影和电视行业。
梦工场的联合创始人杰弗里·卡森伯格甚至表示,AI可能会消灭动画电影90%的岗位。
传统动画制作流程中的许多环节——中间帧绘制、背景设计、着色润色——可能被AI大幅简化或取代。但与此同时,新的专业岗位正在涌现,AI提示工程师、视觉开发总监、AI-人类协作编导等角色未来也将出现在制作名单中。
能够渲染视频,实现基础生成功能——这是当前AI视频技术的普遍水平,而在Runway Gen-4此次的宣传中,则强调AI能够创作真实故事,制作出既美观又有娱乐性,能够引起情感共鸣的内容。
或许只有当工具变得足够简单,创作者才能真正关注重要的事情——讲述触动人心的故事。
本文来自微信公众号:APPSO (ID:appsolution),作者:appso
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/