GPT-5.2 更新的同时,主攻 AI 视频与多媒体生成技术的独角兽 Runway 也来了一波大的:一口气来了 5 个「激动人心的宣布」。

这一波更新之猛,甚至让人觉得他们是不是把过去半年的大招一次性全放了出来。Runway 这一波发布,不仅刷新了视频生成的各项指标,更重要的是,他们正式对外展示了其在通用世界模型(General World Models/GWM)上的野心。
如果说之前的竞争还在于谁生成的视频更清晰、谁的时间更长,那么 Runway 今天似乎想说:「我们不再只是生成像素,我们在模拟世界。」
此次发布的「全家桶」阵容豪华:
更有意思的是,为了庆祝这一时刻,英伟达 CEO 黄仁勋还专门给 Runway 发来了一条特别的节日祝福。
话不多说,下面我们就来看看 Runway 到底要把我们带向一个怎样的未来。
作为 Runway 最新的旗舰视频模型,Gen-4.5 主打的是画面保真度和创意控制能力。
先来看看官方宣传片:

性能表现也很不错:

总的来看,Gen-4.5 的生成能力有以下特点:
1、精确遵循提示
Gen-4.5 实现了极高的物理精度和视觉精确度。物体以逼真的重量、动量和力量移动。液体以正确的动力学流动。表面细节以极高的保真度渲染。而发丝和材料纹理等精细细节在运动和时间中保持连贯。

提示词:A continuous shot with no scene cut.We see water coming out of a garden faucet filling up a rusty metal bucket.Right below the bucket is a perfect folded white paper boat with a small yellow flower.The boat rides down a small river of water and enters a house,ending the journey in front of a broken TV.
2、风格控制和视觉一致性
Gen-4.5 能够处理多种美学风格,从照片级真实感和电影感到风格化动画,同时保持连贯的视觉语言。
提示词:A cinematic scene highlights a young woman with striking features,captured in a close-up that emphasizes her intense gaze.The camera focuses on her face,showcasing her platinum blonde hair.
除此之外,Gen-4.5 现在也支持原生音频生成和原生音频编辑了!

也就是说,你不仅能够生成带有音频的新视频,还能根据自己的需求编辑现有视频的音频。
不仅如此,Gen-4.5 还引入了多镜头编辑功能。借助多镜头编辑,你可以对初始场景进行更改,并将该更改应用到整个视频中。

不过,Runway 也坦言,Gen-4.5 仍有一些视频模型常见的局限:
Runway 表示,这些局限性在他们的世界模型研究工作中尤为重要,因为世界模型需要准确反映在环境中采取行动的结果。他们正在积极研究解决这些问题的方法。
目前,Runway 正在逐步开放对 Gen-4.5 的访问权限,它将在未来几天内向所有人开放。
这一次,Runway 还推出了自家的首个通用世界模型:GWM-1。
据介绍,GWM-1 是基于 Gen-4.5 构建的,但有一个关键区别:它是自回归的。
也就是说,GWM-1 采用了逐帧预测的方式。这也意味着,在任何时刻,用户都可以根据应用场景进行干预,例如在空间中移动、控制机械臂或与智能体交互,模型都会模拟接下来发生的事情。

目前,GWM-1 有三种变体:

Runway 表示:「目前这些是单独的后训练模型。我们正在努力将许多不同的领域和动作空间统一到一个单一的基础世界模型之下。」

他们认为:「世界模型处于 AI 进步的前沿。仅靠语言模型无法解决世界上最棘手的问题 —— 机器人技术、疾病、科学发现等。真正的进步需要模型像人类一样去体验世界,并从错误中学习。而这种试错过程在模拟环境中进行,比在现实世界中进行要快得多。世界模型为通用模拟提供了最为清晰的路径。」
有意思的是,英伟达 CEO 黄仁勋还专门给 Runway CEO & 联创 Cristóbal Valenzuela 发送了一条祝贺视频。(毕竟看到这些依赖英伟达硬件的 AI 公司不断进步,大概没有人比老黄更开心了。)


下面来简单看看 GWM-1 的三种变体。
GWM Worlds
GWM Worlds 是一个用于实时环境模拟的世界模型。
按官方的说法是:「你给模型提供一个静态场景,它就能在你穿梭其中时,实时生成一个沉浸式、无限且可探索的空间,其中包含几何体、光照和物理效果。你可以前往任何地点,无论是真实的还是想象的。你可以化身为任何角色,比如漫步城市的人、飞越雪山的无人机,或是穿梭于仓库的机器人。」
听起来很炫酷,下面是官方的宣传视频:

Runway 表示:让这一切得以实现的关键在于一致性(consistency)。
这很容易理解,当你探索一个环境时,你期望这个世界保持连贯一致。转身时,你身后的事物依然存在。前后走动,你可以回到起点。
而 GWM Worlds 似乎在这方面表现不错,其能在长时间的移动序列中保持这种空间连贯性。而且由于它是一个模拟系统,环境可以做出反应。你可以通过输入指令来定义一个世界的物理规则,这个世界会做出准确的响应。
举个例子,如果你指令 agent 骑自行车,它会稳稳地行驶在地面上;如果你指令其飞行,它就能在天空中自由导航。这对于交互式体验、游戏、可探索的世界以及沉浸式环境都非常有用。
但对于训练 agent 来说,它同样重要。如果你想训练一个 AI 系统在现实世界中进行导航和行动,你需要一个模拟器来对其进行训练。GWM Worlds 可以充当这样的沙盒,一个让 agent 可以探索、犯错并学习的环境。
整体而言,从描述上看 GWM Worlds 与其它类似的前沿世界模型差别不大,但实际表现如何还有待观察。
GWM Robotics
GWM Robotics 是一个基于机器人数据训练而成的世界模型,它能够根据机器人动作生成预测视频序列。

该模型支持反事实生成,可以探索不同的机器人轨迹与结果。其特性包括:
Runway 还发布了一个 GWM-1 Robotics SDK。这是一款面向 Runway 机器人世界模型 API 的 Python SDK,可以基于机器人动作生成视频。该 SDK 支持多视角视频生成和长上下文序列,并提供了与现代机器人策略模型无缝衔接的接口设计。

GWM Avatars
GWM Avatars 是一个由音频驱动的交互式视频生成模型,可针对任意逼真写实或风格化的角色模拟自然的人类动作和表情。
该模型能在说话和倾听时呈现出逼真的面部表情、眼球运动、口型同步和手势动作,并且在长时间对话过程中也不会出现质量下降的问题。

这个模型已经有着广泛的应用潜力,官方列出了一些例子:
GWM Avatars 即将登陆 Runway 网页产品和 Runway API,以便用户集成到自己的产品和服务中。

Runway 今天的更新标志着行业正在跨越一个关键的临界点:从单纯的「视频生成」迈向了真正的「世界模拟」。
无论是 Gen-4.5 对物理细节的把控,还是 GWM-1 对环境与实体的构建,都表明 AI 不再仅仅是模仿像素的排列组合,而是开始理解物理世界的底层逻辑。
正如 Runway 所言,通往 AGI 的道路不能仅靠语言,AI 必须在一个可交互的模拟环境中去体验和学习。英伟达 CEO 黄仁勋的惊喜现身,也隐喻了算力与算法的深度绑定。对于创作者而言,这扇大门已经打开:未来的视频或许不再只是用来看的,更是用来交互的。
参考链接
https://runwayml.com/
https://runwayml.com/research/introducing-runway-gen-4.5
https://runwayml.com/research/introducing-runway-gwm-1
https://x.com/c_valenzuelab/status/1999240966885003295
https://x.com/runwayml/status/1999190924069400583
文章来自于微信公众号 “机器之心”,作者 “机器之心”
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales