美国视频生成老炮儿，入局世界模型

8501点击 2025-12-13 15:55

世界模型赛道，又有老面孔新鲜入局！

就在刚刚，Runway发布旗下首个通用世界模型GWM-1。

美国视频生成老炮儿，入局世界模型

不止于此，还打包发布了一系列世界模型变体：

模拟真实环境的GWM Worlds；
模拟人物对话的GWM Avatars；
模拟机器人操作的GWM Robotics。
……

而这些通通都是基于最新版Gen-4.5建立的。

是的！Runway这次还把Gen-4.5来了个大升级。

美国视频生成老炮儿，入局世界模型

看来年末大促销的不只有圣诞老人奥特曼，还有好莱坞名导Runway。

话不多说，上实机：

美国视频生成老炮儿，入局世界模型

世界模型全家桶发布

根据官方介绍，GWM-1是基于Gen-4.5构建的，这是Runway最新的视频生成模型。

但和Gen-4.5有所不同的是，GWM-1采用的是自回归架构，它可以根据之前的记忆内容，进行逐帧预测生成。

另外模型支持实时交互控制，包括调整相机姿态、修改机器人操作指令或音频。

美国视频生成老炮儿，入局世界模型

它目前包含三个变体：

1、GWM Worlds：用于实时环境的模拟与探索。

GWM Worlds能够让用户在连贯、有反应的世界中自由移动，而无需手动设计每个空间。

具体来说，用户首先需要为模型提供一个可供参考的静态场景，然后它就会在用户移动过程中，实时生成一个沉浸式、无限且可探索的空间，其中包含几何图形、光照和物理效果。

相比于其它世界模型，普遍只能生成有限长度的帧序列，GWM Worlds不仅能够在智能体移动的同时实时生成新场景，还能保持这些场景元素在长序列移动过程中的空间一致性。

美国视频生成老炮儿，入局世界模型

允许用户通过文本提示改变环境的物理规则，例如当提示词要求智能体骑自行车，场景就会被约束在地面上；反之如果提示飞行，模型就会解除重力约束，实现空中自由导航。

这将有助于训练智能体在真实物理世界的行动，GWM Worlds可以快速搭建出一个能让智能体自由探索、犯错和学习的环境。

此外GWM Worlds也可以通过实时生成虚拟环境，为VR沉浸式体验提供支持。

2、GWM Avatars：能够模拟人类对话。

这是一个由音频驱动的交互式视频生成模型，可以模拟自然的人类表情和动作，无论是写实还是风格化角色。

能够渲染出逼真的面部表情、眼部动作、口型与语音同步，以及自然的手势，在长时间交互中也能保持稳定质量。

美国视频生成老炮儿，入局世界模型

它可以作为生活中的个性化导师，用仿真的互动方式解释复杂概念；也能改变客户服务方式，生成一个永远耐心、随时在线、具有人类表情的数字人，帮助解决用户实际需求。

在面试、谈判等高压场景中，GWM Avatars模拟真实对话，让人们得以在安全环境中练习冲突沟通或演讲示范；而在游戏和互动娱乐领域，也能让NPC变得栩栩如生——做到能倾听、能思考、能对话。

美国视频生成老炮儿，入局世界模型

而GWM Avatars即将正式上线，并提供API，供使用者自行集成到自己的产品或服务中。

3、GWM Robotics：用于机器人操作。

GWM Robotics本质上更偏向于学习型模拟器，并非基于固定规则编程，而是通过学习机器人相关数据形成模拟能力。

美国视频生成老炮儿，入局世界模型

换言之，它是一个在机器人数据上训练的世界模型，会根据机器人动作预测视频序列，主要承担两大任务：

用于策略训练的合成数据增强：

通过GWM Robotics生成合成训练数据，然后从新物体、任务指令和环境变化多个维度扩充现有的机器人数据集。

这些合成数据无需进行昂贵的真实世界数据收集，就能提升已训练策略的泛化能力和鲁棒性。

模拟中的策略评估：

在GWM Robotics里，可直接测试策略模型可行性（如OpenVLA、OpenPi等VLA模型），而无需部署到实体机器人上。

这种方法将比真实世界测试更快、重复性更高，且安全性显著提升，同时还能提供贴合实际的行为评估。

总的来说，GWM Robotics可以有效解决物理硬件的瓶颈问题（成本高、损耗快、场景难复现等），通过模拟环境替代实体硬件场景，可以让训练和评估更高效、更具性价比。

美国视频生成老炮儿，入局世界模型

同时还发布了GWM Robotics的Python软件开发工具包（SDK），该SDK支持多视角视频生成和长上下文序列，旨在无缝集成到现代机器人策略模型中。

OMT

除了世界模型，Runway这次还对Gen-4.5进行了升级更新，新增支持原生音频生成和原生音频编辑。

美国视频生成老炮儿，入局世界模型

比如Gen-4.5现在可以生成逼真的对话、音效和背景音频，把原先的创作内容扩充到更广的故事类型。

在现有音频的编辑上，用户可以根据自己的特定需求以任何方式进行调整。

不仅能用音频生成新视频，还引入了多镜头编辑功能，可以在初始场景中进行任意长度的修改，并实现整段视频的一致变换。

参考链接：
[1]https://runwayml.com/research/introducing-runway-gwm-1
[2]https://x.com/runwayml/status/1999190927814836371
[3]https://techcrunch.com/2025/12/11/runway-releases-its-first-world-model-adds-native-audio-to-latest-video-model/

文章来自于微信公众号 “量子位”，作者 “量子位”

关键词: AI新闻 , GWM-1 , Runway , Gen-4.5

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址：https://github.com/xszyou/Fay

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales