Roblox 的AI能实时生成任何游戏场景,但玩了才发现根本没有目标

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Roblox 的AI能实时生成任何游戏场景,但玩了才发现根本没有目标
8806点击    2026-05-23 10:15

01 那个问题


:::


什么是游戏?


这个问题比听起来要难。画面逼真不算,操控流畅不算,连开放世界都不算——你还需要有目标,有规则,有「我死了」和「我赢了」的判断。


Roblox 的AI能实时生成任何游戏场景,但玩了才发现根本没有目标


Alberto Hojel 在 X 上发布了这篇研究文章,245K 浏览量


Roblox 研究员 Alberto Hojel 最近发了一篇长文,开头就问了这个问题:视频世界模型什么时候才算"好玩"?


他们花了相当长时间摸索,最后的答案是:光靠模型远远不够,你还需要一张「游戏卡带」


02 AI世界模型的窘境


:::


Roblox 训练了一个 140 亿参数的视频世界模型,24fps 实时生成,能根据你的 WASD 键盘操作实时改变画面。


效果很惊人。从纽约街头切换到喜马拉雅雪山,再切到水下场景,AI 全程实时渲染,物理效果和光照也算自然。


模型把控制拆成四个维度:操作、世界、角色、动态。我觉得这个设计挺有必要——你想换个场景,不用把角色和物理规则一起打翻重来,单独改那一层就够了。


Roblox 的AI能实时生成任何游戏场景,但玩了才发现根本没有目标


Roblox Game Cartridges — 六种不同风格的世界场景实时生成


但他们把这个模型交给公司内部的游戏开发者试用后,问题马上出现了。


玩家不知道自己该干什么。


画面有了。操控有了。世界也有了。但没有血量,没有任务,没有「收集了三个能量罐就能升级」的逻辑。AI 生成的世界是一片美丽的荒野——不是一款游戏。


03 一个古老的启发


:::


他们回头看了游戏史上最早的那批游戏——Zork、Oregon Trail,文字冒险游戏。


「这些游戏几乎没有画面,但有无比丰富的世界和游戏逻辑。它们的本质,是处理文字输入、输出下一个世界状态的简单状态机。」


这个类比帮他们想清楚了一件事:游戏的核心是状态管理,不是画面渲染。AI 视频模型擅长渲染,但它不负责记住你捡了多少颗钻石,也不知道你的血量掉到了多少。


所以问题变成了:怎么让 AI 负责画面,让代码负责逻辑?


04 卡带是什么


:::


答案叫 Game Cartridge(游戏卡带)——一套跑在 Roblox 游戏引擎里的可编程代码框架。


Roblox 的AI能实时生成任何游戏场景,但玩了才发现根本没有目标


基础视频世界模型循环:文字提示词 + 玩家操作 → 视频模型 → 下一帧画面


具体怎么跑?开发者用 Luau 代码写一个状态机——血量多少、背包里有什么、任务进度到哪了,全在里面。一旦触发条件满足,比如捡到了能量罐,引擎就把当前状态打包成文字提示词,喂给视频模型,模型负责画出下一帧。代码管账,AI 管画面,各司其职。


Roblox 的AI能实时生成任何游戏场景,但玩了才发现根本没有目标


Game Cartridge 完整架构:游戏引擎管逻辑,视频模型管画面,VLM 负责感知


但有一个难题:代码怎么知道 AI 生成的画面里发生了什么?玩家到底有没有捡到那个能量罐?


他们引入了第三个角色:VLM(视觉语言模型)作为实时观察员。开发者在代码里定义「视觉触发条件」,比如「玩家是否捡起了能量罐?」,VLM 持续盯着视频模型生成的每一帧,一旦条件满足就回调通知游戏引擎。


逻辑闭环了:代码管状态,AI 管画面,VLM 负责把两者连起来。


他们也试过更简单的版本——直接让 VLM 写提示词回传给视频模型,完全绕过 Roblox 引擎。结果不如预期。原因直接:代码能存变量、跑确定性逻辑,这些 VLM 做不到。


05 他们做了什么


:::


Roblox 的AI能实时生成任何游戏场景,但玩了才发现根本没有目标


完整系统循环:VLM 读取视觉触发条件,回调更新游戏引擎状态


基于这套系统,他们的内部游戏开发者做出了一款叫 Worlds Research Station 的原型游戏,并在本周短暂对外开放。


玩法是协作模式:一名玩家在 AI 实时生成的世界里探索,另一组玩家在「任务控制中心」远程操控场景。探索者需要在这片动态生成的世界里寻找能量罐补充血量,活下去。


Roblox 的AI能实时生成任何游戏场景,但玩了才发现根本没有目标


游戏实际运行画面:AI 实时生成的雪山场景


一位参与开发的工程师说:


「做这个游戏要学会两件事:第一是怎么用 AI 模型本身创造视觉效果,组合提示词构建世界;第二是怎么在模型和 Roblox 游戏引擎之间搭起那座桥。」


这已经很像正常的游戏开发流程了。


06 还差什么


:::


他们也没掩饰局限。坦白说,有两个问题现在确实还没解。


空间控制不够精准。「在角色前方出现一个能量罐」,玩家转身走开,AI 还是在前方不断生成能量罐——它根本不懂你已经转向了。三维空间的理解,还差得远。


Roblox 的AI能实时生成任何游戏场景,但玩了才发现根本没有目标


水下世界场景:AI 生成的光影效果自然,但空间定位仍是挑战


还有一个更微妙的问题:角色会「漂移」。长时间运行后,滑动窗口的 KV 缓存撑不住角色的外貌一致性。转身再回来,脸可能就不太一样了。


这两个问题倒也不意外——视频世界模型本来就不是为了做游戏而设计的。论文里有个细节让我觉得有意思:他们发现代码框架反过来也能成为评测工具。用游戏任务来衡量模型在连贯性、可控性方面的进步,比单纯看 FVD 分数更直观,也更接近真实用途。


游戏,成了世界模型的测试场。


07 接下来


:::


Roblox 的判断是:随着视频世界模型越来越强,游戏引擎的角色会逐渐变化——从管理整个游戏状态,慢慢变成只负责抽象逻辑,把视觉渲染交给 AI。


Roblox 的AI能实时生成任何游戏场景,但玩了才发现根本没有目标


奇幻世界场景:骑乘飞龙,AI 实时渲染翅膀拍打的物理效果


他们用了一个「卡带」的比喻,非常贴切。卡带定义了这段体验里的规则和故事,但世界本身是由 AI 实时画出来的。换一张卡带,就是另一个游戏——同一个模型,完全不同的体验。


我还没想清楚这对不对。「代码管逻辑,AI 管画面」这个分工听起来很整洁,但整洁的分工通常是暂时的——历史上每一次「这部分交给机器,那部分留给人」的约定,最后都被重新谈判过。


让我真正不确定的不是技术问题。而是:当画面彻底交给 AI 之后,一个游戏开发者还剩下什么?是「写卡带的人」——也就是规则设计师?还是会变成:连规则本身,也慢慢被 AI 从玩家行为数据里归纳出来,开发者只是在旁边点头确认?


但有一件事我觉得可以确定:Roblox 用「卡带」这个词,不只是在向老游戏人致敬。他们在暗示一件事——这套系统的价值,将来不在于那个 AI 模型有多强,而在于有多少张卡带被写出来。模型可以被竞争对手复制,但一百万个开发者写的一百万张卡带,不能。


数据来源:

Alberto Hojel (@AlbyHojel),X Article,2026年5月 · https://x.com/AlbyHojel/status/2057193508822536459


文章来自于微信公众号 “深思SenseAI”,作者 “深思SenseAI”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0