ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
AI一键生成“类黑神话”!腾讯推出游戏视频模型GameGen-O,业内人士:游戏工作室的ChatGPT时刻
3171点击    2024-09-14 15:09


什么?大模型也许很快就能生成《黑神话·悟空》这种3A大作了?!


直接看一则demo,《西游记》这就上桌:



搭配BGM,是不是有内味儿了(doge)。


这就是腾讯近日推出的GameGen-O,一个专门生成开放世界视频游戏的Transformer模型。


简单说,这个模型能够模拟各种游戏引擎功能,生成游戏角色、动态环境、复杂动作等等。



当然也支持交互控制,用户可以通过文本、操作信号和视频提示来控制游戏内容。



消息一公布就在????(前推特)开启了刷屏模式,网友们开始列队尖叫:



游戏工作室Azra Games的联创兼CTO更是直言:


GameGen-O将成为游戏工作室的ChatGPT时刻




“游戏工作室迎来ChatGPT时刻”


具体来说,这个项目由腾讯光子工作室(曾打造出和平精英)联合港科大、中国科大推出。



推测想要做的事儿,是用AI模型替代一些游戏开发环节。比如目前公布的游戏角色创建、游戏环境生成、动作生成、事件生成以及各种交互控制。


下面我们挨个预览一波~


现在,用GameGen-O就能直接生成各种角色了,西部牛仔、太空人、魔法师、警卫……一键生成。



经费不足造成真实取景困难,也有plan B了!



给队友展示骚操作,各种人称视角的动作生成也能轻松拿捏。



游戏必备环节——给玩家偶尔上亿点难度,海啸、龙卷风、火灾事件这就安排(doge)。



与此同时,GameGen-O也支持开放域生成,即不限风格、环境、场景那种。



最后,用文本、操作信号和视频提示就能实现交互,向左、向右、走向黎明……



好家伙,谁都知道游戏开发有多烧钱,这下,普通玩家也能用GameGen-O制作游戏了。


一位AI架构师网友更是断言:



用GPT-4o标注数据


为了开发这个模型,团队自述主要进行了两项工作


  • 构建专有数据集OGameData,采用GPT-4o标注数据
  • 经历两个阶段的训练过程


具体来说,团队首先提出了一个数据集构建管道



团队从互联网上收集了32,000个原始视频,这些视频来自数百款开放世界游戏,时长从几分钟到几小时不等,类型包括角色扮演、第一人称射击、赛车、动作益智游戏等。


然后由人类专家对这些视频进行识别和筛选,最终得到大约15,000个可用视频。


下一步,将筛选后的视频通过场景检测技术切割成片段,并对这些视频片段进行基于美学、光流和语义内容的严格排序和过滤


接下来使用GPT-4o对超过4,000小时的高质量视频片段进行细致的注释,这些片段的分辨率从720p到4k不等。


为了实现交互控制性,团队从注释后的数据集中选择最高质量的片段,并进行解耦标签(decoupled labeling)。


这种标签设计用于描述片段内容状态的变化,确保训练模型的数据集更加精细和互动。


对于这种人类专家和GPT-4o一起工作的形式,有网友认为:


这是递归自我改进(recursive self-improvement)的一种形式。(人类专家确保了注释的准确性,并通过反馈机制帮助GPT-4o进行自我改进)



完成数据准备工作后,团队经过基础预训练+指令调整两个过程来训练GameGen-O。



基础训练阶段,GameGen-O模型使用了一个2+1D VAE(变分自编码器,如Magvit-v2)来压缩视频片段。


为了使VAE适应游戏领域,团队对VAE解码器进行了特定领域的调整。


团队采用了不同帧速率和分辨率的混合训练策略,以增强跨帧率和跨分辨率的泛化能力。


另外,模型的整体架构遵循了Latte和OpenSora V1.2框架的原则。


通过使用掩码注意力机制,让GameGen-O具备了文本到视频生成视频续集的双重能力。


团队介绍称:


这种训练方法,结合OGameData数据集,使得模型能够稳定且高质量地生成开放领域的视频游戏内容,并为后续的交互控制能力奠定了基础。


在这之后,预训练的模型被固定,然后使用可训练的InstructNet进行微调,这使得模型能够根据多模态结构指令生成后续帧。



InstructNet主要用于接受各种多模态输入,包括结构化文本、操作信号和视频提示。


在InstructNet分支的调整过程中,当前内容被用作条件,从而在当前片段内容和未来片段内容之间建立了映射关系,这在多模态控制信号下进行。


造成的结果是,在推理时,GameGen-O允许用户基于当前片段不断生成和控制下一个生成的片段


目前,GameGen-O已创建GitHub官方仓库,只不过还没来得及上传代码。



感兴趣的童鞋可以先收藏一波了~


项目主页:

https://gamegen-o.github.io/


GitHub官方仓库:

https://github.com/GameGen-O/GameGen-O/


参考链接:

[1]https://x.com/_akhaliq/status/1834590455226339492

[2]https://x.com/8teapi/status/1834615421728948581?s=46


文章来自于微信公众号“量子位”,作者“一水”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner