AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据
7692点击    2025-04-20 22:19

AI 又有「新活」了!


德州大学奥斯汀分校的研究团队用Transformers和离线强化学习训练出了一个宝可梦对战AI智能体,不但打法像人,还能在全球排名中杀进前 10%。


AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据


论文地址:https://metamon.tech/


是的,你没看错,这不是那种靠搜索和规则的AI,而是靠人类历史对战数据「喂出来」的智能体,能自己学着打。


这个宝可梦游戏(全称Competitive Pokémon Singles)有多复杂呢?


在对战平台https://pokemonshowdown.com/上可以看到,即使不考虑策略,光是精灵、动作和物品的数量已经多到了非常夸张的程度(根本翻不完)。


AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据


这意味着,AI要在信息不完全、策略博弈的环境中,把每一步出招、每一次换人,都当成下围棋一样来算。


宝可梦对战融合了国际象棋般的长远策略规划、扑克牌那样充满未知信息和随机性,再加上足以填满一本百科全书的宝可梦、招式、特性和规则。玩家需要精心设计和操控自己的宝可梦队伍,击败对手的所有宝可梦才能获胜。这样一个充满不确定性、状态空间极其庞大的游戏,对AI来说是绝佳又极具挑战性的研究课题。


这种硬核程度,更像是宝可梦版的《星际争霸》。


把「回放」喂给 AI,教它打宝可梦


研究团队开发了一个名为Metamon的平台,它使用来自Pokémon Showdown(以下简称PS)的人类游戏数据集来启用离线RL工作流。


AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据


PS会创建一个日志(过程「回放」),记录每场战斗。


玩家保存日志以供日后研究、与朋友分享有趣的结果,或作为记录官方锦标赛结果的证明。


PS的回放数据已经超过十年——足够的时间积累数百万个重放,比如下面的是10年前2014年的战斗回放。


AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据


PS回放数据集是一个完全的、自然发生的人类数据集合,但这个数据集有个问题——这些数据是以第三方角度收集的,而不是第一人称,训练智能体需要用第一人称视角。


研究团队通过将观众视角分别转换为每个玩家的视角来解锁PS回放数据集。


最终,研究团队搞出一个47.5万局真实人类对战组成的离线强化学习数据集,而且每天还在持续增长中。


AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据


在序列数据上使用离线强化学习算法训练


宝可梦拥有一个非常复杂的状态空间,因此在使用离线强化学习(offline RL)进行训练时,策略模型可能需要具备较大的规模和复杂的结构。


为了使训练过程更加稳定,将这个问题转化为行为克隆(Behavior Cloning, BC)的角度来理解:预测一个人类玩家的动作,实际上是在尝试推理模仿的这个玩家的策略,以及他们对对手的理解。


为了实现准确的预测,模型往往需要较长的上下文输入。


强化学习(RL)在这种场景下的作用,是帮助我们从包含了不同水平玩家(包括竞技和休闲玩家)决策的大规模数据中,筛选出有效信息。


采用的解决方案是actor-critic架构,其中critic的训练方式是使用标准的一步时序差分(temporal difference, TD)更新来输出Q值。至于actor的损失函数,其一般形式如下:


AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据


AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据


接下来,需要为CPS(Competitive Pokémon Simulator)定义观测空间、动作空间和奖励函数。


智能体需要获取足够的信息,以便能够模拟人类玩家的决策,而PS网站的用户界面是一个显而易见的参考点。


不过,由于模型具备记忆能力,因此无需在每一个时间步都提供全部信息。


最终达成了一个折中方案:输入由87个文本词语和48个数值特征组成。


下图展示了数据集中一场回放中的示例。观测只包含对手当前上场的宝可梦。


AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据


仅仅依靠强化学习能打赢人类吗?


传统做法教AI玩游戏,通常会设计规则、模拟状态、设计算法。


但这篇论文反其道而行之:直接喂数据,让它「模仿」人类怎么打。


他们训练了多个大小不同的智能体,从1500万参数的小模型,到2亿参数的大模型。


其中有的通过模仿学习训练(IL),有的则用离线强化学习(RL)进一步优化,还有的则加上「自我对战」的数据做微调。



AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据


可以在Pokémon Showdown上观看各个模型的游戏重播。


最强AI打上全球天梯前 10%


说了这么多,这AI真的能打吗?


研究者将多个版本的模型送上Pokémon Showdown的天梯服务器——这是全世界宝可梦高玩集中的地方。


结果模型居然排进了全球活跃玩家的前10%,并成功登上了排行榜。


在图中展示了Glicko-1阶梯分数及其评分偏差。柱状图标签标注的是GXE(胜率期望)统计数据。


AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据


阶梯分位数(Ladder Percentiles),在 2025年2月至3月期间下载的回放数据中,共识别出14,022个在第1到第4世代活跃的用户名。


以第1世代(Gen1)为例,在这些用户名中,有5,095个参与了 Gen1OU(标准对战规则),其中有2,661个活跃度较高,达到了在最终结果统计时拥有有效 GXE(胜率期望)数据的标准。


AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据



这可能是你第一次听说有人用Transformer打宝可梦,还打赢了人类。


但从技术视角看,这背后是强化学习、模仿学习、大模型训练和数据重构的完整链路。


它不只是一个「有趣的实验」,更像是一次对数据驱动游戏 AI 的深度演练。


下一步,或许可以不是打游戏,而是让AI玩转更复杂的现实任务。


此外,不同的训练策略以及大规模自我对战(self-play)技术,或许能够让智能体带来超越人类表现的突破。


参考资料:


https://x.com/yukez/status/1909993963848622206

https://metamon.tech/

https://arxiv.org/abs/2504.04395



文章来自微信公众号 “ 新智元 “


AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据


AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner