
7个AI玩狼人杀,GPT-5获断崖式MVP,Kimi手段激进
7个AI玩狼人杀,GPT-5获断崖式MVP,Kimi手段激进一群AI玩狼人杀,GPT-5断崖式领先,胜率达到了惊人的96.7%。 OpenAI的总裁格雷格·布罗克曼转发了这样的一个基准测试:让7个强大的LLMs,包括开源和闭源,玩了210场完整的狼人杀。
一群AI玩狼人杀,GPT-5断崖式领先,胜率达到了惊人的96.7%。 OpenAI的总裁格雷格·布罗克曼转发了这样的一个基准测试:让7个强大的LLMs,包括开源和闭源,玩了210场完整的狼人杀。
又是一场酣畅淋漓的战斗! 宝可梦主播GPT-5在直播间鏖战一小时,成功击败赤爷(Red),公屏瞬间刷满GG(Good Game)。
UCSD等推出Lmgame Bench标准框架,结合多款经典游戏,分模块测评模型的感知、记忆与推理表现。结果显示,不同模型在各游戏中表现迥异,凸显游戏作为AI评估工具的独特价值。
谷歌Gemini 2.5系列大模型技术报告发布,一大重点居然是AI玩《宝可梦》?
推箱子、俄罗斯方块……这些人类的经典怀旧小游戏,也成大模型benchmark了。 o3-pro刚刚也挑战了这两款游戏,而且表现还都不错,直接突破了benchmark上限
各种AI模型在刚问世时,总有一个屡试不爽的“秀肌肉”手段,那就是让自家AI独立游玩某款游戏,用以检验模型的智能程度。
就在刚刚,Gemini 2.5 Pro在直播中通关了《宝可梦蓝》!
宝可梦之后,让大模型玩井字棋又成了一个新的热门挑战。
还在用搜索和规则训练AI游戏?现在直接「看回放」学打宝可梦了!德州大学奥斯汀分校的研究团队用Transformer和离线强化学习打造出一个智能体,不靠规则、没用启发式算法,纯靠47.5万场人类对战回放训练出来,居然打上了Pokémon Showdown全球前10%!
如果你曾在夜幕降临时,慌忙围出一块勉强能放下一张床的木屋,躲避午夜里徘徊的怪物;如果你曾在那片方块拼接的世界里,复现从自家校园到逶迤阿房的一切建筑;如果你曾沿着蜿蜒的矿道深挖,只为追寻岩浆洞穴里那抹耀眼的蓝绿色……那么,你一定懂得《我的世界》(Minecraft)的魅力!