Grok5要来了,马斯克官宣AGI大战:明年大战英雄联盟!电竞圈炸锅,T1战队:李相赫已就绪!Gemini负责人也来了:乐意一战
Grok5要来了,马斯克官宣AGI大战:明年大战英雄联盟!电竞圈炸锅,T1战队:李相赫已就绪!Gemini负责人也来了:乐意一战今天凌晨,“硅谷钢铁侠”马斯克宣战了!他在 X 帖子中提出了一项引来1500多万网友围观的挑战:让Grok 5在2026年以人类视觉和反应速度限制下,对战《英雄联盟》顶级人类战队。
今天凌晨,“硅谷钢铁侠”马斯克宣战了!他在 X 帖子中提出了一项引来1500多万网友围观的挑战:让Grok 5在2026年以人类视觉和反应速度限制下,对战《英雄联盟》顶级人类战队。
Game-TARS基于统一、可扩展的键盘—鼠标动作空间训练,可在操作系统、网页与模拟环境中进行大规模预训练。依托超5000亿标注量级的多模态训练数据,结合稀疏推理(Sparse-Thinking) 与衰减持续损失(decaying continual loss),大幅提升了智能体的可扩展性和泛化性。
一群AI玩狼人杀,GPT-5断崖式领先,胜率达到了惊人的96.7%。 OpenAI的总裁格雷格·布罗克曼转发了这样的一个基准测试:让7个强大的LLMs,包括开源和闭源,玩了210场完整的狼人杀。
又是一场酣畅淋漓的战斗! 宝可梦主播GPT-5在直播间鏖战一小时,成功击败赤爷(Red),公屏瞬间刷满GG(Good Game)。
UCSD等推出Lmgame Bench标准框架,结合多款经典游戏,分模块测评模型的感知、记忆与推理表现。结果显示,不同模型在各游戏中表现迥异,凸显游戏作为AI评估工具的独特价值。
谷歌Gemini 2.5系列大模型技术报告发布,一大重点居然是AI玩《宝可梦》?
推箱子、俄罗斯方块……这些人类的经典怀旧小游戏,也成大模型benchmark了。 o3-pro刚刚也挑战了这两款游戏,而且表现还都不错,直接突破了benchmark上限
各种AI模型在刚问世时,总有一个屡试不爽的“秀肌肉”手段,那就是让自家AI独立游玩某款游戏,用以检验模型的智能程度。
就在刚刚,Gemini 2.5 Pro在直播中通关了《宝可梦蓝》!
宝可梦之后,让大模型玩井字棋又成了一个新的热门挑战。