6款小游戏难倒所有顶级VLM！愤怒的小鸟让它们全军覆没，性能不如随机猜测

8138点击 2025-11-17 09:25

首个系统性评估多模态大模型（VLM）交互式物理推理能力的综合基准来了。

淘天集团算法技术-未来生活实验室团队提出DeepPHY，通过六个极具挑战性的物理模拟环境，揭示了即便是顶尖VLM，在将物理知识转化为精确、可预测的交互控制时，仍存在显著的核心短板。

该论文已被AAAI 2026收录。

近期，基于视觉语言模型（VLM）的智能体在游戏、GUI操作和具身AI等动态交互环境中取得了显著进展。然而，现有基准或侧重于静态问答，或物理模型过于简化，难以全面评估智能体的真实物理推理能力。

为了弥补这一空白，淘天集团未来生活实验室团队提出了DeepPHY。

下面具体来看。

DeepPHY是什么？

DeepPHY概览

尽管VLM在静态图像理解上表现出色，但当它们作为智能体（Agent）进入需要与物理世界交互的动态环境时，其性能往往不尽人意。这暴露出现有基准的局限性：

游戏环境（如《星际争霸II》）：通常提供高级别的观测和动作空间，智能体更多是学习剧情向的游戏机制而非底层物理规律。
GUI环境：动作是离散的、非连续的，不涉及真实世界的物理原理。
具身AI环境：大多聚焦于语义层面的交互（如“拿起杯子”），而物理动态过程（如碰撞、摩擦）被过度简化。

物理推理是世界模型和具身智能的基石，为了深入探究VLM的物理推理能力，淘天未来生活实验室推出了DeepPHY——首个专为此目的设计的综合基准框架，它将六个不同的物理模拟器融合，创造出 VLM 交互式物理推理的考场。

6款小游戏难倒所有顶级VLM！愤怒的小鸟让它们全军覆没，性能不如随机猜测

△DeepPHY基准测试套件，括号中的值显示了性能最佳的VLM成功率

在这些环境中，智能体必须通过持续的交互来感知和理解物理世界的因果关系，从而系统性地衡量其“物理智商”。

在此基础上，研究人员对17个主流的开源与闭源VLM进行了全面的实证研究，揭示了它们在物理交互、规划及环境适应等方面的不足。

DeepPHY基准环境介绍

DeepPHY集成了六个各具特色的物理挑战环境，从简单到复杂，全面覆盖了从基础物理（碰撞、重力）到复杂动力学（多体动力学、绳索张力）的多个维度。

6款小游戏难倒所有顶级VLM！愤怒的小鸟让它们全军覆没，性能不如随机猜测

△DeepPHY中六个环境在不同维度上的挑战侧重分析

PHYRE：在静态的2D物理场景中，通过放置一个红色球，让绿色球最终碰到蓝色球。考验模型的前瞻性规划，能否设计一次动作引发完美的连锁反应。
I-PHYRE：在精确的时刻移除特定灰色障碍物，引导所有红球落入下方深渊。测试模型的时序规划，要求在最佳时间点触发物理变化。
Kinetix：协同控制多部件（马达正反转、推进器开关），让绿色部件接触蓝色目标并避开红色障碍。检验模型的多部件协同控制与动态适应能力，需要根据实时视觉反馈持续调整策略。
台球：在高仿真台球环境 (Pooltool) 中遵循9球规则，将目标球击入袋中。考察对碰撞、旋转（Spin）和摩擦力等高级物理效应的理解与运用。
愤怒的小鸟 (Angry Birds)：设定角度与力度，用弹弓发射不同类型的有限小鸟摧毁所有绿猪。挑战模型对抛物线运动、结构力学和连锁反应的直觉掌握。
割绳子 (Cut the Rope)：切断绳索并利用气垫、泡泡等道具，将糖果送到小怪兽Om Nom口中。是对精确时机、动作序列和多道具协同的综合物理推理考验，被作者视为物理智能的终极考验。

为了让VLM能够专注于物理推理而非目标检测，研究人员对环境的观测和动作空间进行了标准化改造：

增强观测空间：通过在图像上叠加网格或ID标签，清晰标注可交互对象，降低感知负担，从而更聚焦于VLM物理推理智商的评估。
结构化动作空间：将连续或复杂的动作（如精确坐标、角度）转化为离散的、结构化的格式（如选择网格、输出JSON或Python函数调用），使VLM在零样本（zero-shot）设置下也能进行有效交互。

6款小游戏难倒所有顶级VLM！愤怒的小鸟让它们全军覆没，性能不如随机猜测

△DeepPHY中各环境的观测与动作空间转换策略

实验与发现

研究人员在DeepPHY上对17个主流VLM（包括Qwen、Claude、Gemini、GPT系列）进行了全面的零样本评估，结果揭示了当前VLM在物理推理方面存在的普遍且深刻的局限性。

6款小游戏难倒所有顶级VLM！愤怒的小鸟让它们全军覆没，性能不如随机猜测

△本文测评的主流VLM模型

总体性能：与“随机猜”差距不大

在多个环境中，大多数VLM的性能甚至无法超越一个随机执行动作的MOCK基线。

这表明，即便研究人员将动作空间大幅简化，模型依然缺乏对物理世界基本规律的深入理解。

虽然最新的闭源大模型（如GPT-o3、Gemini-2.5-Pro）表现相对较好，但与理想性能和人类水平相比，仍有巨大的鸿沟。

6款小游戏难倒所有顶级VLM！愤怒的小鸟让它们全军覆没，性能不如随机猜测

△PHYRE（上）和I-PHYRE（下）环境中的性能对比。大多数模型成功率提升缓慢，平均尝试次数居高不下

分环境剖析：暴露不同维度的短板

PHYRE&I-PHYRE：模型难以从失败的尝试中有效学习。即使给予多次机会，成功率提升缓慢，表明其无法构建准确的内部物理世界模型来指导后续决策。

Kinetix：随着任务难度增加，模型性能急剧下降。在复杂任务中，额外的视觉标注甚至会成为“认知干扰”，损害性能，这揭示了模型在处理复杂信息时的脆弱性。

Pooltool（台球）：“高成功率”的假象。团队发现，某些模型（如GPT-4o-mini）取得的100%成功率并非源于策略规划，而是在所有交互中返回了相同的答案，完全不懂得利用旋转、角度等高级物理技巧进行布局，这暴露了其策略的浅薄。

Angry Birds&Cut the Rope：与人类玩家差距巨大。这类游戏需要精确的时机把握和多步连锁反应预测。模型的核心弱点在于时空推理能力的缺失。例如，它们无法预测切断绳索后糖果的最佳摆动时机，或小鸟撞击后建筑物的连锁坍塌效果。

6款小游戏难倒所有顶级VLM！愤怒的小鸟让它们全军覆没，性能不如随机猜测

△Pooltool、Angry Birds和Cut the Rope中的性能总结，模型在需要精细策略和时序控制的游戏中，与人类差距悬殊

核心发现：“说得到”却“做不到”的脱节

团队设计了两种提示（Prompt）策略：一种是直接输出动作的VLA模式，另一种是要求模型先预测物理结果再输出动作的WM（World Model）模式。直觉上，WM模式应该能促进模型思考，提升性能。但实验结果恰恰相反：在绝大多数复杂任务中，WM模式反而降低了成功率。

6款小游戏难倒所有顶级VLM！愤怒的小鸟让它们全军覆没，性能不如随机猜测

△Kinetix中不同任务等级的VLA与WM模式对比

6款小游戏难倒所有顶级VLM！愤怒的小鸟让它们全军覆没，性能不如随机猜测

△Kinetix 中，Claude 4.0 Sonnet的定性案例

通过进一步的案例分析，表明了尽管模型能够用语言准确地描述出预期的物理运动（如“机器人手臂将顺时针旋转并展开”），但它生成的动作指令却无法实现这一描述，导致失败。

这一发现揭示了当前VLM的一个根本性缺陷：它们的物理知识是描述性的，而非预测性和程序性的。

模型可以像物理教科书一样“背诵”出正确的物理现象描述，但却无法将这种描述性知识转化为精确的、可执行的控制信号来与物理世界进行交互。

这就像一个人能背诵出所有游泳理论，但一进水里就下沉。

基于此，团队表示希望DeepPHY能成为一个严谨的“试金石”，推动社区开发出更具物理常识、真正理解并能与物理世界交互的下一代AI智能体。

感兴趣的朋友可戳下方链接查看更多细节～

论文链接：https://arxiv.org/abs/2508.05405

开源代码：https://github.com/XinrunXu/DeepPHY

文章来自于“量子位”，作者 “DeepPHY团队”。

关键词: AI , 模型训练 , DeepPHY , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0