视频模型真在推理，还是「表演」推理？港中文等质疑：Chain-of-Frame是真的吗？

8593点击 2025-11-19 09:06

近年来，以 Veo、Sora 为代表的视频生成模型展现出惊人的合成能力，能够生成高度逼真且时序连贯的动态画面。这类模型在视觉内容生成上的进步，表明其内部可能隐含了对世界结构与规律的理解。更令人关注的是，Google 的最新研究指出，诸如 Veo 3 等模型正在逐步显现出超越单纯合成的 “涌现特性”，包括感知、建模和推理等更高层次能力。

这催生出一个与语言模型 “思维链”（Chain-of-Thought, CoT）相对应的新概念 ——Chain-of-Frame（CoF）。其核心思想是：模型通过逐帧生成视频，以连贯的视觉推演方式逐步解决问题。然而，一个关键疑问仍未解决：这些模型是否真正具备零样本推理（Zero-Shot Reasoning）的能力？抑或它们只是在模仿训练数据中出现过的表面模式？

为探究这一问题，来自香港中文大学、北京大学、东北大学的研究团队进行了系统性研究，对 Veo 3 等模型的零样本推理潜力进行了深入评估，并提出了涵盖空间、几何、物理、时间等 12 个推理维度的综合测试基准 ——MME-CoF。

论文题目：Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark
论文链接：https://arxiv.org/pdf/2510.26802v1
项目主页：https://video-cof.github.io/

视频模型真在推理，还是「表演」推理？港中文等质疑：Chain-of-Frame是真的吗？

什么是 Chain-of-Frame（CoF）推理？

“帧链推理” 可以视作语言中 “思维链”（CoT）的视觉类比：

CoT 通过逐步生成文字展现推理路径。
CoF 则通过逐帧生成画面，使场景在视觉上不断演化，从而体现推演过程。

深入分析：12 项推理挑战

为全面揭示视频模型的推理潜力，研究团队设计了 12 个维度的测试任务，对 Veo 3 进行了系统的实证分析。以下选取其中三个典型维度进行说明（其余部分可参阅原论文）。

1. 真实世界空间推理（Real-World Spatial Reasoning）

视频模型真在推理，还是「表演」推理？港中文等质疑：Chain-of-Frame是真的吗？

任务：评估模型在多视角自然场景中保持空间一致性的能力，包括视角变化、方位对齐与参考系稳定性。
发现：能较好处理简单场景下的空间布局与视角切换，局部场景保持合理的空间关系与方向一致。
局限：在复杂视角变化或深度理解任务中表现不稳，常出现空间错位、视角漂移或方向混乱，难以维持全局坐标一致性。

2. 3D 几何推理（3D Geometry Reasoning）

视频模型真在推理，还是「表演」推理？港中文等质疑：Chain-of-Frame是真的吗？

任务：评估模型在三维几何变换任务中的结构理解与连续性表现，如物体折叠、旋转与立体重构。
发现：在单步、简单几何变换中可生成结构完整且视觉连贯的结果，具备初步的三维形态理解能力。
局限：多步或组合性变换中常出现结构错位、自交或崩塌，无法维持几何一致与物理合理性，整体三维推理仍脆弱。

3. 2D 几何推理（2D Geometry Reasoning）

视频模型真在推理，还是「表演」推理？港中文等质疑：Chain-of-Frame是真的吗？

任务：评估模型在平面几何构造与图形操作任务中的准确性与约束保持能力，如点连线、形状移动和构图顺序理解。
发现：在简单几何连接任务中可识别并正确绘制基本关系，呈现初步几何构造能力。
局限：易优先生成视觉上美观的图形而非严格几何符合，常出现连线顺序错误、形状变形或持续绘制超出任务范围，缺乏稳定的几何约束意识。

其他六个推理维度概览

除上述三项外，其余九个维度同样揭示了 Veo 3 的限制：

视觉细节推理（Visual Detail Reasoning）：对被遮挡或微小目标的识别不稳，生成内容易偏离任务要求。
视觉追踪推理（Visual Trace Reasoning）：长时序依赖和规则驱动的动作链容易中断，因果一致性不足。
物理推理（Physics-Based Reasoning）：未能准确遵循能量、力学等物理规律，仅表现为视觉层面的 “模拟”。
旋转推理（Rotation Reasoning）：小角度旋转可近似实现，大角度下结构崩坏。
图表推理（Table & Chart Reasoning）：可模仿局部视觉模式，但缺乏对数值关系的真实理解。
物体计数（Object Counting Reasoning）：在静态场景下表现良好，但动态环境中常出现漏数或重复。
GUI 推理（GUI Reasoning）：能生成点击或拖动动作，但对操作目的与逻辑缺乏认知。
具身推理（Embodied Reasoning）：能识别物体位置与动作，但不遵守环境规则，偶有 “作弊式” 生成。
医学推理（Medical Reasoning）：在放大或观察局部细节时具备表面能力，但无法保持影像逻辑一致，易出现结构性错误。

MME-CoF：首个视频推理基准

研究团队基于上述实证研究整理了 MME-CoF 基准，以标准化方式评估视频模型的推理潜能。其主要特征包括：

首个系统量化视频模型推理能力的框架；
覆盖 12 个维度、59 个精心设计任务；
提示式设计创新：将抽象推理任务（如物理、几何、计数）转化为可视化视频生成挑战，迫使模型通过 “帧链推理” 展现过程性思考。

视频模型真在推理，还是「表演」推理？港中文等质疑：Chain-of-Frame是真的吗？

下表展示了多种视频生成模型在 MME-CoF 基准上的评测结果，评分由 Gemini-2.5-Pro 完成，量表范围为 0–4。研究团队从五个维度进行评估。整体来看，各模型的平均得分普遍低于 2 分。

视频模型真在推理，还是「表演」推理？港中文等质疑：Chain-of-Frame是真的吗？

结论：推理还是表演？

综合 Veo 3 的实证分析，基于对众多视频模型的定量评估结果，研究者得出以下结论：

1. 尚不具备独立的零样本推理能力 —— 模型主要依赖数据模式，而非逻辑推演。

2. 强生成 ≠ 强推理 —— 其表现更多来自模式记忆与视觉一致性，而非概念理解。

3. 注重表象而非因果 —— 模型生成的结果往往 “看起来对”，但逻辑上并不成立。

4. 未来仍具潜力 —— 可作为视觉推理系统的有力补充模块，与逻辑模型协同构建更完整的多模态智能体系。

总体而言，这项研究为学界提供了清晰系统的实证分析和评估框架，揭示了视频生成模型在从 “生成” 迈向 “推理”、实现真正的 “通用视觉模型” 的过程中尚需跨越的关键鸿沟。

文章来自于“机器之心”，作者 “机器之心”。

关键词: AI , 模型训练 , Chain-of-Frame , 视频模型

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md