最强o1也刚刚及格！中科大等团队测试视频CoT推理能力：多数模型不及格

5621点击 2025-04-18 09:46

视频理解的CoT推理能力，怎么评？

中科大等团队提出了评估基准——VCR-Bench，里面包含七个独立评估维度的任务框架，每个维度针对性地考察模型的不同能力（如时空推理、因果推断等）。为确保评估的全面性和可靠性，每个维度都设计了100余条高质量样本。

结果发现当前多模态模型在视频复杂推理任务上表现普遍不佳——

最优模型o1仅获得62.8的CoT得分和56.7%的准确率，大多数模型两项指标均低于40分，且闭源模型优于开源模型，大模型优于小模型。

具体来看。

多模态视频理解

在多模态研究领域，视频数据因其丰富的语义信息和全面的场景细节，为构建复杂的思维链（Chain-of-Thought,CoT）推理任务提供了理想载体。

然而，当前多模态研究社区面临一个关键挑战：

缺乏系统化的评估方法来验证模型在视频理解中的CoT推理能力，这严重制约了视频复杂推理任务的研究进展。

针对这一研究空白，中科大等的研究团队创新性地提出了首个面向视频CoT推理过程的多模态评估基准（Benchmark）。

最强o1也刚刚及格！中科大等团队测试视频CoT推理能力：多数模型不及格

该基准通过建立标准化的评估体系，显著提升了视频理解任务中推理能力的验证效度。

此项工作自发布以来获得了学术界的高度关注，

在HuggingFace的4月11日Daily Papers评选中荣登榜单第二位，展现了其重要的学术价值和应用前景。

最强o1也刚刚及格！中科大等团队测试视频CoT推理能力：多数模型不及格

研究者认为，当前视频理解领域的评测基准主要存在两个关键性局限：

首先，现有方法普遍仅关注模型输出的最终结果，而忽视了对推理过程的评估。这种评估方式可能导致”假阳性”现象——即便模型在理解或推理环节存在错误，仍可能通过猜测或巧合获得正确的最终答案。

其次，现有基准缺乏对模型推理能力的多维度解构，无法精准识别模型在复杂推理任务中的能力瓶颈（如视觉感知不足与逻辑推理缺陷的区分）。

这两个局限性严重制约了对视频理解模型真实推理能力的科学评估。而针对这些问题所提出的VCR-Bench，则能够很好的实现视频CoT过程评估，填补现有不足。

最强o1也刚刚及格！中科大等团队测试视频CoT推理能力：多数模型不及格

△图1结果评估的局限性

首个面向视频CoT推理的Benchmark

具体而言，研究团队首先构建了包含七个独立评估维度的任务框架，每个维度针对性地考察模型的不同能力（如时空推理、因果推断等）。

为确保评估的全面性和可靠性，每个维度精心设计了100余条高质量样本，最终形成包含859个精选视频和1034组问答对的大规模数据集。

这种多维度的评估体系能够对模型的综合推理能力进行全面诊断，不仅覆盖了视频理解的各个关键环节，还能有效揭示模型在不同能力维度上的强弱项。

最强o1也刚刚及格！中科大等团队测试视频CoT推理能力：多数模型不及格

△图2不同维度样例

其次，对于数据集中的每一条样本，研究团队不仅提供了标准问答对，还额外标注了经过人工验证的详细CoT推理步骤作为参考标准。

在评估过程中，首先对被测模型生成的推理内容进行结构化解析，将其分解为离散的推理步骤。随后，基于预先定义的能力维度框架，包括视觉感知（perception）和逻辑推理（reasoning）两大类别，对这些步骤进行分类标注。为保障评估的客观性，采用GPT-4o作为自动评分器，通过比对模型生成的推理步骤与人工标注的黄金标准，分别计算步骤类别的召回率（Recall）和精确率（Precision），最终以F1分数作为模型CoT得分。这一评估方案既保证了评分的可解释性，又能有效反映模型在不同推理维度上的真实表现。

最后，采用GPT4o从模型的输出内容中提取出最终结果，并于正确结果进行匹配，从而得到模型在VCR-Bench上推理的结果准确性。

最强o1也刚刚及格！中科大等团队测试视频CoT推理能力：多数模型不及格

△图3VCR-Bench的评估过程

研究者在VCR-Bench上进行了大量实验，验证了其评估体系的有效性，并得到了多条富有启发意义的结论：

当前多模态模型在视频复杂推理任务上表现普遍不佳，最优模型o1仅获得62.8的CoT得分和56.7%的准确率，大多数模型两项指标均低于40分，且闭源模型优于开源模型，大模型优于小模型。

通过对感知能力和推理能力的对比分析发现，大多数测试模型的视觉感知得分都低于其推理能力得分，特别是在性能较差的模型中，这种差距表现得更为显著。这一规律清晰地表明，视觉感知能力的不足已经成为制约多模态模型性能提升的首要因素。

最强o1也刚刚及格！中科大等团队测试视频CoT推理能力：多数模型不及格

△图4不同模型在VCR-Bench中的CoT得分

模型在时空定位（TSG）维度表现最差，多数模型无法正确回答相关问题，显示出处理时空变化任务的严重不足。

最强o1也刚刚及格！中科大等团队测试视频CoT推理能力：多数模型不及格

△图5不同模型在VCR-Bench上的准确率结果

最强o1也刚刚及格！中科大等团队测试视频CoT推理能力：多数模型不及格

△图6TSG任务样例

模型的CoT得分和准确率呈现高度正相关（r=0.89），说明正确有效的CoT的推理步骤能够帮助模型更好的回答对问题。

部分模型如LLaVA系列虽然能达到尚可的准确率，但其CoT得分却明显偏低，深入分析发现这些模型存在指令遵循不充分的问题，其输出内容往往过于简略，缺乏必要的推理步骤；相比之下，Qwen2.5-VL等表现较好的模型能够严格遵循指令要求，生成更加完整、细致的推理过程，因而获得更高的CoT评分。

模型在中等长度视频上表现最佳，短视频和长视频相对较差。长视频因内容复杂度高带来理解挑战；而短视频对于人类标注员而言也较容易理解，能够标注出更有深度的问题，此外一些特殊的维度（TSG）以短视频为主，也是造成短视频性能不佳的原因。这一现象凸显了模型对不同时长视频的适应能力仍需提升。

最强o1也刚刚及格！中科大等团队测试视频CoT推理能力：多数模型不及格

△图7更多实验结果展示。

（左侧：模型在不同时长视频上的准确率；右上：模型在不同实验设置下的准确率；右下：模型CoT得分与准确率的相关性统计）

Paper： https://arxiv.org/abs/2504.07956

Project Page： https://vlm-reasoning.github.io/VCR-Bench/

Dataset： https://huggingface.co/datasets/VLM-Reasoning/VCR-Bench

Code： https://github.com/zhishuifeiqian/VCR-Bench

文章来自于“量子位”，作者“VCR-Bench团队”。

最强o1也刚刚及格！中科大等团队测试视频CoT推理能力：多数模型不及格

关键词: AI , 模型训练 , VCR-Bench , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/