最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格
5453点击    2025-04-18 09:46

视频理解的CoT推理能力,怎么评?


中科大等团队提出了评估基准——VCR-Bench,里面包含七个独立评估维度的任务框架,每个维度针对性地考察模型的不同能力(如时空推理、因果推断等)。为确保评估的全面性和可靠性,每个维度都设计了100余条高质量样本。


最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格


结果发现当前多模态模型在视频复杂推理任务上表现普遍不佳——


最优模型o1仅获得62.8的CoT得分和56.7%的准确率,大多数模型两项指标均低于40分,且闭源模型优于开源模型,大模型优于小模型。


具体来看。


多模态视频理解


在多模态研究领域,视频数据因其丰富的语义信息和全面的场景细节,为构建复杂的思维链(Chain-of-Thought,CoT)推理任务提供了理想载体。


然而,当前多模态研究社区面临一个关键挑战:


缺乏系统化的评估方法来验证模型在视频理解中的CoT推理能力,这严重制约了视频复杂推理任务的研究进展。


针对这一研究空白,中科大等的研究团队创新性地提出了首个面向视频CoT推理过程的多模态评估基准(Benchmark)。


最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格


该基准通过建立标准化的评估体系,显著提升了视频理解任务中推理能力的验证效度。


此项工作自发布以来获得了学术界的高度关注,


在HuggingFace的4月11日Daily Papers评选中荣登榜单第二位,展现了其重要的学术价值和应用前景。


最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格


研究者认为,当前视频理解领域的评测基准主要存在两个关键性局限:


首先,现有方法普遍仅关注模型输出的最终结果,而忽视了对推理过程的评估。这种评估方式可能导致”假阳性”现象——即便模型在理解或推理环节存在错误,仍可能通过猜测或巧合获得正确的最终答案。


其次,现有基准缺乏对模型推理能力的多维度解构,无法精准识别模型在复杂推理任务中的能力瓶颈(如视觉感知不足与逻辑推理缺陷的区分)。


这两个局限性严重制约了对视频理解模型真实推理能力的科学评估。而针对这些问题所提出的VCR-Bench,则能够很好的实现视频CoT过程评估,填补现有不足。


最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格

△图1结果评估的局限性


首个面向视频CoT推理的Benchmark


具体而言,研究团队首先构建了包含七个独立评估维度的任务框架,每个维度针对性地考察模型的不同能力(如时空推理、因果推断等)。


为确保评估的全面性和可靠性,每个维度精心设计了100余条高质量样本,最终形成包含859个精选视频和1034组问答对的大规模数据集。


这种多维度的评估体系能够对模型的综合推理能力进行全面诊断,不仅覆盖了视频理解的各个关键环节,还能有效揭示模型在不同能力维度上的强弱项。


最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格

△图2不同维度样例


其次,对于数据集中的每一条样本,研究团队不仅提供了标准问答对,还额外标注了经过人工验证的详细CoT推理步骤作为参考标准。


在评估过程中,首先对被测模型生成的推理内容进行结构化解析,将其分解为离散的推理步骤。随后,基于预先定义的能力维度框架,包括视觉感知(perception)和逻辑推理(reasoning)两大类别,对这些步骤进行分类标注。为保障评估的客观性,采用GPT-4o作为自动评分器,通过比对模型生成的推理步骤与人工标注的黄金标准,分别计算步骤类别的召回率(Recall)和精确率(Precision),最终以F1分数作为模型CoT得分。这一评估方案既保证了评分的可解释性,又能有效反映模型在不同推理维度上的真实表现。


最后,采用GPT4o从模型的输出内容中提取出最终结果,并于正确结果进行匹配,从而得到模型在VCR-Bench上推理的结果准确性。


最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格

△图3VCR-Bench的评估过程


研究者在VCR-Bench上进行了大量实验,验证了其评估体系的有效性,并得到了多条富有启发意义的结论:


  • 当前多模态模型在视频复杂推理任务上表现普遍不佳,最优模型o1仅获得62.8的CoT得分和56.7%的准确率,大多数模型两项指标均低于40分,且闭源模型优于开源模型,大模型优于小模型。


  • 通过对感知能力和推理能力的对比分析发现,大多数测试模型的视觉感知得分都低于其推理能力得分,特别是在性能较差的模型中,这种差距表现得更为显著。这一规律清晰地表明,视觉感知能力的不足已经成为制约多模态模型性能提升的首要因素。


最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格

图4不同模型在VCR-Bench中的CoT得分


  • 模型在时空定位(TSG)维度表现最差,多数模型无法正确回答相关问题,显示出处理时空变化任务的严重不足。


最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格

图5不同模型在VCR-Bench上的准确率结果


最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格

△图6TSG任务样例


  • 模型的CoT得分和准确率呈现高度正相关(r=0.89),说明正确有效的CoT的推理步骤能够帮助模型更好的回答对问题。


  • 部分模型如LLaVA系列虽然能达到尚可的准确率,但其CoT得分却明显偏低,深入分析发现这些模型存在指令遵循不充分的问题,其输出内容往往过于简略,缺乏必要的推理步骤;相比之下,Qwen2.5-VL等表现较好的模型能够严格遵循指令要求,生成更加完整、细致的推理过程,因而获得更高的CoT评分。


  • 模型在中等长度视频上表现最佳,短视频和长视频相对较差。长视频因内容复杂度高带来理解挑战;而短视频对于人类标注员而言也较容易理解,能够标注出更有深度的问题,此外一些特殊的维度(TSG)以短视频为主,也是造成短视频性能不佳的原因。这一现象凸显了模型对不同时长视频的适应能力仍需提升。


最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格

△图7更多实验结果展示。


(左侧:模型在不同时长视频上的准确率;右上:模型在不同实验设置下的准确率;右下:模型CoT得分与准确率的相关性统计)


Paper: https://arxiv.org/abs/2504.07956

Project Page: https://vlm-reasoning.github.io/VCR-Bench/

Dataset: https://huggingface.co/datasets/VLM-Reasoning/VCR-Bench

Code: https://github.com/zhishuifeiqian/VCR-Bench


文章来自于“量子位”,作者“VCR-Bench团队”。


最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/