视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1
7731点击    2025-04-16 14:42

港中文和清华团队推出Video-R1模型,首次将强化学习的R1范式应用于视频推理领域。通过升级的T-GRPO算法和混合图像视频数据集,Video-R1在视频空间推理测试中超越了GPT-4o,展现了强大的推理能力,并且全部代码和数据集均已开源。


语言模型的推理刚火完,视频AI也开始「卷」起来了。


这次出手的是港中文+清华组合,直接把强化学习里的R1玩法搬到了视频领域,整出了全球首个视频版R1模型:Video-R1


别看它只有7B参数,但它在李飞飞提出的VSI-Bench基准中,竟然超越了GPT-4o!


这波不是简单微调。它背后换上了全新的时间感知算法T-GRPO,再配上图像+视频混合训练、两套高质量数据集,硬是把AI的视频推理能力拉满,让模型不止能「看」,更开始「思考」。


而且,全套模型、代码、数据集——已经开源了!


视频大模型的「推理时刻」,已经开始。


视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1


论文链接:https://arxiv.org/abs/2503.21776

项目地址:https://github.com/tulerfeng/Video-R1


知名博主AK也连发2条推特,推荐这篇论文:


视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1


为什么视频大模型总是「不聪明」?


视频模型看起来「懂点东西」,其实大多都只是表面功夫。真正让它们「动脑子」的地方,反而是它们最弱的短板。


研究团队指出,如果还按照传统GRPO的套路来训练AI看视频,会踩两个坑:


一个是没时间概念,模型完全不知道视频事件的前后逻辑,常常「看图说话」——看到一帧画面就急着给出答案。这种套路最多就是蒙对几次,没法形成真正的因果推理,泛化性差。例如下图所示。


视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1


另一个问题更棘手:训练数据太浅。很多现有视频数据集压根就不适合教模型「思考」,清一色的识别题,几乎没多少需要推理才能解的任务。模型怎么练都只是在死记硬背,根本没机会练大脑。


所以,视频大模型「不聪明」,真不是没潜力,而是没人教对方法。


一套奖励机制,把视频推理训会了


研究团队整了个狠招:奖励机制绑定时间理解


研究人员把旧版GRPO算法升级成了更懂时序的T-GRPO,直接把「考虑时序」这事写进了模型的奖励逻辑里。


方法简单粗暴又高效——模型每次会收到两组输入:一组视频帧随机乱序,一组顺序。只有当它在「顺序」输入上答对题的比例更高,才会获得奖励。


这个机制在「教」模型:别光看图,推理得讲前因后果。哪怕只看了一帧猜对了题,也拿不到分。


在这种严格打分机制下,模型终于明白——视频不是PPT翻页,而是一个个逻辑线索串起来的故事。


靠混合数据打通任督二脉


视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1


视频推理数据太稀缺,模型「练不成」?


研究人员干脆把图像推理数据请进视频训练流程,做了两个关键数据集:一个是图像为主的 Video-R1-COT-165k,专门用来冷启动模型思维;另一个是以高质量视频为核心的 Video-R1-260k,用来精调强化训练。


别以为图片只是打辅助,恰恰相反——它帮AI打好了「逻辑底盘」,学会怎么通用推理;而那些优选过的视频数据,则进一步逼它理解时间逻辑和动态变化。


这套图像+视频混合训练方式,不光解决了数据稀缺,还真让模型形成了从「看图说话」到「视频深思」的进阶跳跃,真正打通了多模态理解的任督二脉。


视频推理的「aha moment」


Video-R1在推理过程中,竟然出现了类似人类的「顿悟时刻」——那种突然把所有线索串起来、恍然大悟的瞬间,也被称为「aha moment」。


比如有一道题是:哪个动作会导致系统能量损耗?另一个是:看完一段室内漫游视频,推理出从书柜走到浴缸的路径。


换做以前的模型,十有八九就是「看一眼」就开答,但Video-R1却能一步步分析时序,进行推理,最终给出逻辑闭环的准确回答。


这不是死记硬背,而是推理真正生效的信号。AI第一次表现出:它不只是识图,而是在「思考」视频里发生了什么。


视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1


视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1


实验结果


视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1


在多个视频推理测试基准上,这个Video-R1-7B模型几乎场场领先,尤其在李飞飞提出的VSI-Bench这一权威评测中,拿下了35.8%的准确率,超越了闭源顶尖大模型GPT-4o。


不仅如此,RL和传统SFT之间的差距也被拉开了。比如同样是7B体量的Qwen2.5-VL-SFT,在测试中表现不佳。反观Video-R1,则在几乎所有场景中都稳定输出,泛化能力一骑绝尘。


视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1


还有一个非常关键的发现:帧数越多,推理越准。当模型输入的视频帧数从16增加到32,再到64,测试表现都跟着上台阶。这说明,对时间线的理解力,正是视频推理模型的决胜点——谁能处理更长的视频,谁就更有未来。


视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1


团队还做了一组消融实验,直接「抽掉」图像数据训练、再试试砍掉时间建模模块,结果都一样——模型性能明显下滑。这直接验证了一件事:Video-R1的每一块设计都打在了点子上。


视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1


不仅如此,从训练动态中也能看出门道。随着强化学习的推进,模型获得的准确率奖励和时间奖励在持续上升,说明它不仅越来越会答题,还越来越懂得「时间逻辑」这回事。


有意思的是,模型在训练早期输出的回答变短了——这是在主动抛弃之前SFT里学到的次优推理模式;但随着训练推进,输出逐渐恢复并稳定,形成了一套更高效、更具逻辑的表达路径。


写在最后


Video-R1用实力证明:强化学习不只是NLP的专利,视频大模型也能玩出推理力。


它不靠「堆料」,靠的是机制设计和训练策略,并且全套开源。


R1的推理范式,正在把下一场AI革命,从文本世界带进了每一帧画面里。


视频推理的时代,真的来了。


参考资料:

https://arxiv.org/abs/2503.21776


文章来自于“新智元”,作者“LRST 好困”。


视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1

关键词: AI , Video-R1 , AI视频 , 模型训练
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

2
微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner