用AI短视频「反哺」长视频理解，腾讯MovieLLM框架瞄准电影级连续帧生成

10786点击 2024-03-10 16:19

在视频理解这一领域，尽管多模态模型在短视频分析上取得了突破性进展，展现出了较强的理解能力，但当它们面对电影级别的长视频时，却显得力不从心。因而，长视频的分析与理解，特别是对于长达数小时电影内容的理解，成为了当前的一个巨大挑战。

究其原因，导致模型理解长视频困难的一个主要原因是缺乏高质量、多样化的长视频数据资源，而且收集和注释这些数据需要庞大的工作量。

面对这样的难题，腾讯和复旦大学的研究团队提出了 MovieLLM，一个创新性的 AI 生成框架。MovieLLM 采用了创新性的方法，不仅可以生成高质量、多样化的视频数据，而且能自动生成大量与之相关的问答数据集，极大地丰富了数据的维度和深度，同时整个自动化的过程也极大地减少了人力的投入。

论文地址：https://arxiv.org/abs/2403.01422
主页地址：https://deaddawn.github.io/MovieLLM/

这一突破性的进展不仅提高了模型对复杂视频叙事的理解能力，还增强了模型针对长达数小时电影内容的分析能力，克服了现有数据集在稀缺性和偏差方面的限制，为超长视频的理解提供了一条全新而有效的思路。

MovieLLM 巧妙地结合了 GPT-4 与扩散模型强大的生成能力，应用了一种「story expanding」连续帧描述生成策略，并通过「textual inversion」来引导扩散模型生成场景一致的图片来构造出一部完整电影的连续帧。

用AI短视频「反哺」长视频理解，腾讯MovieLLM框架瞄准电影级连续帧生成

方法概述

MovieLLM 巧妙地结合了 GPT-4 与扩散模型强大的生成能力，构造了高质量、多样性的长视频数据与 QA 问答来帮助增强大模型对长视频的理解。

用AI短视频「反哺」长视频理解，腾讯MovieLLM框架瞄准电影级连续帧生成

MovieLLM 主要包括三个阶段：

1. 电影情节生成。

MovieLLM 不依赖于网络或现有数据集来生成情节，而是充分利用 GPT-4 的能力来产生合成数据。通过提供特定的元素，如主题、概述和风格，引导 GPT-4 产生针对后续生成过程量身定制的电影级关键帧描述。

2. 风格固定过程。

MovieLLM 巧妙地使用「textual inversion」技术，将剧本中生成的风格描述固定到扩散模型的潜在空间上。这种方法指导模型在保持统一美学的同时，生成具有固定风格的场景，并保持多样性。

3. 视频指令数据生成。

在前两步的基础上，已经获得了固定的风格嵌入和关键帧描述。基于这些，MovieLLM 利用风格嵌入指导扩散模型生成符合关键帧描述的关键帧并根据电影情节逐步生成各种指令性问答对。

用AI短视频「反哺」长视频理解，腾讯MovieLLM框架瞄准电影级连续帧生成

经过上述步骤，MovieLLM 就创建了高质量、风格多样的、连贯的电影连续帧以及对应的问答对数据。电影数据种类的详细分布如下:

用AI短视频「反哺」长视频理解，腾讯MovieLLM框架瞄准电影级连续帧生成

实验结果

通过在 LLaMA-VID 这一专注于长视频理解的大模型上应用基于 MovieLLM 构造的数据进行微调，本文显著增强了模型处理各种长度视频内容的理解能力。而针对于长视频理解，当前并没有工作提出测试基准，因此本文还提出了一个测试长视频理解能力的基准。

虽然 MovieLLM 并没有特别地去构造短视频数据进行训练，但通过训练，仍然观察到了在各类短视频基准上的性能提升，结果如下：

在 MSVD-QA 与 MSRVTT-QA 这两个测试数据集上相较于 baseline 模型，有显著提升。

用AI短视频「反哺」长视频理解，腾讯MovieLLM框架瞄准电影级连续帧生成

在基于视频生成的性能基准上，在五个测评方面都获得了性能提升。

用AI短视频「反哺」长视频理解，腾讯MovieLLM框架瞄准电影级连续帧生成

在长视频理解方面，通过 MovieLLM 的训练，模型在概括、剧情以及时序三个方面的理解都有显著提升。

用AI短视频「反哺」长视频理解，腾讯MovieLLM框架瞄准电影级连续帧生成

此外，MovieLLM 相较于其他类似的可固定风格生成图片的方法，在生成质量上也有着较好的结果。

用AI短视频「反哺」长视频理解，腾讯MovieLLM框架瞄准电影级连续帧生成

总之，MovieLLM 所提出的数据生成工作流程显著降低了为模型生产电影级视频数据的挑战难度，提高了生成内容的控制性和多样性。同时，MovieLLM 显著增强了多模态模型对于电影级长视频的理解能力，为其他领域采纳类似的数据生成方法提供了宝贵的参考。

对此研究感兴趣的读者可以阅读论文原文，了解更多研究内容。

文章来自于微信公众号 “机器之心”

用AI短视频「反哺」长视频理解，腾讯MovieLLM框架瞄准电影级连续帧生成

关键词: AI视频 , MovieLLM , 模型训练

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner