告别抽卡、散装工具拼凑！通用AI视频智能体框架UniVA开源

9856点击 2025-11-26 14:37

在AI视频创作过程中，创作者常因频繁切换多种工具而疲惫，导致创作热情消磨。近期，多所高校联合开源的UniVA框架，像一位「AI导演」，能整合多种视频工具，提供从脚本到成片的一站式自动化体验，改变传统「抽卡」式创作，支持多轮交互和主动纠错，还能实现风格迁移、前传创作等功能，为视频创作带来高效与便捷。

在AI视频赛道「卷生卷死」的 2025 年，我们似乎陷入了一个「工具茧房」：为了做一个完美的视频，我们用ChatGPT生成指令，用Nano Banana生成图，用SAM做分割，用Sora或Kling生成视频，发现怎么一个特效也编辑不好，再导进AE做特效……

要完成一个视频内容的创作，需要来回周转、调用大量的工具。

完成这一切后，身心已然俱疲，当初因灵感迸发而生的激动与创作热情，也在这套繁琐流程中被消耗殆尽。

我们不缺强大的模型，我们缺的是一个能把这些工具「串」有机地起来的脑子。

近期新加坡管理大学、罗切斯特大学、伦敦大学学院、新加坡国立大学、香港中文大学、斯坦福大学联合开源的UniVA (Universal Video Agent)，尝试解决这一系列的问题！

UniVA不是一个单一的视频生成模型，而是一个全能型通用视频智能体框架。

告别抽卡、散装工具拼凑！通用AI视频智能体框架UniVA开源

论文地址：https://arxiv.org/abs/2511.08521

代码仓库： https://github.com/univa-agent/univa

项目官网： http://univa.online/

它像一位不知疲倦的「AI 导演」，能够听懂你的复杂需求，自主规划路径，统筹调用市面上最强的视频工具，为你提供从脚本到成片的一站式自动化体验。

UniVA 不做「抽卡」工具，它要做的是下一代视频生产的智能引擎。

告别抽卡、散装工具拼凑！通用AI视频智能体框架UniVA开源

拒绝「抽卡」

极致自动、主动交互的创作体验

告别抽卡、散装工具拼凑！通用AI视频智能体框架UniVA开源

Highly Automated, Interactive, Proactive Video Creation

传统的视频AI是「单指令单任务」：你输入一句Prompt，它给你一段视频，如果不满意？只能修改Prompt重新生成（抽卡）。

UniVA彻底改变了这种交互方式，基于Plan-Act（规划-执行）双智能体架构，让UniVA拥有了「思考」的能力。

全自动规划 (Automated Planning) ：UniVA的Planner Agent会自动将模糊需求拆解为结构化的分镜脚本，并将任务分发给Executor Agent执行。

主动式服务 (Proactive Assistance) ：不仅仅是执行命令，如果你的指令中有歧义，或者生成的中间结果不达标，UniVA 会进行自我反思 (Self-Reflection)。它会主动问你或自动修正错误，而不是把烂摊子丢给你。

多轮交互共创 (Interactive Co-creation) ：UniVA能记住多轮对话的上下文。你可以像和剪辑师聊天一样修改视频，让创作变成一场流畅的协作。

Case 1：一句话生成商业大片

指令：生成一个面包店广告，包含揉面特写、撒花瓣慢动作、顾客笑容及 Brand Logo。

UniVA：Planner 智能拆解剧本 -> 批量生成分镜（揉面、撒花、顾客） -> 智能剪辑 -> 植入 Logo

结果：逻辑清晰、包含多个分镜的 20 秒完整商业广告成片。

告别抽卡、散装工具拼凑！通用AI视频智能体框架UniVA开源

告别割裂

全能、统一的工业级生产引擎

告别抽卡、散装工具拼凑！通用AI视频智能体框架UniVA开源

Omnipotent, Unified, Industrial-Grade Video Production Engine

UniVA的野心不止于「生成」，而是要解决工业级视频生产中的核心痛点：一致性与连贯性。

基于MCP (Model Context Protocol) 协议，UniVA构建了一个模块化的工具全家桶，实现了真正的All-in-One：

打破能力孤岛： UniVA将视频理解 (Understanding)、生成 (Generation)、编辑 (Editing)、分割 (Segmentation) 四大能力融为一体。它能先「看懂」视频里的主角是谁，再精准地把他「抠」出来，最后进行「重绘」。

工业级一致性：依靠独创的分层记忆机制 (Hierarchical Memory)（包含全局知识、任务上下文、用户偏好），UniVA 解决了长视频创作中最大的难题——角色这一秒是长发，下一秒变短发。它能精准锚定角色特征 (Entity Anchor)，确保多镜头叙事中的人物、物体和风格高度统一。

任意条件生成：无论是文生视频、图生视频，还是基于现有视频改写「前传」或「续集」，UniVA 都能轻松驾驭。它甚至能读取一段视频的风格，然后将其无损迁移到另一段完全不同的视频中。

Case 2：风格迁移，剧情无损

指令：保持这段视频的剧情和动作不变，把它变成中国水墨画风格。

UniVA：视频理解模块提取动作骨架 -> 调用风格化工具重绘 -> 像素级对齐。

结果：完美复刻原视频动态的水墨大片，无闪烁、无变形。

告别抽卡、散装工具拼凑！通用AI视频智能体框架UniVA开源

参考输入视频

告别抽卡、散装工具拼凑！通用AI视频智能体框架UniVA开源

Univa生成的视频

Case 3：无中生有，前传创作

指令：基于这个视频，创作一段它的「前传」。

UniVA：提取角色形象与性格 -> 倒推故事逻辑 -> 生成全新剧情。

结果：人物设定完全一致的全新故事线，实现了真正的「长程记忆」创作。

告别抽卡、散装工具拼凑！通用AI视频智能体框架UniVA开源

参考输入视频

告别抽卡、散装工具拼凑！通用AI视频智能体框架UniVA开源

UniVA生成视频

拥抱未来

完全开源，定义下一代视频Agent生态

告别抽卡、散装工具拼凑！通用AI视频智能体框架UniVA开源

OpenSource & Extensible Ecosystem

下一代视频AI的未来不应被封闭在某个大厂的API墙内，因此，UniVA选择完全开源。

基于MCP的无限扩展UniVA的架构设计是即插即用的。

研究人员集成了Runway或Seedance，明天如果有更强的开源模型出现（比如Sora API），开发者只需编写一个简单的MCP驱动，UniVA就能立刻获得新能力，它是一个会随着社区共同进化的「活系统」。

告别抽卡、散装工具拼凑！通用AI视频智能体框架UniVA开源

为了推动行业发展，研究人员同步开源了UniVA-Bench评测基准，首个针对「视频 Agent」的评测基准，不再只看生成质量，而是全面评估智能体的规划能力、工具调用效率、多步推理准确性。

参考资料：

https://arxiv.org/abs/2511.08521

文章来自于“新智元”，作者 “LRST”。

关键词: AI , 模型训练 , UniVA , 视频智能体

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0