告别抽卡、散装工具拼凑!通用AI视频智能体框架UniVA开源

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
告别抽卡、散装工具拼凑!通用AI视频智能体框架UniVA开源
8737点击    2025-11-26 14:37

在AI视频创作过程中,创作者常因频繁切换多种工具而疲惫,导致创作热情消磨。近期,多所高校联合开源的UniVA框架,像一位「AI导演」,能整合多种视频工具,提供从脚本到成片的一站式自动化体验,改变传统「抽卡」式创作,支持多轮交互和主动纠错,还能实现风格迁移、前传创作等功能,为视频创作带来高效与便捷。


在AI视频赛道「卷生卷死」的 2025 年,我们似乎陷入了一个「工具茧房」:为了做一个完美的视频,我们用ChatGPT生成指令,用Nano Banana生成图,用SAM做分割,用Sora或Kling生成视频,发现怎么一个特效也编辑不好,再导进AE做特效……


要完成一个视频内容的创作,需要来回周转、调用大量的工具。


完成这一切后,身心已然俱疲,当初因灵感迸发而生的激动与创作热情,也在这套繁琐流程中被消耗殆尽。


我们不缺强大的模型,我们缺的是一个能把这些工具「串」有机地起来的脑子。


近期新加坡管理大学、罗切斯特大学、伦敦大学学院、新加坡国立大学、香港中文大学、斯坦福大学联合开源的UniVA (Universal Video Agent),尝试解决这一系列的问题!


UniVA不是一个单一的视频生成模型,而是一个全能型通用视频智能体框架。


告别抽卡、散装工具拼凑!通用AI视频智能体框架UniVA开源

论文地址:https://arxiv.org/abs/2511.08521

代码仓库: https://github.com/univa-agent/univa

项目官网: http://univa.online/


它像一位不知疲倦的「AI 导演」,能够听懂你的复杂需求,自主规划路径,统筹调用市面上最强的视频工具,为你提供从脚本到成片的一站式自动化体验。


UniVA 不做「抽卡」工具,它要做的是下一代视频生产的智能引擎。


告别抽卡、散装工具拼凑!通用AI视频智能体框架UniVA开源


拒绝「抽卡」

极致自动、主动交互的创作体验


告别抽卡、散装工具拼凑!通用AI视频智能体框架UniVA开源

Highly Automated, Interactive, Proactive Video Creation


传统的视频AI是「单指令单任务」:你输入一句Prompt,它给你一段视频,如果不满意?只能修改Prompt重新生成(抽卡)。


UniVA彻底改变了这种交互方式,基于Plan-Act(规划-执行)双智能体架构,让UniVA拥有了「思考」的能力。


全自动规划 (Automated Planning) :UniVA的Planner Agent会自动将模糊需求拆解为结构化的分镜脚本,并将任务分发给Executor Agent执行。


主动式服务 (Proactive Assistance) :不仅仅是执行命令,如果你的指令中有歧义,或者生成的中间结果不达标,UniVA 会进行自我反思 (Self-Reflection)。它会主动问你或自动修正错误,而不是把烂摊子丢给你。


多轮交互共创 (Interactive Co-creation) :UniVA能记住多轮对话的上下文。你可以像和剪辑师聊天一样修改视频,让创作变成一场流畅的协作。


Case 1:一句话生成商业大片


指令:生成一个面包店广告,包含揉面特写、撒花瓣慢动作、顾客笑容及 Brand Logo。


UniVA:Planner 智能拆解剧本 -> 批量生成分镜(揉面、撒花、顾客) -> 智能剪辑 -> 植入 Logo


结果:逻辑清晰、包含多个分镜的 20 秒完整商业广告成片。


告别抽卡、散装工具拼凑!通用AI视频智能体框架UniVA开源


告别割裂

全能、统一的工业级生产引擎


告别抽卡、散装工具拼凑!通用AI视频智能体框架UniVA开源

Omnipotent, Unified, Industrial-Grade Video Production Engine


UniVA的野心不止于「生成」,而是要解决工业级视频生产中的核心痛点:一致性与连贯性。


基于MCP (Model Context Protocol) 协议,UniVA构建了一个模块化的工具全家桶,实现了真正的All-in-One:


  • 打破能力孤岛: UniVA将视频理解 (Understanding)、生成 (Generation)、编辑 (Editing)、分割 (Segmentation) 四大能力融为一体。它能先「看懂」视频里的主角是谁,再精准地把他「抠」出来,最后进行「重绘」。


  • 工业级一致性:依靠独创的分层记忆机制 (Hierarchical Memory)(包含全局知识、任务上下文、用户偏好),UniVA 解决了长视频创作中最大的难题——角色这一秒是长发,下一秒变短发。它能精准锚定角色特征 (Entity Anchor),确保多镜头叙事中的人物、物体和风格高度统一。


  • 任意条件生成:无论是文生视频、图生视频,还是基于现有视频改写「前传」或「续集」,UniVA 都能轻松驾驭。它甚至能读取一段视频的风格,然后将其无损迁移到另一段完全不同的视频中。


Case 2:风格迁移,剧情无损


指令:保持这段视频的剧情和动作不变,把它变成中国水墨画风格。


UniVA:视频理解模块提取动作骨架 -> 调用风格化工具重绘 -> 像素级对齐。


结果:完美复刻原视频动态的水墨大片,无闪烁、无变形。


告别抽卡、散装工具拼凑!通用AI视频智能体框架UniVA开源

参考输入视频


告别抽卡、散装工具拼凑!通用AI视频智能体框架UniVA开源

Univa生成的视频


Case 3:无中生有,前传创作


指令:基于这个视频,创作一段它的「前传」。


UniVA:提取角色形象与性格 -> 倒推故事逻辑 -> 生成全新剧情。


结果:人物设定完全一致的全新故事线,实现了真正的「长程记忆」创作。


告别抽卡、散装工具拼凑!通用AI视频智能体框架UniVA开源

参考输入视频


告别抽卡、散装工具拼凑!通用AI视频智能体框架UniVA开源

UniVA生成视频


拥抱未来

完全开源,定义下一代视频Agent生态


告别抽卡、散装工具拼凑!通用AI视频智能体框架UniVA开源

OpenSource & Extensible Ecosystem


下一代视频AI的未来不应被封闭在某个大厂的API墙内,因此,UniVA选择完全开源。


基于MCP的无限扩展UniVA的架构设计是即插即用的。


研究人员集成了Runway或Seedance,明天如果有更强的开源模型出现(比如Sora API),开发者只需编写一个简单的MCP驱动,UniVA就能立刻获得新能力,它是一个会随着社区共同进化的「活系统」。


告别抽卡、散装工具拼凑!通用AI视频智能体框架UniVA开源


为了推动行业发展,研究人员同步开源了UniVA-Bench评测基准,首个针对「视频 Agent」的评测基准,不再只看生成质量,而是全面评估智能体的规划能力、工具调用效率、多步推理准确性。


参考资料:

https://arxiv.org/abs/2511.08521


文章来自于“新智元”,作者 “LRST”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0