上上周我们一起测试了六款视频Agent,
Agent们手里有一堆音频、视频、剪辑、生图等工具,由他们决定调用顺序成片
上周我们又一起测试了Manus的Wide Research,
听起来像是套娃,Agent for Agents,作为主Agent的Manus可以并行启动100个子Agent,它们同时完成搜索、总结、数据生成等任务。
那如果把这两个概念结合起来,AI视频制作的 Agent for Agents 能一次性出多长的视频呢?
以下视频来源于
360公司
9分34秒 = 574秒 = 115个视频片段 = 29,996,401个Tokens
所以接下来内容我会手把手教你搭建这套智能体,它的名字是「多智能体蜂群」(🔗 sea.n.cn),以及这个新的Agent流做出来的视频能满足哪7大使用场景。
Here we go!
先上结论,
跟隔壁的Dify相比,多智能体蜂群把迭代(while)和条件分支(if)节点封装成了新的智能体,然后其他节点统统用智能体代替。
Dify界面:
多智能体蜂群界面:
我琢磨了五六七下,决定还是直接从一个完整的智能体入手会更易懂。
拿放大镜靠近看看,
条件智能体:主要是用来判断不同的情况,比方我有时候想直接生成视频片段,有时候想让Agent先生成脚本、分镜、再到视频片段。提示语主体我都是直接AI优化生成的,输入“/”的话还可以引用所有上游节点的输出。
专家智能体:主要用来完成某件事,比方可以搭配视频类MCP完成视频生成、音频生成和视频剪辑。目前有63个大模型和44个MCP Servers可以选择。
但每次生成10s,1分钟的视频需要运行6次,等待时间很长,
迭代智能体就是为了解决这种情况的,
从设计上看,迭代智能体会将上一步输入转换成二维数组。用人话说就是将大段的长文本切割加工成多组提示语,这些提示语会同时生成,减少等待运行的时间。
Agent for Agents 并不意味着控制度会降低,
在构建的过程,流程节点多了之后我就想在中间能实时观测模型的输出,或者给模型输入场外信息,形式可以是单选多选,或者图文文件等等,
反正不写超长提示语就行。
多智能体蜂群里就内置了18个UI模版和组件,我完全可以看到中间的脚本输出后主动选择是否重新生成。
OK啊,现在我们都有一个自己从零搭建出来的多Agent蜂群了。
热知识,构建好的多Agent在对话过程中如果生成失败是会退回所有积分的,豪到没边了。。。
冷知识,Agent也是有等级划分的,
L1就是光聊天不干活、L2就是单工作流智能体,流程相对固定;
L3级就是Manus们,推理模型+工具 = 模型在各种任务上自由组合能力完成目标;L4的话就是今天我们一起做的多智能体蜂群,把不同类型的L3智能体组合起来完成复杂任务。
坦白说目前多智能体蜂群做出来的视频在分镜设计、剪辑节奏上还比不上我们使用传统工作流和AI结合的做出来的效果,
但是故事完整度、画风一致性、以及在AI视频领域里的超长时长,也让它在现阶段就能独立完成一些视频制作任务,而且重要的是它速度快,并且朝着又快又好的方向在走。所以这次,我总结出了7个使用场景:
先从简单的开始,用常见的提示语让蜂群自己脑补:
帮我生成一个科普类型的动画,要求用简笔画的漫画风格形式讲解中国古人眼里的各种山的形式,其中包括有”峰“”峦“”岳“”嶂“”丘“”岭“,比例是16:9,要求风格一致,
也可以直接丢完整的故事,不需要指定画风啥的。
一个写实的小橘猫的冒险故事。用橘猫的第一人称自述的形式来作为故事大纲,故事总是充满自拍,用小猫的自拍镜头来表达画面,故事如下:
“好的,这是一个以那只猫咪为主角,带有原文语气的纯文字故事,结尾充满自由:
朋友,当你看到这里的时候,我已经变成加勒比海上的一名海盗了。这里没有勾心斗角,海盗也没有理想,因为海盗的一生是放荡不羁爱自由的。
那天,我正蹲在码头的木桩上晒太阳,爪子时不时拨弄一下水面上的倒影。一艘老旧却威风凛凛的木船停靠在不远处,船帆破旧却迎风招展,旗帜上画着一只带着眼罩的猫头。我的胡须动了动,心里有个小小的声音在说:“嘿,这不就是我一直想去的地方吗?”(太长了我放四分之一)
结构化类型的提示语也能起作用,可以通过分段的形式指定整个视频的走向。
片名:《一尺方寸,两代春秋》 (A Foot of Space, Two Generations of Time)
主题: 在光与影之间,操纵的是皮偶,讲述的是人心,传承的是不灭的星火。
形式: 采用双线叙事的温情纪录片,一条线是幕后的制作与传承,另一条线是幕前的光影传奇。
故事梗概:
主角是一位年迈的皮影戏班主,和他十几岁的孙女。
幕后·雕刻 (造物): 阳光透过窗棂,照在老师傅布满皱纹的手上。他正在一块驴皮上雕刻新的皮影人物——孙悟空。刀尖游走,线条流畅。他一边刻,一边给旁边的孙女讲述这个人物的故事。孙女用手机记录下这一切。旁白(孙女稚嫩的声音):“爷爷说,每一刀下去,都要想着他将来要怎么打,怎么笑。这不叫刻皮子,叫给他注入魂儿。”
幕前·排演 (入戏): 晚上,爷孙俩在后台的白幕后排练。爷爷操纵着孙悟空,孙女操纵着白骨精。光影下,两个皮偶打得难分难解。镜头在幕前(观众视角,看到的是完整的神话故事)和幕后(爷孙俩默契的配合和投入的表情)之间切换。
现实·困境 (黄昏): 一场正式的乡村演出。台下观众寥寥无几,多是老人。年轻人们低头玩着手机,手机屏幕的光与幕布上的光形成讽刺的对比。演出结束,掌声稀稀拉拉。后台,爷爷默默地收拾着皮影箱,眼神落寞。孙女看着他,心里不是滋味。
传承·新光 (破晓): 孙女把自己用手机拍的爷爷雕刻、表演的视频,配上节奏感强的现代音乐,剪辑成了一个酷炫的短视频发布到网上。视频意外地火了,很多人留言说“太酷了”、“原来皮影可以这么帅”。
做音乐MV的技巧就是通过画面和视频分开描述,完成单个镜头的描述。这样就可以把歌词跟画面一一对应上
《夏天的风》文艺MV分镜脚本(详细描述)
a.晨曦初照,窗外微风
画面描述:清晨的第一缕阳光透过窗帘缝隙洒进房间,阳光柔和、温暖。窗外,翠绿的树叶在微风中轻轻摇摆,空气中弥漫着早晨的清新气息。镜头慢慢推进,焦点对准女孩的脸庞,她在睡梦中微微皱眉,似乎有些不舍离开梦境。随着她的眼睛缓缓睁开,阳光恰好照亮了她的眼眸。她轻轻地伸了个懒腰,嘴角泛起一丝微笑。她的目光穿过窗外的景色,心中浮现出某种温柔的回忆。房间里安静,时间仿佛在这一刻静止。
视频描述:镜头从房间的一角开始,慢慢拉近女孩的床铺,阳光从窗户射入,柔和的光线打在女孩的脸上。随着镜头的推进,女孩从睡梦中醒来,动作流畅自然,缓慢的节奏给人一种温暖的感觉。光与影的交织营造出清晨的宁静氛围,女孩的眼神从迷离到清醒,带着一丝微笑,展现出她内心的平和与安宁。
为蜜雪冰城做一条青提系列的原创创意有趣广告视频,以蜜雪冰城的雪王ip为主,贯穿主线,表达夏日缤纷与青提、凉爽。
放这个case完全是因为还可以做出直播间的感觉。。。
这是一个第一人称vlog视角的视频,主角是秦始皇嬴政穿越到现代城市上海,骑着北极熊在东方明珠塔下直播,它一边直播一边喝着蜜雪冰城的奶茶,突然上海的东方明珠塔尖射出一道毁灭般的激光,吓得秦始皇骑着北极熊四处逃窜,就在危机时刻,秦始皇骑着北极熊掏出安卓牌子的智能手机在东方明珠塔下自拍,快门按下的刹那,东方明珠塔突然坍塌化作一片废墟,结尾是秦始皇戴着安全帽穿着皇帝的衣服在废墟中重新修建东方明珠塔,北极熊也戴着安全帽在工地运送砖块钢筋等建筑材料,整个画面是第一人称vlog的视角
AI视频,
尤其是最近这两个月,
从模型到 Agent,一波接一波地更。
生成体验更舒适了、成片更快了、玩法也更多了。
虽然它还远没到“完美”的程度。
哪算是现在我最喜欢的几个模型,也有镜头不顺、节奏感偏弱、配音发涩的问题。
我心里清楚他们还会变强,还会越来越强。
所以我根本没时间纠结瑕疵,
因为版本们就在一天一个样地更新,
剪辑、旁白、情绪、构图、动态生成,这些都在不断改进。
相比哪里不好,我更关心可以做出什么。
距离做到完美的那一天没那么快。
但我也知道,
它真的在靠近了。
文章来自于微信公众号“卡尔的AI沃茨”,作者是“AI沃茨”。
【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务,堪称「云端超级打工人」而且做到了开源界GAIA性能天花板,达到了57.7%,超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址:GitHub:https://github.com/camel-ai/owl
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用:https://aicomicfactory.app/
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales