星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

8000点击 2025-07-21 10:40

最近测Agent测的非常上头，

而且越来越发现AI在各种专门的领域的垂直能力发展的越来越好了。

那感觉就是，我总能在一个事儿上找到一个合适的Agent辅助我从头到尾完成一个任务。这几天，就有人问我用过那么多Agent，视频的呢，有没有合适的Agent可以用啊？

我就有点坐不住了，kuku我就甩了两个视频过去。

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

没错，两个视频都是用市面上已经在用的视频Agent，只通过文字对话（没有其他操作）生成出来的。

用AI“接手”视频制作全流程这个事儿，现在已经在路上了。

那目前能够做到什么程度呢？或者说这个交互过程是什么样的？甚至是每个Agent擅长什么不擅长什么？我们现在到底在什么场景下能用上这些视频Agent？

带着这些问题，我找来了最近市面上的6个视频Agent产品：

AIpai、星流、纳米AI、美图 RoboNeo、Flowith、Manus

然后用两个非常常见的视频场景来横测它们：

一个是剧情小短片，看它们能不能做好分镜讲好一个小故事
一个是产品广告视频，看它们能不能做出一条能拿去发的“带货素材”

整个过程我会不掺杂任何优化，完全实测，从交互体验、画面、细节到音画匹配，都实打实展开说，看看它们到底能做到什么程度。

文章中所有case的高清素材和提示语我都打包好了，公众号后台回复“视频Agent”就可以啦。

01｜AI剧情导演组

剧情小短片其实可以说难度相当高的一个任务了，不仅考验模型编写剧情故事的能力，还要看对应分镜是否一致、生成图片的人物一致性、场景一致性、配音、旁白、音乐、剪辑等等等等每一步都不可或缺。

因为我要的，就是我用一个提示语的输入得到一个完整视频的输出。

所以这把，我给了6个Agent同样的提示语，

“写一个30秒的小故事，主角是一个穿着宇航服的女孩，在下雨天的便利店门口偶遇了未来的自己。要画面氛围感强，补充完整的剧情，有配音和背景音乐。”

然后我得到了这样6个视频，

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

我觉得完成度还可以，至少每一个都是基本上完成了一组镜头的生成制作，并且搭配了旁白和相应的配乐。

个人来说，会比较喜欢纳米和AIpai生成的两个版本，镜头衔接比较流畅，画面的一致性也比较强，剧情补充的比较完整，配音也很完整，尤其是纳米甚至为了整个故事的完整制作了超出30s的剧情。

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

星流整体是做了一个动画版的视频，画面单个来看都很精美，氛围感很足。但是放在一个故事里的前后几个分镜，就比如说小女孩给未来的自己递伞但是又被退回来后却接了一个女孩抬头看向星空的镜头，和未来的自己转身走远的镜头，看下来会觉得稍微有点不那么连贯。镜头设计这里还可以再加强。

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

美图RoboNeo的30s视频一共做了4个分镜，单个镜头看起来都不错，尤其是最后女孩消失的特效做的还挺有意思，但是因为这四个镜头几乎都是同景别切换，缺少人物动线，就会显得镜头切换稍微有些生硬。

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

Flowith最最最大的问题是，没给我一个成品视频，而是做了一个嵌入视频的网页，而且我并不能在网页中下载视频。而且网页的逻辑是把音频也是嵌在网页中，不是和视频匹配上，所以导致打开网页播放视频后，音频会一直一直循环播放。

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

manus的话，开头结尾镜头和中间镜头的一致性保持的不太好，有点割裂，视频的动态感也不是很强，有点像PPT，同时音频对应的不是很准确，最后话都没说完的视频就结束了。

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

体验下来，几个模型目前共同存在的问题就是，大多数模型生成的分镜数量还是比较少，很少会设计动态比较大的镜头，不足以支撑复杂完整的剧情，人物配音的AI感还是非常强，并且没有匹配场景中生成对应音效的能力，但我相信这些都是各个模型正在或者未来即将优化的方向。

02｜AI产品创意组

接下来，如果我给出一个指定的产品图和logo的话，这6个模型会给出什么样的结果呢？

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

👍

给第一张图片中的雪糕产品制作一个带有旁白和配乐的30秒创意广告片，并在最后一个画面中展示第二张图中的logo，严格保持我给你的图片中雪糕和logo的一致性

然后我们能得到这样6个产品视频：

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

个人觉得完成度最高的是纳米AI这个短片，38秒做出了9个镜头，每一个镜头都和台词对应上了，而且镜头从环境到产品展示到人物品尝到制作过程最后到logo展示（还把logo做成了立体版本非常可爱），属于是一气呵成，非常符合产品宣传片的逻辑了

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

美图RoboNeo的产品视频我觉得做的比剧情视频要好玩很多，会针对产品给出很多艺术化、夸张的画面处理，比如我下面放了几张我另外跑了一个视频的部分截图，把雪糕放在城堡、画展、展览上就很有意思。一点点遗憾就是在不进行中途干预的情况下，还是只会给出4-5个的分镜设计，数量有点少。

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

星流的视频其实也很符合产品展示的逻辑，从场景到产品展示再到细节展示，最后也给logo做了一个动画展示。完成度是很不错，但个人觉得在镜头数量上可以再多一些和单个镜头的动态上可以再大一些。（看完视频只记得星流的巧克力雪糕很奢华hhh）

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

AIpai因为只能上传一张图片，所以结尾自然忽略了logo这一部分，整体上镜头数量会稍微多一点，台词、音乐和画面对应的都很好，但是中间有一些镜头的动态不够，有几个镜头雪糕的一致性和我给的原图相差出入也有一点点大。

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

Flowith的问题和上面剧情视频还是一样，我甚至觉得可能不用它专门做视频而是做一个带视频和其他元素的一个比较完整的网页会更好。

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

Manus。。。。这个开场大热天的镜头还是震惊到我了，一下子没get到啥意思。没有做出台词配音，而且最后两个镜头的雪糕突变成冰淇淋，还有我那么大一个logo去哪了。。。。。

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

03｜交互方式

再来看交互方面，这6个工具各有各的特点。

我个人是非常喜欢AIpai的交互形式，我可以看到角色设定、场景设定、每一个分镜的画面描述、景别并调整镜头运动，同时我可以持续在右侧的对话框中针对一个具体的分镜进行修改再修改，然后再继续完成接下来的制作。每一个阶段都有我的参与和确认，能保证视频按照我想要的方向去制作，

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

这非常的人性化，让我有种感觉：嗯。。。这个产品是做过视频的人做的。

纳米AI以前我都用来做搜索或者做做调研报告，这回没想到的是它的视频Agent功能也这么厉害，而且很简单就是传统的对话框唤起任务，一看就知道怎么用。中间不会暂停等待确认，但是能看到它对于剧情的设计比较完整，调用工具的次数很多但是几乎不会有出错的情况，成功率很高。

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

而且纳米里内置了很多视频创意供我们参考制作，可以提供很多灵感。

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

星流是自由画布+对话框的交互形式，基于星流自身强大的AI图像处理能力再搭配现在Agent，非常适合一套品牌设计流程的使用，可以直接从0开始完成雪糕到logo到产品宣传片的设计，直接在一个对话内就可以完成，不用跳出。

（其实我更愿意称星流为拥有Agent能力的AI图像处理工具，真的强）

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

RoboNeo同样是自由画布+对话框的形式，中间每一个步骤完成后都会进行询问，可以在每个步骤进行修改，然后继续生成。

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

而且美图对于动漫风格的视频生成效果非常好，动作流畅度和画面风格都做的很有意思，这个视频也是一句话生成的，人物一致性和动态都做的很好。

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

Flowith则是节点对话的方式，某一个节点不满意的情况可以重新生成，从中途重新开始下面的任务，这个对于我们已经经过了一轮流程之后突然对前面某一步觉得不好，既想要延续这之前的生成又想要更改这之后的效果的情况，非常的友好。

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

而且还想要重点提一嘴，Flowith每次都会做网页的总结，排版非常的好看精致。

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

manus是对话框唤起任务的形式，中间会确认一点重点步骤，对于一些发生的错误会执行安全检测，缺点就是生成出来的效果真的有点一般，我开的还都是高质量模式。。。

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

04｜实用场景

说实话，这一轮测完之后，我开始意识到，

视频Agent已经不只是一个新鲜的生成工具，它其实已经可以在我真实的日常任务里，替我完成一些具体的事情了。

打个比方，如果你在参加一场宣传片比稿大会，要知道比稿期间时间紧、还没钱拿，

这时要自己写文案、找参考图、抠素材，做动效，结果客户来一句“还是不太有感觉”你又要重来一版。

现在我直接丢一句提示：“来一条30秒的xxx风格广告，（描述想要的细节），重点突出节奏感强、产品视觉有高光、画面情绪饱满。”

之后就能拿出一些demo给甲方看看效果，这中间消耗的时间、人力、金钱成本都低的多得多。

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

又或者，我们可以在某一条剧情短片创作时，把剧情想法告诉这些Agent，让他们先出一个剧情预演版本，有了demo的参考，你会更知道哪里的剧情需要更改，哪里的镜头需要替换。

实际上，我们能够看出目前的视频Agent产出的质量虽然不足以支撑将成片直接投入实际宣传中使用，

但却可以在创意和demo阶段给我提供非常大的助力，

甚至AI的脑子加上我们的自己的脑子，想象出的东西会更加有趣。

星流/美图/Manus...6大主流视频Agent横测，我们在1句成片这条路上走了多远？

在视频Agent的合作下，我们的技术和效率都将得到显著的提高，

这就是，现在常说的 AI不是取代你，而是取代不会用AI的你。

写在最后

这其实不是一篇传统意义上的AI工具测评。

更像是一次我对自己提出的疑问：

如果视频是我表达自己的方式，AI到底能不能成为帮我表达的搭档？

不是听指令的工具，也不是拼运气的生成器，

而是那个能帮我完成片段、填上节奏、回应我情绪、甚至懂得我风格的拍摄搭子。

这一次，我找来了6个不同性格的AI，一起“拍了一场片”，他们都不完美，也有卡壳、有偏题，

但你就是能感觉到，他们真的都在试图懂你。

这很重要，这是以后发展的基石。

这篇文章，可以说是我和这6位AI拍摄搭子，共同完成的一次练习卷子。

在这个过程中，我没有被替代，反而更确定了自己作为创作者的位置。

因为当“拍视频”这件事变得更轻松了、可控了、有反馈了，

表达这件事，就更自由了。

而我也越来越相信：

未来的创作，不是一个人对抗工具，而是一群伙伴，围着你，帮你把脑子里的东西都变成画面。

所以如果你也曾经想拍点什么，我觉得现在正是一个好时机，

一个和AI一起成长的好时机。

文章来自于“卡尔的AI沃茨”，作者“阿汤 & 卡尔”。

关键词: AI , AI产品测评 , AI视频测评 , AI视频

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

OWL

【开源免费】OWL是一个完全开源免费的通用智能体项目。它可以远程开Ubuntu容器、自动挂载数据、做规划、执行任务，堪称「云端超级打工人」而且做到了开源界GAIA性能天花板，达到了57.7%，超越Huggingface 提出的Open Deep Research 55.15%的表现。
项目地址：GitHub：https://github.com/camel-ai/owl

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md