
将视频制作门槛降至新低。
上周,我在测试第 17 个 AI 视频工具。
有点麻木了。
过去一年,我试过各种方案:
1、自己手动改:ChatGPT 写脚本,Nanobanana-pro 生成分镜图,即梦把图片变成视频,最后导入剪映配音配乐。一个 30 秒的短视频,折腾两三个小时。
2、AI 一键生成视频的 Agent:崩溃的是 Prompt 根本不知道怎么写,为了让 AI 理解我想要什么画面,我得像写论文一样描述每一个细节:镜头角度、光线方向、色调风格、人物表情……我从内容创作者,变成了提示词工程师。
直到上周,我在即刻看到「博主海辛」推荐了 Medeo,视频效果很丝滑。
于是,我找人要了一个邀请码注册,也想体验下。
当我第一次打开网页,看到界面非常简洁而克制,主界面就一个输入框,干净得像个搜索引擎。

medeo 首页|图片来源:medeo
我随手敲了一句:「一杯手冲咖啡的制作过程,温暖的木质桌面,阳光洒进来,治愈系风格,做一个 30 秒的慢生活短视频」。
点击 Generate。等了三分钟。屏幕上出现了一个完整的视频,配上轻缓的背景音乐,很治愈。

medeo 生成的 30s 手冲咖啡视频|图片来源:medeo
我愣了一下。不是一张图。不是没声音的片段。不用改。是一个完整的、可以直接发布的视频。
而我用了一年 AI 视频工具,从来没有这种体验:通常,「生成完的视频」还要我再改吧改吧。
有点上头。我决定用几个真实需求,测测它的底线在哪。
我设计了三个不同难度的任务,来测试一下 Medeo 的能力边界。
第一个:简单创意视频
我输入一句话:「一只穿着迷你西装的柯基,在东京地铁里通勤上班,日系治愈风格,做一个模仿 vlog 的 30 秒视频。」
Medeo 的处理过程:先理解需求,自动写脚本,设计几个分镜(街道行走→刷卡进站→凝望窗外),调用生图模型生成画面,再用图生视频让画面动起来,最后配上 BGM。
给我的感受:简洁的界面,简单的交互,严格的指令遵循,一句话生成精美的画面。

medeo 生成柯基地铁的视频创作过程|图片来源:medeo
全程不到十分钟。成片效果出乎意料。
画面风格统一,柯基形象在不同镜头里保持一致,旁白语气温柔治愈,BGM 节奏卡得刚刚好。

medeo 生成的 30s 柯基坐地铁视频|图片来源:medeo
用传统流程手工做这个视频?至少一个上午。
第二个:复杂工作流
我想测试它能不能处理更复杂的指令。输入:「我要做伊卡洛斯飞向太阳的希腊神话片段,先用图生图确保人物一致性生成分镜,最后用 sora2 图生视频,然后配英文的史诗感解说,做 30 秒视频」。
这个指令包含几个技术要求:人物一致性、指定模型(sora2)、指定语言和风格(英文史诗感)。
Medeo 没被难住。
它把整个任务拆分成几个子任务,然后逐个完成。
1、编写完整脚本:伊卡洛斯神话概念、分镜设计、英文解说词
2、生成伊卡洛斯角色参考图(蜡翼、希腊风格)
3、使用图生图生成所有分镜画面(确保人物一致性)

medeo 生成的英文史诗动画视频制作过程|图片来源:medeo
4、生成英文史诗风格解说配音
5、使用 Sora2 图生视频转换所有分镜
6、组装时间线:视频片段+配音+BGM
30 秒的悲剧神话,从输入到成片,五分钟。
它先生成伊卡洛斯的角色形象——年轻的少年、蜡制的翅膀,用图生图确保他在每个分镜里长得一样,接着用 sora-2 把静态图变成动态视频:振翅、飞升、靠近烈日、羽翼融化,最后配上浑厚的英文旁白。

medeo 生成的英文史诗动画视频|图片来源:medeo
第三个:专业级广告分镜
我用 Gemini 设计了一个高难度的广告脚本:高端机械腕表广告「时间的心跳」。
15 秒,要求极致微距、机械美学的 3D 特写效果。提示词如下:
「这个高端机械腕表广告「时间的心跳」,帮我生成 15s 的详细分镜,直接输出结果即可。
要求极致微距、机械美学的 3D 特写效果。
示例分镜描述:「纯黑背景。一枚精钢机芯悬浮在画面中央。齿轮缓缓咬合转动,红宝石轴承折射出冷冽的光。镜头穿过游丝摆轮,捕捉每一次精准的震颤。灯光勾勒出工业之美的极致质感」。」

gemini3 生成分镜的过程|图片来源:lmarena
我把完整分镜表贴到 Medeo,点击生成。

medeo 的提示词交互界面|图片来源:medeo
出来的效果让我有点惊讶。
齿轮的金属质感、轴承的光影流转、摆轮的精密震动,都达到了接近专业广告的水准。虽然和真正的 TVC 还有差距,但考虑到这是一个 AI 工具用几分钟做出来的,性价比已经很高了。

medeo 生成的 15s 钟表广告视频|图片来源:medeo
用了一周,我发现了这个产品几个需要迭代的问题。
第一个问题:生成速度受限于底层模型调用
因为 Medeo 需要串联文生图、图生视频、TTS 等多个模型,如果依赖的下游模型卡了,整体等待时间会比较长。
有个流程设计的问题:语音可能会重复生成,原因是依赖的视频生成模型也可能生成语音,会和自己单独生成的语音重复。

medeo 生成的英文史诗动画视频制作过程|图片来源:medeo
还有一个问题,Sora2 出于版权,有些视频无法生成,导致多个分镜合并的时候有遗漏。
当然,这个问题也是有解的,根据我的经验,如果想彻底解决这个问题,同一个任务可能要测试不同家的模型 api,一家的慢了,马上切换到另一家,毕竟同时出问题的概率比较小。
我判断,Medeo 这个团队,技术功底很扎实。
因为当我给出反馈 Medeo 第二次生成时,已经用上了这个策略:当 Sora2 视频生成出现问题的时候,换用了标准的 12V 来重新生成视频,规避了审核问题。
同时,语音生成的问题,通过重新生成也得到解决。

medeo 生成的英文史诗动画视频制作过程|图片来源:medeo
第二个问题:精细编辑能力有限
如果你是专业剪辑师,习惯了 Premiere 或 Final Cut,Medeo 的编辑界面可能会让你觉得不够灵活。
它支持拖拉拽编辑,但功能相对基础。复杂转场、精细音频调整、多轨道叠加,目前还做不到专业剪辑软件的水平。
当然,这可能本来就不是它的目标:它想解决的是「从 0 到 80 分」,不是「从 80 分到 100 分」
对于这个群体,这些限制其实不是问题,用户真正的问题是:它到底能否快速落地我的创意。
而 Medeo 真的在用「一句话 vibe 视频」的方式,把这个问题落地解决。
第三个问题:价格不透明
目前还在内测阶段,靠激活码使用。正式定价还不清楚,但从背后的模型调用成本来看,应该不会便宜。
但也许这也是他们的策略,这类视频生成 agent,可能想在内测期间,通过用户的反馈,确定一个市场可以接受的价格。
总的来说,上面的问题都不是大问题,现在是最好的尝试这类产品的时机:等到产品正式发布,我们就可以第一时间用工具创造价值,进而拿到结果。
在深度体验后,我大概知道谁最适合用这款产品:
1、内容创作者做短视频:一条文案 5 分钟生成专业视频,特别适合小红书、抖音、B 站的日更博主。
2、企业营销做宣传片:产品介绍、活动预告、招聘海报,省下 80% 外包费。
3、教育培训做课程视频:知识可视化,把枯燥讲解变成生动动画。
4、文字创作者做视频内容:擅长写作但不会剪辑?Medeo 帮你把文字变成视频。

适合用 Medeo 的人群和场景|图片来源:smart draw
用 Medeo 一周后,我发现自己的创作状态变了。
以前,每次想做视频,第一反应是:「太麻烦了,算了」。
因为我知道后面有多少坑:写脚本、找素材、调 Prompt、生成图片、图生视频、剪辑、配音、配乐……每一步都可能出问题,每一步都要花时间学。
现在,第一反应变成了:「这个想法有意思,试试看」。
从想法到成片,只需要几分钟。
效果不满意?调整几轮也能搞定。试错成本大幅降低。
说白了,它让我不用再纠结「怎么做」,而是直接想「做什么」。
在社媒看到 Medeo 团队有个观点,我很认同:
「创作者,应该和想法较劲,而不是和工具较劲」。
过去一年,AI 视频工具进步很快,但大多数在解决「单点能力」的问题:更逼真的画面、更流畅的动作、更自然的语音。
Medeo 解决的是「全流程」问题:怎么把这些单点能力串起来,让普通人也能用。
这让我想到一个关于 Notion 的类比。
十年前,想做网站,你要学 HTML、CSS、JavaScript,还要懂服务器部署。现在,用 Notion 拖拖拽拽就能搞定。
AI 视频创作可能正在经历类似的变化。
Medeo 想做的,有点像视频领域的「Notion」:让创作门槛降到最低。
Medeo 的上述设计理念很有趣,但我还想往深了想一层:
为什么 Medeo 要选择这样做?
我试着从以下三个角度拆解:
第一层逻辑:生成能力正在被快速商品化。
两年前,能生成连贯视频的 AI 只有 Runway。现在呢?
可灵、即梦、Pika、Sora2、Veo、Seko、Flova……
每隔几个月就有新玩家入场。
生成质量的差距在快速缩小,单纯比「谁生成得更好」,护城河会越来越浅。
据我的观察,AI 视频类产品,只有集成越来越多「独特」的「专业」的「know how」(如本次推荐的 Medeo),或者切中一个细分的领域(如上次 AI 上新里介绍的 OiiOii),产品才有核心壁垒。
第二层逻辑:用户的真正痛点不在生成,而在「完成」。
这是我自己的血泪教训。
我用 AI 生成了上百条视频片段,真正剪成作品发布的,不到十条。
中间缺失的环节「脚本、分镜、剪辑、配音、调色」,这些才是真正吃时间的地方。
用户要的是 10 分钟做一个 80 分的视频,而不是 80 分钟做一个 100 分的视频。
第三层逻辑:对话式交互是降低门槛的关键。
传统的视频制作工具,不管是 Premiere 还是达芬奇,学习曲线都很陡峭。
就连剪映这种「轻量级」工具,很多人也只会用最基础的功能。
但聊天,每个人都会。
一个明显的趋势是,越来越多的智能语音输入法,如智谱输入法、豆包输入法、以及最近爆火的闪电说,都在试图让语音替代打字,成为人机交互的新入口。
毕竟,无论是语音还是文字,其核心都是人与机器的直接「对话」。
当 Medeo 把所有复杂操作都隐藏在「对话」背后,用户只需描述「我想要什么」,而不用关心「我该怎么做」。这样的设计,正是将使用门槛真正归零。
如果从用户视角看这个产品有什么价值,Medeo 正试图解决 AI 视频生成的「最后一公里」问题。
过去,AI 视频工具能力已经很强。Sora2 能生成惊艳画面,即梦能创造精美图像,各种 TTS 工具能合成自然语音。但把这些能力串起来,变成完整视频,仍然需要大量人工操作和专业知识。
Medeo 做的事情,是把这些能力整合成一个「AI 导演」:你告诉它想要什么,它帮你完成剩下的所有事情。
出于好奇,我顺藤摸瓜查了一下背后的团队:One2X。
他们对产品的愿景和我的感受很一致:当 AI 赋予我们几乎无限的生成能力时,工具的使命是让创作者更专注于创作本身,而不是被工具所限制。


One2X 团队 8 月份即刻招人动态|图片来源:即刻
Medeo 还不完美,但作为内测产品,完成度已经让我有点意外。
对于大多数想做视频但不会剪辑不懂 AI 的人,Medeo 可能是目前最接近「开箱即用」的方案。
说到底,它回答的是一个很实际的问题:
当做视频变得像发微信一样简单,
文章来自于“极客公园”,作者 “金光浩”。
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales