目前AI短剧还在“有没有”的阶段,但普通观众在乎的是“好不好看”。
在过去,一个普通人不太可能真正有机会去证实自己在影视创作上的天分。但如今AI短剧带来的最大变化,就是让每个人都真正有了成为编剧、导演的机会了,只需要极低的金钱成本,极低的试错成本,和提供给AI的无穷创意和精确指令。
3月份以来,AI和短剧再次成为视听行业的核心关键词。在近日举办的第十二届中国网络视听大会上,国家广播电视总局网络视听司司长冯胜勇在论坛致辞中表示“提出一个问题往往比解决一个问题更重要”的时代来临。
无论是爱奇艺、芒果TV、腾讯视频等综合视频平台,还是抖音、快手、哔哩哔哩,AIGC、微短剧+几乎是所有行业大佬的核心议题,无可置疑的风口中央。
在Sora发布后,以即梦、快手为代表的国产AI视频大模型在短短一年多时间里加速,经历了从“跟跑”到局部领先的过程。
而从内容端的反馈来看,从早期的代表性AI短剧如去年的《山海奇镜之劈波斩浪》和《三星堆:未来启示录》,到今年来话题性颇高的《美猴王》《无名特工队》和《红衣大叔用AI带我穿越》《兴安岭诡事》,以及发布预告不久的单元剧集《新世界加载中》,技术进步和内容创作者不断探索后的内容质感迭代是明显的。
但即便进步显著,截至目前一个很明显的事实是,AI短剧所引发的讨论更多仍停留在技术层面,内容本身收获的正面评价是非常有限的。总结过往作品的大众反馈来看,迄今为止AI短剧的的几个主要问题是:
叙事方面,连贯性不足,单镜头时长普遍低于5秒,依赖快速剪辑规避动作逻辑缺陷,镜头语言单一、动态PPT拼接感严重;
视觉层面,人物表情僵硬、口型与发音错位、情绪表达失真导致恐怖谷效应,普遍以单一角色动态场景呈现,缺乏多角色之间的交互,复杂场景模拟缺陷明显,普遍问题是精细度有余而真实性不足,乍一看惊艳,再一看穿帮。
题材和创意层面,剧情类几乎全部集中于玄幻、科幻赛道,此外还有文化科普类短纪录片的形式呈现,其目的显然是发挥AI在视觉奇观打造上的优势,而尽量降低在一致性、现实性层面上的不足。
而更为隐蔽的问题则是内容创意,以现有AI大模型产出的剧本大纲和分镜脚本可用性是非常有限的,要么完全缺失逻辑性,“不是现在的人类能接受的艺术”,比如《红衣大叔用AI带我穿越》;要么则是网文和网大叙事模版的套用,在AI技术的外皮下包裹一些极为粗糙和陈旧的精神内核,这部分是目前的主流AI短剧内容,都缺乏艺术层面的突破性,如果是这样那么AI短剧相较于普通微短剧,似乎称不上有明显优势可言。
这些问题在2025年3月来看,比2024年的前期作品如《白狐》《三星堆:未来启示录》都有明显改善,但如今的AI短剧行业状态也许可以这么形容——“能够批量生产59分作品,但及格作品还在个位数,真正的高分作品还是零。”
也就是说,目前AI短剧还在“有没有”的阶段,但普通观众在乎的是“好不好看”。
在探讨AI短剧的发展方向之前,我们不妨先总结下目前AI短剧的创作内容流程。通过参考一些AI短剧教程,并询问一些个人兴趣AI短剧创作者,纯AI流程的AI短剧实操过程基本是这样的:剧本生成-分镜脚本-图像生成-图生视频-剪辑优化。
剧本生成和分镜脚本可以借助ChatGPT或者Deepseek、Claude模型等辅助生产,以Deepseek为例,其可根据提示词生成包括场景编号、时长、景别、镜头运动、场景描述(画面/光影)、关键音效在内的分镜脚本,并以表格形式呈现。
如下图是读娱让deepseek生成的一段中世纪克苏鲁悬疑风格的故事梗概和分镜脚本(部分截图):
然后是文生图,随着创作者完善分镜脚本这一步后,再使用MidJourney、可灵、即梦、vidu等工具完成文生图,以合理的提示词形成视觉画面。
即梦等平台的故事创作模式支持批量导入分镜图片,以清晰化创作流程;
即梦的“故事创作”界面
接着是图生视频。将视觉图片按顺序保存后,通过可灵、即梦、Vidu等图生视频工具使用首尾帧和提示词形成视频;
即梦与可灵的视频生成界面
最后通过AI音效、台词等方式添加声音部分、再进行剪辑优化最终成片。
这一流程的逻辑大体与传统影视产业一致,区别在于极大降低了剧本生成到分镜、拍摄制作的成本,有极为宽松的试错空间。
但对于目前的创作者而言,实际操作则远不如看上去那么简单。
一位个人AI短剧创作者告诉读娱,即便他只是基于兴趣来创作要求不算高,但他的AI短剧每一分钟成片都需要花费二、三十个小时的时间,一个重要的原因就是要选片并保持一致性,而把大量的时间花费在出三视图,以及调整提示词来“抽卡”上。“文生图和图生视频两个阶段都有很大的不确定性,而目前基本只有靠不断调整提示词并重复的方式,能不能有好的效果,有运气成分在里面。”
而在具体创作中的另一个矛盾是,要实现视频效果很容易依赖多图堆积下的抽奖结果,但这样的操作往往又容易导致一致性不足。
如果对效果有一定要求,从前期到后期依赖AI的自动化也是完全不现实的。比如目前的个人AI短剧往往是由大量“一个镜头一个人说话”的单一镜头拼接而来,与大众熟悉的影视语言有明显差距。如果想要实现更丰富的镜头效果,那么前期分镜基本不能指望用deepseek等AI模型直出直用,还是要靠创作者自己对镜头的理解来创作分镜脚本,因为deepseek的分镜很容易写的很丰富,但并不具备合理的镜头语言逻辑,也完全不会考虑在即梦、可灵等图生视频的局限性。
那么再回到行业的话题来说,目前AI短剧创作阶段的工具局限,也许可以归纳为“确定性不足”和“集成度不够”。
前者主要体现在,创作者需要在文生图和图生视频两个阶段,为了一致性这个基本要求付出太多,不仅增加了大量工作量,也更难在视觉细节和镜头运动等层面进行过多调整,到底应该用怎样的提示词,怎样实现理想中的运镜等,存在玄学的成分;
后者则体现在目前的各个流程基本都要使用到多个AI工具,但不同工具之间没有协同性,像deepseek给你的脚本和提示词,根本不会考虑你在可灵、即梦上实现的效果如何。而市面上的一些集成的AI短剧平台则往往因为存在短板,导致功能虽全但实际价值却不高,比如昆仑万维的AI短剧平台SkyReels集成了剧本、分镜、3D生成大模型等,声称能通过AI一键生成完整剧本、分镜、人物对白与BGM,但实际应用的完成效果却也是问题多多,导致使用者并不算多。
所以目前主流内容才会是“PPT式AI短剧”。因为放弃或者减少多人交互、复杂运镜的不确定性,才能更高效地产出基本逻辑合格的内容。
但这样的内容,显然不可能是AI短剧的最佳模式。
目前的AI短剧生产者,大致可以分为以下两类:
其一是专业影视机构和主流媒体,如此前博纳制作的《三星堆:未来启示录》,央视制作的《美猴王》、AI全流程微短剧《中国神话》《AI看典籍》等,类型往往是传统文化、科普纪录片等元素;
其二是个人创作者和基于个人创作者的小型AI工作室。如《山海奇镜之劈波斩浪》《无名特攻队》背后的创作者闲人一坤,其曾在接受采访时提及自己团队只有10人;而更多的个人创作者正在抖音、快手等平台上以雨后春笋的速度出现,个人即团队。
一个或许有些反直觉的现象或许是,个人创作者的作品质量未必比机构和团队差。目前抖音和快手上一些粉丝量仅数百的用户,已经能够产出运镜复杂、逻辑非常通顺的短片,观感已经很接近剧集,甚至还要超过上述经常见诸报端的这些AI作品。
以目前的AI短剧工具而言,团队的规模更多影响的是生产效率,而在生成质量上的优化边际效应很低。打个比方10个人的团队和1个人的团队,前者有把握能做得更多,却没把握做得更好。因为AI极大简化了“制作出品”的部分,但出品的差异化却完全依赖创作者的提示词熟练度和个人审美、镜头感等。
有几位创作者告诉读娱,在目前AI短剧效率和效果优化的实现,水平高下主要就体现在提示词和运镜能力上。有的创作者能把提示词写得极具画面感且与AI工具的协同性非常好,甚至可以仅凭借三到四张图片就生成出连贯的运镜,让观感往真人剧上大大靠拢。
结合当下的情况来看,对于AI短剧的未来发展,读娱姑且大胆做以下推断:
在专业影视制作领域,AI会在创作流程中融为一体,随着AI作为技术噱头的标签被弱化,其存在感会越来越低,但应用场景则会越来越多。其实在当下的3D国漫行业中,AI的使用已经超出了许多普通观众的意料了,此处不做展开。
而当下定义的“AI短剧”,其爆发会来自大众创作者的无穷智慧。随着创作门槛被极度降低,“一人剧组”成为常态,普罗大众创意所产生的量变,会推动AI短剧的“奇点”出现。
除了网络视听大会上的集中讨论外,近期还有几个业内事件暗示着AI和短剧两个热点叠加的蕴藏能量正在剧增。
2025年3月28日,OpenAI发布了其最新的多模态模型GPT-4o,这一技术突破再次引发了全球对AI生成内容的关注,网友通过GPT-4o生成的“吉卜力风”图片瞬间成为全球社交网络新兴热点,转换真实照片为梵高、皮克斯、南方公园等风格玩法也呈现出了惊人的和谐效果。
对于AI短剧而言,GPT-4o直接处理多模态输入,在多轮交互中能精准的遵循指令,这种对叙事和角色设定一致性的赋能将极为可观。从一些业内人士使用后的反馈来看,GPT-4o在一致性这方面的优势会很快体现在设计端,因为实用性大大提升,尤其在游戏领域、影视领域的概念图和分镜图等方面。OpenAI 的 CEO 萨姆·奥尔特曼表示,这将开启创作自由的新高峰。
而在快手近期的财报电话会上,快手联合创始人兼CEO程一笑表示有信心目前可灵AI“图生视频”功能的综合效果处于全球第一的位置。且截至2025年2月,可灵AI累计营业收入超1亿元,程一笑表示快手会不断升级以可灵为代表的AI商业化变现模式,力争可灵AI早日成为营收规模全球第一的视频生成AI应用。
国产AI视频大模型已从技术验证迈入规模化应用阶段,依托短视频平台的流量与数据优势,快速迭代并探索出可行的商业化路径。而未来竞争焦点将转向长视频叙事能力、多模态交互深度及产业渗透率,而技术开源与合规性很可能将成为下一阶段分水岭。
这两个事件其实都映照出一个未来——图片、视频AI的技术爆发还远未停止。
可灵的发展和商业化成就,其实反而映照出这AI视频平台的激烈竞争和快速进化程度,其商业化的实现也是这种竞争可持续的体现;
而GPT-4o能够用极为简单的方式生成连续图片,高度保持一致性。自媒体《知危》发布的文章就显示,作者只给了GPT-4o一张Doge图,GPT-4o就帮他画好一整个RPG游戏。作者写道:“GPT-4o 展现了精准的指令遵循、惊人的图像一致性,这种能力,正是将技术从工具升华为创作伙伴的关键所在。”
而在可灵、即梦等平台上,已经有很多创作者将GPT-4o加入流程之中。
所谓创作自由的新高峰,其实就是目前制作层面门槛的进一步消除,而对个人创作者在提示词、视听审美、剧本情感等等层面的高层次考验更进一步。
此外,目前的多数AI短剧仍在“模仿”真人剧,而显然未来的可能性远不止此,在短视频平台上已经出现一些“只有AI才能做出的剧”,差异化观感,主要来自创作者自己天马行空的脑洞。
在过去,一个普通人不太可能真正有机会去证实自己在影视创作上的天分。但如今AI短剧带来的最大变化,就是让每个人都真正有了成为编剧、导演的机会了,只需要极低的金钱成本,极低的试错成本,和提供给AI的无穷创意和精确指令。
文章来自于“读娱”,作者“零壹”。
【免费】cursor-auto-free是一个能够让你无限免费使用cursor的项目。该项目通过cloudflare进行托管实现,请参考教程进行配置。
视频教程:https://www.bilibili.com/video/BV1WTKge6E7u/
项目地址:https://github.com/chengazhen/cursor-auto-free?tab=readme-ov-file
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0