8月19日,昆仑万维发布全球首个集成视频大模型与3D大模型的AI短剧平台SkyReels。SkyReels平台集剧本生成、角色定制、分镜、剧情、对白/BGM及影片合成于一体,让创作者一键成剧,轻松制作高质量AI视频。这是一个2分半时长的短剧作品。
「 我们应该放下固化和抵抗的思维,拥抱这个碎片化信息时代。」 2023 年 12 月初,导演黄建新在北京电影学院北影大讲堂上感慨,比起电影,竖屏短剧兴起才真正形成了全球输出。
几分钟到十几分钟的单集时长、强烈的娱乐性和快节奏剧情,频繁踩中用户「爽点」,短短三年(到 2023 年),中国短剧市场就达到了年度院线电影票房的七成。
与此同时,大量短剧独立 APP 全球上线,中文在线的短剧软件 ReelShort 在美国 iOS 排行榜上表现优异,甚至超越了长期霸榜的 TikTok, 实现破圈。
短剧已成为近年增长最快的影视领域之一,也成为新技术的试验场。「一键翻译」、「 AI 换脸」屡见不鲜,多家网文公司还发布可以辅助作者写作的内容生成大模型。借助 AI 大模型视频生成能力,以往三个月的短剧制作时间现在只需要半个月。
AI 创作的短视频片段,一经发布就能获得百万流量的加持,但一部 AI 全流程短剧制作还面临不少挑战。创作者需要在 ChatGPT、Midjourney、Runway、Eleven Labs、ComfyUi、Adobe、剪映等多个 AI 工具间反复「横跳」,作品效果仍差强人意。
在这样的背景下,拥有十多年出海经验的中国人工智能科技企业昆仑万维推出了世界首个 AI 短剧平台 SkyReels——一个集成视频大模型与 3D 大模型的 AI 短剧平台。这不仅是国产大模型在短剧领域的成功落地,也预示着「一键成剧」、「一人一剧」时代来临。
同时,这一革命性的工具有望带来 AI 短剧用户生成内容( UGC )与专业用户生成内容( PUGC )的爆发式增长,推动短剧内容创作与消费市场的进一步快速增长。
一、认识 SkyReels ——全球首款 AI 短剧平台
以下视频来源于
昆仑万维集团
00:59
SkyReels产品操作Demo
打开 SkyReels 网页,立刻感到「AI 短剧」与其他 「 AI 创意」平台的设计,很不一样。
都是由 AI 驱动,但「 AI 创意」平台以图片、视频生成为主,SkyReels 则集剧本生成、角色定制、分镜设计、视频拍摄与合成于一体, 完整复制了短剧工业化流程。
SkyReels 集故事创意、剧本生成、角色定制、分镜设计、视频拍摄与合成于一体, 完整复制了短剧工业化流程。
短剧收视不「扑」,首先得有好创意,并将它具象成一个爽文剧本,这是最重要的。
虽说文本创作是大语言模型 LLM 的舒适区,SkyReels 的不同之处在于负责文本创作的大模型受过专业训练,更懂怎么写出有「 爽点 」、带流量的剧本。
只要输入一个概念或故事创意,点击「创作类型」, 比如情感剧,系统会自动生成一份符合要求的剧本,结构完整、情节丰富。
用户也可以上传现成的剧本,让 AI 帮忙润色、优化,提升剧本的专业度和可读性。
系统会根据创意提示自动生成一份符合要求的剧本,还会摘要出所涉人物小传,为后面的角色设计做准备。
剧本有了 ,接下来就该「物色演员」,在 SkyReels 上,这个环节叫角色设计。
通常,我们会先让 LLM 写设计文本,再扔到 Midjourney 等文生图工具,生成角色形象。要给角色添加配音,还要继续召唤 Elevenlabs 等音频工具。
现在,只需进入页面输入相应要求(包括角色配音),即可「一键生成」角色,大大提升了制作效率。
只需进入页面输入相应要求(包括角色配音),即可一键生成角色。
进入拍摄之前,除了物色演员,导演还要制作分镜。 所谓分镜,主要是将整个故事分解成一系列连续的画面,每个画面都代表一个特定的场景或动作。
吉卜力工作室的《千与千寻》分镜图。
没有美术背景的导演,要在绘画师的帮助下完成分镜设计,非常麻烦。现在,他们可以让 LLM 生成分镜头的文字脚本,再用 Midjourney 等工具画出分镜图。
但是,这种方法的弊端也明显,很难保证角色、场景的前后一致性。比如,央视 AI 频道上线的 AI 全流程微短剧《女娲》中,女娲每次出现,长得都不太一样,好像有几个女娲。
在 SkyReels 上,AI 会根据剧本内容,一键生成分镜图片和对应的文字脚本,仅需等待 1-2 分钟即可查看每个镜头的效果。不满意,还能通过修改文字(如场景或人物动作),调整分镜效果。
更重要的是,在自研技术支持下,分镜图片不仅高清、细节丰富,角色、场景在不同分镜中都能保持一致性和连续性。
AI 会根据剧本内容,一键生成分镜图片和对应的文字脚本。
分镜设计好了、演员就位后,就要进入「 实拍」阶段。 目前,AI 影视发展最大的瓶颈也在这里,因为能用的好「摄像机」太少。
常见做法是用 Pika、Runway 生成动态效果,但槽点很多。 比如, 画质糟糕、角色动作幅度小甚至不合理(吃面问题),还容易出现场景不一致,有时车辆在运动但车轮不转,水流时水花在动水面却是静止的。人物说话口型对不上,表情也僵硬。
通过 AI 3D 引擎与视频大模型的结合,SkyReels 能将分镜自动转换为连续视频,生成的场景和人物更加生动、一致,还支持 1080P 60 帧视频输出,煲剧体验也有保障。
另外,单次可生成视频长度达 180 秒,相比 Sora 单次可生成 60 秒视频、可灵单次可生成 10 秒视频,有显著突破。
SkyReels能将分镜图自动转换为连续视频。
最后,所有流程成果可一键整合,快速生成最终短剧。AI 还会根据剧本题材与具体场景生成并推荐合适的背景音乐和音效,用户也仅需一键添加。
背景音乐和音效也可一键添加。
支持一键导出成片,并可一键发布至抖音等社交媒体平台。
支持角色设计的一键分享。
二、「 一键成剧」背后,三层技术创新
三层技术创新,如三根支柱,支棱起 SkyReels 「 一键成剧」:
自研剧本大模型 SkyScript、自研分镜大模型 StoryboardGen,以及业界首个将 AI 3D 引擎与视频大模型深度融合的创新平台 WorldEngine。
剧本大模型 SkyScript 负责拿捏短剧的「 灵魂」——剧本。事实上,不仅是剧本,文本大模型也是整个创作流程的支撑。
有些微短剧编剧尝试过利用 ChatGPT 生成剧本,但发现最终的结果缺乏情感张力和剧情变化,只是堆砌了一些平面的文字。昆仑万维构建了亿级的高质量短剧结构化数据集 SkyScript-100M ,该数据集针对海量精彩短剧的剧情节奏、爽点、情绪变化进行了高质量标注,专为剧本创作而生。
SkyScript剧本大模型技术原理图
SkyScript剧本大模型的分镜脚本生成原理。
比如,除了从海量数据中学习创作的基本原理和通用模式,要爆款,还要摸清一些百试不爽的「套路」。 观众往往对快节奏、强烈冲突、悬念迭起、多次反转的剧情设计有明显偏好;逆袭改命、霸总娇妻、豪门宅斗、穿越重生、吸血鬼、狼人等主题,也是百看不厌。
ReelShort爆款短剧《The Double Life of My Billionaire Husband》为先婚后爱,单集约1分30秒,截至第12集左右,男女主在密集的剧情交集中,迅速完成了感情升温,且涵盖了恶毒女配、契约婚姻、英雄救美、 财产争夺等情节。来自国海证券中国短剧出海深度报告。
通过精心标注的故事中能引起观众强烈兴趣的「爽点」,如主角外貌、镜头构图、贯穿人物表达的情绪, SkyScript 学会了关注并生成这些细节。
在模型架构上,为了确保生成内容的专业度和可控性, SkyScript 也采用了多智能体框架。透过「创意人」、「选角导演」、「编剧」、「小说作者」、「导演」等智能体的协作,模仿工业制作流程,完成剧本创作。
剧本大模型 SkyScript 的质量评估情况。
短剧,说到底,是一种视觉语言的呈现,因此,另外两层创新—— 分镜 StoryboardGen、 WorldEngine —— 聚焦短剧的「血肉」,也就是拍摄。
和 SkyScript 一样,自研分镜大模型 StoryboardGen 也接受了真实世界中高质量、专业分镜实例训练,专为分镜设计而生,也与通用类图像生成模型拉开了距离。
同样,基于多智能体框架,将分镜的不同元素(场景、镜头、角色、动作等)分解为多个智能体来处理,大大增强了分镜制作过程中的可控性和一致性。
分镜大模型 StoryboardGen 的技术原理图。类似于电影拍摄、动画制作,基于多智能体框架的 StoryboardGen 将整体流程分解成了多个 agent,每个 agent 负责某个专项能力,增强分镜制作过程中的可控性和一致性。
假设有一个剧本,里面描述了一个场景,比如一个人在公园里散步。
LLM Planner 会先把这个剧本拆解成两部分。
其中,全局描述( global prompt ):「一个人在阳光明媚的公园里散步」;
局部描述( local prompt ):「这个人是中年男性,穿着休闲装,手里拿着咖啡杯,步伐悠闲。」
在生成环节,不同智能体各司其职,如场景智能体根据全局描述生成公园的背景、布局等;角色智能体根据局部描述生成男性角色的形象和动作。
最后由 Storyboard 智能体将这些生成的内容整合起来,根据所有的描述信息和条件,生成最终的分镜图。
分镜大模型 StoryboardGen 质量评估情况。
除了可控和一致性,为了让分镜画面更具表现力,StoryboardGen 还大幅提升了画面的复杂程度和细节精度。
如,StoryboardGen 采用了基于 DiT 的渐进式生成框架,通过多次修改和完善来创作最终的图像。相比传统的一次性生成模型,这种框架能够充分利用中间过程产生的信息,生成质量更高、视觉效果更丰富的分镜。
第三层技术创新是一个创新平台 World Engine ,在业界率先将 3D 生成技术与视频生成技术,通过图层融合等方式,无缝衔接在一起,相当于为创作者提供了一部强大的「摄影机」甚至「影棚」。
WorldEngine 结合了引擎的精确可控能力(如光照模拟、物理模拟、3D 空间、实时交互等) 以及 AI 视频大模型的幻想生成能力,提供了全新的线上混合视频创作模式,让视频创作从模糊生成迈向更加精确可控。
假设你正在制作一个场景,一只皮卡丘在喷泉下玩得很开心,可以让 Sky3DGen 创造出精确的喷泉场景;同时让视频大模型生成逼真的皮卡丘。
00:05
混合生成视频案例
我们知道,Sora 等视频大模型可以轻而易举地生成游戏引擎难以匹敌的、几乎真实的效果,并且充满想象力,但它们不懂物理世界,无法准确模拟一些最基本的物理交互,如玻璃破碎、吃面等。
而游戏引擎的优势在于其对现实物理规律的精准模拟。通过复杂的数学模型,它能创造出时空连贯、符合客观规律的虚拟环境,不仅确保了渲染结果的一致性和可预测性,还展现了对三维空间的深刻理解。
作为中国最大的游戏开发和运营企业之一,昆仑万维自研 Sky3DGen 大模型,并与视频大模型「优势互补」,为创造者提供了一种全新的混合创作模式,也就不算意外。
在 SkyReels 上 ,你可以变化出各种 3D 场景和造型,甚至人物表演。
00:22
3D 道具视频生成案例
00:10
3D 场景视频生成案例
00:06
人物表演是短剧的核心之一, 昆仑万维自研了 ActorShow 人物表演生成模型,有更强的口型表情和肢体动作的可控生成能力。
人物表演生成模型的质量评估情况。
创作过程中,用户还能自由定义 3D 虚拟拍摄影棚。
今天想拍摄在沙漠中的故事?点击几下,整个场景就变成了广袤的沙漠。明天要拍摄在宇宙空间站?再点几下,周围就变成了高科技的空间站内部。
你甚至可以在搭建的虚拟摄影棚里,放置和移动虚拟摄像机,尝试各种拍摄角度。调整光线、添加特效,得到非常专业的拍摄效果。
由于引擎的使用,与传统的视频生成相比,WorldEngine 在成本上实现了革命性的下降,同时,生成速度、可控性都提升了数个量级。
三、押注 AI UGC ,再上牌桌
AI 短剧平台 SkyReels ,是昆仑万维 AI 应用层产品矩阵中的最新成员。
在此之前,他们已经成功构建了包括 AI 搜索、AI 音乐、AI 视频、AI 社交、AI 游戏等在内的多元产品阵列,部分业务已实现商业化落地。
作为最早开拓全球市场的中国企业之一,凭借十多年的内容与娱乐赛道经验,昆仑万维已经洞察到 UGC(用户生成内容)平台在内容和游戏领域一直保持长盛不衰的态势,也预测到 AIGC 的介入,不仅让网文、短剧、动画、游戏的 IP 创作手段更加多样化,更关键的是大幅降低了内容创作的门槛。
正如业内所言,「生产内容的门槛每降低一倍,创作内容的人数就会增长十倍」,这预示着巨大的市场机遇。
因此,昆仑万维致力于打造一个以 IP 为核心的综合 UGC 平台,让所有使用 AI 进行创作的用户都能在其中完成 IP 的全闭环。他们深知,一个能够隐藏所有技术细节、实现端到端内容生成的工具,才真正具有商业价值,这也正是 SkyReels 等「一键生成」式产品的深层逻辑。
除了在上层打造 AI UGC 平台,在底层,昆仑万维还致力于开发通用大模型的底座。这源于一个简单又深刻的洞察:从技术角度来看,人类的智慧是以文本形式沉淀下来,所有的社交、游戏、音乐跟视频的专属模型,都离不开文本大模型的能力支撑。
昆仑万维自研的天工大模型已迭代至 3.0 版本。「天工 3.0 」采用 4,000 亿参数 MoE 架构,是目前全球模型参数最大、性能最强的开源 MoE 模型之一。在 MMBench 等多项权威多模态测评结果中,「天工 3.0 」超越 GPT-4V ,多项评测指标达到全球领先水平。
有了夯实的通用大模型底座,昆仑万维又一步步朝着内容和娱乐领域,横向延伸模型能力——从音乐、文生图、视频生成到短剧生成,相继推出 SkyMusic AI 音乐大模型、Skywork-MM 多模态大模型、SkyScript 剧本大模型、 StoryboardGen 分镜大模型、 Sky3DGen 3D 大模型等。
昆仑万维董事长兼 CEO 方汉曾经预言,就像摄像头带来了拍摄方式的革命,催生出抖音、快手等巨量短视频平台一样,AI 也将催生大量新的 AI UGC 平台。他坚信,只有「免费+ to C 」的模式,才能在 AI 时代孕育出真正的巨头企业。
对于深具 2C 基因的昆仑万维而言,AIGC 的兴起无疑是一次难得的机遇。这个一直梦想成长为领先的人工智能科技公司的企业,原本以为已经错过登上牌桌的机会,却没想到 AIGC 又为他们敞开了一扇新的大门。厉兵秣马,他们正全力以赴。
文章来自于微信公众号机器之心 作者吴昕
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。
项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file
在线使用:https://replicate.com/camenduru/lgm
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0