好家伙，海螺直接拍了个AI版的《教父》

5521点击 2025-01-11 14:06

家人们，是这样的，前几天上网冲浪，刷到了这样一条视频。

虽然能看出来是AI生成的，但本来就很喜欢《教父》这种暗黑风的我，还是被这短短90秒硬控住了……

话不多说，大家先一起欣赏一下：

好家伙，海螺直接拍了个AI版的《教父》

这昏暗的环境、严肃的人物表情、还有紧张的剧情，太对味儿了。

这条短片里，一共有四个主人公，还涉及很多复杂的场景和光效，画面竟然一直都没崩。

深扒了背后的AI创作流程之后，结果让我大受震撼啊！

本来以为这片子的工作流可能就和日常的AI生成一样，无限地修改提示词+抽卡，抽出一个能用的首帧图片，再图生视频。

反复上面的流程，凑出所有视频段落，拼起来，这样才能勉强保持跨片段保持人物一致性。

比如主角老头在14秒、1分10秒都出现了，如果你想让人物的脸不崩，就得无限抽卡+图生视频循环，或者是训个LoRA模型，把人物框定好：

好家伙，海螺直接拍了个AI版的《教父》

但这个短片的制作流程，只用了这四张人物照片，再配上一些文本Prompt，就可以导演出来了。

也就是说，相当于直接给你提供了4位现成的演员，你只用做导演指挥他们就好了？？

好家伙，海螺直接拍了个AI版的《教父》

这比之前靠玄学出片的AI短片制作来说，真的是降维打击了啊。

不卖关子，其实这是MiniMax家的海螺AI最近推出的新功能——主体参考，你只需要上传需要的人物图片，它就可以自动识别出人物，让他们听你的话，帮你演戏！

有了这个功能，短剧制作的成本将会大幅降低，整个制作流程都可能会被AI视频模型颠覆。

怎么做到的？

下面我们来详细了解一下“主体参考”功能的原理。

它最大的创新之处，就在于把“文生视频”和“图生视频”的优点给结合起来了。

文生视频的优点，是通用性、泛化性和组合性都不错，可光靠文字来控制，细节上很容易出现偏差。

图生视频虽然能让生成的视频紧紧遵循首帧图片，非常精准，但问题是自由度不高，而且首帧图片的精准信息和文字描述之间也可能存在矛盾。

针对这些问题，MiniMax公司深入分析了自家的三模态自研基座模型，他们认为，这三个模态的智能不是绝对独立的，其实是能互相促进、共同进步的。

语言本质上是智能的通用工具，大语言模型对视觉和语言概念的跨模态底层理解能力也是很强的。

在这个想法的基础上，海螺AI自研了基于单张图片的主体参考功能，非常接近人类处理视觉和文字信息的方式。

比如面对一张图片，模型会先把图片里的“主体”这个视觉信息提取出来，然后用户就能用文字自由地去操控，还能把主体的视觉细节还原得特别准。

这样一来，一个主体既能精准地保持原来的样子不变，又能按照用户的想法自由地做出各种行为、表现出各种状态。

经过测试，哪怕只用一张人物图片，也能实现精准复原。

比如只上传一张经典meme人物，就能生成多场景视频：

好家伙，海螺直接拍了个AI版的《教父》

你可以让金馆长在酒吧里跳舞、或者吃点意大利面：

好家伙，海螺直接拍了个AI版的《教父》

生成视频的质量，和给到图片的清晰度直接相关，测试下来，即使梗图不算清晰，海螺AI也能保持人物还原，动作自然。

再来和另一条技术路线训练LoRA人像模型对比一下。

MiniMax也研究过LoRA方案，但他们发现，相比于精调的LoRA，主体参考使用的图片参考方案生成效果上限能够更高。

此外，主体参考的方案，相较LoRA 方案，也大幅降低了用户输入与计算成本。

同样的视频效果，海螺AI需要1张图片输入+正常一次生成的成本，而使用LoRA方案的模型则需数十个特定的视频、超100倍计算量，外加数十分钟等待时间。

目前海螺AI最先开放的主体参考能力主要针对单个人物，后续还会拓展到多人、物体、场景等更多样化的参考。

外星人和动漫风格的也可以生成：

好家伙，海螺直接拍了个AI版的《教父》

如果你也想尝试一下主体参考的新功能，操作方法也非常简单。

你只需要在海螺AI创意视频平台中选择“主体参考”创作区后，上传一张图片即可创建参考角色。

然后在下面的文本框内输入Prompt，就可以生成富有创意的高质量视频。

好家伙，海螺直接拍了个AI版的《教父》

而且在使用过程中，我们还注意到它在以下方面生成效果也非常出色。

人物面部细节一致

在用人物特写生成视频时，可以看到人物的面部细节在多个视频中都能得到很好的保留。

不仅是轮廓和五官，甚至包括眉毛、眼影、发型都有很强的一致性。

好家伙，海螺直接拍了个AI版的《教父》

尤其是角色脸上这三颗痣，在3个视频结果中都保持的固定的位置，且清晰可见，目前只有海螺AI一家模型可以做到这样的细节一致性。

好家伙，海螺直接拍了个AI版的《教父》

复杂姿势与表情

在动作，环境上，也能够实现自由组合，甚至用表情传递情绪，也可以实现。你可以操控人物生成更多复杂的姿势，比如低头、侧脸等等。

先来让图片中的女士挑战一下低头的动作：

好家伙，海螺直接拍了个AI版的《教父》

Prompt：在这略显空旷的房间之中，一位长发女人静静地伫立着。光线透过窗户，洒在她的身上，勾勒出一道落寞的身影。只见她身形略显僵硬，双肩微微下沉，仿佛承受着无形的重压。她的头颅缓缓低下，动作缓慢而沉重，如同被岁月的沧桑拖拽着。颈部的肌肉紧绷，青筋隐约浮现，似乎在极力克制着某种情绪。下巴逐渐贴近胸膛，几缕发丝从额前滑落，遮住了她大半的面容，让人难以看清她此刻的神情。

好家伙，海螺直接拍了个AI版的《教父》

在侧脸这个比较小众的主题上，海螺AI也做到了让镜头的转换和头发的运动非常丝滑：

Prompt：自然风光背景，画面中一位女性线条利落却又不失柔和的侧脸，宛如一幅精美的古典画卷在眼前徐徐展开。她的额头宽阔而平整，长发被风吹动。高挺的鼻梁犹如一座峻峭的山峰，从额头笔直地延伸而下，线条优美。她转过头，对着镜头，优雅地笑了一下。

好家伙，海螺直接拍了个AI版的《教父》

AI出片，还是要技术解决应用瓶颈

Sora的横空出世点亮了视频生成的赛道。而纵观技术和应用发展现状，目前主要瓶颈在于，技术真正进入生产环境，实现行业应用。而要让视频真正承担起叙事任务，就必须把人物一致性的门槛打下来

可以说，有了“主体参考”功能后，突破了跨视频片段的主体一致性的创作痛点，让用户在进行更完整内容表达的视频创作时，可将更多精力放在内容表达上。

对于AI 短剧、AI 广告等以人物为主体的行业，这个功能可以大大提升创作效率，降低创作成本，带来更大的想象空间，推动行业进入 “人人都是会掌镜、懂拍摄的好导演” 的新时代。

MiniMax虽然是一家成立刚刚3年的国内初创公司（成立于2021年12月），但在AI领域已取得显著成就。

海螺AI在海外超 180 个国家和地区也收获了热度与认可，成为海外AI爱好者口中的热词，也被视为代表中国先进 AI 技术的代名词。

视频模型海螺AI，自推出起就表现非常出色，在VBench、Video Arena等多个国际权威评测榜单的第三方独立测试中综合排名第一，在画面质量、连贯性、流畅性等多维度处于领先地位。

好家伙，海螺直接拍了个AI版的《教父》

在国内视频模型领域，多是头部互联网大厂 “大力出奇迹” 的成果。目前放眼望去，快手的可灵、未来值得期待的字节即梦AI是大厂中不容忽视的力量。

MiniMax则凭借团队科研实力、前瞻的技术路线选择和多模态并举的策略，成为创业公司中唯一能和大厂掰手腕的一家。

未来，视频模型行业的竞争会更加多样化，包括个性化创作的制定、生产流程的专业度、应用的行业、各家公司的技术积累和创新等等。

也将更加注重与其他技术的协同发展，如与智能体、虚拟现实、增强现实技术结合，为用户带来更沉浸式的感受。

期待有更多像MiniMax一样注重技术创新、勇于探索的公司，能为我们带来更加智能和优质的模型体验。

点击官网链接即可体验“主体参考”新功能哦：

国内用户创作入口：hailuoai.com/video/create

海外用户创作入口：hailuoai.video/create

文章来自于“量子位”，作者“奇月”。

好家伙，海螺直接拍了个AI版的《教父》

关键词: AI , 海螺AI , AI视频 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0