To C玩梗是Sora的热闹,用多模态大一统模型服务专业客户,才是AI视频生成的正经生意。
“如果2026年还只盯着视频生成本身做迭代,是不够的。”Luma AI的首席科学家宋佳铭,对《智能涌现》作出了这一预判。
成立于2021年的Luma AI,是美国视频生成领域的明星创业公司。《智能涌现》获悉,近期Luma AI已按照40亿美元估值,完成9亿美元C轮融资。本轮由沙特公共投资基金(PIF)旗下机构HUMAIN领投,AMD Ventures、Andreessen Horowitz、Amplify Partners、Matrix Partners等老股东均大额加注。
在视频生成类AI公司更多还在卷更长的时长和更好的画质时,宋佳铭具体解释了他的“异见”:下一阶段真正要提升的,不是画面本身,而是模型对现实世界的理解与推理能力。
他用一个影视制作现场的场景做解释:在影视制作中,若导演需要补拍一个遗漏的俯视镜头,传统的视频生成模型只是根据提示词生成一段相关内容,却容易存在与前后画面不相符的细节。
但推理模型则能够理解已有片段的场景空间、角色位置与镜头逻辑,这样才能制作出在物理上更合理、衔接更丝滑的视频。
正因如此,推理视频生成模型可以被应用在专业的影视与广告等,这成为其变现的基础。
“Sora 2掀起的大众玩梗热潮,并不意味着视频模型的To C时代已经到来。普通用户在新鲜感过后,便难以持续买单。”宋佳铭解释起视频生成模型现阶段的商业情况。
而实现视频生产模型更强推理能力的关键,就是采用语言、图像与视频数据,训练“多模态大一统”模型。因为,多模态融合将为模型提供更丰富、多元的数据量,这将推动模型能力从“生成”升级到“理解”。
这条路径今年已经在图像生成领域验证一遍:2024年,业内还对多模态架构存在分歧,而进入2025年后,图片生成模型已基本将文生图、图编辑等任务整合进统一模型。竞争焦点也已从架构设计转向高质量的数据收集。
他认为,视频生成模型明年也将复现同样的收敛过程。
不断预测下一步的技术和商业化方向,并突破自己,是Luma AI一直以来做的事。
这家2021年成立的公司最初从3D生成起步,于2023年底转向市场空间更大的视频生成模型。
2024年6月,Luma AI推出面向AI与设计“小白”的视频生成模型Dream Machine,开启C端市场探索。Dream Machine以"零推广费"在4天内吸纳百万用户,凭借电影级运镜和生成效果,被业内称为“能与Sora叫板的视频生成模型”。
不过,Luma并未停留在C端的热度中。今年以来,Luma AI逐步把重心转向付费意愿更强、需求更刚性的B端专业用户——影视、广告、内容制作机构等。
今年9月,Luma AI推出全球首个视频推理大模型Ray 3。
但在近期的专访上,宋佳铭向《智能涌现》给出了新的判断:Ray 3很可能会是Luma最后一代传统视频生成模型。公司已经把“多模态大一统模型”确立为下一阶段的核心方向。
这一目标也需要更大的算力和资金支持。
Luma AI本轮投资方之一的HUMAIN正在沙特建设名为“Project Halo”的2GW人工智能超算集群,这是全球最大的算力基础设施建设项目之一。Luma AI将作为核心客户采用该算力,用于训练下一代多模态世界模型,进一步提升视频推理与大一统模型的能力。
从3D生成起家,到凭借Dream Machine在C端引起关注,再到如今通过布局推理、多模态大一统模型更好地服务B端专业客户。Luma AI的每次关键抉择都在自己原本业务基础上,向外再扩展一步。
关于对当前视频生成模型的行业观察及未来预测,宋佳铭在专访中详细展示了他的观点。以下内容来自对话,经作者整理:

△宋佳铭,图片:采访人提供
智能涌现:你自己说过“Ray 3可能是Luma AI最后一代传统的文生视频模型”,这句话如何理解?
宋佳铭:我的判断是,未来的大模型不会再把图片、视频、音频、文本当成彼此孤立的模态,而是放在一个统一的框架下去处理,这就是我们说的“多模态大一统”模型。
多模态大一统带来的数据量增长,会给视频生成模型带来更好的推理能力,这有助于模型做出更合理的视频处理,并帮助用户自动甄别视频上的问题。
语言模型之所以有用,是因为它有很强的上下文学习、Zero-shot(零样本学习)等能力,也具备很强的推理能力。我觉得这些迟早要在视觉和视频模态里出现,而不只是在卷更长的时间、更好看的画质。
智能涌现:能不能用一个具体的例子解释一下,视频推理模型和传统视频模型的差别?
宋佳铭:举一个来自拍戏的例子。现实拍摄中,剧组会同时架好几个机位,分别拍多个演员的不同角度。假如收工以后导演突然发现,忘了拍一个俯视下来的总览镜头,需要AI“补拍”一个。
这时候,如果你只用传统的视频生成模型,它大概率会“发挥想象力”生成一个看起来还行的俯视镜头,但细看会发现:人物位置、背景物体的布局和之前的机位可能对不上。
而在我们定义的视频推理任务里,模型需要先做的不是“生成”,而是“理解和推理”:它要从不同机位的素材中,找到同一个背景物体在不同视角中的对应关系,推理出每个演员、每件道具在统一三维空间里的位置,然后再从一个全新的俯视视角,生成一段物理上合理、镜头运动自然、和前面镜头无缝衔接的视频。
智能涌现:今年很多视频生成模型公司的业绩都不错,大家的技术路径也百花齐放,但你似乎认为“这是最后一个视频模型百花齐放的年份”,并且明年视频生成会收敛到大一统模型,这是为什么?
宋佳铭:如果我们从图像生成模型的历史规律去看,去年可能大家还不确定是否要做图像模型的大一统。或者说,去年的情况是大家倾向于面向不同任务做不同的工具流,然后根据不同任务做对应的调整,或者模型微调,但今年大家的路线是把任务都放进同一个多模态模型里。
到了现在,很少有人说会做一个和GPT 4o或者Nano Banana完全不一样的架构。当架构统一后,竞争的核心便从模型设计转向了数据驱动,真正的重点在于能否收集到足够量的优质数据。
我觉得图像在今年发生的情况,视频领域明年也会发生。
智能涌现:在大一统模型的技术路径上,Ray 3对于Luma来说,正在扮演一个什么角色?
宋佳铭:Ray 3算是一个阶段性成果。
这其中比较重要的积累是基础设施,不论是训练基础设施,推理基础设施,还是数据的基本的基础设施,其实可能都比算法积累本身的重要性大。
因为算法大家做了这么多年,其实也没有太多核心的变化。基本上都是在沿用五年前的自回归路线(GPT 3)和扩散模型路线(DDPM),这五年来有一些小的改动,但是不多。所以我觉得在此期间,最重大的一些进步,其实都来源于Scaling,就是说把模型和数据的规模扩大。
智能涌现:多模态大一统、视频推理模型,这些方向和你心目中的AGI有怎样的关系?
宋佳铭:我对AGI的标准会比较苛刻一点。
现在很多人会说“某些代码模型已经超过大部分程序员”,我同意在这个维度上它可以叫“超人”,但如果只是这样,那计算器早就超越人类心算了,我们也不会叫计算器是AGI。对我来说,如果人类能在某个任务上做到,而AI完全做不到,那就还谈不上AGI。
目前在很多维度上,AI距离人都还有很大差距,比如自动驾驶、机器人、具身智能,以及对真实物理世界的长期规划和执行。
多模态大一统视频模型对于AGI的意义,就在于最终能把对现实世界的理解和操作能力,从纯语言空间扩展到视觉、动作、时间这几个维度。

△Luma AI的模型可以仅凭提示词,就生成画面高清、且充满想象力的HDR视频片段,图片:采访人提供
智能涌现:从产品角度看,之前Sora 2、Nano Banana的出圈给模型公司什么启示?
宋佳铭:我觉得有一个很重要的提示是:要从产品的角度去设计一些使用场景,以及找到驱动用户使用的点,让技术特点本身能长成传播爆点。
智能涌现:之前Luma AI的Dream Machine推出时,我们在采访中聊到它在很大程度上可以服务于没有太多设计、AI积累的C端人群。但后来公司的重心逐渐转向了B端专业用户,这是为什么?
宋佳铭:我更愿意把那看成一个渐变过程,而不是某一天突然掉头。
可以先类比语言模型:Chatbot的C端热度在去年已经很高了,但今年大家谈得更多的是写代码、智能体这些明确的To B、To Pro场景。
因为对普通用户来说,哪家的Chatbot差别没有那么大,大家也不愿意为此付很高的订阅费;但对程序员来说,如果一个工具能让他的产出翻一倍,公司愿意替他为这个工具买单。
视频模型也是类似逻辑。C端用户玩视频生成,很容易腻,也不一定有稳定的付费意愿;而B端客户——比如影视公司、广告公司、内容制作方——一旦发现某个AI能在他们的主流程里节省大量人力、时间和硬件投入,他们的付费意愿和粘性会远高于C端。
智能涌现:之前Open AI的Sora 2在社交平台上被大家玩梗玩得很开心。你觉得,这代表着视频生成模型开始走向C端了吗?
宋佳铭:我觉得Open AI做To C和视频生成模型做To C不是一个概念。Open AI做To C更多是因为他的这个估值已经是5000亿美元了,所以它如果去做to B的话,好像也没有什么这个B端能接住它的盘。
Open AI自己就是个Business,并且需要寻找更大的增长点。这和Meta、字节跳动的原理是一样的,就是说当规模大到一定程度的时候,企业肯定会去做To C的努力,探索规模的最大化。但这不代表整个视频生成模型领域也要、或者也能做To C。
美国著名投资机构A16z的合伙人Olivia Moore曾在她的社交媒体上发过一组数据,显示Sora 2在30天的留存仅为1%,60天的留存就低于1%了。相比之下,TikTok视频的留存率可以维持在30%左右。这也侧面说明,Sora 2的玩梗效应不能代表视频生成模型已经跑通了C端。
智能涌现:视频生成模型走向C端还面临哪些现实难点?
宋佳铭:从纯技术角度看,短视频平台上已经有不少AI视频内容,To C并不是做不到。难点是要想清楚商业模式能不能跑得通。
从商业模式上,我还没看清视频生成to C应用作为社交产品的价值在哪。
今天的抖音、YouTube、Instagram,本质上是“社交+分发”平台,大部分人看的还是那1%最热门的视频,围绕这些内容形成了公共话题。如果未来每个人100%都在看AI为自己定制的视频,你和别人之间的共鸣反而会下降,大家缺少“看同一件东西”的交流基础,这不符合社交的基础逻辑。
智能涌现:现在视频生成做得不错的公司不少,在To B侧你觉得竞争压力大吗?
宋佳铭:如果单看舆论场,会觉得竞争非常激烈,但在美国To B市场,实际压力没有表面看上去那么大。
原因其实很现实:第一是政治和合规因素,经过筛选之后,真正能进入严肃美国企业名单的几乎都是美国本土供应商。这个名单其实很短,比如Google、我们,以及少数几家美国创业公司。
第二是美国To B市场本身更成熟,对软件订阅、API收费、企业服务的接受度,要高很多。To B生意“好做”不是说轻松,而是商业模式更清晰。
智能涌现:Dream Machine在今年6月上线之后,外界看到的一些商业化成绩似乎还不错。不过Luma起步时是做3D视频生成业务,当时的商业化情况如何?差异主要产生在哪里?
宋佳铭:之前我们就在3D方面有商业化尝试,但我不认为那是可扩散或者很成功的。
当时的3D生成技术,无论从质量还是应用场景都比视频弱一些。
目前使用3D生成模型最多的应用场景还是集中在游戏、数字人这些领域,这种有深度科技能力的游戏公司也不是特别多,就是说潜在客户量可能会比较少。而且,像腾讯这种既有强3D能力、又有游戏业务的大厂,理论上更倾向于自己做基础能力,不太会长期依赖外部模型。
从技术上来说,3D数据本身远少于视频数据,AR/VR生态整体也还没成熟到“内容极度缺乏、必须靠生成式AI填充”的阶段。所以从结果上看,3D在我们这里更像是前期探索,真正被验证有商业潜力、市场接受度的,还是视频这个条线。
智能涌现:从你的视角看,现在的视频生成领域有没有所谓的“绝对护城河”?
宋佳铭:目前我不觉得有哪一种模型结构或者哪一套方案能构成绝对护城河。
过去几年能看到的更多是,大家在同一个大方向上不断试各种组合,算法层面过去一两年其实没有出现颠覆级的新结构,差异主要体现在迭代速度和工程实现上。
真正拉开差距的是谁能在大规模上把这套东西“跑通又跑稳”,而不是“谁先想到了这个点子”。
语言模型的总量基本在几十T或者基本上是不会超过100T的量级,视频模型很容易达到几PB或几十PB的数据量,这是文字的几百上千倍。
所以在视频这里,更大的挑战反而是:获取数据的能力,以及有没有能力在工程上托住这么大的数据规模,把它们清洗好、对齐好,让模型真正从中学到东西。
智能涌现:视频生成模型现在似乎也没有一个统一的评判标准,“最强模型”怎么判断?
宋佳铭:确实没有统一标准,这背后有几个原因。第一是技术路线还在摸索,相对语言模型已经有高度收敛的架构,视频这边在架构和训练方式上还有很多可以探索的方案。
所以我不太愿意简单说“谁是世界最强的视频模型”。而且,打榜成绩只反映一部分特性,我认为更关键的是客户在实际工作流里到底要什么功能,比如有没有HDR,这更符合专业视频生产的需求。
如果从有HDR这个维度来讲的话,我们独此一家,但是看其他指标的话,我觉得评价标准又会有所不同。

△相比于通常视频的8比特像素,HDR的颜色表达范围多了一个数量级,这体现在更多的高光和阴影细节上,对于电影制作管线至关重要,图片:采访人提供
智能涌现:扩散模型和自回归模型,谁的“天花板”更高?
宋佳铭:我现在不会给出“谁的天花板更高”这样的结论。真正决定上限的,其实是数据量和架构设计,从数学层面上,都还没有碰到实际的天花板。
我觉得关键的还是找到商业用户的痛点,这样我才能去提供客户真正想要的东西,这不一定和AI的模型能力直接相关。
智能涌现:你觉得视频和大一统模型的赛道,会像语言模型一样收敛到少数几家吗?这对初创公司意味着什么?
宋佳铭:我觉得这是几乎可以类推的结论。
如果回头看语言模型这条线,会发现一直能持续做得好的玩家其实就那么几家,很多项目要么转型,要么被并购,要么慢慢消失。视频和多模态大一统,本质上是同一条大模型产业链上的分支,只要跟“基座模型”这件事绑得足够深,它也不可避免地会走向头部高度集中。
在国内,我个人基本不会考虑从零做这种基座模型创业,因为大厂在资金、人力、算力上的优势太大,留给纯技术向创业公司的空间非常有限;在美国会好一些,美元基金还有动力在这个方向下注,退出机制也更清晰,和大厂之间的合作、并购、共建都更常态化。
智能涌现:Ray 3是9月推出的,Ray 2的推出差不多在这七个月之前,在这七个月时间里,Luma团队有在尝试不同的方向吗?什么才是重点?
宋佳铭:我们会尝试不同的方向,比如世界模型,但最主要的还是大一统模型。
大一统模型有很多方法把不同的模型拼起来,这里面有的组合更能带来短期收益,比如用别的公司训练好的模型去实现某些能力。和训练自己的模型相比,这当然是更快的。
我们希望兼顾短期的收益,但总体而言,更倾向完成长远的布局。
智能涌现:这次C轮融资,你们拿到了9亿美金级别的资金,估值也大幅抬升。在你看来,投资人下注的核心理由是什么?
宋佳铭:这次由沙特主权基金PIF旗下的HUMAIN领投,AMD Ventures和Amplify、Matrix这些老股东都继续加码。对我们自己来说,这件事更像是几层逻辑被外部验证了一次。
这里包括过去成绩,和创新和迭代速度的验证。
同时,投资人也在找“下一个基座模型玩家”。对一些美元基金来说,他们并不满足于只看短期商业化的利益,而是希望长期押出真正有机会做大的公司。我想,更看重长期布局的能力也是投资人下注我们的理由。
智能涌现:C轮融资这笔钱具体会花在哪里?
宋佳铭:算力仍然是绝对大头,不管是训练还是推理,对做大规模多模态模型的公司来说,都是最大的刚性支出。
另一块是人才和基础设施建设,我们需要继续扩充工程和系统团队,不是为了变成“小版的大厂”,而是为了真正把这些模型“跑得更稳、更快、更便宜”。
智能涌现:现在Luma的团队结构是怎样的?在招人这件事上,你个人更看重什么?
宋佳铭:目前团队大概一百三十人左右,其中30%–40%是技术研发,其余是产品、商业、市场和运营。
和很多公司不同,我们没有特别强调“传统意义上的产品经理”,而是让很多人共同承担产品职责:有些人偏工程,但非常懂用户场景;有些人偏运营,又能把需求翻译成清晰的技术任务,所以“产品思考”是被分散在很多人身上的。
招人方面,我们会尽量避免卷进“抢明星选手”的价格战,更像是足球俱乐部里的“青训和球探体系”:那些已经家喻户晓的球员,转会费肯定很高,创业公司去抢代价极大;我们更希望在一个人还没被市场广泛共识之前,就发现他、支持他。
我个人会非常看重三点:写代码能力要足够扎实,学习速度要快,以及自驱力和对这件事的长期兴趣。
文章来自于“智能涌现”,作者 “富充”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。
项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file
在线使用:https://replicate.com/camenduru/lgm
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales