为什么今年最赚钱、最容易融资、最容易跑出爆款的 AI 方向,全都指向视频生成?

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
为什么今年最赚钱、最容易融资、最容易跑出爆款的 AI 方向,全都指向视频生成?
8278点击    2025-12-12 10:07

如果把今年的AI创业图景抽象成一幅热力分布图,会看到一个异常明亮的区域。它不在模型底座层,不在搜索、办公、投喂式工具链,而是意外地集中在一个节点:视频生成。


今年国内融资最快,估值攀升最快的 AI 创业公司,几乎清一色来自视频赛道。


刘宇的Vivix尤为典型——不到 20 人的多模态班底,从年初创立到年末估值冲上 13.2 亿美元,用不到一年的时间连跳三轮,直接跨入独角兽区间,成为今年资本市场上增长曲线最陡峭的 AI 公司之一。


与此同时,其他视频创业者也在密集报喜。


前月之暗面产品负责人王冠创立的 ONE2X 在今年年中完成 A 轮融资,历史累计融资额逼近 2300 万美元;


草根出身的阿彪靠 Pollo AI 在 7 个月里做出 2000 万注册、600 万月活,一边拿下 1400 万美元融资,一边做到年化营收突破 2000 万美元并实现盈亏平衡;


爱诗科技更是在 9 月宣布完成 6000 万美元 B 轮融资,直接刷新国内视频生成领域的单笔融资纪录。


这些案例共同指向一个事实,只要做生成视频,只要产品能让用户跑得起来、让收入跑得出来,就会迅速被资本看见。哪怕大厂已经全面入场,视频生成依旧是少数几个创业公司仍能切入、仍能做出差异化、仍能讲出增长故事的赛道。


从 OpenAI 把 Sora 做成日活千万级的 App,再到 Runway、Luma AI 等一众新贵估值轮番抬升,对比国内即梦、可灵、Pollo AI、ONE2X、Vivix 这些玩家的集体发力,你会发现:视频生成已经从技术展示变成资本、巨头、创业者三方博弈的主战场。


这不是简单的下一个 Stable Diffusion,而更像一场关于“下一代内容形态”和“下一代交互界面”的豪赌。


为什么偏偏是视频?


从技术端看,视频本来是多模态里最难啃的一块骨头:既有空间维度、又有时间维度,还要兼顾物理规律、角色一致、镜头语言。按理说,模型圈应该先把文本、图片吃干抹净,再慢慢升级到视频。


但过去 18 个月,节奏被彻底打乱了。


一边是模型能力的突进。Runway 的 Gen-4.5 在第三方评测机构 Artificial Analysis 的视频模型榜上拿到 Elo 排名第一,超过 Google、OpenAI、快手等一众玩家,真实感、动作连贯性、镜头调度都已经可以对线专业广告片。


另一边,是产品端的爆款效应。OpenAI 基于 Sora 2 推出独立视频 App“ Sora”,把写一句话生成一条短视频的体验做成了类 TikTok 的内容社区。上线几天冲到苹果 App Store 免费榜第一,下载量直接超过自家 ChatGPT。


再往后看资本端。Luma AI 今年宣布完成 9 亿美元融资,最新估值超过 40 亿美元。Runway 的年化收入被第三方机构估算已经逼近 9000 万美元等级,且增长主要来自视频相关产品。快手在财报中单独披露了可灵 AI 的收入,今年二季度单季收入就超过 2.5 亿元人民币,成为财报会上重点强调的增长引擎之一。


这几个数字背后,有一个很现实的判断:在所有多模态方向里,视频是离钱最近的一个。


广告、剧情短片、电商详情页、游戏预告、公司培训、在线教育……几乎所有行业都有“要做视频”的刚性需求,但传统视频制作在人的时间、拍摄成本、后期成本上都极其昂贵。


大模型如果要从PPT 上的故事落到实际现金流,视频是第一批真正能闭环的场景。文本模型做 Copilot、写代码、做搜索,更多是提高效率,视频模型则是直接帮你省掉一部分外包预算和团队 headcount,甚至重写整个创作工作流。


大厂与创业公司:同一个战场,两套打法


如果从空中俯视今天的视频生成赛道,会看到两条清晰的力量对冲。


一条是大厂路线。OpenAI 用 Sora 把模型和消费级产品打通,Google 用 Veo 系列绑定 Gemini 生态,字节/快手用即梦/可灵深度绑定自家内容、广告与电商体系。


另一条,是创业公司路线。从模型基础设施到应用层产品,再到视频版 Canva / 剪映,什么层级都有玩家在卷。刚刚提到的几家公司,刚好构成了一个很好的切面。


ONE2X 是典型的“重产品、重工作流”的创业路径。创始人王冠本身就是月之暗面的前产品负责人,团队里大量成员来自月之暗面、字节、阿里、快手等公司。ONE2X 做的 Medeo,并不是再造一个“模型试玩网站”,而是把自己的定位定死在“创意表达工具”:像和 ChatGPT 聊天一样对话式改视频,前后文都在一个 Context 里完整保留,同时内置剪辑、工作流编排,让动画、MV、广告、解说这些常见视频形态都以“模版 + 自然语言”的方式组合出来。


为什么今年最赚钱、最容易融资、最容易跑出爆款的 AI 方向,全都指向视频生成?


他们在底层做了一套“面向视频的生成系统”——用领域特定语言 DSL 去描述视频操作,再用 Context 系统和“人机共创环境”来把模糊自然语言映射到具体的视频操作命令上。换句话说,ONE2X 不只是“调用一个视频模型”,而是把整个视频编辑语言重新做了一次抽象,让模型能听懂“把刚才那条镜头再暖一点、调成 16:9、把音乐推进 2 秒”这种高度语义化的指令。


Pollo AI 则是完全另一套思路:先用极致的出海经验和 SEO 能力,把聚合模型 + 视频生成工具做成一个高速增长的产品,再在增长的浪里迭代产品形态。


创始人阿彪没有大厂履历,起步是做各种工具出海,靠 SEO 让几十个产品活下来。Pollo AI 最早只是一个接入可灵等内测视频 API 的壳,后来逐步演化为聚合几乎所有公开视频、图片模型的 POE 平台。靠对“选品”和流量窗口的敏感理解,它在 7 个月内做到月活超 400 万、注册用户超 2000 万,并且在今年已经实现年化收入 2000 万美元、整体盈亏平衡。


这是一条更草根的路线:不自研模型、不烧上亿美金算力,而是用产品能力、SEO 能力和对时机的把握,把“模型红利”尽可能转化为用户规模和现金流;再在这个基础上,从“工具叠加”升级成“完整工作流 + 对话式创作 + Agent 编排”,试图向“AI 版剪映 / 视频版 Canva”演化。


第三类,则以刘宇的 Vivix AI 为代表,走得最激进。不是单纯做视频模型,而是把视频当成实时交互界面的第一语言,试图在系统层面重写多模态智能和推理基础设施。


从公开信息和论文线索来看,这家公司做了三件本质性的事:


第一,把视频推理当成系统工程问题来解,把精度-算力-延迟重新平衡,在低精度计算、自适应位宽、深度学习编译器和多维并行上做系统性重写,目标是做到“0.6T 秒生成 T 秒画面”这个量级的实时推理。


第二,不再把语言当成总路由,而是用统一 token 空间做原生多模态,让视觉、音频、动作与语言在同一个表征空间里共同训练,尽量减少“先转成文字再推理”的信息损失。


第三,从 Day 1 就把产品想象成“实时交互多模态内容”的载体:用户不再是在信息流里被动刷视频,而是站在一个 AI 系统的对面,像玩游戏一样实时对话、互动、共创——视频不再是结果,而是一种持续生成的过程。


为什么今年最赚钱、最容易融资、最容易跑出爆款的 AI 方向,全都指向视频生成?


在这三种路径之间,大厂的优势是资源和分发,创业公司的优势是速度和敢赌方向。视频生成之所以热,是因为这两股力量难得地在一个时间点、一个方向上形成了强共振。


技术战场:质量、速度与成本的三角博弈


从远处看,视频生成像是在比谁更逼真、谁更像真人拍的。但所有真正做事的团队都知道:这背后是质量、速度与成本的三角博弈。


质量不仅仅是清晰度和分辨率,更包括:它能不能在镜头里保持角色、光影、场景的一致性?能不能遵守基本物理规律,不会走着走着突然穿模?能不能听得懂镜头语言,理解运镜、拉焦、摇镜头、等专业指令?


像 Runway Gen-4.5、可灵、Sora 这些头部模型,今天已经能把文本描述 + 参考图像翻译出极具电影感的短片,用户可以控制镜头推进、景别变化,甚至在一个提示词里写下“前 5 秒是空镜,后 10 秒切到人物特写”。


第二层是速度。在做 Demo 时,等几分钟生成一个 10 秒视频并不是问题;但在真正的创作、电商、广告甚至互动游戏场景里,几分钟一次是不可接受的。你要的是试错-预览-再改的快迭代体验,甚至是实时互动的低延迟体验,这要求推理栈被彻底重写。


这也是为什么像 Vivix、Luma 这样的公司会把大量精力砸在编译器、低精度推理和多卡并行上。不是为了写更学术的 paper,而是为了把延迟打到一个能支撑交互的量级。


与此同时,视频是算力最烧钱的场景之一。OpenAI 自己估算过,Sora 这类模型在自由生成模式下,每天的 token 成本可能在千万美元量级,这也是为什么它在产品设计上必须小心控制时长和生成频率。


一端是像 Sora 这样的社交 + 创作产品,为了冷启动必须承担相当高的免费用量;另一端是广告主、游戏公司、影视公司,它们更关注的是“这条视频到底省了我多少人力成本”、“这个 API 的单价能不能打平 ROI”。


所以,真正的技术竞争,其实是把这三个变量压进一个更小的空间。在可接受的成本下,把质量做到某个阈值以上,同时把延迟打到可以撑起创作工作流甚至实时交互的程度。


从“做视频”到“用视频说话”:一个更远的终局


如果只把视频生成看成更便宜地做广告片、做带货视频,那它只是一次技术升级;但如果顺着 Vivix 等团队的视角往前走,你会看到一个更远的终局:


视频会从一种内容形态,变成一种交互语言。


今天,我们用语言和文字和模型互动。明天,越来越多的人会直接用视频和动作去和系统对话。


你给模型看一段你家客厅的视频,它帮你实时生成装修方案;你用一句话和几张草图描述一个产品,系统直接生成产品介绍短片、发布会开场视频、投放素材;你在游戏里走动、说话、做表情,身边的 NPC 和环境都在根据你的行为实时重写剧情和画面。


要支撑这些场景,视频模型必须具备三件东西:足够强的多模态理解能力,能看懂人、环境和动作;足够快的推理速度,能做到说一句、立刻给一段;足够低的成本,才能规模化进入每一部手机、每一台头显、每一个网页。


这就是为什么 2025 年的视频生成赛道看起来如此拥挤,却又如此合理。它会像触屏取代按键、短视频取代图文一样,改变我们与数字世界的关系。


文章来自于“白鲸出海”,作者 “白鲸出海”。

关键词: AI , AI挣钱 , AI视频 , AI商业化
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0