ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
这个AI赛道,一个月内融资4笔,一大半的创始人是华人
5431点击    2024-04-23 10:55

仅在 2024 年 3 月一个月,就有三个华人创立的 AI 视频生成创企获得了融资,而且融资额都过了千万美金。


1、3 月 7 日,总部位于英国伦敦的Haiper宣布产品上线,并已经完成 1380 万美金融资。Haiper 由两位曾供职于 Google 旗下 DeepMind 团队的华人工程师建立,提供免费的视频生成功能,最长可以生成 2 秒的高清视频,和最长 4秒的标清视频。



2、3 月 13 日,由前字节跳动视觉技术负责人创立的爱诗科技,完成一亿元人民币(约合 1380 万美金)左右的 A1 轮融资,而其视频生成产品 Pixverse 已在海外上线,生成视频的时长为 4 秒,2 月份的网站流量已经达到 120 万。


3、3 月 24 日,据 The Information 报道,去年下半年,凭借让霉霉说中文视频火起来的 AI 数字人产品 HeyGen 正在进行一轮 6000 万美元的融资,由曾经投资过 Uber 和 Snap 的知名 VC Benchmark 领投,完成此次融资后,HeyGen 的总估值将达到 4.4 亿美元。


再加上之前估值已达 2-3 亿美金的 Pika Labs。由华人建立的创企们纷纷入局 AI 视频赛道。


而其实,“AI 视频融资热潮里华人密度尤其大”这个命题可以拆开去看,一个是 AI 视频的融资热,另一个是创业者里面的华人密度。


不赚钱、还烧钱,AI 视频为什么还会融资热,又为什么是 3 月份?


AI 这一波的创业潮,给已经有点冷清的市场注入了活力。但一圈看下来,除了大模型驱动的 Chatbot,基本上就没有新的产品形态了,AI 只是在“赋能”各个领域,文字、图片、视频。



而在上述几个领域中,AI 视频生成产品的用户接受度最低。在 a16z 刚刚发布的 2023 下半年 Top50 AI 产品榜单中,上榜的 5 款 AI 视频产品中,只有 runway 一款是以视频生成为核心功能的,其他都是刚需属性更强的视频编辑产品。



而就算 runway 也在 2023 年 12 月网站流量达到峰值后,出现了明显下滑。


这说明 AI 生成视频没市场吗,显然不是。按照赋能逻辑,AI 在某个领域落地,其潜在机会和规模,应该参考其服务的赛道。


显然,视频的市场规模不小,简单粗暴点,就互联网头部的产品来看,视频产品,也比图片和文字产品“值钱”。而当前这种流量的下滑,是因为产品确实拉胯。



根据 a16z 的统计,绝大多数产品都只能生成5秒钟以内的视频,而像 Kaiber 和 Deforum 虽然可以生成十几秒的视频,但只限于动画风格。


而虽然,像 Runway、Pika,和后续切入市场的 Pixverse 生成的视频看上去很真实,也很酷炫。但是短短几秒钟时间+简单的镜头移动,对于绝大多数用户来说,除了体验一下之外,很难有使用场景。即便和一些创作者交流下来,他们也很难把这些 AI 产品融入工作流里面。在新鲜感过去后,访问量下滑也属合理。


就网上的信息和与 AI 视频产品创始人的对话内容来看,大家普遍认为,目前的 AI 视频生成大概在 GPT-2 时代,也就是说,有一定技术突破,但是视频生成的时长和质量,还没有到能够落地应用和商业化的程度。



没落地,更别提商业化了,但硬币的另一面,“烧钱”却是实打实的。


从成本来看,Sora 的算力需求就比 GPT-4 高出了好几个数量级。有网友根据 Sora 的公开数据做出了保守估算,训练 Sora 需要 1.4 万张 NVIDIA H100 GPU 运行一个月,光这些芯片的价值就高达 4.4 亿美金......


其他产品虽然可能不像 Sora 一样走“大力出奇迹”的路径,但是算力成本远超其他类别 AI 模型是肯定的。


即便如此,赚不了钱、又烧钱的AI视频赛道仍受到了资本们的特别关注,2024 年仅过了 3 个多月就有多达 7 款产品获得融资,总融资额达到 2.18 亿美金。


背后的原因,也刚好如上所述。有市场、但供给都不太行,有心气的 VC 们还是愿意搏一把的,而 3 月份资本的密集出手,还多亏于 Sora 这样头部产品带来的“清晰信号”。


具体来看的话,有市场,不只是上面说的 AI 落地到的视频赛道规模更大,还有 AI 视频模型更接近于 AGI 的一层逻辑。


而很多从业者认为,AGI 如果真正实现,则很多细分领域的应用层机会就消失了,也就是谁先做出来,可能会形成比较强的流量聚集效应,从风险投资的角度,资本肯定愿意搏一下,也就出现了 AI 视频融资热。



而这个热潮出现在 3 月份,则是因为技术路径相较于之前清晰了不少。


技术路径收敛,AI 视频生成已走过了从 0 到 1 的探索阶段



AI 这一波的融资,其实集中出现在 3 月前后,这与 Sora 这样通过摸索技术路径、实现了远高于之前同类产品的惊艳效果强关联。


根据对前谷歌 VideoPoet 项目负责人蒋路的一篇采访,AI 视频生成有两个主要的技术路径 Diffusion 和 Transformer,前者是 AI 生图的主要技术路径,而后者则是 GPT 等大语言模型(LLM)的主要技术路径。


在 Sora 出现前,在视频生成赛道中,两者被认为是泾渭分明的两条路径。90% 的研究者都在进行 Diffusion 路径的研究,但也有少量的研究者在做 Transformer 路径的研究,但基本上逃不出这两个方向。



而 Sora 的出现则让技术路线基本确定。Sora 是 Diffusion-Transformer 模型,等于把上述两种技术路径整合起来了。其中 Diffusion 的作用是细化和完善视频画面,而 Transformer 则用来处理和解析复杂的文本输入,并控制视频的逻辑连贯性。通过这种技术架构,Sora 可以按图像帧的时间序列来处理视频画面,就像 ChatGPT 按文字逻辑顺序处理文本一样。


有创业者说,看过 Sora 的论文后发现,原来泾渭分明的两种路线完成了交汇。而 Pixverse 的创始人王长虎则说:“Sora 让我们坚定了前进的方向。”


由于 AI 视频赛道目前的技术路径已经日趋清晰,免去了选错技术路径带来满盘皆输的风险。VC 虽然考虑收益,但更关注风险。


又为什么是华人?



看几位创始人的履历,在创业之前就专注于 AI 或视觉相关技术,都有海外名校学习或国际化大厂供职的经验,拥有开阔的国际视野。


除了这两项“基础素质”,作为华人的他们对视频赛道,也有着自己的理解。


在上一波互联网创业大潮中,视频,尤其是短视频赛道,是中国互联网企业优势所在,TikTok 已经成长为全球主流媒体之一,引得 Google、Meta 等社交巨头们竞相模仿。



随着短视频占据了人们越来越多的注意力,互联网变现的 2 个印钞机也随之转动,广告和电商。根据 2023 年的数据,字节的广告收入折合 553 亿美元,排在国内主要互联网企业的第一位,总营收 1200 亿美元,排名第三。



而在电商方面,2023 年抖音电商的 GMV 在 2.3 万亿人民币左右(折合 3220 亿美元),在国内大概排在第四,海外的 TikTok Shop 有 200 亿美元。


作为华人,对于此要更敏感一些。纵观几款三月份获得融资的几款华人 AI 视频产品,虽然发展阶段不太相同,但是都针对短视频相关的广告营销和电商生态进行了探索。



Haiper 的产品于 3 月 7 日上线,而在产品还未正式上线时,Haiper 就开始了应用场景的探索。首先,在 1 月 24 日,Haiper 宣布与伦敦艺术大学时装学院展开合作,用 AI 的能力将时装草图转化为动态视频,在成衣制成之前预览上身效果。而在 2 月 9 日 Haiper 宣布和京东展开合作,探索电商方向的应用场景。作为一款新生产品,Haiper 已经在为技术找应用场景了。


而对视频、尤其是短视频商业化路径更清晰的认知,让 AI 视频赛道华人创业者们的发展路径看起来更接地气。


以其中融资金额最高的 HeyGen 为例。



HeyGen 在众多“形而上学”的视频模型创业公司里面,商业化能力是非常强的。收入数据来看,从 2022 年 7 月底上线算起,ARR 从 0 到 100 万美金,仅用时 178 天,而最近一次融资放出的消息,HeyGen 2024 年 2 月的预期 ARR 已经达到 2000 万美元了。


回头去看,HeyGen 除了迭代技术之外,在场景上的探索也非常积极和接地气。




在上线之前,HeyGen 首先在线上协作平台 Fiverr 上提供演讲者视频制作服务来验证市场需求,在这个平台上,HeyGen 提供的数字人演讲服务比真人服务价格降低了 90%,交付时间从 1 天缩短为了 10 分钟。通过这样的方式,HeyGen 找到了为服务买单的群体,电商卖家和内容创作者那样的小 B 用户。




而后,HeyGen 应该是想进一步去探索场景,锚定在企业宣传、内部管理和培训等能够用到 AI 视频的地方,来获取大客户。在 2022 年底,HeyGen 开始建立大客户团队,根据官网显示,Salesforce、amazon、NVIDIA 现都与 HeyGen 达成了合作。


在验证需求并有小范围内传播后,而后才有我们看到的 HeyGen 在社媒上曝光(“让霉霉说中文”),进一步再引发媒体曝光,打响知名度。


在发展的过程中,HeyGen 将各项技术(Avatar、声音、视频翻译)设计成一个个模块,然后组合应用到不同场景里,而场景的探索也偏多样化,例如一些个性化的外联视频、教育类会用到比较多的相关视频、商品展示和宣传视频等等。



但从第一开始的市场验证到后期的场景探索,电商和推广也都被作为重点探索领域。例如,HeyGen 在 4 月 17 日推出了基于商品页面生成商品介绍视频的功能。用户只需上传一个商品或 App 的网站链接,HeyGen 就可以基于页面上的文字和图片,自行生成幻灯片和对应的视频脚本,在用户确认后,生成产品介绍视频,进一步简化工作流程。



你还知道,华人创业者们在哪些 AI 相关赛道更活跃吗?欢迎大家在评论区和我们互动,我们也会视情况继续发布相关选题。


参考文献


1、a16z 干货:Sora 统治之下,AI 生成视频还有哪些机会?


2、采访VideoPoet 作者:视频模型技术会收敛,LLM 将取代 diffusion 带来真正的视觉智能


3、GenAI 这一波,华人创业者能出一些厉害的人物


4、深入剖析 Sora 原理:细节解读与技术洞见


5、AI生成视频比 ChatGPT 难在哪


6、为什么说 Sora 是世界的模拟器?


7、Sora 很强大,但也不必过度神话


8、用 AI 文生视频,到底有多难?


9、AI 到底如何生成视频?Sora 究竟为何能引爆科技圈?


10、OpenAI Sora:“原始版”世界模拟器,我们离黑客帝国还有多远?


11、Why 2023 Was AI Video’s Breakout Year, and What to Expect in 2024


12、The Top100 GenAI Consumer App


13、Sora 究竟有多烧钱?Sora 的推理与训练的计算成本被扒出来了


14、创业没被朱啸虎劝退,前字节 AI 老将王长虎“闯关”中国视频大模型


15、TikTok 电商大盘三位数增长,为什么赚钱的不是我?


16、7 个月 ARR 从 0 到 100 万刀,HeyGen 是怎么火起来的?


本文来自微信公众号“白鲸出海”(ID:baijingapp),作者:张凯然










AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales