45天100万美金ARR,这家创业公司找到了AI 3D生成的PMF

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
45天100万美金ARR,这家创业公司找到了AI 3D生成的PMF
6818点击    2025-01-17 11:42

45 天,3D 生成产品 Rodin 达成了 100 万美元 ARR。这是一个重要的里程碑,作为对比,GenAI 领域最成功的初创公司之一 HeyGen 达到这个数字花了 7 个月。


Rodin 来自影眸科技,刚刚完成数千万美元的 A 轮融资,投资方包括字节跳动和美团龙珠等。


四位联创,平均年龄 25 岁,但他们已经创业四年。四年前,都是同学,技术多自信,业务就多坎坷。


我们和 CEO 吴迪、CTO 张启煊坐下聊了很久,听到很多他们问自己的问题,那些问题在四年的探索中慢慢有了答案。


「我们技术这么好,客户为什么不用?」第一个问题,超典型技术小天才。


影眸已经花了四年求解这个问题。


45天100万美金ARR,这家创业公司找到了AI 3D生成的PMF


一月,从古至今,都是属于硬件的。大模型的希望,可能也是硬件的。

所以 Founder Park 搞了这个半闭门交流,邀请几位新锐创业者盘一盘:

  • CES 上最牛 x 的 AI 硬件是什么?
  • 除了眼镜以外,AI 硬件还有什么值得干?
  • 一个新品类,如何快速干到 100 万出货量?
  • 未来一年,新锐公司们谁能干的最牛 x?


分享嘉宾:

  • 张鹏 | 极客公园创始人 & 总裁
  • Henri Pang | Kickstarter 中国首席战略代表&高级顾问
  • 何嘉斌 | 萌友智能 CEO、联合创始人(Ropet)
  • 张晓辉 | TangibleFuture 创始人 & CEO(LOOI)
  • 吴昊Tony | 玖治科技联合创始人、CEO(RingConn)

本周六下午,报名参见文末长图。


01 

3D 的表达是「割裂」的


Rodin 1.0 用 45 天迈过了 100 万美元 ARR,那已经是半年前的故事了。现在 Rodin 陆续完成几次版本迭代,升级到 1.5 版本,模型性能已经完成一次跨越。


1.5 版本最重要的特点是:能够生成直角。听上去却很「简单」,就是更准确地生成直线、直角和或者平滑曲面,以及更好的边缘锐度。


当外界对 3D 生成的期待变成动辄用几句自然语言就能变出现实世界一角,一个更准确的「直角」,价值在哪里?


45天100万美金ARR,这家创业公司找到了AI 3D生成的PMF

使用 Rodin 创建的影视级作品


「3D 生成,生成的究竟是什么?」这是最基础,但也最关键的问题。


有人觉得是视频,或者说,大多数人对 3D 的理解,很大程度上等同于一段充满 3D 元素的视频内容。90 年代的《玩具总动员》,后来李安的数字版威尔史密斯,早年多边形的游戏,去年爆火的《黑神话:悟空》,所有人都能通过平面感受到 3D 作为一种影像呈现方式的魅力,不管是电影银幕,还是游戏电脑的屏幕。


于是,从 2D 视频出发模仿 3D,成为了一条很重要的技术路线。


Sora 在 2024 年初横空出世,demo 视频里的高一致性,引发了人们探讨它是否会直接覆盖 3D 生成的工作。但很快,Sora 迟迟不发,追随者表现一般,视频模型距离「电影级」或加入游戏管线还有很长的时间。


原因很多,比如生成式 AI 的能力仍然被高估了,就像电影概念艺术家和插画家里德·索森(Reid Southen)在早些时候的判断,「这些视频有点太草率了,有太多问题,尤其是时间一致性和额外肢体之类的伪影」。


但一个被忽视的问题在于,一段演示着 3D 形象的画面,到底是「3D」,还是更偏向「视频」?


视频作品意味着直接面对着它的消费者,但游戏和影视创作中的「3D」概念,本身是一个完整工业中的一环,比如一座虚拟建模的花果山,它需要能够在后续的创作环节中被继续使用。


「3D 生成,究竟生成的是什么?」


「与视频不同,3D 是个工业,它有下游环节。视频输出之后用户可以直接分享,手机里就可以看,但是 3D 生产好之后要想去进一步使用,需要适配渲染器,需要适配游戏引擎,如果是具身智能的话,需要适配仿真软件。这就要求我们对(模型)输出的东西,需要和一些工业标准需要去做好对应。」


「在我们的理解里,3D 是一种资产」,启煊说,「文字、图像、视频,都是消费级,直接与 C 端用户见面,但 3D 不是。」


45天100万美金ARR,这家创业公司找到了AI 3D生成的PMF

用户使用 Rodin 批量生成的 3D 资产


文字、图像或者视频发展到现在,都已经成为消费级的内容,这意味着他们都是直接与 C 端用户见面的。这在技术层面也就意味着,三个模态的表达已经在行业里达成基本的一致。


「视频有它的主流编码,图像可能目前主流的是一个二维矩阵,每个位置上记录它颜色。文字可能就是一些字符上的编码」,启煊说,「但 3D 不是,到现在为止它的表达还是很割裂的」。


这种割裂是指,比如一个 3D 数字人的面部建模,可能会使用特定的格式来支持复杂的面部表情和身体动画,这通常需要高精度的网格和骨骼绑定技术;大逃杀游戏中的建模更注重性能和效率,对地上的一把枪通常采用低多边形风格的建模方式;而一款车在设计阶段的 3D 建模,重点在于精确的几何形状和功能性表现,需要详细地展示其内外结构、机械部件以及空气动力学特性,这种建模通常需要使用专业的 CAD 软件,并结合工程和设计的严格标准,以确保模型的准确性和实用性。


所有对 3D 数据有需求的行业,目前几乎都有着一套只对自身场景适用的标准和表征方式,它们的数据信息相互之间不可复用。


影眸科技团队一直希望将 3D 数据的表征统一起来,变成一种标准化的资产,这件事从 Rodin 1.0 开始就在做,团队提出了一种 remesh 的模型重置策略,通过把每个模型都稍微「变厚」一点点来达到表征一致,「变厚」之后对生成 3D 的美观性和它所包含的信息其实没有太大的影响,但是整个模型会看起来都圆鼓鼓的。


但在 Rodin 1.0 真正落入工业的过程中,表征的统一并不意味着生成的 3D 数据就可以顺利的作为资产被被使用了。在大量真实的产品设计或游戏工业里,对 3D 资产大量的需求并不是可爱的萌宠或者一个用云朵质地拼成的字母「A」,而是更偏向于无机形状(用数学的构成方式,由直线或曲线,或直曲线相结合形成的面)以及锐利边缘感觉的东西。


无机形状的生成能力、锐利的边缘以及非常干净的拓扑结构,这是 Rodin 1.5 在 3D 生成能力上最凸显出来的的性能提升。而这种对于 3D 生成数据在一致性和「可用」上的重视,是吴迪和启煊这几年用一个个坑踩出来的。


02 

一定要 Production-Ready


几年前,一个大客户让初出茅庐的吴迪和启煊等人第一次碰壁,那就是《流浪地球 2》。


《流浪地球 2》的中有一些刘德华和吴京变年轻的镜头,后期团队希望用特效来呈现。2021 年年初,影眸团队在上海张江搭了一座直径 3 米的黑色球形框架,光源和摄像机遍布球体内部,整个装置占满了一整个房间,这是影眸科技当时用于高精度人物面部采集的第一代穹顶光场。穹顶光场做出来后,一些影视行业的团队陆续来问,其中就包括《流浪地球 2》。


45天100万美金ARR,这家创业公司找到了AI 3D生成的PMF

穹顶光场


吴迪和启煊对自己研发出来的人脸扫描设备非常自信,但现实也非常惨淡。据吴迪回忆,「流浪地球团队的人来看了效果后,问的第一个问题:这玩意咋用?」


不能用的原因是,最初的穹顶光场其实本质上是一套纯打光的系统。一个人进入球体中心,通过 360 度的光源可以采集所有方向的光照,在这个基础上,可以在后期去合成不同的光照环境,然后再通过换脸的方法把它给换上去。,逻辑上更偏向现在说的视频生成。这使得它很难进入电影工业的 CG 管线。


「真的要用在 CG 管线上的 3D 人脸,它首先得是一个完整的 3D 模型,它有优秀的拓扑、可以反映出各种光照变化的材质、能控制并且做出各种表情,这样它才能够很好地被接入在后面去使用。」


在那之后不久,影眸科技做了一个重大的决定——砍掉了当时所有 base 2D 的技术研发投入,全面 all in 3D。生成路线从 2D 往 3D 的转向背后,是影眸科技团队内部对于「Production-Ready」的共识。


「Production-Ready」这个词来自 CG 行业。CG 行业中有一个词——后期(Post-Production),而「Production-Ready」的意思就是后期可用。


45天100万美金ARR,这家创业公司找到了AI 3D生成的PMF

用户作品,70%模型来自 Rodin


从第一代侧重平面数据采集的穹顶光场,在与客户不断碰撞的过程中慢慢演进到后来第二代采集 3D 人脸数据的穹顶光场,再到随着与客户的接触,技术最终达到了采集数据可以直接用于影视游戏数字角色的构建,「Production-Ready」逐渐成为影眸科技由内而外的一种理念。


「Production-Ready 不是个容易量化的指标,如果一定要说的具体一点,那就是在技术路线的设计、选择的优先级上,我们会把生成结果的可用性作为一个很重要的思考点。打个比方,如果一个技术它能带来视觉质量的提升,但是不会让 Production-Ready 的距离更近,我们就不一定会去做」,启煊说。


「Production-Ready」的观念也直接决定了影眸科技在生成式 AI 浪潮来临后,在 3D 生成上选择了一条反常识的道路。


在当时最主流的观念里,3D 生成本质上是一种从 2D 的升维,在 Stable Diffusion 出现之后,通过 2D 扩散模型,结合 NeRF 等方法实现三维重建的过程。由于可以利用大量的 2D 图像数据进行训练,这类模型往往能够生成多样化的结果。


随着多视角重建工作通过把 3D 资产的多视角 2D 图像加入 2D 扩散模型的训练数据,在一定程度上缓解了这类模型对 3D 世界的理解能力有限的问题,但局限性在于,这类方法的起点终究是 2D 图像,2D 数据终究只记录了真实世界的一个侧面,或者说投影,再多角度的图像也无法完整描述一个三维内容,因此模型学到的东西依旧存在很多信息缺失,生成结果还是需要大量修正,难以满足工业标准。


2D 升 3D 的路线,更像是在证明一个图像模型见识了足够多的图像之后能够理解 3D,但这种对 3D 的理解和工业上能够被使用的 3D 数据仍然相去甚远。从另一个角度,2D 升 3D 也反过来意味着一种对于 3D 信息的压缩——就像一个 200 条边的正多边形仍然离一个理想的圆形有差距一样。


影眸团队,在大量的数字人和 3D 扫脸工作之后,面对这条 3D 生成里看起来最有共识的技术路线,「没办法说服自己」。


「我们知道三维扫描这件事的上限在哪里。当前,它达到最完美的地步也很难直接投入到实际生产里,而拿 2D 的 Stable Diffusion 去升维到 3D 最好的情况也就是无限逼近了三维扫描的质量,凭什么这种方法可以一步到位?」吴迪说。


3D 生成要能够与人类工业对齐,只能走 3D 原生这条路,也就是抛弃从 2D 升维的想法,直接构建出 3D 模型。


计算机图形学顶会 ACM SIGGRAPH 2024 大会上,影眸科技团队的两篇论文——可控 3D 原生 DiT 生成框架 CLAY 与 3D 服装生成框架 DressCode——均入围了最佳论文提名。论文中提出了一种 3D 原生的 diffusion transformer 架构,也就是完全从 3D 数据集训练生成模型,从各种 3D 几何形状中提取丰富的 3D 先验。


这两篇论文的探索工作也引领了 3D 生成业内的技术路线变化,这之后 3D 原生开始取代 2D 升 3D,到现在已经是目前全球范围内 3D 生成主流的探索路径。


45天100万美金ARR,这家创业公司找到了AI 3D生成的PMF

影眸团队在 SIGGRAPH 上


03 

从实验室到创业公司


早在影眸创办第一年,他们就曾做出过一款明星产品。


2021 年,一款叫「WAND」的二次元角色生成产品上线,上线第二天被一个知名的日本博主看到,然后迅速在国内热闹起来,在很短时间内拿到了 160 万的用户量。


45天100万美金ARR,这家创业公司找到了AI 3D生成的PMF

WAND 当年的 App Store 页面


流量与关注随之而来,「接不住」吴迪说。


流量并没有给吴迪和启煊带来选择成为哪种公司的机会,反而是要剥夺了这种选择的权利。


「所有人都觉得我们应该把自己做成个「WAND」公司,包括我们周围的人,还有一些想投资我们」,吴迪说。


但最终「WAND」公司没有出现。不久后,吴迪和启煊就主动停掉了「WAND」这个产品。现在外界更加熟悉的名字,是影眸科技和 Rodin。


「我们没有走那条大家认为该走的路,因为我们的技术能力和我们想做的事情,还是在 3D 上。」


完全抛开图片生成路线的决心,得到了陆奇博士的支持。


「既然做了这个决定,你们就要狠下心来,只做那个你们认为对的东西。」陆奇博士在 2021 年奇绩创坛秋季路演之后和影眸团队说。


2021 年末的奇绩创坛 2021 秋季创业营路演上,陆奇博士像「教练」一般,边回收着麦克风,边与刚完成路演的创业者激情击掌。这一期 4226 家创业公司中,最终录取了 53 个项目。1.25% 的录取率,其中就包括了影眸科技。


WAND 最终变成了让吴迪和启煊从实验室走向商业世界的敲门砖。


吴迪在之后有问过陆奇博士为什么会投自己这个团队。同年爆火的 WAND 是那个让奇绩注意到这个上科大年轻团队最初的契机,但最根本的原因在 WAND 背后,奇绩看到了一个纯研发团队能够难得在早期就具备商业化的思维。


这对一支 2021 年时平均年龄才 21 岁的创始团队来说并不容易,但产品化和商业化这两个非常企业式的思考维度,从影眸科技这个名字一开始在上科大的 MARS 实验室中酝酿成立时就有了。


吴迪在 2015 年进入上科大,启煊则是 2018 年,两人先后进入了上科大以人工智能结合计算摄影为主要研究方向的 MARS 实验室,那时的实验室里只有三位学生,也就是影眸科技最早的三位成员,第四位联创在 2020 年进入 MARS 实验室,这时候第一代的穹顶光场正在搭建,外界正是元宇宙和数字人概念势头正盛,吴迪和启煊们看到了这套数字采集设备背后的商业前景,就在实验室里决定了影眸科技的成立。


上海科技大学是一个非常非常年轻的学校,创办于 2013 年,吴迪是第二届学生,那时候上科大还不是「双一流高校」,校园只有一个宿舍楼,上课都要借其他学校的教室。


但有意思的地方在于,在上科大,无论是实验室、学生会、还是最开始的课程,一切都要从头开始搭建。吴迪很喜欢这种感觉,「念书念出了创业的味道」。


或者用启煊的话说,「(上科大头两年的情况)决定了当时学生的属性,都是他们这种胆大的,aka 创业精神。」


45天100万美金ARR,这家创业公司找到了AI 3D生成的PMF

影眸团队在 SIGGRAPH Real-time Live!环节展示 Rodin 3D 生成


公司成立于 2020 年 6 月,之后的整整一年多时间,吴迪和启煊都在生成内容和工业真实需求间的巨大落差之间受挫。将「Production-Ready」作为技术研发最核心的校准方向最初也是在这无数次受挫中形成的。


2021 年秋天,影眸拿到了第一笔来自奇绩创坛的融资。在奇绩创坛的路演日之后,他们又很快拿到了第二笔。


第二笔来自红杉,吴迪记得敲定红杉这笔融资的时候是 2021 年的圣诞节,那天下午他们见了好几波投资人,直到很晚。「那天刚好是我们圣诞聚会,但弄到最后我跟吴迪就只是去聚会上结了个账」,启煊说。

这条创业道路并没有从此一帆风顺。从 2022 年开始,影眸科技在接近两年时间里没有拿到融资,其中有一次融资过程消耗了吴迪大量的精力,却最终没能 close。


那次失败带来了两个结果:


第一,影眸的性格,做 AI 创业,第一天就要考虑商业化,先活下去,保证现金流;


第二,彻底坚定 3D 原生路线的选择。


「在这之前,我们做 3D 生成的想法是,招一个在 3D 生成领域有过尝试的人来帮我们一起做,但那样很可能跳不出当时技术路径的惯性」,吴迪说,「恰恰是因为那次融资失败,让整个核心研发团队下定决心,一定要做出真正可用的 3D 生成。」


几个月后,有了最初的 Rodin 1.0。


04 

3D 就是那块拼图


影眸希望 Rodin 成为 WAND 一样的爆款 toC 产品吗?


这个答案很明确。


「3D 生成最终一定会走向 C 端,但不是现在。」启煊说,「现在拍一张图片或者一段视频可以很直接的分享社交平台上,但 3D 还不是一个可被分享的格式。」


或许新的硬件有机会,但肯定还需要时间。在那之前,「当你不清楚这个东西的终局在哪里,不如先做,眼前永远有很多值得攻克的问题。」吴迪确信,当前 3D 生成的机会,就在存量市场里。


影视娱乐不必多说,工业领域对 3D 生成的需求也越来越多。比如建筑设计,以往建筑效果图大多仰赖二维贴图,算力限制了可视化的选择。这种方法的局限性相当大,比如灯光永远看起来不正确,摄影机总是要在一定的高度上,动画也是大禁区。3D 原生技术可以让整个虚拟空间在任何光线情境、任何摄影机下运作,给建筑可视化带来了更多的想象力。


目前影眸已经与多个游戏、影视、制造业等行业的龙头企业展开合作,Rodin 的 SaaS 产品也积累了大量平面设计师、AR & VR 开发者、3D 打印爱好者等专业用户人群。


45天100万美金ARR,这家创业公司找到了AI 3D生成的PMF

Rodin 用户在 X 上的评价


「我们现在的目标是存量市场,存量市场有真实的需求,它能告诉我们,大家到底需要怎么样的 3D 生成模型?」吴迪说道。


那以后呢?


一年前 Sora 石破天惊的时候,曾经一度让人怀疑行业是否还需要 3D。


启煊印象很深,「视频生成刚出来的时候,所有做传统图形学的——我们——都觉得它会被颠覆掉。」他解释说,对 3DCG 来说,视频生成意味着不再需要三维空间,直接拿到渲染结果,「这对传统 CGI 技术冲击非常大,做 3D 生成的会担心有一天 3D 不再被需要了。」


尤其,虽然 Sora 当时是「期货」,「但 OpenAI 在期货这件事上,reputation 还挺好的。」


影眸的研发团队开始频繁了解、测试视频模型。他们很快意识到,视频生成在做的只是「仿真」,是「模拟」,再「逼近」最终想要的结果。


「它是一个 frame consistency(帧间一致性)的生成器,并不是建立在 World Model 之上,它做不到 world consistency(世界一致性)。」启煊说,「这是两个 level 的概念,如果只靠视频生成,就只能停留在这里。」


「但有意思的是,3D 模型原来在 CGI 工业里做的,就是 world consistency。」


一段电影中的 CG 视频,比如房间里的一个人,首先需要房间里每个物品的模型,每个模型都需要表达光照属性的材质,人物需要动作的动画,需要虚拟世界里有一个摄影,对人物的每一帧动作做光线追踪,这时候光追就是渲染器的工作,通常离线渲染一个电影级 CG,往往需要集群级别的渲染才能达到逼真效果。


意识到这点,再看视频生成,在以上的管线里,似乎「只取代了离线渲染器的工作——而不是整个 CGI 工业」。


「视频不是 world model,」吴迪说,「它可能是 world model 输出,展示给大众时的一种形态。」


「一致性问题,尤其是 world-level 一致性,这是个信息量的问题,」启煊解释说,「如果这个世界的信息变化的描述,不能输入给 AI,它就一定做不到这种 consistency。」


通向世界模型,至少需要 world consistency,所以这个时候,就需要一个新的模块做好控制(control)。


缺少一块拼图,恰好就是 3D。


「我们有自己心目中的 World Model。」有很多正在做、值得做的事,想想都很兴奋。


「这段就别写了,等我们做好再拿给大家看吧。」


文章来自于“Founder Park”,作者“甘德”。


45天100万美金ARR,这家创业公司找到了AI 3D生成的PMF

关键词: AI , AI 3D , Rodin , AI项目
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

2
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales