网易云音乐创始人王诗沐的创业公司,全灵 SEELE,宣布完成了千万美元 Pre-A 轮融资。
本轮融资由百度战投领投,投资方包括美图投资、富坤创投等机构,老股东 Webtime Information S&T 持续加持。
SEELE 成立于 2022 年底,主攻 AI 生成 3D 游戏。2024 年正式推出第一款海外产品,半年积累近百万用户。据了解,SEELE 正在开发下一阶段的产品,并且有清晰的产品和技术路线规划。
核心团队来自腾讯、字节、阿里,包括大模型、图形学等领域的技术专家,产品和增长由连续创业者、腾讯和网易资深增长负责人组成。
作为移动互联网时代的知名产品经理,王诗沐凭借网易云音乐一战成名。
2009 年浙大工业设计毕业,加入支付宝;
2010 年加入网易,网易摄影、网易云音乐、网易美学;
2019 年加入腾讯,小鹅拼拼、腾讯新闻和幻核;
2022 年,王诗沐离开腾讯,创业成立全灵 SEELE。
他非常熟悉内容平台,做过图片、音乐、图文和 3D 数字藏品等内容形态,精通个性推荐、社区和 UGC 的产品方法。这次创业,他瞄准了下一个内容平台的机会:3D 互动娱乐内容。
在他看来,技术尚未收敛的时期,更加需要产品。3D 内容生成和内容平台是一件长期的事,王诗沐选择分阶段用产品验证用户需求,逐步向理想的终极形态拓展。
在低调、沉浸的两年后,我们找王诗沐做了一次深度访谈,聊了聊他对热门 AI 产品的观察,对如何用新技术做产品的理解,以及对互动娱乐/游戏内容平台的设想,尽可能完整呈现他本人创业过程中的思考。
不论过去还是现在,问到他对失败产品的看法,王诗沐总会说,「产品失败,原因通常有很多,最重要的就是产品没做好」。
创业之后,他补充了一个观点:「要有空杯心态」。
以下是 Founder Park 与 SEELE 创始人王诗沐的对话,经编辑整理。
FP:为什么选择 3D + AI 的方向?
王诗沐:从阿里到网易到腾讯,我一直在做内容,做过图片、音乐、新闻、数字藏品,中间一度很想做视频,但很可惜,错过了那个大的窗口期。
我一直在想,接下来一个大的阶段,最重要的内容形态是什么?
在腾讯,我复盘了自己做过的所有产品,不管是成功还是失败,得出的判断是,在创新这条线上,技术创新大于产品创新,再大于运营和商业(模式)创新。如果要创业,一定要优先思考技术的创新点是什么。
当时内部定了三个点,AI、3D 和区块链,分别对应生产力、介质和生产关系。生产关系的产品比较复杂,制约因素太多,不适合创业公司做。
生产力的创业最适合创业公司,我本人非常想做一个新的内容介质的平台,所以有了 3D 和 AI 的结合。
最早研究了用 GAN(生成对抗网络)的方式做 3D,做了一些尝试,比如生成人的 3D 模型,有各种参数,人种、高矮胖瘦、肤色、五冠特征,比如眉毛粗细、眼睛间距这些,通过强化学习是可以做的,但泛化能力很差,比如做人型就只能是人型,想生成个叮当猫都不行。
后来,diffusion 模型开始流行,逐步逼近真实分布,能更好地捕捉复杂的细节,尤其是对 3D 生成中纹理的表现力更高,并且非常适用于 NeRF 以及后来的 GS 等多种表征。到了年底,ChatGPT 出来了,我们开始研究 Transformer,到后来的 DiT 架构,用 Transformer 代替掉传统 diffusion 里的 UNet,看到了更多可能性。
FP:3D 生成还在相对早期的阶段,为什么现在就推出了 toC 的产品?
王诗沐:当时看了所有 3D AI 的论文,别人的方法,拿来复现,最后得到一个结论,直到现在,所有模型的能力都是不及格的。如果 60 分及格的话,目前都在 30、40 分的水平。
3D 对 C 端的出口,一个是游戏,一个是动画。目前 3D AI 的模型技术直接落地到这两个出口都是欠缺的。我们就在分析为什么会这样?显然图片、文本甚至视频的大模型,发展速度非常快,有海量数据,「所见即所得」,生成图片之后,不管好不好,马上可以对接到后面的工作流,或者给用户消费。
但 3D,单纯生成一个模型,对消费者没有意义。
用户想看动画,想玩游戏,要经过很多图形学的管线,真正地做出来,后面这些管线大模型现在解决不了。
所以客观情况就是,3D 生成没有 C 端可用的产品,也就意味着没有数据积累,大模型滚动迭代会慢很多。
对我们来说,要实现愿景中的终极形态,解决用户需求,必须要在 C 端找到切实落地可行的技术,哪怕先去实现一个只有 60 分的产品,推出去,积累数据,迭代算法,然后做出更好的模型。
「SEELE」原是德语,意为「心灵/灵魂」,也是著名 IP《新世纪福音战士》(EVA)中的组织名。命名创意来自公司联创郭正栋,表达满足用户精神世界需求的意思。
FP:为什么选择先做一个「3D 版 C.AI」?
王诗沐:我们要在目前的技术框架内做一个 toC 的产品,就在看现阶段有什么产品形态可以做。
Character AI 非常适合我们第一阶段的产品原型。C.AI 验证了用户和 AI 之间有文本和语音聊天的需求,即便用户群相对较窄,但也已经完成验证。对我们来说,这意味着不需要考虑用户需求的变量,只需要考虑技术变量,如何将 3D avatar 加入到那样的产品框架里,让它 work,达到用户能使用的状态。
后来看,C.AI 用户人群也不少,本身上千万,整体上亿人群是有的。
我们现在的产品是 C.AI 的子集,但最终不是要做聊天陪伴。目标是 3D 互动娱乐,用户和 AI 聊天只是其中一个场景,是目前最快最容易用当前技术来实现,并且推向市场、积累用户、得到验证的产品形态。
接下来我们会做更复杂的互动娱乐。现阶段能看到,对大量用户来说,依靠想象力文本聊天是比较枯燥的,获得的娱乐感比较低。接下来要做一些剧情向游戏,Galgame 类,很快就能推出。
C.AI 本身的产品价值并没有那么大,但对初创公司来说是一个很好的切入点。
FP:行业里有人认为 C.AI 创始人的离开意味着这类型产品没得做了,你怎么看?
王诗沐:C.AI 验证了用户需求。人类,尤其现实生活中没有那么多情感宣泄出口的人,存在很强的情感互动的需求。很多没办法和亲人说,没有那么多的朋友,各种各样的压力,人们真正内心自我的诉求,缺少一些出口。C.AI 最开始还只是文字互动的产品,加上多模态,这个需求长期来看会非常广泛。
C.AI 定义了一套人与 AI 最基本的互动形式,它是极简的。在它之上,做任何升级、加法,都会成为它的子集。除非模型的智能本身有跨时代的升级。现阶段 C.AI 这个产品,已经把基于文本的情感陪伴的产品形态定义好了。如果这家公司愿意,其实可以在这个形态上叠加很多用户体验的延伸,做更好的商业化。
但公司创始团队追求的还是大模型技术层面,从这个角度,C.AI 作为推进模型技术的工具,不是特别乐观。对比 OpenAI、Anthropic 等公司的通用助手,C.AI 的语料数据是非常局限的,长远看这一点站不住脚。
FP:你做过很多社区、社交类产品,有过非常成功的经验。现在让用户与虚拟的 AI 对话的产品越来越多,你怎么定义这种产品?它究竟是不是社交?
王诗沐:是社交。这里还有一个要思考的问题是,社区和社交有什么区别?
我认为社区和社交本质上是一个意思,但是互联网从产品形态上把这两者做了划分。
社区和社交,其实都是一群人,不管是少数的群还是多数的群,一群人因为一些原因聚集在一起,产生了交流,形态多种多样,可以是论坛可以是频道,但本质上都是一群人聚在一起,这点是一样的。
与这两者不同的是「即时通讯」IM,通讯的需求是人与人之间信息的传递。
另外,人与人因为一些原因聚集在一起的需求,可以是利益,可以是情感,或者其他很多东西。因为经济利益会有公司组织,因为兴趣爱好会有豆瓣、小红书、知乎、B 站。这一点,人和虚拟人聚集在一起也是一样。
FP:很多人认为不是社交的原因,是因为人和人的社交产品,具备网络效应,但 AI 的产品做不到。
王诗沐:首先,是否具备网络效应,不应该是判断它是不是社交的条件。
第二点,人和 AI 的关系是有可能出现网络效应的,只是当前大家还没探索出来,因为大家觉得没有网络效应是因为 AI 不够像人。
但我们实际上去想一些已经实现的场景,比如网络游戏,像王者荣耀或者吃鸡,里面有大量的 AI。你和几个小伙伴一起组队,其实队伍里就有几个 AI,或者对手里就有一些 AI,AI 能力越强,就能吸引到更多的玩家,更多的玩家又会催生出更多的 AI 和他们对战,体验不断优化,用户越来越多,这其实就是网络效应。
在 C.AI 这类产品里,很多人还没发现网络效应,是因为在 AI 现在的能力范畴里,还没有那么像人,社交的体验还不够好,无法通过这个体验引入更多的用户。但实际上,这个体验在未来一定会提升,在 Transformer 架构(的生命周期)里就能够实现。
FP:重点是这个产品能否带来人的链接和聚集。
王诗沐:对。我会把人与人、人与虚拟人的链接,在目前视为等价的。但是虚拟人和虚拟人的链接不算,那跟人没关系了。
现在社会存在一个核心需求,是因为社会分工越来越细,城市化的发展,其他很多原因,都造成人与人的链接越来越难。现在大多数人想要建立相对有效的关系,其实大多是在网络上。
FP:现在 C.AI 类产品,大致有两种发展方向,一个是更多深度玩法做产品的整合,另一个是商业化目的,可能最终就通向了 OnlyFans 那样极致的结果。你如何理解 C.AI 类产品的发展方向?
王诗沐:对任何一家创业公司来说,这两个方向都是值得尝试的。但如果是 C.AI 自身,它目前的定位去做这些事,全都是不对的。
C.AI 已经定义出了,这个技术阶段在人与 AI 交流的基本形态以及更丰富的形态,比如电影《Her》,可能需要 3 - 5 年之后的技术。那么 C.AI 至少定义了这个时间范围内,人与 AI 之间情感交流的基本框架——极简。
它要考虑的事情是如何在这个框架上衍生出更大、天花板更高的事情。如果拿着 1000 万 DAU,找 10% 用户做变现,当然能挣到钱,但这么做你的产品会越来越臃肿、复杂,失去很多的可能性。
不是说它不应该考虑商业化,而是不应该把商业化作为目标去做。
FP:它接下来应该做的,或者说,C.AI 留白的是什么?
王诗沐:前面说到,它已经验证了年轻用户有多么强烈的情感诉求,抛开技术导致的留存差的问题,这个情感诉求是非常 solid 的。但问题是,这个情感诉求的想象空间,能怎样放大?
以熟人社交产品为例,它应该参考的对象是微信,可以参考的是 WhatsApp 和微信的对比。
WhatsApp 和微信都验证了,通过软件发信息,比短信的体验强很多,用户需求非常刚性。
但微信后来做了什么?朋友圈,把不同时空的人的生活联系在一起,不需要串门就知道你的朋友做了什么。还有订阅号、小程序、视频号。
尤其是小程序,它把线下的现实世界纳入到(微信)里面来。它囊括了几乎所有现实世界里的社交关系,不管是深度还是非常浅层的关系,这样能不断提升整个产品的想象力和天花板,给用户带来更好的服务体验,导致了现在中国人离开微信无法生活的现状。
再看 WhatsApp,还是停留在信息,现在学了一下朋友圈,依旧是即时通讯的产品。
如果这样去思考,C.AI 目前只是实现了人与 AI 通过文本聊天,满足情感诉求的需求,那么未来的想象空间在哪里?这是真正值得去研究的东西。
FP:它是一个中间形态的产品。
王诗沐:它一定是中间形态。
FP:你会延续 C.AI 的产品路线往下做吗?
王诗沐:我肯定不会硬做 IM(形态),我想做的还是互动娱乐。
即时通讯是巨头的领域,为什么 C.AI 已经成为了行业头部,验证了很多东西,但巨头还没(在核心产品里)加这个功能?因为对它们来说太简单了,在微信里只是一个账号,在 Messenger 里加一个 Chatbot 太简单了。这些产品加一个账号,就可以轻松把你覆盖掉,这种产品形态是非常容易的。
但你很难想象,用户在 IM 的产品形态里去体验互动娱乐的产品对吧?大多数游戏形态都不是这样的。
它需要的不是通讯的效率,而是每一次高质量互动中的娱乐体验。这是我们重点会去做的。
FP:SEELE 这家公司,最终想做什么?
王诗沐:现在大众的互动娱乐体验是通过游戏——尤其是重度游戏——来实现的,这种方式生产门槛很高,产量较低,个性化、自定义能力有限。
我们希望给用户一个轻松做出个性化、自定义的互动娱乐内容的平台,利用 AI 的能力,让每个用户都成为互动娱乐的创作者。
这是一种怎样的创作?
其实如果你看 Instagram、TikTok,有大量「别人的生活」受到用户的消费,原因是,这些内容其实是用户自己想要的生活。通过消费他人的内容,获得一种体验的感受。
影视作品也是一样,另一个时空下,哪怕是幻想世界的体验,你会发现很多人看电影、美剧、动画,多多少少都会代入自己。在这种时候,人们都很清楚自己想要什么。这是一个非常明确的需求。
影视、网文、短视频甚至音乐,都在解决这种需求,但要想做到极致,只有互动内容能做到。
SEELE 开放了多个岗位招聘,有意加入,可以在这个链接查看更多信息:
https://zq6mcys13b.feishu.cn/docx/WRevdXj5NoHCI0xWPH3cKzuHnnd
FP:理论上 3D 的确会有更沉浸的用户体验,但现阶段 3D 整体体验不佳,尤其在手机上的体验不够好,你怎么看?
王诗沐:我们的视角不太一样。
从现在的手机屏幕和所有技术的能力来看,3D 的产品一定小于 C.AI 或者文生图、视频等平面产品。
但站在 3 - 5 年后回头看,首先屏幕空间,不会是很大的问题,手机游戏也有大量的玩家,用户想要的是娱乐体验,它是比较的逻辑,只要在手机屏幕空间上的互动娱乐体验好于其他,用户仍然会去使用。只不过要衡量一下成本,网络、卡顿等优化做得好,用户的成本和文本体验差不多,那么更好的体验就会更适合这些用户。
第二点是硬件,技术往前迭代,一定会有 AR 相关硬件跑出来,只是时间问题。硬件到达 1 个亿的出货量之后,大家要 PK 的是哪家公司在互动娱乐的需求上,做了更好的准备,能够更快去覆盖这些用户,给他们提供更好的体验。
FP:SEELE 现阶段的产品也是中间形态?
王诗沐:对,我们目前只是努力在用 30、40 分的技术做 60 分的产品,等到逐步迭代到 90 分、100 分,一定是多屏幕跨端的,手机只是其中之一,还有眼镜的载体、电脑的载体。
FP:为什么不从 AR、VR 的沉浸式设备上先做验证呢?
王诗沐:目标用户群体不一样。
我想用目前的技术验证用户的需求,首选是手机端,因为年轻人大多都配置了手机,但 VR 端的用户群,更多是经济条件相对较好,或者游戏爱好者,对这些人来说(现有产品)早期体验一定是不够好的,他们层层筛选,掏出了真金白银购买设备,对体验的要求是极其挑剔的。
所以这里用户人群不同的核心就在于,对内容质量的容忍程度。
举个例子,早期 YouTube 和 B 站上有着大量粗糙的视频,那时候(用户)是一小群人,有着大量的时间,才能消费网站上的视频。同期的高净值人群是不适合的,等到平台视频的数量和质量提升,现在几乎所有高净值人群都会消费这类视频网站。
FP:我们观察发现,这类产品的用户有很多非常年轻的二次元、乙女用户,SEELE 的用户人群是否包括这类型用户?
王诗沐:包括,二次元和乙女都是典型人群。
FP:那么这里有个问题是,前一阵开学了,AI陪伴类产品数据掉了很多,尤其是 token 消耗量。你怎么理解这个人群?
王诗沐:首先为什么是这类用户,因为他们的需求最大。
大模型带来的娱乐陪伴的需求是虚拟的,不是真实的。人类在青少年时期,总是容易有各种幻想,总是想着有什么样的人能和你交流互动。你不会把这些幻想轻易地和父母、同学交流。
人成年之后,基本不会有这些幻想了。比如你喜欢变形金刚擎天柱,小时候就想着怎么跟擎天柱一起去冒险,但成年后,你说你想跟擎天柱对话,这不是中二病吗?
中二这个词就是,初中二年级,典型的 teenager 用户,充满了幻想,对虚拟世界的期待和渴望。
以现在大模型的能力,能够实现的互动娱乐的水平,就是这部分人群最容易接受的,年纪再大一些就会觉得这种娱乐水平比较低。就像我们回过头看 10 年前的自己,会觉得有点幼稚。
第二点是,未来会怎样?AI 的能力会不断进化,现在满足青少年,再往后去发展,是能够向成年人过渡的。因为成年人也有互动娱乐体验的需求,但从内容质量、内容形态上,比青少年要上升一些,但也是有机会做到的。
我们正在做的产品,就是为了 AI 能力更成熟后,能够为更广泛的偏成年人的人群提供的互动娱乐体验。
FP:听起来好像有一个逻辑,C.AI 这种形式是适合青少年的,他们更有意愿更有时间也更有想象力跟 AI 一起去创造,但成年人就需要一个完成度更高的内容,「复仇者联盟」一样端上来给你消费。
王诗沐:对,成年人需要更具象的东西。现实生活中有很多事要做,就没有那么多时间空间来幻想,也就需要更具象的东西激发幻想。
这也是为什么视频化的消费要远高于文本化的消费,中间差了好几个数量级。因为视频化减轻了对想象的要求,但你读一本小说,依然需要大量的想象才能够愉悦。
FP:3D 也符合这样的逻辑?
王诗沐:对,在我们产品 3D 形象数量较少的时候,用户日均使用时长比现在少一半,不管是时长还是次数,3D 形象更丰富之后数据都增长很多。
这也是我们初步做的一个验证,3D 的互动体验对部分人群来说是很强的需求,未来持续叠加体验的质量就能持续提升。
FP:现在的使用时长数据是多少?
王诗沐:现在是 30 分钟,之前是十几分钟。
FP:30 分钟不算多吧?
王诗沐:对,但绝对数字不是现阶段的核心问题。
想要做一款时长到 60 分钟的产品,有很多做法,甚至做个看小说的 app,都不用 AI,就很容易能达到 60 分钟,但那就没有意义了。
我们要验证的问题,就是 3D 的互动能带来的增量价值有多大。
另外,现在技术实现的 3D 互动的质量,还远远达不到让一小部分用户能满意的状态,这点很明确。所以我们不会去把绝对值作为北极星目标,只是验证单一变量的价值。
下一步我们正在做的产品,也会有需要验证的指标,我们应该去思考、去布局的,是技术成熟度提升 10% 后,产品能不能提升 10% - 20%,这里要做全新的场景,而不仅仅是在 C.AI 的形态上做小的迭代,做一些雕花的工作,这里涨 3%,那里涨 5%,这只是功能的优化。
在目前技术还没有成熟的时期,产品需要在一定范围内完成验证,不能把成熟技术的 100 分产品作为尺子去衡量这个产业阶段的产品。
SEELE 海外产品场景互动生成
FP:AI 给 3D 互动娱乐带来最大的变化是什么?
王诗沐:生产力完全变了。以往的 3D 互动娱乐,不管是页游、小游戏、网游等等,游戏管线的模式是一致的,需要专门的原画师,然后建模,要世界观,然后进到引擎里,做骨骼做动画,各种交互,还有各种游戏策划的脚本,全部匹配完后,开发到客户端、服务端,然后上线。这个长链条,小团队可能需要几十个人,大团队可能需要上百人甚至上千人。
这是一个传统的模式,是单点内容产业的模式,就像拍电影一样。
未来存在一个很大的机会空间,用户除了「看电影」之外,还有大量的能够玩的个性化互动内容。比如我想跟擎天柱一起去赛博坦冒险,有什么内容能满足我吗?几乎没有。或者不需要 IP,我想跟我的小伙伴在虚拟空间里,和 AI 角色一起跑酷(刺客信条),在巴黎的广场,在长城上跑酷,这种需求是客观存在的,但现在的管线没有办法满足这些千变万化的个性化内容。
FP:原本互联网产品和游戏产品基本上是泾渭分明的,但逐渐出现了一些游戏产品和互联网产品结合之后的新东西,互联网产品的 DAU、留存,和游戏的深度玩法结合,可能会长出完全新的内容平台,新的东西,对现有产品的体验有一个巨大的升级。在你看来,它会在哪些方面升级?
王诗沐:最核心的关键是个性化。
以前所有的内容载体,不管是文本、图片还是视频、3D 互动,大多是由专业人士创造的,媒体的文章、摄影师的图片、导演演员的电影,3D 工作室的游戏,PGC 模式很难实现个性化,追求的是更高的内容质量。
现在 UGC,短视频、短剧没有办法和电影竞争质量,网文和文学经典也没法比,成本投入和商业模式都不一样,但是用户的需求除了质量之外,还有一个需求就是个性化。
每个人的需求都不太一样,他们想在不同的时空里体验不同的内容,个性化的需求是非常大的,甚至一定程度上大过对质量的需求。
3D AI 的产品,生产力的提升,最核心释放的就是个性化,游戏因为管线等原因,依然在 PGC 为主的模式,个性化需求还没有被满足。
FP:推荐算法也在解决个性化的问题,有什么本质区别吗?
王诗沐:实际上,推荐只是个性化的第二步,首先你需要有海量的内容生产,才能做到个性化。视频、音乐、图片都是这样。
在 Instagram 出现之前,Flickr 也有推荐算法,但当时比较原始。Instagram 出现之后,每个人都可以用手机拍照片,上传到平台上,相比相机拍照传到 PC,生产力有了巨大的变革,内容数量和内容的多样性提升了很大的层级。
所以个性化的前提,是生产力的提升,更多人做出更多不一样的内容,满足各种不同的需求,这是前提。
至于推荐算法,其实相对没有那么高深的技术门槛,它取决于规模效应,核心还是生产力的提升。
到了 3D 的时代,我们没有想去做一个 Unity 或者 Unreal 的插件,因为那样没办法给用户带来真正想要的价值。融入到(引擎的)生态里去,只会让游戏生产的效率提升一些,提升一部分,对消费者来说没有根本变化,这个价值,只是在原本的价值链条中的一个环节上提升了 10% 到 20%。
我们想做新形态的内容,这个内容的特点是,用户生产门槛很低,虽然质量不够高,但能够实现个性化。并且随着技术迭代,质量是一定能逐渐提高的,虽然可能永远无法做出《黑神话》、《王者荣耀》,但就像短视频无法超越电影,这不妨碍短视频给这个世界带来的巨大价值。逻辑是一样的。
SEELE 海外产品,角色 3D 生成展示
FP:这是一个很好的类比,个性化原本大家理解都是推荐引擎的功劳,但 AI 的加入让我们重新理解了个性化这件事。除此以外你觉得 AI 还改变了什么移动互联网时代的「标配」?
王诗沐:在生产力提升的问题里,有一个环节是工作流。
现在大家的基座都是 Transformer,它带来了一个很大的变化,就是用人类自己理解的语言去创作。以往用户生产时的交互形式,比如拍照、拍视频,用摄像头,其实是用户要将自己想创作的东西,转化成工具的语言去实现。
现在用 AI 的创作,比如现在想创作一个角色,或者未来一段动画、一个游戏,我们都在用自然语言的描述,用人内生的对这个世界的理解,自然表达出来(进行创作),不管是文本、声音还是其他肢体语言。
这是一个很大的变化。以前移动互联网时代提升生产力,是通过工具化的方式,人类首先要理解自己想用工具做什么,要翻译一遍。现在人类已经不用翻译了,想要什么,就像我跟你聊天一样,用人类自己的语言,机器自己去完成翻译,然后实现。
就像我们要做一个 AI 生成剧情游戏的内容,背后其实有大量的工作,大量的算法「翻译」人的一段话,制造不同的工作流,最终给用户呈现一个结果。
这里整个生产模式变了,用户不用在意中间的过程,只要在意这段话的表述,以及最后的结果是否符合预期。
FP:这是否意味着,AI 的产品要把工作流给做了,包裹在产品里,而不是像以前一样把工作流交给用户?
王诗沐:是的。对用户来说,思考工作流的部分省略了,但要关注如何更清晰地描述自己的需求。以前拍照摄影,可能要学曝光之类很多细节,对应不同效果,应该怎么调整工具。工具的使用程度是个门槛。但现在只要明白效果是什么,如何描述效果,学习的门槛大大降低。
FP:就是说 UGC、推荐,这两者没有发生本质变化,变化本身发生在工具链,工具能力的提升。用户可以做多模态的内容,也就需要分发多模态的内容,这里会诞生新的内容平台,UGC 在做新内容时的想象空间有极大的提升。所以当我们提个性化的时候,其实核心是个性化的制作和分发有数量级的提升。
王诗沐:对,非常准确。
FP:这类产品早期有一个问题,从 PGC 切入还是从 UGC 切入?
差异在于 UGC 的内容质量不好把控,而内容平台的用户大多数只是内容的消费者,他们需要好的内容才能留下来。我们观察到表现较好的一些产品,的确是从 PGC 起步,先把社区的内容质量控制到一条线上,筛出一批优秀的 UGC 创作者,形成基本盘,再放开做 UGC。你怎么理解产品起步阶段的这个问题?
王诗沐:对创业公司来说,双边同时起步是非常难的。核心是 UGC 其实不需要验证,人类本身就有创造的欲望,只要工具和需求匹配,他们就会愿意创造,无非是多少人创造的问题。
要验证的是,你的工具能力有多强?不管是人类创造还是 AI 创造,其实都是一样的。对我来说,早期我更倾向于验证 AI 直接做(的效果)。
FP:未来内容平台上,创作者和消费者的比例会发生变化吗?
王诗沐:会发生变化的是形态。
未来创作者和消费者之间的界限不会像移动互联网那么分明。其中核心原因是,移动互联网时代,创作者要非常擅长使用工具。
AI 时代的创作者,以图片和视频生成为例,他们只是表达了自己想要什么,大量的创作过程是 AI 完成的。用移动互联网的标准看,这些用户其实没有在「创作」,这个创作成本太低了,大多数人不费心思学 prompt 也可以做,没有太多技术含量。
所以 AI 时代这个界限会越来越模糊,创作者和消费者之间的交集会越来越大,甚至可能会出现并集的情况。
FP:想起来网易云音乐里的评论区,消费音乐的用户也在消费评论。这些评论某种程度上也是创作。
王诗沐:对,云音乐里的 UGC,验证出一个很重要的点,就是人们的自我表达、自我呈现的需求非常强。用户只要发一段话,就可以把自己对于音乐的理解给表达出来,这与现在一段话用 AI 创造出一个东西,是非常相似的。
以往的音乐评论,都是专业人士的乐评文章,大多数用户是写不出来这种文章的,甚至看都很难看懂。我们在做云音乐的时候,就在把这个门槛降到最低,在 140 字内表达对一首音乐的评价,不是专业角度,而是从自己的感受的角度,这种感同身受的表达,是很容易引起共鸣的。
相反一些非常专业,从乐理角度讲音乐讲专辑的乐评,大多数人是无法理解的。
现在你去看一些平台上,很多人分享自己一句话「捏仔」,捏出的角色,底下几千个评论,大家对这种创作的共情感也是非常强烈的。
FP:音乐评论的共情我们很容易理解,「捏仔」的共情,它本质是什么呢?
王诗沐:其实每个人,人生经历里都有过,想要一个脑袋中完美的宠物、完美的伴侣、偶像,甚至完美的孩子。女孩子小时候喜欢玩洋娃娃,这是一个非常朴素的、原生的需求,现在的 AI 正是在满足这种以前关注度不够的需求。
FP:现在这类产品的用户,以及乙女、二次元用户,相对大众依然是相对小众的一群人,从这群人切入,会不会导致用户人群无法泛化的问题?
王诗沐:这本质上是做内容还是做互联网产品的问题。
比如米哈游的游戏,黑神话,或者恋与深空这种乙女游戏,本质上是做内容,逻辑不一样,商业模式也不一样,重度的内容,投入时间是以年计,不像互联网产品是以周计的。
我们现在讨论的是互联网产品,一开始要考虑的就是产品的终极形态是什么。比如说我们看原来的内容载体形态,文字的终极形态就是小说和微博、资讯,小说全球有多少人(消费)?微博和资讯全球有多少用户?再看图片,短视频,这些都可以估算出来。
比如漫画,我其实并不看好 AI 加漫画的形式。因为漫画载体其实很窄,世界上漫画相关的公司,几乎没有做成特别大的内容平台,日本有很多几千万 PV,虽然不小但也没有更进一步的平台,但集英社的 IP 是世界级的影响力。
但小说不一样,国内的七猫,比红袖添香等老平台要厉害得多。你可以通过产品终极形态服务、覆盖的用户人群,去做一个基本的判断,到底要做内容还是做平台?
FP:过去两年 SEELE 非常低调,外界能看到的信息很少,尤其没有任何你们自己出来的声音。这两年你在做什么?
王诗沐:要低调。原因很简单,在 AI 行业早期,真正具有经验和深度的优秀人才非常稀缺,人才的竞争压力很大。作为一家创业公司,我希望在初期阶段能够尽量专注于核心技术的积累和关键人才的培养,减少不必要的外部干扰,从而更好地巩固基础。
以及从市场选择上,我们首先选择了海外,经过一些验证和发展后再去做国内。
现在也还是需要低调,但招人是刚需,我们的公众号也只发了几条招人的信息。
过去两年我们的节奏是这样:
首先锚定一个长期的未来,制定了一个战略方向,用 AI 和 3D 做互动娱乐内容,这是需要 3 - 5 年的时间周期才能实现到一定水平的事情。
倒推回来,第一步,在 23 年我们先落地了一个 C 端产品,适合 3D AI 最快速落地的形态,看目前的技术和产品形态,能否吸引到用户。
第二步,在战略方向上加大技术投入,用图形学,在互动娱乐的生产管线里,用大模型的算法技术,持续降低高质量互动娱乐内容的生产门槛,引入更多创作者,这是一个明确的技术战略方向。
还有一点,收入,在现有产品的范畴内做盈利。原来的互联网产品,网络效应越强,用户越多,边际成本就越低,但大模型产品不是。大模型只能等着 OpenAI 或者英伟达,现在的状态是,虽然模型价格在降低,但模型能力还是需要提升,你始终都要去用最好的模型,成本还是很难控制,用户规模越大,成本越高。
这时候如果没有一个很好的商业模式,很多创业公司会死在路上。所以我们要在不同的产品阶段,都能够实现商业闭环,让自己的公司能够活下去。
FP:在技术不成熟的时期,做产品需要考虑什么?
王诗沐:移动互联网时期,技术刚出来就已经成熟了,无非是手机设备各种指标的提升。对传统产品经理而言,积累了至少十年如何做好产品体验的经验。
但 AI 时代,技术还没有清晰的路径,即便是大语言模型,我们还无法断言未来更高级的模型能否接近 AGI 的能力。
第一点是是技术路线的选择,要考虑它是不是足够长板。比如 AI 编程、辅助编程,改变程序员的工作流,是很容易切的工作场景,数据也足够丰富。相比以前的无代码平台、SaaS 产品,面向的对象通常是前端或者 UI 开发,很少真正去理解业务逻辑。但大模型的加入,让 AI 能够理解各行各业的代码,未来可以深入理解业务逻辑,涉及一些比较深入的服务、订单交易等环节,甚至对商业世界产生影响。
反过来,SD 刚火的时候,有很多做平台的,比如 C 站。但我觉得这并不是很长远的路线。因为 CV,好处是所见即所得,坏处是技术路线太短了。SD 生成图片的模型,把这条技术线上的大部分工作做完了,剩下的可能是数据、图片丰富度的工作,产品的工作也比较少。应用场景就是自媒体、AI 摄影师、AI 画师、广告营销等等,大多是非常短平快的场景。
如果技术深度不足,不在做 SD 模型本身(比如 Flux),只是做具体的平台,未来比较好的结果,可能是 AI 版视觉中国,海外有很多类似的平台。但,他们是什么商业模式?版权。
第二点是节奏把握,大多数公司会走向两个极端。
一种是憋着,等我三五年憋个大招出来,可能对基模公司比较合适,因为那是重研发,且需要持续的人才吸引力和储备。
第二种是快速推出一款产品,买量营销扩大市场,我觉得这也不是特别合适,因为技术很不成熟,现在做的工作很容易过一段时间就被迭代了。Pika 是个典型的例子,刚出来的时候声音很大,但带来了一个情况,团队会受到影响,要把产品打磨迭代到真正能面对上百万用户去落地的时候,需要团队很强的韧性和耐心,所以早期锋芒毕露不一定是好事。后来不管是 Sora 还是更加可怕的快手、字节,都开始更为可怕地推自己的视频模型。
我觉得现阶段还是要沉得住气,稳步地向目标迈进。我们内部经常说,做产品要比现在的技术多半步,先在内部做一些技术能力实验,配合人工干预的方式做出产品 demo,让这个 demo 能够面对用户做获客增长,然后观察它的活跃和留存情况。
不管是之前的 3D 版 C.AI,还是现在在做的剧情向游戏生成,都在用这个方式做推导。
FP:从产品公司的角度看,你觉得在行业需要技术落地的阶段,产品人能发挥的最重要的特质是什么?
王诗沐:首先要懂技术,懂技术原理,至少要达到五六成的水平,才能知道技术能做什么,以及本质问题、发展趋势,与洞察到的产品机会结合起来。
22 年底我们初创团队开始看 Games101、以及 dreamfusion 等一系列论文,产品人一样得啃。啃完的结果我们知道,当下大模型在 3D 领域发展的制约要素:数据,和图、文、视频是非常不一样的,以及在经典图形学领域里,深度学习、强化学习到了哪一步,未来和大模型的结合会是什么趋势?这些在 22 年底、23 年初的时候我们就已经消化、判断出来了,我也发了几篇短视频来分享里面的观点。结合产品人在战略、产品分析上的积累,这对指明公司、产品的发展方向是很重要的。
其次是产品人要亲手做,发挥经典产品经理从 idea 到交互到视觉到技术实施方案一手包的传统技能,现在还需要加上数据获取、训练/微调方法设计等等。初创公司人都很少,产品人如果只是做类似大厂里产品经理的事情,其实作用是约等于零的,相反从 AI 技术的学习研究到落地到产品场景里,都需要自己亲力亲为,只有这样才能准确地把握技术实现,不至于产品 idea 和 AI 技术落地脱节了,这是很容易遇到的情况。
行业里有一种说法:现在不看 PMF,而应该看 TPF,技术与产品 match。优化一下,市场也需要 match,TPMF,我很认同。
FP:反过来,面向技术的落地,需要技术人具备怎样的技能和特质?
王诗沐:如果是在工业界落地,那么对于做 AI 的技术,首先是要对论文的定位有清醒的认识。Transformer 是在 Google 实验室里出来的理论,但是在 OpenAI 里它成了之后的导火索,而 OpenAI 做的事情更多是工程落地,而不是继续在论文理论上拔尖。
每一个阶段技术有每一阶段的重点,新理论出来后,重要的是工程落地,接近饱和时,又需要新理论。所以对于技术人,对自己要交付结果的场景和用户/客户使用体验,是不是有足够深的认识,就会极大影响工程落地过程中的效果。另外一个题外话,目前大模型可能快到了需要新理论的时候,可能是李飞飞的大世界模型理念?
其次,要对于技术实现方案最终形成可规模化产品有极致的追求。很多技术 toB 的事情最后做成了项目制,就是这个原因。如果在面对客户场景的落地过程中,无法实现可规模化的产品抽象,那做到最后是干不下去的。在这点上,无论是 toC 产品内部的技术工作流,还是 toB 产品面向外部的交付,都是一样的。
最后,如果自己硬实力够强,那么忘掉前面这些所有说法吧,设定一个足够有想象力的空间就冲吧, AGI 需要下一个关键理论的创新。
FP:SEELE 接下来的产品节奏是怎样的?短期内会有怎样的规划?
王诗沐:我们有一个比较明确的规划,类比自动驾驶分级,L1 到 L4,3D AI 的算法从简单的呈现、互动机制到复杂的多对象、实时性等逐步实现,目前处于 L1 的阶段,很快就能有结果给大家看。
接下来,我们会上线新版的 AI 引擎,完全由 AI 解决角色与角色之间、角色与环境之间的交互。动作连贯自然,完全由 AI 自主运行。目前正在内测中,优化模型算法,可以期待一下之后的发布。
FP:下一个时代的游戏引擎和上个时代的引擎有什么区别?
王诗沐:不管是 Unity 还是 Unreal,或者各个游戏公司自己开发的这些游戏引擎,它们其实有一个共同的特点:服务于传统游戏工业化管线。
从原画到建模,到物理系统,这一整套管线,分工非常明确,一个游戏管线可能包括十几个工种,上下游衔接非常紧密。
这也就意味着,它能够保证产出质量,但非常重,改变任何一个环节都面临着更大的阻力,会影响到其他环节,在组织里其他环节可能不一定乐意,所以我们看到,所有这些做引擎的公司,它的迭代都是很慢的,从虚幻 4 到虚幻 5 中间隔了很多年,Unity 也是。游戏公司自己的引擎也是一样,它服务于 PGC 的高质量重度游戏,但我们需要的是下一代服务于 AI 和 UGC 的引擎。
我们专注在,游戏生产过程中,哪些地方能够省略掉大量的人工工作,尽可能让用户用比较简洁的输入就实现?
相反,Unity 和 Unreal 已经做过的,比如渲染、工具链条上,我不会做任何变化,我们的目标不是去取代 Unity 和 Unreal,而是借助他们,去用大模型技术,做出一个每个普通人都能使用的游戏生产引擎,它做出来的游戏也不会很重,在任何空闲时间都可以拿起来的娱乐体验。这是新一代引擎会不同的地方。
FP:技术路径上你是怎么思考的?
王诗沐:开始从 CV 转向。Google 最早那篇 3D Avatar 生成的论文(dreamfusion),diffusion 提供了 2D 和部分 3D 知识的先验,通过 SDS 的方式生成 nerf 表征,再转成 Mesh。这是 3D 相关大模型技术发展的起点。
往后最难的地方,是往图形学里比较深入的地方做,各种「模拟」。学物理,学自动化的专业人才会接触到,动画模拟,不管是专业的医药学科技,还是航空航天的科技,都会用到计算机模拟,里面涉及到的图形学算法非常复杂。
游戏行业用到的模拟算法,对复杂度和精密度要求没有那么高,但相对 CV 也是很复杂的,并且原来它与 CV,虽然都有计算机有图形的关键词,但是完全不同的两个世界。
现在 CV 开始慢慢转向 CG,从 2022 年开始行业里一些人带着 diffusion 的思路、大模型的思路再看图形学,有哪些是可以改变的?包括最近发展比较快的基于高斯的渲染。
图形学里最大的问题是分支非常多,数据不统一,算法也有很多不统一的地方,想要在一朝一夕改变是很难的,也没有必要。我们很细要关注的点,是围绕战略目标和用户需求,看互动娱乐内容需要的图形学算法里,哪些是很重要的?比如刚刚说的投篮,抛物线的模拟是可以通过大模型实现的,抛物线的运动轨迹有大量的数据。根据物体不同质量不同密度,可以通过大模型的方式求解,这不是一个无法实现的问题。只是原来图形学算法的实现方式和大模型完全不同,那么怎么把这些数据获取进来,标注好,做清晰,放到 diffusion 的大模型里去,和整个引擎管线传统起来,最终能够实现那样的效果,这是我们未来要攻克的重点方向。
简单来说,就是把大模型技术一步步引入到图形学里越来越复杂的部分,实现互动娱乐产品需要的体验。
FP:所以你会走 AI 和图形学融合的路线,不是单独 CV 的路线?
王诗沐:我不走纯粹视频生成的路线。有一种观点是说,视频生成的 CV 这套路线,能够以非常实时、低成本的方式去做到。
FP:但你有不同的观点?
王诗沐:没必要大炮打蚊子。
FP:你有非常丰富的大厂经验,也用内部孵化的方式做过很多产品,这些经历与真正投身创业有什么不同?
王诗沐:很早就想过出来创业,最初有想法的时候很年轻,二十多岁,总觉得还有很多东西要学习,有很多能力要补足。在大厂能看到很多做事的复杂、困难,会更加敬畏。
但回过头来看,也许很多能力就应该在创业的过程中去学习。如果你有足够的学习能力,在哪里学都一样,甚至创业中会比在大厂里学得更快。过去两年,我面对的困难是整个职业生涯中最多最难的时期,但学习和成长的速度,也是整个职业生涯中最快的时期。
FP:网易云音乐之后,有网易美学、腾讯小鹅拼拼、腾讯新闻和幻核,这些产品,褒贬不一。对你个人来说,没做好的原因是什么?
王诗沐:这些年做了很多反思,主要有两点,一个是对创新切入点的思考,一个是个人决策的问题。
首先,行业趋势变化的时候,最重要的是创新瞄准了哪个环节,是技术创新、产品创新,还是运营和商业上的创新?瞄准这几个不同的点,采取的实施步骤也不同。
网易美学在产品和运营上都有创新,但当时已经是移动互联网上半场的尾声,移动设备带来的技术红利已经耗尽,包括字节在内很多公司和产品都开始做存量的流量增长和争夺,这个时期其他的做法就会有些不适。
因为在存量竞争的情况下,即便有产品和运营层面的创新,面对流量增长的巨大资源优势,这些都无法构成护城河,无法形成很好的增长引擎,做出一些亮点,很容易就被抄走。
小鹅拼拼也是一样, 在产品和运营层面做创新,面对资源的差距,没有办法缓解劣势。后来在腾讯做幻核,开始定义出技术创新的核心点,3D 和区块链,在市场上短暂获得了相对较好的成绩,虽然最后因为各种原因还是没能成功。其实当时团队很小,没有太多资源,因为有技术创新的优势,在市场宽容度比较高的时候,很快吸引了大量用户,超过了其他大厂同类型的产品,也做了不少的营收。
第二点,当局者迷,旁观者清。我有成功路径依赖的问题。做网易美学的时候,总在想云音乐的成功经验,是不是能拿来直接用?显然,环境条件都变化了,这是刻舟求剑,结果自然也不尽如人意。
还是要把自己调整到空杯心态,不管成功还是失败,经验的总结都是自己的知识,但在面对未来的时候,持续做创新的时候,还是会有很多的未知,会有很多新的挑战。我们要做的是对当下的具体问题具体分析,避免陷入经验主义,不能套用以前的方法。
后来也会看到,行业里有很多类似我这种案例,有一些成功经验的人,往往做很多新的事情的时候,这些都是很容易犯的错误。
FP:对你个人而言创业意味着什么?
王诗沐:对自己的话,首先肯定不是财富了。赚钱是要的,但在大厂也能赚很多钱,没必要通过创业来做。
最重要的是,我有很多对这个世界、对用户、对产品的理解和思考,很多是没有共识,没有其他人在做的,如果我有机会有能力去做这些事,构建出自己想做的产品,对用户需求的满足,这是我创业最大的动力。
FP:如果有机会再进入另一个公司、组织,你有最想要加入的公司吗?
王诗沐:创业之后曾经想过这个问题。我待过一些非常优秀的公司,现在大多数公司都没有再去的想法了。但是 SpaceX,只有这家,只有这家公司是让我感觉,我自己能力不够,但很想去追随一个企业家,去做一件对人类未来很有意义、有价值的事情。
文章来自于微信公众号“Founder Park”,作者“Founder Park”
【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用:https://aicomicfactory.app/
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目,该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目,效果堪比midjourney。
项目地址:https://github.com/black-forest-labs/flux
在线使用:https://fluximg.com/zh
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0