「语言模型撞墙了,3D大模型刚开始」|和VAST创始人宋亚宸聊3D大模型创业「狂飙」的两年

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
「语言模型撞墙了,3D大模型刚开始」|和VAST创始人宋亚宸聊3D大模型创业「狂飙」的两年
6564点击    2025-09-30 11:13
未来每个人都能用 AI 创造世界,而不仅仅是使用世界。


在文生图、文生视频的浪潮之外,下一个引爆我们想象力的 AI 技术奇点在哪里?答案可能是 AI + 3D。


本周,我们邀请 3D 大模型公司 VAST 的创始人和 CEO 宋亚宸(Simon),和我们聊聊 VAST 最新 3D 生成大模型 Tripo 3.0 背后的故事。


这位 97 年的创业者短期内连续融资三轮、每轮数千万美金,积攒了足够的子弹,在闷头苦干一年后,Simon 今年首次上播客,和我们探讨了几个关键的战略问题:


  • 他认为大语言模型已经「撞墙」,进化放缓,这才给了应用和 Agent 繁荣发展的空间。而 3D 大模型则完全不同,它才刚刚起步,仍是一片蓝海。
  • 在资源有限的初创阶段,为什么 VAST 「既要又要」?既要研发大模型,又要自己下场开发应用 Tripo Studio?
  • 为什么科技的终极形态,是一场「解压缩」?他认为人类的媒介史(文字->图片->视频->3D)不是升维,而是因为技术所限,被迫对3D「源文件」世界进行的一次次降维和压缩。技术的进步,就是「解压缩」回世界本貌的过程。
  • 以及,在一个机器人能代劳一切的未来,人的价值将如何被重新定义?


从小学时吸引同学们用辣条「充值」自己创造的纸上 RPG 世界,到 all in AI 创业打造一个坚信人人都会创造 3D 的「无限世界」梦想 ——欢迎收听 Simon 在创业路上的观察和思考,也欢迎你在评论区里说说你对 AI + 3D 的想法。


「语言模型撞墙了,3D大模型刚开始」|和VAST创始人宋亚宸聊3D大模型创业「狂飙」的两年


快问快答


👩🏻 Ronghui


大家好,欢迎来到这一期的「十字路口」。本期我们的嘉宾是一位年轻的创业者,3D 大模型研发公司 VAST 的创始人宋亚宸,Simon。8 月底 VAST 发布了最新的 3D 大模型 Tripo 3.0。今天我们邀请他来聊一聊 3D 大模型研发的故事,以及他创业这两年来的一些思考。我们先进入快问快答环节。


请 Simon 回答一下:年龄?


👦🏻 宋亚宸


28


👩🏻 Ronghui


毕业院校?


👦🏻 宋亚宸


约翰霍普金斯大学本科。


👩🏻 Ronghui


你的 MBTI 和星座?


👦🏻 宋亚宸


我是 ESTP,星座是双鱼座。


👩🏻 Ronghui


用一句话介绍现在的公司和产品。


👦🏻 宋亚宸


我们公司叫 VAST,是一家做 AI 3D 大模型的公司。我们有一个产品叫 Tripo,输入可以是文字、图片或多模态方式,它能输出完整的 3D 内容。


👩🏻 Ronghui


融资情况?


👦🏻 宋亚宸


之前融了三轮,每一轮大概在几千万美金左右。


👩🏻 Ronghui


团队规模?


👦🏻 宋亚宸


我们大概 110 多人。


👩🏻 Ronghui


创业之前你在做什么?


👦🏻 宋亚宸


创业之前也在创业。最早在商汤做过一段时间 AI 加动画、AI 加游戏。2021 年参与创立了 MiniMax,2023 年创立了 VAST。


👩🏻 Ronghui


我们有一个社交破冰环节,用「我是 XX」造句,介绍 10 件关于自己的事。请 Simon 也来体验一下。


👦🏻 宋亚宸


第一,我是宋亚宸,28 岁,创业者。


第二,我是 VAST 的创始人兼 CEO。


第三,我是一个 Addictive Gamer,非常沉迷游戏。上大学时,床垫都被我打游戏坐出一个坑。


第四,我是一个喜欢旅游的人,去过格鲁吉亚、百慕大、古巴、土耳其、摩洛哥等地。


第五,我算是一个跨行业者,本科偏文科,后来转向 AI,有跨学科的背景。


👦🏻 Koji


我记得你是学神学?


👦🏻 宋亚宸


我是学希伯来语、阿拉伯语的,最早想往这个方向发展。


👦🏻 Koji


那你之前的学习对现在的工作有帮助吗?


👦🏻 宋亚宸


有。我很多决定都来自于接触过的人和信息。


第六,我是一个喜欢读书的人,也喜欢听书,但目前还不是特别喜欢听播客。


👦🏻 Koji


你最近读的一本书是什么?


👦🏻 宋亚宸


最近读了一本很薄的书,《种树的人》,是绿洲资本的张津剑送我的,收获挺大。前段时间也在听王东岳讲《道德经》。


第七,我是一个在意「有趣」的人。无论招聘、交朋友还是和投资人打交道,我都看重对方是不是有热爱、是不是有眼神发光的时刻。


👦🏻 Koji


你的投资人里谁最有趣?


👦🏻 宋亚宸


这个问题可能会得罪人(笑)。不过我们的大部分投资人都很年轻,愿意投我们,本身就是一种「有趣」。


👦🏻 Koji


你这端水大师。


👦🏻 宋亚宸


第八,我是一个不擅长写字的人,包括中文和英文。虽然在美国待了八年,但一直不擅长文字表达,所以学文科时很痛苦。比如回微信消息、写公司全员信、给投资人写长邮件,我基本都不做。但我擅长聊天。以前在商汤做战略时,经常要写 PPT,那段时间非常痛苦,我努力克服,后来发现确实不是我的强项,就放弃了。


👩🏻 Ronghui


那你用 AI 工具写 prompt 怎么办?


👦🏻 宋亚宸


也很痛苦。我更喜欢交互的形态。在 3D 时空里,未来不应该需要打字,而是「言出法随」。比如像原神里漂浮的小助手,可以直接对话生成内容。这才是更自然的交互形态,而不是突然弹出键盘打字。我很期待 3D 能尽快实现。


第九,我是一个特别喜欢内容创作的人。从小学就读各种玄幻小说(唐三、我吃西红柿、苍天白鹤、天蚕土豆等),后来读漫画,看番剧,打游戏,还写过玄幻小说上传到起点。


👦🏻 Koji


能在起点搜到你吗?用什么名字?


👦🏻 宋亚宸


是一个只有 200 人看过的起点小账号。


但我确实在商汤做过动画 IP,做到过百万粉丝规模。在半次元也做过 KOL。我喜欢做 IP,也喜欢做内容。


👦🏻 Koji


你的粉丝有多少?


👦🏻 宋亚宸


当时几万粉丝。


第十,我是一个很想做游戏的人。小学时有一本很破的本子,上面设计了好几种 RPG 游戏,有等级、装备、背包、探险,还能和同学互相对战。下课后很多同学会找我玩,就像一个 RPG 一样。


万物起源:从小学时收费的 RPG,到一个无限世界的梦想


👦🏻 Koji


感觉你在学校里地位很高。


👦🏻 宋亚宸


当你拥有一个系统,等于自己创造了一个小世界,你就成了这个世界里的「神」,有最终解释权。所以大家会来充值,比如送我香菇肥牛、辣条,或者北京烤鸭那种五毛钱的豆腐干制品,让我把他们画得更强一些,很有趣。


👦🏻 Koji


当时通过创造虚拟世界获得的这些正反馈,和你现在做 VAST 有直接关系吗?


👦🏻 宋亚宸


我觉得有,我特别喜欢创造和创作,能写故事、造世界,也喜欢消费别人的故事。这是我最喜欢的事情,因为物理世界有很多限制,更大的世界来自于人的大脑和想象力,那是一个无限的世界。


👦🏻 Koji


我们和 Simon 比较熟悉,除了前面的 10 个,你可以再展示一些我们不知道的?现在请你即兴再来一个「我是…」。


👦🏻 宋亚宸


同时,我还是个哥哥。我有一个亲弟弟,这对我来说是重要的身份。我们差很多岁,所以我能更好地了解他们那一代人喜欢什么。我们做的产品,终究是面向下一代的。


对他来说,AI 是非常自然的。他遇到问题会下意识打开 GPT 或 DeepSeek,而我还是习惯 Google 或百度。他从小就在消费有 AI 参与的内容,对他来说这是再正常不过的。而我小时候接触的还是文字内容,那时互联网还不成熟,硬件和带宽不足,无法支撑高信息密度的载体。虽然 3D 是信息密度最高、最自然的形态,但早期互联网只能用更抽象、更降维的文字来承载。


所以最早我看小说,用 MP3 在被窝里打着手电筒看,一个 MP3 屏幕只能显示 10 个字符,看 500 万字的小说要按 50 万次。后来移动互联网出现了,初中时我买了 iPhone4,终于能消费图片内容,手机也有摄像头了。再后来到了大学,我们才有更多视频内容。等到我工作时,短视频才真正开始流行。


👦🏻 Koji


除了遇到问题时,你会想到用 Google,而你弟会想到用 ChatGPT。你觉得你们之间还有哪些显著区别?


👦🏻 宋亚宸


比如我很习惯看公众号,他就不习惯。他更习惯去 YouTube、B 站找答案。对他来说,视频是信息密度更高的形式,更符合他成长的环境。


👦🏻 Koji


Born with 3D」的用户,你们已经在用户群里看到了吗?


👦🏻 宋亚宸


是的,年纪更小的用户中已经有这样的趋势。比如我弟的学弟在 B 站做 Up 主,作品是一些我很难看懂的 3D 创作,比如「马桶人」「监控人」,但能有几十万粉丝,有时视频甚至上百万播放。你都不知道是谁在消费,但确实有人喜欢。不同代际差异非常明显。信息载体从文字到图片、视频再到 3D,社会形态从工业社会到数字社会再到智能社会,不是一两年能看出来,但以十年为跨度,变化很大。

「语言模型撞墙了,3D大模型刚开始」|和VAST创始人宋亚宸聊3D大模型创业「狂飙」的两年


👩🏻 Ronghui


那我们具体聊聊你们的 3D 大模型。8 月 20 号发布的 Tripo 3.0,前面提到了对新一代用户的关注。你能说说这次是为谁设计的吗?和之前的产品相比,最大的迭代在哪里?


👦🏻 宋亚宸


其实 Tripo 我们已经做了挺久,2024 年初上线,到现在一年半了,也积累了很多用户。目前全球有三四百万专业创作者,超过 4 万家企业客户,其中 700 多家是大型客户。大家在用 AI 3D,但之前产品并不算真正的 pipeline-ready,只能在流程的一环里起作用,还需要专业人员修改和精修。


Tripo 3.0 的跨时代意义在于,它第一次达到了可以直接在大多数行业和场景中使用的状态。比如你买一台 3D 打印机,放在家里给孩子用,在 Tripo 上生成一个 3D 模型,放进打印机,打印效果就很好,不需要二次操作或修改。你甚至不用关心模型的结构、格式,不需要知道如何修 3D,也不用学习各种 DCC 建模软件。这些都不是用户需要关心的。


👦🏻 Koji


2.0 到 3.0 的过程中,你们背后做了哪些工作?


👦🏻 宋亚宸


工作量非常大,涵盖了更多数据、更优算法以及模块优化。这是一个系统性工程,而不是解决单点问题。整体上在可控性、成功率、精细度和性能等方面都有显著提升,尤其是在几何精细度上的进步尤为关键。


👩🏻 Ronghui


Simon 能否给听众一些更具象的分析?比如我没有技术背景,但在录制前我和 Gemini 讨论过你们的资料。以 Tripo 2.0 为例,公开信息提到你们采用了融合 DiT 和 U-Net 模型的复合架构。Gemini 指出这本身就很有挑战。我想问 3.0 是否仍在使用这一架构?如果是,它的挑战性体现在哪里?


👦🏻 宋亚宸


3.0 并不是依靠某个单点突破,而是多方面的系统优化。我们研发了一种新的表达形式——SparseFlex(SF)。今年 4 月份我们已开源 Tripo SF,效果相当出色。它显著降低了生成 3D 模型的成本,提升了生成速度,因为它跳过水密性环节,同时支持在上千空间维度下生成,精细度更高。


你可以把它理解为一种 3D 的 token 表达形式。表达形式越好,压缩率、还原率和保真度就越高。这样不仅能支撑更多数据训练,还能提升生成质量和精度。近期也有类似的表达形式,比如 Mesh、NeRF、近期很火的高斯等,SparseFlex 在 AI3D 训练中同样表现突出。


👦🏻 Koji


3.0 发布后,有没有数据能显示它给用户带来的价值?比如使用量、付费率或使用频率?


👦🏻 宋亚宸


用户用量和反馈都显著提升。我们目前发布的是 Standard 版本,后续还会推出 Ultra 版本,生成效果更好,但生成时间也会更长。


「语言模型撞墙了,3D大模型刚开始」|和VAST创始人宋亚宸聊3D大模型创业「狂飙」的两年


👦🏻 Koji


有没有 2.5 无法实现,而 3.0 解锁的应用场景?


👦🏻 宋亚宸


可以这样理解。我们有一款产品 Tripo Studio,它集合了大量 AI 算法,目标是通过 AI 原生的工作流替代传统复杂的 3D 制作管线。Tripo Studio 在 5 月 31 日上线后,收入增长超过两倍。


👦🏻 Koji


我记得你曾在「十字路口」线下活动 「AI 开放麦」现场分享过,有人在欧洲基于 Tripo 3D 的 API 做了「套壳」应用并赚了不少钱。Tripo Studio 是否类似这种模式?


👦🏻 宋亚宸


不完全是。我们希望将其做得更具 agent 化。后续会在系统中增加更多对话框,以及简单的语言交互和拖拽交互。可以把它理解为 3D 内容生成后的后续处理:例如,当我生成了一个「80 分」的成果,以前通常在传统管线中进行二次编辑;现在我们在 Tripo Studio 上完成二次编辑,从而大幅降低编辑的成本、门槛与时间,这正是 Tripo Studio 的意义。


Tripo Studio 带来了许多全球独有的新功能。首先是「万物自动语义分割」(segmentation)。以往生成的 3D 模型往往是一体化的「整体」,无法做二次编辑——类似纹身图或纹身视频,生成后没有源文件,不能在 Photoshop 中分层(layers)编辑。同理,早期的 3D 输出是一整块,难以分层处理;而现在,生成的 3D 模型可以自动进行语义分割:系统理解模型的语义后,将其各个部件切分为独立的块,并对每个部件自动补全与完善。


举例来说,若生成一只手拿着一瓶水,系统能自动把水与手分离,水与手各自成为完整独立的 3D 资产,并被存入资产库以便替换和复用。这体现了 Tripo Studio 的能力。换言之,Tripo Studio 上线了一整套 AI 算法,定义了 AI 时代 3D 编辑与交互的形态与范式。其中,segmentation 与 part completion 是非常经典的功能,未来也可能出现竞品实现类似功能。


「语言模型撞墙了,3D大模型刚开始」|和VAST创始人宋亚宸聊3D大模型创业「狂飙」的两年


「语言模型撞墙了,3D大模型刚开始」|和VAST创始人宋亚宸聊3D大模型创业「狂飙」的两年


👦🏻 Koji


可以把它理解为类似 Canva 推出 AI 时的重要卖点——生成的图片可以分层(layer)编辑,逐层调整;Lovart 也在强调这一点。


👦🏻 宋亚宸


这确实是一项创新——此前无人做到,我们率先实现。我们还开发了「万物骨骼绑定」功能。其含义是:生成的 3D 模型原本是静态的「雕塑」,现在可以自动进行骨骼绑定和蒙皮。除人类模型以外(人类较易处理),系统也支持猫、狗、牛、蛇、鱼、龙,甚至章鱼、蜘蛛等的自动骨骼绑定与动作生成。例如,生成一条龙后,系统可以在爪子或手指级别完成绑定,从而使其能够运动。这项能力显著节省创作时间并降低门槛。


此外,我们还做了低模生成。传统生成模型面数常达几十万乃至数百万,这在实时渲染场景(如游戏、XR、元宇宙)中对本地性能消耗巨大;而当面数降至几百或几千时,计算量显著减小,能实现实时渲染。为此,我们自研了一套基于自回归路线的低模生成方法,使输出模型天然面数较低、实用性更强。


类似功能还包括 Magic Brush 智能笔刷等一系列能力,这些共同构成了完整的工作流。


「语言模型撞墙了,3D大模型刚开始」|和VAST创始人宋亚宸聊3D大模型创业「狂飙」的两年


👦🏻 Koji


我理解这其实是一个战略性的选择。因为很多团队可能会选择把精力 all in 在基模上,而你们却花了大量产研时间做 Studio。为什么?


👦🏻 宋亚宸


我们判断,未来每一个有专业能力的垂直领域大群体,都会拥有一个属于自己的 AI 工作台,它要满足几个条件:


  1. 端到端:能一站式完成完整的创作流程。
  2. 高可控性:可编辑的颗粒度要足够细,才能真正体现创意。
  3. 交互形态创新:不再局限于传统模式。


去年底我们意识到这一点,就投入半年研发,到 5 月 31 日上线了 Tripo Studio 的第一个版本。早期还是雏形,但经过几次迭代,效果已经越来越好。


模型 vs. 工作台:为什么我们既要造发动机,也要造 F1 赛车?


👦🏻 Koji


所以你觉得只做基模是不够的?因为也有人可能会选择说,我就专注做基模,把类似 Tripo Studio 这样的工作开放给生态合作伙伴去做。


👦🏻 宋亚宸


嗯,这是个很好的问题。我认为未来一定是基模和 agent (或者叫 workstation)——这两方面都会做。举个例子,比如 Cursor,它很可能会做自己的基模。


👦🏻 Koji


所以你觉得这是一个战略上用作防守的 agent?


👦🏻 宋亚宸


它不是防守,而是一种逻辑。你可以理解为:在做底层大模型的时候,你是在起「新墙」;而在做工程和产品功能的时候,你是在糊「旧墙」。因为你要解决的,恰恰是上一代模型里存在的缺陷。


比如说,上一版模型在人脸生成上的效果不够好,那如果我要基于这版模型做 agent,我就会重点解决「脸部优化」的问题。但当新一代模型发布,它顺带把人脸问题和其他一百个问题一起解决了,那你之前的努力可能就失效了。


所以,从底层角度看,AI 1.0 和 AI 2.0 的区别就在这里。AI 1.0 时代的核心是很多天才的算法科学家,通过手工调参的方式训练出一个个小模型,然后用这些小模型去解决各种长尾问题。举个例子,在计算机视觉时代,我们做智慧城市时,会有一个小模型专门识别垃圾是否被倒在外面,另一个小模型识别监狱里是否有人打架——非常具体、细节的问题。


而在 AI 2.0 时代,核心变成了数据驱动。通过海量数据训练出一个通用的大模型,希望它能泛化地解决所有常规问题。


回到刚才的问题——做底层模型的优势是一次性解决大部分常规问题。但为什么现在有人在上面做工具、agent、workstation 或者应用?核心原因就是:他们认为 AI 2.0 时代死了,所以还是在做 AI 1.0 时代的事情。


AI 2.0 时代的生存法则:语言模型撞墙了,但 3D 没有


👦🏻 Koji


你觉得 AI 2.0 已经「死了」?


👦🏻 宋亚宸


不是我觉得,而是那些在做的人面临的问题。你仔细想一想,如果 AI 2.0 还在快速发展,比如 GPT-5、GPT-6、GPT-7 一路迭代,那么 Cursor 根本没有生存空间,因为它依赖解决的那些问题都会被新模型覆盖掉。很多 agent 也是这样,原来填补的是通用模型的缺陷,但随着大模型升级,它们的价值就消失了。


👦🏻 Koji


所以你认为模型遇到了发展瓶颈?


👦🏻 宋亚宸


不是所有模型,而是语言模型撞墙了。也正因为如此,才会基于语言模型出现了很多垂类应用和 agent,因为语言模型的发展速度相对放缓。


但在 3D 领域,情况完全不同。你很少看到只做应用的人,因为如果没有自己的大模型,一旦下一代模型发布,你的应用几乎立刻失效。就像你糊了半天的旧墙,人家直接给你起了个新墙,你的努力就被覆盖了。


👦🏻 Koji


我理解在大模型还在疯狂迭代的时候,如果应用公司在上面「雕花」,很可能会被下一次升级直接淹没。但我想知道,从你们的角度看,作为一家本来做基模的公司,为什么在这个时候你们也要做应用?


👦🏻 宋亚宸


核心在于:我们比别人更清楚下一版模型会往哪里迭代。我们知道哪些地方值得糊旧墙,哪些地方不用护,因为新模型会解决。


这就是我们最大的优势:


一方面,通过做工具或 agent,我们能离用户更近,拿到一线反馈,指导大模型迭代;


另一方面,我们又有大模型的积累,清楚模型下一步的方向。两者结合,就形成了非常好的循环。


👦🏻 Koji


DeepSeek 坚决不做任何商业化,即便外界愿意送钱,他们也拒绝,因为梁文锋认为这会稀释团队在追求模型智能边界上的专注。所以他们的 ToC 产品做得很简单,爆火之后也没维护,甚至不调机器扩容。他们把所有精力都放在基模上。


而你们的选择是既做基模,又做 Tripo Studio,但你们的「粮仓」没有 DeepSeek 那么充足。在资源有限的情况下,这种战略选择的考虑是什么?


👦🏻 宋亚宸


我不觉得这是注意力稀释。相反,如果只做基模,就会变成一种学术化的「自嗨」。很多东西在论文里可能很火,但和真实用户的需求并不完全对应。


我们做 AI 不是「拿着锤子找钉子」,而是要从真实问题出发。这也是我们公司的特别之处。上次分享时我提到过,我们最早做的是一个 3D 的 TikTok。但我们遇到了一个「墙」:想做 3D UGC 的生态和社区,但发现现实里根本没有 3D 的 UGC,只有 PGC。为什么?因为缺少大众级的创作者工具。


就像如果没有输入法,就很难有文字的 UGC;如果没有手机摄像头,就很难有图片和视频的 UGC。那在 3D 里,缺的就是一个大众级的创作工具。所以我们才去做 AI 3D 大模型,目标是降低创作门槛和成本。这个初心很重要,我们做这件事是为了解决真实存在的问题,和用户、创作者在一起,看看我们的方案是否真的奏效。


换句话说,从第一天开始,我们就不是一家「拿着锤子找钉子」的公司。很多大模型公司是先有技术,再去找应用场景;而我们是一开始就看到了用户的需求和痛点,所以才决定做大模型。


👦🏻 Koji


所以一开始你们真正的「钉子」,就是要做一个 3D UGC 的社区。


👦🏻 宋亚宸


没错。我们的目标就是做一个大众级的创作者工具,让每个人都能零门槛、零成本、实时地创作 3D 内容。


👦🏻 Koji


所以现在其实 Tripo Studio 也是服务这个人群的嘛?


👦🏻 宋亚宸


现在暂时不是。你可以理解为 Tripo Studio 目前还是服务于专业用户,面向的是 PUGC 或者 PGC。我们希望下一步逐步去牺牲一部分创作的可控性和编辑的颗粒度,但换来的是大量的内容范式和模板。有了这些范式和模板,每个人都能参与到创作当中。


比如大学生用 Tripo Studio 没问题,但如果是小学生,或者让我外婆来用,难度还是比较大。我们真正希望实现的是零门槛、零成本的实时 3D 创作。一旦做到这一点,就有机会出现 UGC 群体。


👦🏻 Koji


是什么原因让你认为未来会是人人都要做 3D 呢?这是不是有点非共识?因为拍照片、拍视频很自然,但 3D 是更高维度的艺术创作,好像不是每个人都会主动想去做的事。


👦🏻 宋亚宸


其实你刚说的「自然」也就存在不到十年。拍视频、拍照片成为日常也只是近十年的事情。在短视频出来之前,我们一年能看几部电影?在小红书和 Pinterest 之前,一年能逛几次画廊?在微博、贴吧、Twitter 出现之前,一辈子能读几本书?


回到 3D,在 3D 的 UGC 内容平台出现之前,其实每个人都在打游戏了。王者荣耀 2015 年发布第一年就有 1 亿 DAU,十年后依旧保持 1 亿 DAU,这就是全民级产品。今天游戏的全球市场规模大约 2600 亿美金,已经是出版社、画廊、电影市场加起来的两到三倍。


同理,我认为未来的 3D UGC 内容平台会是 Twitter、微博、小红书、抖音、快手、TikTok、Snapchat、Instagram 所有平台总和的两到三倍。


👦🏻 Koji


你畅想的未来 3D UGC 这个平台上面消费的内容主要是什么呢?游戏?


👦🏻 宋亚宸


这是个好问题。就像短视频刚出现时,你问大家会消费什么?当时没有短视频的概念,只有电影和视频,所以当我们说要做一个 UGC 视频平台的时候,大家一般只能想到电影。


同样,现在大家提到 3D 可交互内容平台时,只能想到游戏。但其实未来的形态一定更丰富。就像现在在 B 站,电影在所有视频里只是很小的一部分,短剧的市场已经超过电影。


所以我相信,今天我们玩的所有游戏——不论是咸鱼之王、三消、原神、王者荣耀还是刺激战场——未来都会只是「3D 可交互内容」大品类下面的一个小分支,属于精英级的艺术形式。


👩🏻 Ronghui


你刚才讲到这里,我想请你帮大家科普一下:训练一个 3D 大模型和训练常规大语言模型相比,挑战主要在哪里?


👦🏻 宋亚宸


我们常用「AI 三要素」来说明问题:如果把 AI 比作养一匹马,需要三个条件。


第一,马要吃草——草料对应数据;


第二,马要有优秀的驯马师——这对应人才和算法;


第三,马要有跑马场——这对应算力。只有同时具备数据、算力和优秀的算法(或科学家),才能训练出高水平的 AI。


在 3D 领域,这三要素与语言大模型存在显著差异。首先是数据。互联网早期只能支撑低信息密度的内容,因此网络上积累了海量可供爬取的文字数据。但 3D 领域的互联网尚未成熟,缺乏公开的大规模数据集,这带来了天然的瓶颈:数据从何而来?


目前我们拥有全球最大规模的高质量 3D 原生数据集,大约 4,000 多万个样本,接近《黑神话:悟空》中「猴子」那类 3G 模型的级别,作为训练基础。这一点极为重要。相比之下,其他大厂或竞争对手的数据量级大多停留在百万级,而我们是全球唯一达到千万级乃至数千万级的团队。


👦🏻 Koji


这是为什么呢?是不是有些数据即使有钱也买不到?


👦🏻 宋亚宸


这是个好问题,这属于我们的核心机密(笑)。


第一在「草料」层面,我们确实比别人更充足,这一点非常关键。


第二是「人才」。我们团队有五六十位来自清华的博士,都是极为顶尖的科学家。要组建这样的团队并不容易。语言模型在过去几年相对是显学,聚集了大量做 NLP 的研究者,OpenAI 也长期深耕这一领域。但 3D 是一个全新的交叉学科,结合了 AI 与图形学,本身缺乏长期积累。很多研究者进入该领域不过一两年。


举例来说,两年前在图形学顶会 SIGGRAPH 上,仍能看到大量计算机视觉(CV)相关的论文;但如今在计算机视觉顶会 CVPR 上,已有 Best Paper 与 3D 强相关。说明 3D 正逐渐成为前沿方向,也导致早期人才严重不足。


因此,在人才方面尤为重要。正是凭借这几十位优秀的算法科学家,我们才能持续迭代出全球领先的算法。这是一件极为难得和宝贵的事情。能否做到这一点,取决于是否足够早地进入赛道,并且下定决心去投入。早期进入意味着能够更早发现并吸引人才,把他们凝聚为团队,从而快速推进。数据的积累也与时间早晚相关,但并非完全决定性。


第三是「跑马场」,即算力与资金。我们目前是赛道中融资规模最大的公司之一,估值也在最高的行列。拥有充足资金储备、大规模数据集以及顶尖科学家,理论上就能产出优秀的大模型。但其中依然存在运气因素。正如我之前提到的,要找到「绿洲」,并不是商队越大就越容易。


👩🏻 Ronghui


如果回顾过去两年的历程,你会如何划分关键节点或阶段?比如在什么时间点决定要做 Tripo Studio,并且要尽快做好?这个过程中是否也包含了一些关键人物或关键判断?


👦🏻 宋亚宸


这件事可以这样理解:我们过去两年只做了一件事。公司在 2023 年成立,2023 到 2024 年唯一的目标就是把技术做到全球最前沿的水平。我们确实有竞争对手,但观察下来,许多对手在早期投入大量精力在产品层面。而我认为,早期产品的本质其实是技术,而不是表层的功能


举个例子:如果你的手机摄像头是 720P,而我的已经是 1080P,那么你在 720P 上叠加各种人像、全景、红外等功能其实没有意义。你真正该做的,是尽快提升到 1080P 甚至 4K,而不是纠结那些附加功能。增加功能不是产品的本质,技术才是。


因此,在过去两年里,我们公司很长一段时间甚至没有产品经理,大部分代码都是 CTO 亲自编写的。


👦🏻 Koji


但现在你们做 Tripo Studio,是暗含着你判断 3D 大模型做到 「1080P」 已经撞墙了?但这个时候你们稀释精力去做应用、而不是深耕基模,你会不会担心有一天竞争对手却搞了个 「4K」 的基模出来?


👦🏻 宋亚宸


这与撞墙无关。我们计划同时推进所有方向。


Tripo Studio 最初的设想是先做 UGC 版本,即零门槛、零成本、实时创作 3D 内容的产品,面向真正的UGC。


但为何先做 PGC?原因在于早期阶段 UGC 与 PGC 在生成质量(例如从 10 分到 80 分)上都有需求;当模型达到 90 分或更高时,UGC 与 PGC 的需求会出现分化:UGC 更关注速度与能否快速动起来,而 PGC 更看重精细度,例如拓扑结构与布线等。


因此早期的目标是确保至少能生成可简单调整的内容,于是我们先推出面向 PGC 的 Studio,优先服务现有用户,再逐步覆盖原生用户(即此前未进入生产管线但因 AI 得以参与生产的人群,例如无 3D 能力的 AI 原生用户也能参与生产)。我们的策略是先服务现有 PGC 用户,将整体能力提升至八九十分水平,然后再考虑如何服务 UGC 与 PUGC(半专业用户)。


为此,去年年底至今年,我们组建了约二十余人的产研团队,专门解决产品与工程问题,支持用户做调整与预设。例如支持模型风格化(可上传图片提取风格)、对称性设置、T-pose 与 A-pose 等多项功能。


我们认为首要任务是先把现有的 PGC 用户服务好,随后逐步泛化至 PUGC 与 UGC。在泛化阶段,除了工程与产品外,运营与增长同样重要。目前我们尚未大规模开展运营与增长工作,原因是现有专业用户高度关注我们的产品改进,且产品差异明显、信息较为透明;因此用户会在效果提升时自发使用。


但 PUGC 与 UGC 用户不会持续关注大模型性能的细微提升,此时需要通过增长、BD(商业拓展)或运营来传达产品价值。增长的关键情形包括:一是存在信息差,需要主动告知用户;二是产品逐渐同质化,需要通过品牌与运营建立差异化。鉴于当前我们仍具差异化优势且专业用户无信息差,运营与增长将成为下一阶段的重点工作。


👦🏻 Koji


你会不会担心,做一个 Tripo Studio 这样的复杂产品,目标只是去了解用户,这条路径其实有点太费劲了?毕竟为了实现「更了解用户」的目标,你们可以通过用户调研,还可以通过与基模上面的应用开发者们合作。


👦🏻 宋亚宸


当你在做底层大模型的时候,几乎没有直接意义上的用户。你的用户是 ToB 企业,你必须和这些 B 端客户沟通,需要依靠他们去获取用户反馈。


👦🏻 Koji


但理论上来说,你也可以直接去找到他们的用户,虽然可能不会那么直接方便,但花一些精力也并非不可能拿到联系方式。


👦🏻 宋亚宸


我还是那句话,关键在于初心的不同。我不了解 DeepSeek 的初心是什么,也不清楚 Kimi 的初心是什么。每家公司的目标可能都不一样。我们之所以做这件事,并不是为了什么 AI、3D、AGI,而是出于一个明确的初心:我们希望推动 3D 内容的 UGC 。


我们观察到创作者群体,尤其是大众创作者,缺乏一款大众级的 3D 创作工具,所以我们希望去打造这样一个平台。这是我们最核心的出发点。


正是因为这个初心,我才去做这件事。不能「因为有了饺子所以才包醋」,而是反过来,我们是因为这件事本身有价值,才出发去做。


👦🏻 Koji


确实,一个公司的愿景选择,以及在这条路上的战略定力,都非常重要。


👦🏻 Koji


听起来 Tripo Studio 上线后数据表现不错?刚才你提到它已经贡献了超过一半的收入。前面提到,你们做 Tripo Studio 的目标是拿到更多用户反馈。那么到目前为止,你有没有通过它获得一些新洞察?


👦🏻 宋亚宸


我们其实有一个叫「CEO Program」的项目,即 Chief Experience Officer Program。


👩🏻 Ronghui


你们访谈了很多用户?


👦🏻 宋亚宸


对,目前大概有一两千位用户被访谈,他们来自各种不同的领域,使用场景也非常多元。让我意外的是,很多真实的应用场景在我做产品之前完全没想到。最初我们设想的使用方向是游戏、动画和 3D 内容创作。但后来发现,很多人把它用在设计上,例如 3D 打印、工业设计。于是我们逐渐把定位扩展为 3D 内容、3D 体验、3D 设计。


除此之外,还有大量用户来自艺术领域,尤其是艺术院校的毕业生。他们用它来做毕设,涉及当代艺术、装置艺术、景观艺术、新媒体艺术等。过去他们不具备 3D 创作能力,现在通过生成式 3D 工具就能实现。


还有一些残障用户,他们借助 Tripo Studio 表达自我、进行创作。再比如 XR 应用群体,这类用户非常活跃,但过去我们关注更多集中在 XR 硬件,而较少注意到软件和应用层面。实际访谈才发现,全球有很多活跃的 XR 开发者,他们每天都在创造各种有趣的东西:3D PPT、3D AI 绘本、小游戏等等。


因此我们意识到,3D 生成不仅仅是 UGC,更可能催生新的玩法。在游戏行业里,已经很久没有新的玩法出现了,近十年可能只有《自走棋》算是一个新玩法。而 3D 生成却提供了大量新的交互和玩法可能,这是我之前没有想到的。


科技的终极形态,是一场「解压缩」


👦🏻 Koji


这些都是 Tripo Studio 上线之后你才发现的吗?


👦🏻 宋亚宸


上线后,大家开始广泛使用,有人通过 API,有人通过 SaaS。但本质上,这背后反映的是 AI3D 已经成为理所当然的能力


过去大家觉得文生文、文生图、文生视频理所当然,如今同样觉得文生 3D 也是自然的。但仔细想想,从「空无」到「凭空生成一个东西」,这件事本身就像魔法一样。


第二点是技术迭代太快。新奇观感层出不穷,人们来不及细想,这其实是人类两三年前才刚发明的技术,如今已能在产业里规模化应用。要知道,电灯、冰箱等发明出来三年时,远没这么快进入大规模落地。而今天,AI3D 已有几百万用户、四万多家企业在使用。这在我看来非常了不起。


更重要的是,它拓展了大众的能力边界。拍照、拍视频、写文字,这些大众原本就能做到,而 3D 建模过去只有专业人才可以完成。现在每个人都能「凭空造物」,这不是小事。


举个例子:菜单的演变。


  • 在打字机之前,全是手写菜单。
  • 有了打字机,才有了印刷菜单。
  • 有了手机摄像头,菜单上开始配图。
  • 现在扫码点餐,甚至直接在 iPad 上操作。


那为什么菜单不能是 3D 的?如果餐厅能直接展示 10 个人点的 50 道菜,以 3D 模型呈现份量和摆盘,就能立刻判断够不够吃。但传统 3D 建模成本太高,不现实。今天如果只要每年付几十块,就能拥有一个 3D 点餐系统,餐厅当然愿意买单。


同样,广告牌、名片也完全可以变成 3D。过去互联网形态是文字、图片、视频,但本质上这是对世界的降维抽象,是科技不够成熟的权宜之计。当科技足够发达,交流和表达自然会回归到最接近真实的 3D 形态。


👦🏻 Koji


我觉得这描绘了一个很有想象力的未来。今天我们看短视频而不是 3D 内容,只是因为技术、带宽和设备算力的限制,本质上还是在对世界做「压缩」。


👦🏻 宋亚宸


对,「压缩世界」这个说法特别准确。


👦🏻 Koji


回到我之前的问题。你提到做 Tripo Studio 是为了获得用户认知,帮助模型更好迭代。那经过几个月运营,你们拿到了哪些以前没有、必须通过 Tripo Studio 才能得到的认知?


👦🏻 宋亚宸


其实有很多。我们内部有一个需求池,上面有上百条需求,分 P1、P2、P3 等优先级。


举几个例子:


  • 有用户希望能编辑贴图,于是我们研发了智能笔刷。
  • 有用户想改几何,却不知道如何下手,于是我们探索能否用自然语言直接编辑几何。
  • 有人希望模型有更好的拓扑结构,于是我们开发了重拓扑功能。
  • 有人追求更好的硬表面、更清晰的拐角,我们针对性优化了算法。
  • 有人希望保留贴图笔触、改善 UV 完整性,我们也在做专项研发。


这些细碎的需求,推动了我们快速迭代。另一方面,大模型的更新也自然解决了很多问题,比如人脸精细度、硬表面表现、PBR 支持、贴图质量等。


所以最终还是一句话:一切都是为了服务用户和创作者,而不是服务我们自己。


👩🏻 Ronghui


这个世界其实是在压缩的过程中,而你们在做的事情是让它「升维」。听起来是一条比较挑战的路。你相信当工具越来越简单时,人们真的会选择去做升维的创作吗?


👦🏻 宋亚宸


我更愿意称它为「解压缩」。人类之所以一直在压缩,是因为受制于带宽、算力等技术条件。举个例子,早期的游戏只能做低模,因为画面更精细的高模跑不动,所以大家只能玩《传奇》那种画质很糙的游戏。但随着技术发展,我们能做出《黑神话:悟空》,面数比以前高几十倍甚至上百倍,本质上就是「解压缩」带来的返璞归真。


社交平台的演变也是这样:从推特、微博到小红书,再到抖音、TikTok,其实是信息表达逐渐解压缩的过程。人类最初就是以 3D 的方式表达自己,比如雕像、图腾,然后才有壁画,再到文字。雕像的信息密度最高,但不便于携带;文字密度低,却能更好地传播,这是科技条件决定的。互联网其实也遇到同样的问题——几个 B 的数据容易传播,几个 G 的就困难,3D 可能要几个 T,就更难了。


所以我认为科技的发展方向不是继续压缩,而是让我们逐步解压缩,直到最终能直接处理「源文件」。那源文件是什么?就是 3D。视频本质上只是从 3D 世界里取一个角度、一段时间,但 3D 才是完整的源文件。所以我相信,互联网最终会走向一个人人都能享受源文件的时代。


👦🏻 Koji


你平时最关注哪家竞争对手的新闻?


👦🏻 宋亚宸


最近混元 3D 做得挺好,我们也在关注。


👦🏻 Koji


有没有哪些竞争对手是你们比较尊敬的?


👦🏻 宋亚宸


我们当然尊敬所有竞争对手。


长远来看,彼此可能并非单纯竞争,而是竞合关系。因为初心不同:有的团队希望做到最前沿的技术,有的则希望通过技术影响行业,还有的专注于工具本身。比如某些大家熟悉的公司,他们目标与我们并不一致。以我所知,目前所有竞争对手当中,没有人真正想做我们正在做的事情。所以最终,大家还是会走向不同的道路。


👦🏻 Koji


你们想做的,就是一个面向 UGC 的 3D 创作者社区。


👦🏻 宋亚宸


是的。我们定位很明确,就是服务创作者。创作者需要社区,我们就通过社区来服务;他们需要平台,我们就通过平台来支持。换句话说,我们的目标是建立一个完整的网络,而不仅仅是提供某种单点工具。你刚才提到「解压缩解到底」,这形容得很贴切,我们正在做的正是这样一件事情。


👦🏻 Koji


难道其他友商不是也在服务创作者吗?


👦🏻 宋亚宸


不太一样。比如有些公司主要服务游戏公司,他们会根据游戏公司的需求去提供定制化的解决方案。还有的专注于工具本身。但我们希望构建的是一个社区和平台,这是完全不同的路径。这件事的难度极大,投入也需要长期坚持,不可能短期内完成。


👩🏻 Ronghui


那你怎么看待商业化?听起来,服务游戏公司似乎是更接近收入的模式。


👦🏻 宋亚宸


我并不认为服务游戏公司就更接近商业化。观察下来,全球范围内长期服务游戏公司的公司,其实过得并不算特别好。你可以试着举反例:是否有哪家公司因为专注于服务游戏公司而发展得特别成功?几乎很难找到。换句话说,toB 的路径在这个行业里并不算最理想。


👩🏻 Ronghui


那你们自己的商业化路径是什么样的?过去两年是否按计划推进,还是有一些意外?


👦🏻 宋亚宸


我认为在早期,商业化的本质并不是「商业化」本身,而是产品。就像之前谈到的,早期产品的本质不是功能,而是技术。只有当产品真正具备足够的差异化,商业化才有坚实的基础。


具体来说,增长和 BD 在两种情况下最有价值:第一,当产品高度同质化;第二,当用户之间存在巨大的信息差。如果这两点都不成立,那么最核心的任务就是把产品打磨得更好。对我们来说,现在更重要的不是多招 BD、陪客户吃饭,或者通过买广告来做增长,而是让产品本身更强。等进入下一个阶段,再讨论商业化的方式更为合适。


👦🏻 Koji


所以可以理解为,你们觉得现在的产品还不够好,不值得大规模推广?


👦🏻 宋亚宸


这不是「产品不够好,所以不能推广」,而是「让产品更好,比推广更关键」。比如英伟达,他们的产品非常强大,但并不依赖销售团队去推动商业化,也不需要天天往字节、百度去推销。对他们来说,持续把产品做得更好,比额外的推广方式更合理。我们也是一样:当客户没有明显的信息差,而产品又足够差异化时,最优解就是继续强化产品,而不是优先做 BD 或买流量。


👩🏻 Ronghui


我注意到你在几次采访中都提到,每年年底会和团队分享愿景。你说每年讲的内容其实差别不大。能不能具体谈谈,在创业两年多以来,哪些东西一直没变,哪些又发生了变化?


👦🏻 宋亚宸


我们每年大约在三月中旬会做一次全员分享。我通常只需要把去年的 PPT 截图放到新的版本里,再稍作更新,就能继续讲。这是因为愿景和核心路径几乎没有变化,只是往前推进了一年,完成了更多目标。


👦🏻 Koji


所以,你们的天使轮 BP 和现在相比,变化并不大?


👦🏻 宋亚宸


严格说,我们天使轮阶段并没有正式的 BP,但内部分享时用的 PPT 与现在相比,并没有太大差别。


👦🏻 Koji


很有意思。我最近听到一个故事:王慧文去见某位创业者,让他拿出四五年前的天使轮 BP,再对比今天,看哪些改变了,哪些没变。结果发现转型之后变化不少。


👦🏻 宋亚宸


我们这方面很简单,因为几乎没有变化。每当我想调整愿景时,团队往往会反对。所以愿景和路径一直保持稳定。团队成员对愿景和路径有强烈的认知和认同感,这也是我们凝聚力的来源。我们几乎没有人才流失,原因就在于大家对这条长期主义的道路充满信心和热爱。半年后,我会做第四次分享,我希望那时仍然在讲同样的内容。


👦🏻 Koji


那这种持续的认同感从何而来?是因为大家本身就是产品的潜在用户,期待用上这样的产品?还是因为其他原因?


👦🏻 宋亚宸


部分同事确实是潜在用户,另外一部分则是因为亲眼见证了愿景逐步实现。很多事情的发展速度甚至比我们当初设想的还要快。这种「故事逐渐成为现实」的过程本身就非常有力量。五年前我们讲的愿景,如今每年都有新的进展能印证它,这让团队深受鼓舞,也进一步坚定了大家的信心。


欢迎来到第四产业:当价值的唯一衡量标准是「体验」


👦🏻 Koji


能不能描述一下,如果你的愿景真的实现了,那会是怎样的一幅画面?


👦🏻 宋亚宸


我们通常说人类社会经历了农业时代、工业时代,再到服务业,形成了所谓的三大产业。但我认为,其实还存在「第四产业」——内容产业。它的核心在于创造内容与体验。


未来,人类在物理世界中能够创造的价值会越来越有限。因为几乎所有物理价值(physical value)都将由机器人完成。换句话说,很难再找到「人能做而机器人不能做」的事情。既然如此,人类的价值从何而来?我认为答案在于「创意」。


如何衡量创意的价值?可以用一个指标来定义:所有人在我创造的内容和体验中停留的时间总和,就是我在这个世界上创造的价值。


👦🏻 Koji


这听起来很像你小时候在学校设计的那些游戏,吸引同学们课间来找你玩。


👦🏻 宋亚宸


这里的「内容和体验」不一定是游戏,它可以是任何形式。可能是一起对战、狂欢,可能是冥想和探索。我无法预测未来人们具体会选择什么,但可以确定的是,人类天性追求「极致的体验(optimal experience)」。当人们拥有足够多的选择、甚至无限的选择时,他们就能凭借「用脚投票」的自由,找到属于自己的极致体验。


那如何实现无限的体验?答案是 UGC 与 AIGC 工具。UGC 提供源源不断的创作,而 AIGC 工具则使创作效率成倍提升。以抖音为例,短视频内容接近于无限,加上推荐算法的加持,用户体验自然更佳。这种机制本质上也非常公平——人们用「时间与注意力」投票,决定了哪些内容更有价值。


因此,未来最富有的人,很可能不是掌握最多土地或资本的人,而是最具创意的人。他们能创造出一个世界,让所有人都愿意在其中停留。甚至可能只是一个看似简单的「小偷模拟器」,却因为带来独特的体验,吸引无数人沉浸其中。


这种价值的核心依然是「体验」。推荐算法如果更优,就能更精准地将用户与内容匹配;算力如果更强,就能提供更流畅的使用感受。美剧《上传人生》(Upload)里就有一个场景:在虚拟世界里,充值少的人体验会卡顿,而充值多的人则享受极致流畅。未来的世界,很可能也会是类似的逻辑。


当算力、推荐算法和内容创作工具(比如 Tripo、Midjourney 等)结合在一起时,人们就能源源不断地产生新的内容,并在其中沉浸。那些拥有更强创意、掌握更好工具和更多算力的人,就会创造出真正让大众快乐的体验。而这,也将成为未来新的财富与价值来源。


👩🏻 Ronghui


你这两年 AI 创业的个人体感是什么?


👦🏻 宋亚宸


我觉得非常幸运。我们有一些资源可以冷启动,但又不是过多,不至于被资本的「资源诅咒」困住。历史上没有哪家伟大的公司诞生在资本市场极度繁荣的时候。今天的环境刚好能保持合理的饥饿感,这是值得感恩的。


👩🏻 Ronghui


那如果你能对两年前刚决定创业的自己说一句话,你会说什么?


👦🏻 宋亚宸


我会说:「你真牛,真有勇气。创业是对的,选择得很正确。」


👦🏻 Koji


所以你在创业过程中受过什么苦吗?


👦🏻 宋亚宸


当然。创业每天都有各种问题要解决,这是必然的。


👩🏻 Ronghui


那你是怎么化解这些痛苦的?


👦🏻 宋亚宸


我会玩游戏,比如《龙与地下城》。


当物理世界是你全部的世界时,痛苦就会占据全部人生。但如果物理世界只占 50%,另一半由虚拟世界填充,那么痛苦的比例就会减少。

如果你如此注重神创造的世界,那神创造的世界就会左右你所有的心情。但当你还有很多人创造的世界的时候,那么神创造的世界只是你人生中的一部分。


👩🏻 Ronghui


我记得你在另一场采访中提到过,你是一个非常需要虚拟世界的人。


👦🏻 宋亚宸  对,必须的。我觉得其实每个人都需要,只是很多人现在没有意识到。


👩🏻 Ronghui


感谢 Simon 跟我们分享了关于 3D 大模型、工具与创业的思考,非常精彩。


👦🏻 Koji


谢谢,期待下次再来。


👦🏻 宋亚宸


好,拜拜。



文章来自于微信公众号 “十字路口Crossing”,作者 “十字路口Crossing”

关键词: AI新闻 , VAST , 宋亚宸 , 3D大模型 , AI 3D
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。

项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file

在线使用:https://aicomicfactory.app/

2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
AI 3D建模

【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。

项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file

在线使用:https://replicate.com/camenduru/lgm

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0