在AI飞速发展的时代,技术的迭代与应用的边界正在被不断拓宽,特别是在视频生产与编辑领域,AI的力量正逐步改写行业规则,为创作者与企业带来前所未有的效率与可能性。Akool,作为一家致力于下一代企业级AI视频生产解决方案的公司,正用其技术创新与深度差异化重新定义这一赛道。
Akool的创始人吕家俊,从浙大CAD&CG实验室到UIUC深造,再到Apple与Google的产品开发,拥有超过十年的顶尖技术积累和实践经验。从机器学习到生成式AI,他始终坚持探索如何通过技术推动内容生成与生产效率的革新。2022年,他选择从大厂走向创业之路,凭借对“最好的商业视频生产平台”愿景的执着追求,带领Akool迅速在全球市场占据了一席之地,截至目前已实现近4000万美金Invoiced ARR。
在本次访谈中,吕家俊详细分享了如何通过差异化技术产品从初创定位到产品转型实现PMF的关键节点,以及如何围绕“人”的视频生成不断拓展功能矩阵,最终为企业级客户和内容创作者提供深度服务。他还探讨了技术发展对行业未来的深远影响,并展望了Akool长期对标Adobe,成为视频生产领域领头羊的愿景。让我们走进Akool的故事,Enjoy!
ZP:欢迎家俊,请先向大家介绍一下自己吧!
家俊:大家好,我是Akool的创始人吕家俊。我是1990年出生,从初高中开始,我就非常喜欢物理和数学,但高中时读了一本书——吴晓波的《大败局》,让我对商业也产生了兴趣,所以大学选了计算机专业,当时认为是物理数学和商业最好的结合。于是2009年开始我在浙江大学CAD&CG实验室读计算机图形学,在全球应该算是计算机图形学领域最好的几个实验室之一,我当时主要做的方向是3D建模、以及如何用AI辅助3D建模做得更好,虽然当时的AI还是基于机器学习,用的方法叫Divide and conquer。不过这也是我最初开始接触到AIGC,后来这十多年也是一直沿着图形学、CG、视觉生成这个大方向持续做探索。
本科毕业之后,我去了UIUC继续读Phd,导师是一位在计算机视觉非常有影响力的教授,他的研究涵盖从基础视觉、到结合机器学习和深度学习的高阶视觉,我参与了许多图片/视频编辑和生成的项目,以及实时Sensor Processing(传感器处理)的项目,也做了一些与图形学交叉的研究。后来去Stanford参加了一个Researcher Program,做动画片生成,比如将漫画书转为动画片。这些研究都非常有趣,也是跟着自己的兴趣在做,所以一直对工作非常Motivated、对事情都比较Passion。读博期间,我还兼职参与了一次创业,是小嘿科技(ZP注:目前已改名为今日水印相机)的Cofounder,当时做了一个约会应用,叫“Double Date”,目标是让两个男生和两个女生一起参加约会活动,主打社交的新形式,当时觉得这个方向很有意思。
2018年毕业后我加入了Apple,参与了Face ID项目的开发,尤其是如何在戴口罩的情况下实现人脸识别。2020年我去了Google Cloud,专注在Video Processing(视频处理)和人体动作识别,比如数人头,分析人的行为动作,以及通过视频结构化处理,让视频内容更高效地被检索和分析等。当时还兼职做了一年Xreal的Adviser,搭建了AI/ML的团队,还一起推进了一些AI/ML的应用开发,其中一个核心方向是手势识别,用于AR眼镜的手势控制。
ZP:2022年您从大厂离开决定正式创业,当时的原因和动力是什么?
家俊:其实创业一直是我想做的事。从读吴晓波的书开始,再到后来比尔·盖茨和马斯克的故事都对我影响很大,我希望能做出一些有影响力的事情。我之前写了本书,叫《增强人类》,这本书描述了科技如何推动人类的发展,涉及人和机械结合、记忆上传,甚至关于永生的讨论,我对这些前沿领域非常感兴趣,这也是我目前关注虚拟人领域的一个重要原因。马斯克的目标是让人类跨越星球生存,而我更关注如何通过科技改变人类自身,让人类在未来更加智慧、更加强大。这可能听起来有点科幻,但对我来说,我还是想做一些比较有Impact的事情,往小了说对我自己和对公司有Impact,往大了说对人类的发展有Impact,所以我觉得在大公司待着似乎和我想干的事没什么关系。以及我当时还去Harvard Business School读了一个Program PLD,非常鼓励大家Make a Change(做出改变)。我之前虽然参与了两次创业,但我意识到如果想推动那些真正让我感兴趣、让我充满激情的事情,最好的方式还是自己出来做。
ZP:过往在大厂和参与创业的经历,对您此次创业有什么启发和帮助吗?
家俊:我觉得首先创业过程中韧性是非常重要的,以及要搭上Wave,抓住时代的浪潮。在大厂工作积累了很多系统性的方法论,包括完整的开发流程是什么样的、如何去搭建Infra、如何构建组织架构等等,在Apple印象最深的还是打磨产品,直到把产品体验打磨到极致,在这方面甚至可以说是到了“变态”的程度;在Google见到了最前沿的技术发展、以及如何将技术在很多领域应用起来,并且产生很大的Impact。
ZP:关注到Akool总部设在美国,创始团队也具备非常强的国际化背景,能否分享一下创始团队是如何聚集的?
家俊:从Day1我就希望做一家国际化公司,这肯定需要一个国际化的团队。尤其对我们主打的ToB市场,更是必须要有足够国际化且足够资深的商业人才,否则可能连企业客户的门都敲不进去。早期的团队都是认识的朋友一起,或者朋友介绍,Deepa Sureka是在创业之前就在创业社区认识的,我们早期在互相Convince对方加入自己的创业项目。她加入Akool之后,带进来很多国际化背景的多元化的同事。渐渐地我们开始更多的社招,通过Linkedin等平台招聘。
ZP:Akool创立之初的定位是怎样的,到今天经历过哪些调整?
家俊:我们最开始的时候在找AI领域的新机会,在美国没有看到和商汤类似的业态,所以想做“美国的商汤”。Day One就是定位做ToB,最初我们和沙特政府合作,我们的主要方向是安防,比如做基于人脸识别的门禁,想要Focus在中东和美国市场,但是遇到了一些实际问题,中东市场政府项目推进速度很慢,经常要拖个大半年,美国市场对安防领域走得也比较慢。
当时我们上线了很多Application,虽然重点放在了安防上,但也做了一些视频编辑和视频生成的功能,大概到2022年Q4的时候,我们观察到视频编辑这个功能有了巨大的发展,在没有做广告的情况下使用量自己就涨起来了,用户自发地使用,意识到这才是真的有PMF(Product Market Fit)的事情,于是就花了更多的精力和资源在这个方向。在ChatGPT发布之后,彻底Pivot到这个方向,慢慢开始加一些功能、把产品体验做得更好。
ZP:Pivot是因为看到了什么样的机会?
家俊:首先是看到了技术的变化趋势,比如Stable Diffusion等模型开始真正Work,技术变得更加成熟,这是一个非常大的Difference,当然变化最快的还是Language Model(语言模型),但与此同时,我们也看到趋势正在向图像和视频方向扩展,当时像Midjourney这样的产品刚刚开始火起来,正处于起步阶段,而我们意识到视频领域几乎还没有太多人涉足,因此认为这里还有很大的发展空间。当然也是因为刚提到的,我们注意到平台本身这部分功能的数据起来了,我们就决定Allin到这个方向中来。
ZP:刚您提到Akool的定位是B2B Video Cloud,我们最初推出了哪些功能,到今天我们的产品拓展逻辑是什么?
家俊:我们最初的三个核心产品是:Face Swap(换脸)、3D Generation(3D生成)和Image Generation(图片生成),3D生成和图片生成在技术层面上我们做得还不错,但在产品体验方面可能优化得还不够细致,有一些关键的细节需要进一步打磨,当时图片生成做起来的是Midjourney,3D生成当时想切电商这个垂直场景,后来发现这是个伪需求,用户对3D的需求并没有想象中那么强烈;Face Swap是第一个比较成功的Feature,我们在2023年1月就拿到了可口可乐这个大客户的订单,慢慢就把这个Traction(初步成果)做起来。
后面的拓展基于两个逻辑,第一是在我们拥有了第一波客户群体之后,我们围绕这个群体去找新的需求;第二是我们在看有哪些技术是与换脸相似的,可以基于现有技术能力进行扩展。基于这两点我们开发了很多新的功能,大多都围绕“人”相关进行展开,比如Face Re-editing(面部重编辑)和Reanimation(面部动画),甚至逐步扩展到Translation(视频翻译)等功能。所以我们也聚焦了客户群体和应用场景,主要集中在Marketing(市场营销)、Advertisement(广告)、和Creator的内容创作等场景。虽然我们也上线了图片换背景、视频换背景等功能,但我们发现大部分的Traction(初步成果)还是来自于人的编辑和生成上,发现这个规律之后,我们将更多的研发资源聚焦在人的视频生成和编辑功能上。整体就是我们基于技术和客户的相似性,不断迭代和扩展产品矩阵。
ZP:为什么我们选择“人”这个方向?
家俊:首先是“人”的技术,尤其是人脸相关的技术,相对更成熟。这是因为人脸生成问题是一个更Constrained(受约束)的问题,比起生成任意物体或随机内容的复杂度要低。即使是全身生成,这类问题仍然是较为可控的,因此开发起来会更容易一些。第二是围绕人的生成和编辑,用户的接受度和付费意愿会更高,整体付费能力更强。
第三是“物”的生成很困难,物体生成最大的需求来自电商,但生成的物体需要高度逼真、与实际物体一致,这一点非常困难,而且电商企业对这类素材的付费意愿也没有那么强,因为在电商的Business Model里,新颖的素材度最终对销售也不一定有那么大帮助,而且在美国的电商生态里,很多都是代加工,素材都是上游直接给他们的,自己不需要去生成素材,而上游大部分都在亚洲。
所以还是Marketing这个场景,客户的需求和付费意愿都更高一些,以及结合生成难度、技术成熟度,“人”这个赛道都是更好的。
ZP:所以Akool聚焦在了“人”的视频生产这条主线上,我们目前拥有哪些产品和功能?
家俊:首先是Face Swap,包括实时和非实时的换脸功能;其次是Talking Avatar(会说话的虚拟人),它可以生成各种虚拟形象的视频,也可以在现有视频的基础上编辑内容,比如让视频中的人说不同的话,还支持实时交互,例如与Customer Support Agent进行实时对话;以及我们还做了Video Translation(视频翻译),我们可以将视频中的语言翻译成多种目标语言,同时保留原视频的自然表现;我们还做了“人”的生成,Image Generation、Image-to-Image,可以生成不同形象的虚拟人;以及最近还推出了围绕3D Motion(动作)的编辑。
ZP:回头来看,Akool是如何逐步找到PMF的?
家俊:首先是P,刚才有提到我们当时上线了很多功能,基于观察市场上围绕视频核心的Feature、以及团队之前的经验,去思考用户的需求,而Face Swap一直被高频使用的Feature,于是我们基于新的技术,上线了我们的产品。
然后在看M,最初来找我们的是一批虚拟人公司,当时记得特别清楚,有一家加拿大虚拟人公司找到我们,他们规模还不小,一直安利我们说:“你们换脸技术这么好,干脆直接去做虚拟人吧,这个市场很赚钱”。到了2022年Q2/Q3,有一堆虚拟人公司都找过来,想要我们开发对嘴型的技术,我们就觉得这个Trend(趋势)起来了,就开始做了。然后就开始找场景,当时我们YY了各种使用场景,就在各大论坛、社群发我们YY的使用场景,很多用户就来试用产品,在2023年1月就签下了可口可乐这个客户,又用这个客户到处去找新的客户,用了一些营销工具,把全部可能用我们产品的客户找出来,给他们发邮件。最后就逐渐收敛在了Marketing这个场景。
ZP:我们怎么判断是已经PMF了?
家俊:达到PMF的Signal(信号)是非常强的,就是挡都挡不住的感觉,我们当时Pivot到视频生产之后,服务器都要被挤垮了,加多少机器都不够,如果你不知道你有没有到PMF,那么你大概率是还没有到PMF。
ZP:看到这个赛道很多玩家主要是ToP(Prosumer),Akool选择ToB(Business)商业模式的原因?
家俊:一方面是我们也分析过美国的生产力软件市场,ToP产品更轻量、决策周期短,通常早期起量快;ToB产品更重型、打磨周期长,但客户粘性更强、且天花板更高,千亿美金级的生产力软件几乎全都是ToB的;另一方面我们团队基因比较ToB,也比较了解B端企业的需求。当然我们确实也看到了B端的Traction(初步成果)更多,我们网站从始至终都是ToB的调性,从最早做美国的商汤、到做安防、到做云端的AI服务、再到Marketing服务,虽然有一些变化,但在整个过程中,我们一直都是保持着ToB的Branding。
但我们现在有考虑做一个新的Landing Page,把ToB和ToP分开,也会有ToP Branding的方向。我们目前超过60%是Business客户、40%是Prosumer客户,但Prosumer我们没有采取什么特殊的Marketing策略,认为还是有很大的增长空间。因为我们现在的Benchmark是Adobe,我们分析了Adobe的用户群体,其中Prosumer和Business都有,并有不同的Landing Page,所以我们或许也要做不同的Landing Page,来向Adobe看齐。
ZP:您如何看待长期和Adobe的竞争?
家俊:我们先围绕“人”,这部分Adobe做得少。同时我们也在提供产品服务给Adobe,整体跟Adobe合作下来的感觉是,他们在“人”方面的进展很慢,他们的想法和Concern比较多,所以这方面是机会。他们目前在这方面的路线是集成第三方解决方案,整体来说没有创业公司步子迈得大。
ZP:在接下来的2-3年内,Akool计划推出哪些新产品?拓展产品线的主线逻辑是什么?
家俊:从功能层面讲,第一是围绕“人”的视频生产还会上线更多功能,包括形象、声音、Motion(动作),甚至之后会扩展到衣服、眼镜等等。第二个是更Generic(通用的)视频生成,这就要取决于技术的发展情况,我们也可能会往Generic Video Editing拓展,但同时对此也会更谨慎。
从Business层面讲,如果参考Adobe,它有几大Components,分别是Creative Cloud、Marketing Cloud和Content IP。对于我们来说,我们也会做三个Pillar(关键部分),一个是与视频更深度结合的Vertical Marketing Cloud(垂直营销云),第二个是Content IP(内容版权),第三个是Creative Cloud。和Adobe的区别,我们会更聚焦于网页端的体验以及Cloud Processing(云处理)。虽然现在有些功能我们已经转移到电脑端了,但整体来说我们还是会更聚焦于Cloud端,包括协同操作的体验和API的体验,以及更聚焦在视频AI的编辑和生成。
ZP:请介绍一下目前公司的技术栈,Akool自主研发了哪些模型和算法?
家俊:因为团队比较Technical,在做之前一般会先Evaluate团队自己能不能做、用什么方法做是最Cost-Effective。如果我们能做得很好,那就自己做,如果自己做的ROI不高,那就用一些开源的工具或者接其他的API,比如我们的声音模型就是接第三方的。
所以还是要结合自己的实际情况来看团队自己能否做,当然最核心的算法肯定要自己做,不然效果很难满足我们的需求,这方面还有很多优化空间,最核心的算法各种“人”的生成和建模,包括人脸、身体,这部分接下来我们都会自己做,其他的就看到时候资源能否满足自研的要求。
ZP:Akool为何如此重视前沿技术研究和学术合作?能否分享一些关键的技术突破?
家俊:我们团队大部分都是做技术的,我自己也是技术出身,相信技术改变世界。我的博士导师David Forsyth是这个领域的大佬,所以一直在学术上有很深的联系。在早期,我们的产品被用户喜欢,很重要的原因就是我们的技术做得更好。中长期看,我们依然觉得技术对用户体验至关重要。我们保持了技术优先的思想,一直在推动技术的突破和发展。我们在基础大模型框架,高精度三维建模,以及神经网络渲染上都有突破性的技术。我们的Akool Research Team也和Google DeepMind、Salesforce Research、UCLA等机构有很多前沿课题合作,共同发表了不少论文。
ZP:作为公司的一号位,你觉得接下来两到三年最重要的三件事是什么?
家俊:第一件事情是给公司争取更多的资源,不管是什么样的资源;第二件事情是怎么给公司定方向,可以让公司在这个方向上走得比较远;第三件事情就是组建团队和Motivate团队。定方向一方面是方向的延展,另一方面是定各种Priority。我们可以做的事情太多了,而我们的资源是有限的,所以最重要的事情就是定Priority,需要决定先做什么后做什么。
ZP:Akool的长期愿景是什么?
家俊:长期来看,我们还是想做类似Adobe的公司。所以我们接下来几年的目标就是成为最好的商业视频生产平台,去赋能各种商业应用场景,包括广告营销、电影制作等。
ZP:如何看待目前行业内的竞争对手?我们的差异化优势是什么?
家俊:我们认为当前行业内的竞争对手包括Synthesia、HeyGen、Runway、Captions等,这些公司在Startup Peer中都表现不俗。但从长期来看,真正的挑战者可能是像Adobe、Canva这样的行业巨头,尤其是如果Google Cloud未来也进军视频生成业务,他们也会成为重要的竞争者。
我们的差异化优势在于我们对Enterprise市场的深度聚焦,与专注于Prosumer市场的竞争对手不同,我们认为,企业市场的天花板更高、壁垒更深,客户的黏性也较强,企业客户的需求往往更加复杂和多元,我们在这个阶段聚焦特定的垂直场景,提供Feature Differentiation(功能差异化),我们的团队在Enterprise领域也有比较强的优势,能够更好地理解和满足企业客户在视频生产领域的需求。
以及视频生产/编辑更像是一个系统性的工程问题,一方面是如何在更多场景里落地,这需要大量的工程开发,另一方面是如何把产品体验做得更好,这需要大量的产品打磨。不管是做Engineering还是做产品打磨,都是我们团队非常擅长的事情。
ZP:公司在商业化方面已经取得了不错的成绩,接下来如何持续保持先发优势?
家俊:我们截至目前,ARR已经达到2000万美金。我们确实开始做得还比较早,我理解积累下来的优势一方面是客户,另一方面是数据,目前客户在我们这已经形成了网络效应,因为我们已经把一个Group/Workspace沉淀下来了,积累了很多Customer Case,并已经在很多产品体验上做了细致的打磨,因为很多东西是需要客户反馈才能打磨体验。我们在做更多有网络效应的事情,网络效应一是体现在Workspace(工作台)和Collaboration(协同)上,二是体现在数据上。此外,我们也在IP上做了更多的创新,以及更多Exclusive Partner可以帮助我们做更好的IP拓展。
ZP备注:私下交流时小编还了解到,如果按照行业以及友商口径,Invoiced ARR已经达到4000万美金。但由于部分用户会会出现信用卡扣费失败的情形(主要在东南亚等地区),创始人在实际运营中更坚持财务口径,认为这个口径更符合商业本质。)
ZP:过去几年,视频生产/生成和编辑领域的技术发生了哪些关键性变化和突破?
家俊:在我刚开始创业的时候,视频行业的技术还不成熟,生成的视频完全不可用,现在融资比较快的几家公司当时都不是做AI视频生成的,很多都是做网页端的视频编辑器,后来转型成AI视频生成。因为当时行业还没发展起来,所以做纯AI视频生成的公司都非常小,做得大的公司都是从AI视频编辑器转型过来的。
现在技术上还是有很多迭代和突破的,整体效果提升了很多。那个时候的视频效果还比较差,包括数字人都是比较呆滞的,只有嘴巴能稍微动一下,现在的数字人已经非常丰富、基本辨认不出真假了。从技术上说,在Video Generation赛道比较重要的是引入ViT(Vision Transformer)做整体视频的生成。从应用上讲,那时基本没什么公司用视频生成,现在视频生成在应用上有很多突破,很多公司都开始使用,很多技术都进入了Production。总之不管是技术成熟度、效果、Application、还是模型大小和模型结构,都有挺大的变化。
对我们业务影响比较大的突破,还是在于之前很长一段时间里,大家的算法很多还是基于2D,现在则慢慢转移到3D空间里。此外,模型结构的优化、模型大小的增加也对我们的业务有相应影响。
ZP:您觉得对接下来的三到五年,你希望行业内有哪些新的技术突破会对我们业务本身产生一些大的影响?
家俊:现在还有很多可以优化的地方,有很多地方并没有做到Perfect,还有很多Artifacts(不自然的、反常的痕迹或瑕疵)。要做好视频生成其实挺不容易的,举个例子,现在还很难做到物理仿真或者遵循物理规律,基本都还是通过大数据、Memorization(记忆化)之类的方法做。真的要把视频生成与编辑做到电影级别的、遵循各种物理规律,其实还是“Long Way to Go”。
所以其中机会确实很多,举个例子,现在换脸要一步做到替换包括头发在内的整个头部还是比较困难的,还需要很多交互。此外,在不同角度下、不同Lighting下做任何生成与编辑也挺有技术难度的。更不用说做Generic的视频生成了,要把Case做好也很困难。其实技术并没有发展到可以比较好地进入商业应用,目前很多技术都还停留在Entertainment阶段,因为Entertainment要求不高,即使结果差一点也可以使用,但是真正进入Production的要求还是挺高的,所以这方面还有不少发展空间。我们看到Generic Video生成模型的效果提升得很快,但还有很多限制。
ZP:10年前对自己的期待是什么,目前达成了吗?站在今天,希望10年后的自己成为什么样的人?
家俊:10年之前我在接触第一个startup,当时我们想做的是一家非常成功的创业公司。现在对于把Akool变成一家很成功的、非常有Impact的一家创业公司并Make a Difference,我们还是“On the Way”的。
10年之后,我希望Akool已经是一家非常成功的公司了,可以让大家都知道、可以服务更多的客户、也可以让更多人使用。如果一切都非常顺利,10年之后我可能也会在其他赛道上探索,去看一看还有什么其他比较有意思的事情,有可能像马斯克一样造火箭,也有可能在“Social impact”或者更厉害的“造人”赛道上探索。
然后我之前还写了本书,叫《增强人类》。这本书描述了科技如何推动人类的发展,涉及人和机械结合、记忆上传,甚至关于永生的讨论,我对这些前沿领域非常感兴趣,这也是我目前关注虚拟人领域的一个重要原因。马斯克的目标是让人类跨越星球生存,而我更关注如何通过科技改变人类自身,让人类在未来更加智慧、更加强大。这可能听起来有点科幻,但对我来说,我还是想做一些比较有Impact的事情,往小了说对我自己和对公司有Impact,往大了说对人类的发展有Impact,所以我觉得在大公司待着似乎和我想干的事没什么关系。
ZP:除了创业工作之外,您有哪些兴趣爱好?
家俊:最大的兴趣爱好还是看视频,主要看各种有意思的视频。我还会去打卡美食,还会做些Exercise。
ZP:您最喜欢的创业者是什么?
家俊:我最喜欢的创业者是Elon Musk,他在做一些对人类发展更有意义的事情。创业是个无止境的事情,做完一件事情还会有下一件事情,如何让下一件事情更厉害是很有意思的。我想得最多的还是如何做能在历史上产生影响、能对人类产生影响的事情,这还是比较有意思的。
请注意,本次访谈内容已经过编辑整理并已获得吕家俊的认可,仅代表受访者个人观点。我们也欢迎读者通过留言互动,分享您对本访谈的看法。欲了解更多关于Akool的信息,敬请访问其官方网站 https://akool.com/。
文章来自于“Z Potentials”,作者“Z Potentials”。
【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用:https://aicomicfactory.app/
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。
项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file
在线使用:https://replicate.com/camenduru/lgm
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales