周昌印，Google X早期科学家，创业AI视频编辑工具，狂揽全球近千万用户

2655点击 2024-10-24 16:02

每一次技术的革新，都会带来内容创作的变革：数码摄影的普及让视频制作变得更加轻松，大众通过社交媒体分享生活中的点滴，而移动互联网和短视频平台的崛起，则彻底改变了人们讲述故事的方式。如今，AI技术的进步再次掀起视频创作的新浪潮，让更多人有机会参与到视频内容的创作与表达之中。

Vozo创立于此背景之下，这家初创公司致力于通过AI技术，让每个人都能够轻松地表达自己的创意与故事。Vozo提供了强大的AI视频创作工具，包括智能剪辑、自动特效和丰富的模板库，使得用户无需专业技能也能制作出高质量的视频内容。无论是短视频制作者、KOL还是企业用户，都可以借助Vozo的工具，更加自由地使用视频进行沟通与传播，加速内容创作的效率与质量。

在本期访谈中，我们与Vozo的创始人周昌印展开了深入对话，探讨了他从计算摄影到视频创作工具的创业之路，以及他对行业未来的理解和产品理念。他分享了AI时代下的视频创作如何从底层技术到用户需求，带来前所未有的体验升级，并介绍了Vozo如何在激烈的市场竞争中，通过独特的用户洞察和产品定位，迅速吸引了全球近千万用户。访谈中，昌印始终面带微笑，屡次提到“还是很有趣的”，这使我们感受到他对创业的热情和享受。让我们一同走进他的故事，了解Vozo背后的理念和未来，Enjoy！

对于创业来说，你又不能等十年上下游就变好了，创业的窗口期也就大概两年到四年，最多到五年也就了不起了，所以给我的Lesson是，不要太超前，最好去做差不多已经成形的市场需求，不能领先市场太多。

我们当时就在想如何让普通人能自然地通过短视频讲故事、表达情绪、介绍商品或其他内容。我认为这件事很有趣，而且能影响到很多人。于是决定不再单纯的追求技术酷炫，而是要做一个所有人都能轻松使用的工具，并做到最好。

我们选择做或不做什么时，有三个核心标准。第一：需求要真实，市场有规模；第二：和之前的主流产品要有大不同，比如Adobe Premiere 或 Capcut；第三：要在我们的主方向上，即给非视频专业者使用的表达工具。
我觉得这三年市场的变化还挺大的，Video Translate或者说Video Rewrite这件事情早一年在技术上都没法做得很好......所以从语音识别、声音克隆、TTS、生成口型动作、到生成面部动作，一系列问题，在大约半年到一年的时间里就发生了很大的突破，还蛮神奇的
但现在行业基本都还是在用Adobe PR、Capcut，无论你做翻译还是做广告，这几个软件都是万能的，它们确实可以做任何事情，但每件事情做起来又都特别困难，效果不好。比如，我算一个半专业的视频制作者，但如果我有两个星期没用PR，我就不知道要怎么用了......现在是一个变革时代，未来会有很多不同细分场景，接下来3-5年可能会涌现出很多不一样的视频工具去服务每一个场景，体验会比原来好10-100倍，市场也会大10-100倍。

01 Google X 早期科学家、连续创业者，过往聚焦在用计算+摄影的方法为用户呈现更好的视觉效果

ZP：欢迎昌印总，请先向大家介绍一下自己吧！

昌印：大家好，我是Vozo的Founder兼CEO周昌印，朋友们都叫我CY。我本科在复旦大学管理学院，研究生在复旦大学计算机系，硕士期间在微软研究院访学，有幸接触到当时全球最顶尖的计算机视觉研究与计算机科学家，找到自己的研究方向，计算摄影，即“计算+摄影”，帮用户获得更好的图像或视频，或者更好的理解图像或视频。2007年微软研究院的老师推荐我去哥伦比亚大学读博，博士导师就是计算摄影领域的主要奠基人，美国三院院士。

2011年博士第4年我在英伟达实习的时候，接到斯坦福大学计算摄影大神Levoy教授的邀请，希望我和他一起到Google X成立一个新的项目组，后来起名叫 Gcam（谷歌相机的意思）。但当时我大约还有一年才能博士毕业，而且原计划是毕业后在学术圈从事教职。这中间发生了很多故事，我最终接受邀请加入了Google X，从一个纯粹Researcher 变成 Researcher+Engineer。很感激当时博士导师的积极支持与配合，让我不仅可以直接去Google X全职工作，也让我1年后能完成博士答辩。所以，我没有经过正常面试就进了Google X，没有博士毕业却拿到了博士待遇，一周工作4天，但拿全职薪酬。工位左边是Levoy教授，背靠着另一位著名的AI大教授 Sebastian，时常会碰到在周围晃荡的Sergey Brin，发生很多有趣的讨论。当时感觉有点魔幻。这段经历给我很多不走寻常路的启发。在Google X 4年，逐步转向偏工业界，参与Google眼镜的项目，当时Google眼镜最大的问题是Camera很小、且Processor很弱，导致拍出来的视频和图像质量很差，如果基于此做Vision的算法，就比较难，所以需要一整套的技术栈，我们当时把整个Image Stack重新定义了一遍，是非常典型的Engineering和Research的结合，我们一次性会拍6-10张照片，然后再把6-10张照片很快地融合在一起，这样噪音就更低，它的质量会提高一个级别，但是又要做到用户不知道这件事情，用户以为自己拍了一张，但他其实拍了6-10张，中间会有很多Vision的算法、Processing的算法、以及对Camera的控制。后面所有安卓手机厂商都要Follow我们Google的标准，这个后面变成Android Camera2 API，是整个安卓底层系统之一。这件事情有趣的点在于，一个工程的事情可以把一件事情的效率提高十倍、甚至百倍，但并没有引入特别大的硬件，我们是通过纯软件的方式来实现的，当时给我非常大的启发。

2015年离开Google开始创业，做VR应用，核心希望解决Teleportation，即在北京可以去体验上海的事情，这个事情要解决数据的传输、数据的生成、数据的渲染，而且它的数据量比一般的Video会大10到100倍。到后面变成ToB SaaS，面向运营商如AT&T、Horizon等。在技术上有很多突破，但商业上不太成功，受制于上下游的VR硬件与内容，市场上并没有那么多的VR需求，回头来看有点过于技术Driven，没有从真正的用户需求出发。2021年回国二次创业，做了Vozo，我觉得这家公司可能会更均衡一些，包括对商业机会的看重、以及真正从需求出发，我们会非常小心地去验证需求是真的、还是我们自己想象出来的。

周昌印，Google X早期科学家，创业AI视频编辑工具，狂揽全球近千万用户

ZP：复盘来看，您认为第一次创业没有达到预期目标的原因有哪些？

昌印：我们当时是做视频处理，将Camera采集的视频数据进行处理、生成和流化，并且在观看端进行解码、渲染和呈现，提供端到端的体验。我觉得核心是生态位的问题，当时我们做的事情需要依赖上下游，上游依赖很好的采集设备去帮我们去采集一些VR的原数据，我们处理后要给到下游头显，又要依赖头显的装机量，所以我们是被卡在中间。以及我们当时有很多Wishful Thinking，觉得体验做得这么棒，一定会有很多公司把上游的Camera做好，以及会有很多人去买头显，当时还会引用一些很有趣的曲线去预测头显的装机量，但回头来看这两件事情（快速增长的VR内容与VR头显装机量）都没有发生。

所以不能过于理想化。并不是我们把计算与渲染做好，就可以推动上下游变好的。整个行业发展有自己的一套商业逻辑，一家公司能产生的影响一般非常有限。但是对于创业来说，你又不能等十年上下游就变好了，创业的窗口期也就大概两年到四年，最多到五年也就了不起了，所以给我的Lesson是，不要太超前，最好去做差不多已经成形的市场需求，不能领先市场太多。

ZP：2021年开启第二次创业，当时的动力是什么？

昌印：首先我觉得创业很有意思，以及是我觉得第一次创业可能有一些遗憾，也是希望二次创业可以做得更好，比如没有从用户需求出发，所以这次创业一直带着这个想法在做事，不过创业过程我确实很Enjoy。2021年回国到杭州，当时把杭州MCN的一些老大都聊了一遍，就发现他们有各种各样的需求，但大部分都是围绕Image、Video这个方向。和做VR时候形成鲜明对比，做VR时你把技术和产品都已经做好了，到处求着他们来用，但是而短视频与直播领域有大量需求，但是没有合适的技术与产品满足他们，所以就想我们可以在这里做一些事情，于是开始第二次创业。

02 从用户需求出发，Vozo上线即爆火，全球600万用户，通过AI能够让每个人比较轻松地去做视频表达

ZP：当时看到了什么普遍的需求？

昌印：当时看到几类需求，一类是短视频的制作，另一类是直播。当时直播看上去需求更强，比如有几个有名的MCN公司要建很多直播中心，一个楼里有几百个直播间，每个直播间里会有三台索尼摄像机，每个摄像机背后又都要放一个摄影师，后面还有个导播，所有人都戴着耳麦，有一号机位、二号机位，地上一堆线，这个场景听起来就很难Scale。我就在想可以做摄像机自动化，只要有一个人去控制它就可以了，大概做了半年的时间，做了一种很有趣的直播机，包括一个广角相机和两个镜头，背后有控制算法，当一个镜头Zoom In在你的面部的时候，第二个镜头可以Zoom In到你的手部做准备，会自动按照理解切镜头，应该什么时候给手部、什么时候给面部。但后面发现光有需求还不行，还要考虑商业的可行性，头部主播会有很多人服务，本身也享受众星捧月的感觉，长尾主播用手机就可以满足需求，所以只剩下中腰部主播，不够多也不够稳定，后来就Cancel掉了这个方向。

不过我们还是收获了很多认知，因为有直播机，我们可以跟MCN机构有很多非常紧密的交流，当你把直播机放到他的直播间里面去聊需求，就会了解他平常还会做什么，对整个短视频行业的了解也更深，所以后面我们决定不做硬件，单独把软件拿出来，就形成了后面的产品，一直做到现在。

ZP：转型后公司的定位是什么？

昌印：在直播机之后，我们看到很多短视频制作的需求，我们那时候就意识到和之前不太一样，之前做视频的人都是专业的剪辑师，到了短视频这个时代之后，就会发现很多的KOL、KOC、电商卖家，他们其实都不是视频制作专业的人，所以他们的视频技能其实跟我们都差不多，就是正常人的视频技能，所以他们在制作短视频的时候就会有很多问题。我们当时就在想如何让普通人能自然地通过短视频讲故事、表达情绪、介绍商品或其他内容。我认为这件事很有趣，而且能影响到很多人。于是决定不再单纯的追求技术酷炫，而是要做一个所有人都能轻松使用的工具，并做到最好。

我们当时做了大量的用户调研，过程中发现了许多有趣的需求，其中一个就是“记不住台词”这个问题，虽然很起来很小，但对非专业人士来说，除非是专业的主播或播音员，几乎所有人都难以记住台词，这就需要拍摄一遍又一遍，是很崩溃的，因为每一遍都需要情感充沛，好不容易情感对了台词没记住又要重来一遍。我们当时基于语音识别模型做了一个手机提词器，能根据语速滚动，我们用了一个月就做完了。可最后用户用了之后却不太满意，觉得很多地方不行，比如用户有口音、环境噪音干扰、提词器卡住了等等。

ZP：主要是遇到了哪些问题，我们是如何应对的？

昌印：主要还是技术问题，比如用户普通话不标准、噪声很大、回声很大等，会导致语音识别出现问题，因为用户不是专业的，就发现用户以为的没有噪音和你以为的没有噪音是两回事儿，然后就需要去解决这些问题，收集数据、做模型，以及模型做得够小、延迟够短降低到100毫秒以下。这是其中一个例子，还有很多各种各样的普通人可能遇到的问题，开始做的时候是有点点在试验，但是在优化之后，用户的满意度、付费率、续费率都很好，我们就围绕提词器做了更多的功能，包括加字幕、自动剪辑，也就有越来越多人用，我们目前全球有600多万用户，付费率、续费率和用户的反馈都特别好，无论是国内和国外我们的用户评分都超级高，我们经常会把用户的评论贴给我们团队看。

以及除了技术问题，还要思考要做什么，因为刚刚提到这个人群他要的东西很多，做哪个、不做哪个、哪个先做、哪个后做、UI要怎么做，这其实也是在慢慢演化到后面的产品。我们在国内有私域群，大概有5万人，他们的反馈可以让我们慢慢衍生出更多可能性，比如用户讲错话可以改他说过的话，甚至可以把声音变得更好听，让自己形象变得更好，将故事A改成故事B，将中文变成英文，慢慢延伸，最后发现最好的方式是有个SaaS，因为使用频率比较高的用户也喜欢用SaaS，所以去年立项开始做SaaS，到今年7月份Vozo正式上线，这款产品承载了我们过去几年对这个人群的需求理解。

ZP：Vozo这款产品的定位是什么，在为用户提供什么样的价值？

昌印：Vozo所做的事情是希望通过AI能够让每个人比较轻松地去做视频的表达，我们内部把它叫做视频自由，希望每个人都可以很方便地用视频去讲故事。

我们选择做或不做什么时，有三个核心标准。第一：需求要真实，市场有规模；第二：和之前的主流产品要有大不同，比如Adobe Premiere 或 Capcut；第三：要在我们的主方向上，即给非视频专业者使用的表达工具。标准清楚了之后，我们就明确方向、开发迭代，一直到今年7月份才上线。

ZP：Vozo主要面向的用户是谁？

昌印：刚开始是一些SMB、Prosumer，现在发现更多是一些企业，我们的产品定位是Vozo Rewrite，改写有很多不同的场景，比如你有一个广告想改成不同风格、不同的开头结尾；或者你原来有一个市场宣传片，原来是比较正规专业的讲述，你想把它改成更欢快的；或者你发现自己公司的Logo在最后一秒钟改了一下；或者我说了中文想把它改成英文。但是我们上线之后发现两类是最多的，一个是讲解视频，一个是翻译。我们现在体验做得还不错，至少我们自己觉得过了及格线，我们就会聚焦在几个场景，所以画像更多会是企业端的Marketing、Ads广告部门，以及一些做内容和做教育培训的公司，这个行业不是一个传统的Vertical，他是各个行业类似的部门都有类似的需求。

ZP：为什么会在今年推出Vozo，背后的驱动力是什么？

昌印：我觉得这三年市场的变化还挺大的，Video Translate或者说Video Rewrite这件事情早一年在技术上都没法做得很好。然后我们一定角度上走了一些弯路，我们做提词器拿到了很多数据，就做了很多训练，刚好2022年底Dall E出来，我们做Diffusion和视频生成觉得非常Exciting，就又走了一个岔路，把原来用户需求的问题抛到脑后了（笑）。但也是那一年的原因，我们对生成模型、语音生成、口型合成，阴差阳错形成了一些能力。2022年其实我们做过类似的产品，但是做完之后内部评估不能达到用户期望，过了一年我们又回到主线的时候，现在的生成式AI又可以解决原来的问题，虽然两条线岔路出去，然后又回来到原来的问题路径上，还挺有趣的，

技术的突破我觉得是挺全面的，Video Translate是很综合的一件事情，第一是语音识别在过去两年被革命了一遍，现在的方案比之前要好非常多；第二是翻译，大语言模型就很重要，之前翻译就不太聪明，需要人去校准，这时候刚好大语言模型已经把这件事情解决了，再加上一些我们自己做Finetune，整体就可以实现比较好的效果；第三是语音克隆和语音发声，这个其实是比较难的，现在行业里面我们、11 Labs和几个大厂都在做这个事情，在情感真实度方面也差不多是过去一年才有很大的突破；第四是口型，我们2022年就发过Paper，但是离真正变成产品差距还是挺远的，又经过大概半年到一年慢慢变成一个产品化的项目。所以从语音识别、声音克隆、TTS、生成口型动作、到生成面部动作，一系列问题，在大约半年到一年的时间里就发生了很大的突破，还蛮神奇的。

ZP：伴随技术的持续发展，我们还会如何拓展产品功能，产品迭代的主脉络是什么？

昌印：这是需要技术和产品去对接的，一方面要去预测技术树真正达到产品化的时机，中间你需要评估自己的研发能力和行业推进速度，这需要很强的一线研发能力；另一方面要考虑现有的产品的需求，比如我们中间也会想在翻译语句的时候需不需要把人脸也翻译了，把人脸也变成一个印度人的样子，那么这个需求到底真不真实、有多少比例的用户会为此付费，我们要判断这个事情，再比如视频前三秒我可以生成不同的画面，但是对于画面用户的需求到底是什么，是从一个Library里生成一个特效还是怎么样，我们虽然感觉是有什么东西需要做，但是到底是什么还是需要和客户聊。用户需求加上前面的技术预判，判断它们能够Overlap之后才会去做产品的开发，所以后面的路径就是这两件事情在不停地碰撞。

ZP：评估用户需求的真实性一直是很难的事情，实操上我们会做哪些事去尽可能地贴近用户的真实需求吗？

昌印：这是类似PMF的探索过程，在硅谷那边有非常多系统化的理论。其实有一本书我很推荐叫《The Right It》，这本书非常棒。我觉得最重要的一件事情是不要有Ego，不要觉得自己想的特别重要；其次就是要对这个行业足够了解，比如你要知道做Marketing的人是怎么做的、他的KPI是什么、他平时的工作是什么，所以你要对Video Production这行业非常熟悉；最后很多时候还是依靠主观判断，另外有一些技巧性的事情，像这些书上都有，比如怎么做小规模测试、怎么做访谈，这些都是非常技巧性的东西。

ZP：产品上线后，有哪些超预期或不及预期的地方吗？

昌印：还蛮意外的，7月20日上线以后我们也没有去做推广，但是很多用户都在用我们的产品，到现在我们也不知道很多用户是怎么知道我们的。超预期的是大部分用户对我们的产品还是比较满意的，比如我们翻译得比较快、又比较准，所以好像到目前为止Vozo是现在市面上视频翻译大家满意度比较高的一个产品，这是一个有趣的意外收获，我们原来没有想到他们会拿我们Rewrite去做翻译，Vozo可以用Prompt去改写视频，我原来预想的Prompt是 “Rewrite to something ...”，但很多用户直接说是Translate to Something，希望通过我们的产品迭代会有越来越多的用户能用到我们的产品，目前每个月用户用我们的产品（Vozo APP+SaaS）能生产出来200-300万条完整优质的视频，我觉得这是非常了不起的事情，虽然我们的留存数据不方便公开，但是我们的留存非常好。

ZP：作为CEO，您觉得未来1-2年最重要的三件事是什么？

昌印：第一是我希望能吸引一些更有趣优秀的小伙伴进来；第二是希望我能确保产品和商业的方向是正确的，不要走错路，不要有Ego，还是要跟随市场产品应该演化的方向发展；第三是确保我们公司现金流或者营收的增长要足够快。当然这三件事也有因果关系，第一件事情做好了第二件就会做好，第二件做好了第三件就会做好。

03 技术快速驱动下Video Creation赛道仍处于早期，各细分市场有机会诞生多家比Adobe体验好100倍的工具软件

ZP：在过去2年，您看到了这个行业哪些主要的趋势和变化？

昌印：我觉得最大的变化当然是技术的演进，让原来一些无法得到提升的体验得到了提升，因此就会产生很多机会。参照Adobe来说，你会发现你有很多Feature可以做一个非常不一样的、体验感更好的产品，Video Creation的各种场景基本都可以重做一遍，可以做出完爆Adobe的平台。

比如有人是做Comics风格的Video，就是那种动漫类的电影，之前可能是通过Adobe先绘画再剪辑，但是围绕最终的需求，漫画家或出版商需要做一个动漫类视频，你可以做出完全不一样的软件系统，让动漫的生产效率非常高。另外比如广告视频、PPT视频，都可以做出很不一样的东西。可以把所有视频品类都拿出来去想象、假设。

ZP：您刚才聊到技术发展非常快，从竞争的角度您怎么看待目前行业的发展阶段？

昌印：我个人觉得挺早期的，现在真正的市场竞争还谈不上，看现在关于Video Production的行研报告，类似是100B左右的市场，比如你雇人去做视频、买软件去做视频，而且这个100B我觉得是非常小的，整个视频创作的场景非常多，所以这个100B是我觉得被严重低估的，将来会比100B多10-100倍，未来3-5年，会有很多像我们这样的人、学生、以及各行各业的人都在用视频去讲故事，市场规模会比原来大很多。但现在行业基本都还是在用Adobe PR、Capcut，无论你做翻译还是做广告，这几个软件都是万能的，它们确实可以做任何事情，但每件事情做起来又都特别困难，效果不好。比如，我算一个半专业的视频制作者，但如果我有两个星期没用PR，我就不知道要怎么用了......现在是一个变革时代，未来会有很多不同细分场景，接下来3-5年可能会涌现出很多不一样的视频工具去服务每一个场景，体验会比原来好10-100倍，市场也会大10-100倍。

我觉得未来不是这样子，在视频表达里每个场景都是一个比较大的市场，比如翻译、数字人、广告等等。现在是一个比较大的变革时代，未来会有很多不同细分场景，接下来3-5年可能会涌现出很多不一样的视频工具去服务每一个场景，体验会比原来好100倍，市场也会更大。我觉得竞争还谈不上，大家先去抢蓝海市场，还没到红海市场。

ZP：在Video Creation这个赛道，您觉得长期的竞争格局会怎么样？

昌印：其实这个很难讲，细分之后会有很多种可能的形式，比如数字生成和翻译是分别独立的赛道，还是合起来变成一个赛道？将来是一家公司有一个能把所有视频场景都囊括的产品矩阵，还是一个场景分别有一两家公司？但是我现在的观察是，不同类型产品可能很难变成一个产品，因为不同产品的用户体验差别很大，整个产品服务的底层逻辑也不太一样。所以我会赌未来会有不同的产品在不同的赛道，只是说这些产品是由同一家公司提供的还是不同公司提供的可能会是一个问题。在现在这个时候，比较重要的是关注未来两到三年谁发展得比较快。

ZP：目前AI的渗透率怎么样？

昌印：差不多是零，非常小。我们做提词器或者AI加字幕这样的事情算是非常基础的功能了，你可能会觉得这些基础AI功能应该已经很普及了，但实际上，在视频制作领域，大多数没有听说过AI提词器，也不知道AI可以帮助添加各种动态字幕，也不知道可以通过剪字幕来剪视频。

ZP：目前渗透率还比较低的原因是什么？

昌印：我觉得是因为像样的产品没有几个，以我们的翻译为例，基本到去年下半年左右技术才相对能达到及格线，最多大概就六七十分左右。去年Heygen的爆火可能算是一次比较大的推进，但是像这样的事情可能还需要非常多次，我觉得普通人还是非常“顽固”的，千万不要高估AI技术的影响力，它需要很长时间去发展。

ZP：未来3年，您对AI技术进步的期待是什么？哪些技术变化可能会对视频编辑领域产生重大影响？

昌印：我觉得可以分两部分，一边是Research研究，一边是Engineering工程。基于现有的Research，Engineer这边还能做很多优化，尤其是一些非Framework的优化，这块其实还有蛮大的提升空间，可能三五年内我们都可以持续改进，希望能领先其他公司一到两年。

未来三年我认为AI领域可能会有一些底层技术的突破。不过，这些突破可能不会由我们团队主导，而是像OpenAI或者Google这样的公司。目前，多模态系统的设计还存在一些明显的不足和问题，因此我希望在两到三年后，这些领域能够取得重大进展。我们现在做的Engineering这块，希望在未来两三年不会遇到基础研究的“天花板”，可以继续往前推进。

ZP：最后还有几个关于您的小问题，10年前对自己的期待是什么，目前达成了吗？站在今天，希望10年之后的自己成为什么样的人？

昌印：十年前我在Google X做了一个挺有意思的项目，当时想的就是能让人变成某种“超人”。比如，可以看到看不见的东西，或者当别人问你问题，你不知道答案，但谷歌眼镜能告诉你。这相当于通过技术让人拥有“超能力”。不过，显然没有干成，或者说可能在产品上做到了，但是没有变成大家都用的产品。

现在继续创业，我还是希望能做一些技术或者产品的创新。拓展人的能力、突破人的边界。比如，原来你不会用视频讲故事，现在你会了；原来一件事要讲很久，现在一分钟就能讲清楚。我觉得还是在不断探索人的能力边界。

ZP：您平时有哪些兴趣爱好？

昌印：比较喜欢体育运动，羽毛球、轮滑、滑雪等。

ZP：作为一个创业者，您通常通过哪些渠道来持续学习？

昌印：会有两个吧，第一个是要接触一些比你厉害的人，无论是以前公司里的还是创业过程中的人，另外一个是ChatGPT，你可以和它聊很多问题（笑）

请注意，本次访谈内容已经过编辑整理并已获得周昌印的认可，仅代表受访者个人观点。我们也欢迎读者通过留言互动，分享您对本访谈的看法。欲了解更多关于Vozo的信息，敬请访问其官方网站 https://www.vozo.ai/。

Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的创业者访谈。我们诚邀对未来充满憧憬的您加入我们的社群，与我们共同分享、学习、成长。

文章来自于微信公众号“Z Potentials”，作者“Z Potentials”

周昌印，Google X早期科学家，创业AI视频编辑工具，狂揽全球近千万用户

关键词: AI , AI视频 , Vozo , AI公司 , 周昌印

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用，可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址：https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用：https://aicomicfactory.app/

声音克隆

【开源免费】MockingBird是一个5秒钟即可克隆你的声音的AI项目。
项目地址：https://github.com/babysor/MockingBird

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址：https://github.com/xszyou/Fay

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales