谁都没有想到,国内 AIGC 第一个真正意义上破圈的现象级产品,诞生在照片美化(写实人像)这个已经相当成熟的赛道。
7 月中旬悄悄上市,凭借着只需「9.9 元和 20 张照片就能生成艺术写真级的个人美照」这个噱头,妙鸭在短短几周的时间引来无数爱美女孩儿下载尝鲜,生成的「妙鸭美照」席卷了朋友圈等社交媒体。
妙鸭破圈的速度令人侧目,但背后的开发团队却十分神秘。在上线和快速破圈之前,既没有在过去几个月的数十场大模型发布会上有所剧透,也不是拿到几千万上亿天使融资起步的「大佬下海创业」,甚至绝大多数圈内人,都不清楚妙鸭背后到底是创业团队还是一个大厂内部项目。
妙鸭是阿里大文娱孵化的内部项目。ChatGPT 掀起新一波 AI 浪潮之后,张月光拉上几名同事今年 2 月建了一个「AIGC 破壁小组」的内部群,用 1 个月的时间讨论出了「写实人像」这个项目方向,再用 3 个月的时间打磨出了「妙鸭」这个具体的产品。
这很难不让人想到谷歌早年间著名的「20% 自由时间制度」,以及因此而诞生的谷歌眼镜、Cardboard、无人驾驶汽车等令人惊艳的创新。这个更像是硅谷式创新的浪漫开场,也引起了我们对妙鸭更大的好奇。
在一个半小时的访谈里,张月光回答了一系列有关妙鸭的问题和争议。虽然产品背后的技术、用户规模、团队构成和未来商业化思路等问题被他们归为商业机密而「不方便透露」,但选择写实人像的理由、产品诞生的历程、数据隐私争议、以及走红的原因等,他们给出了详细的阐释,为我们揭开了妙鸭神秘面纱的一角。
以下是经极客公园整理的对话内容。
问:团队怎么从 0 到 1 做起来的?
答:这个项目最初是在一二月份开始,比较简单,没有像现在这样有一个清晰的商业计划,类似于一个兴趣小组,我和五六个同学一起研究 AI 和图像技术方面的前沿知识和产品。在 2 月 9 号拉了名为 AIGC 破壁行动小组的群。从那时候开始,我们陆续关注到图像 AI 技术领域中的一些新技术和生态中的新工具和插件。到三月份左右,我认为一些关键的技术要素已经相对成熟了,决定朝着写实人像的方向开发。
妙鸭团队合影|妙鸭相机公众号
我们花了三个多月的时间来打磨这个方向,包括技术和美学项目上的模板。在产品开发到 6 月底和 7 月初时,我们终于觉得可以向用户展示它的状态,开始为期两周的内测,邀请了一些身边的朋友和同事,我们得到了大家的反馈,发现用户对产品的效果和满意度都比较正向。在 7 月中旬,我们正式对外发布了产品。产品上线后,引起了比较大的反响,用户也确实比较喜欢它,发展速度超过了团队最初的预期。
资源支持方面,资源占用最初不大,随着逐渐发展,妙鸭有了更多支持。最重要的是,公司对创新的包容和支持,让我们做了比较多的尝试。
问:为什么选择写实人像领域做 AIGC 落地?
答:我对产品方向有一些基本的分析。首先我以前做过相册类产品,其中会给用户提供基于算法的这种自动分类,在所有用户的相册,70% 以上是真人的照片。如果把所有照片和图片类信息放在一起,未经筛选的话,写实的人像将是最有价值、占比最高的,也受到最高度关注。
另一个考虑因素是,海外像 Midjourney 这样的产品比较成功,国内也有一些类似的产品试图复刻这种模式。然而,这些产品本身是一个什么都能画的画家,对技术和算法等方面的要求相对较高。更垂直的方向更容易实现,这就是为什么选择写实的大方向。
问:很多人体验妙鸭后都说「只需 9.9 元就能打败天真蓝和海马体」,你们怎么看?
答:我们并没有想要干掉天真蓝、海马体的想法,这只是用户的口号。我们最初的产品形态可能与现在的摄影服务形态相似,但从我们的角度来看,我们希望与摄影和摄像行业达成共识,成为行业的赋能者。海马体作为实体拍摄服务,它永远不可能被替代。因为拍摄的过程本身对于客户来说非常重要。例如,拍摄全家福时,一家人聚在一起完成这个过程本身就是一个非常有意义的事情。即使 AI 技术再发达,也无法替代这样的过程。
妙鸭相机首页
我们希望覆盖一些比较下沉的城市和欠发达地区的用户,因为他们可能很难接触到这种服务。但是,无论在哪里,对于美和摄影的需求是存在的,因为人们总是希望为自己留下值得纪念的照片。
在我们最初的感谢信中,我们提到:邀请了摄影师和设计师参与模板的创建,他们对 AI 技术的帮助也很神奇。我们认为我们与这个生态系统是相辅,而不是对立的关系;想要给这个行业提供一些工具,而不是干掉竞争对手。
问:你们自己复盘下来,妙鸭为什么会走红?
答:其中最重要的因素是团队成员的坚定和努力。团队氛围简单、直接,目标清晰,追求极致的风格。我们花了三个月以上的时间打磨一个效果,以获得更好的用户体验和效果。第二是公司对创新的鼓励、支持、包容,以及看到一些阶段性成果之后,进一步的支援。
在这个产品上本身去找原因的话,我觉得有几个点。
首先,我认为我们运气不错。其次,用户体验非常重要。如果用户无法流畅地使用产品,那么即使产品本身价值再高,也会被用户抛弃。产品的商业价值并不是一个线性的关系,而是在达到一个基点之后,才能真正地体现出来。因此,在设计产品时,我们一定要追求高质量的效果,至少要达到 90 分以上。当效果达到一个团队的所有人觉得这个效果真好,有哇哦时刻,那它裂变的概率就很高。
此外,产品的可控性也非常重要。我们在设计产品时,坚持「真、像、美」三件事情,「真」是没有 AI 感,「像」是和用户像,「美」是要比用户美 3 分。这些要求都同时达到 90 分以上的质量,我们才会将产品推向市场。
问:为什么用户上传的照片数定在了 20 张?
答:为了达到理想的效果,20 张是目前这个阶段的最优解。具体就不方便说了。
妙鸭相机需要用户提供 20 张及以上照片|妙鸭截图
问:有分析称,像这种火爆的工具类产品都会面临被复制的危机。有人猜测我们的背后模型是基于开源模型微调而来,认为这样的产品技术壁垒不够明显。请问团队,从内部看,我们的技术壁垒或产品壁垒体现在哪些方面?
答:确实不方便具体透露我们技术的实现方式,但我们确实有一些壁垒。最重要的是对其后续持续的迭代和拓展,以及效果的持续打磨。我们的技术团队会不断优化产品的效果。
问:有人猜妙鸭用了 Stable Diffusion 的模型,然后加 Lora 精调的方法,这个猜测符合现实吗?
答:这可能确实也不方便发表评价。凡是有关这个技术实现的问题,可能都属于我们的商业机密,不太方便泄露。
问:妙鸭背后图像生成的基座模型是自己训练的吗?会用阿里云的图像生成模型吗?
答:妙鸭是阿里大文娱团队内部的一个项目,并没有使用阿里云与这个相关的一些技术,至于怎么实现的,其实我也不太能去讲。
我们有一个模型叫「提香」(Tiziano),大家应该在(7 月 17 日官方发布的)感谢信中看到了这个名字——肖像画之父(的名字)。通过这个名字,也可以看出我们从一开始就想要为用户提供写实人像服务。
问:当前妙鸭的模版风格是怎么形成的?
答:本身团队内有很多年轻的同学,大家会高效讨论。更多还是看用户,比如说在社交媒体、朋友圈上公开去传播的情况下,用户比较偏好的一些方向。
我们也会收集很多用户意见,比如用户喜欢什么样的模板,继续去推出模板,核心是满足用户诉求。未来即将上线的一批模板,基本上都是根据用户的呼声产生的。
问:妙鸭相机怎么平衡出片的真实和美?
答:七八分像,两三分美。我们在定写实人像的业务方向时,提到真、像、美,这三个方向,一个是无 AI 感,然后能够尽可能像我,但要比我美。不管是美颜相机,还是每一代的拍摄产品,这算是常识。
同时,我们把这个选择权给了用户。人像刚出来的时候很美,但可能没有那么像,然后我们有一个特殊的功能可以让照片更像我,多点几次,就会更像。
问:妙鸭会一直只针对年轻女性群吗?
答:所有自拍或者图像类的产品的主力用户都是女性用户,看我们模板数量就很容易看出来。
问:背靠阿里很多影视资源,有联动做动态换脸的产品计划吗?比如用通过的脸直接换成影视剧中的人物。
答:我们并不会以阿里大文娱联动为目标,不过如果有确实合适的机会,可以去考虑联动影视、古风和清宫做产品,去洞察用户兴趣方向。
换脸本身,是我们坚决不去做的事情,因为从我最初对产品的定义,就不同于之前的换脸这类产品,甚至是我刻意不想去做的。
答:换脸是一个蛮成熟的产品,它的产品场景不做更多评价。另一方面,它也有一定的安全问题。
我们本身用 AI 为大家生成的这个照片,它比起真正直接换脸反而是没有那么真实,最起码我们去做人脸关键点检测安全级别的东西,一定是过不去的,只是看上去像而已。我们这种方式用户数据是安全的,生成也是相对安全的,这样有更长远的发展空间。
答:妙鸭在上线后因为用户协议的原因引起了一些争议,我们第一时间进行了修改,我们承认这是我们自己的问题。从某些角度来看,没有充分说明这个协议,或者说没有用一个最简单的方式告诉用户。
即使是旧的那个协议,如果大家仔细看的话,就会发现它其实是和新协议类似的,即产品所有的生成物权益都归用户所有,我们不能进行二次使用。但为了能够为用户正常提供服务,我们需要在产品里展示用户的作品并对其进行操作,提供分享、下载的一些服务,肯定要获取用户授权。原协议也是这个意思,但表述可能有一些问题,所以我们进行了修改。
我们的本意是,所做的所有东西都属于用户,我们没有所有权。你所有数据我都没有留,也不会用,要展示的东西,给你展示一下,这个就是我们的初衷。
问:使用妙鸭的产品,需要上传 20 张照片,但你提到,生成照片后平台会删除用户的数字分身数据,那为什么之前的版本里提到用作训练数据的条文?
答:首先我们没有把这个数据用来作为训练数据,从来没有用过,也不会用。之前的协议,把大家都吓坏了。
妙鸭相机原争议用户服务协议|图片来源:网络
再解释一遍,这条协议的上一条是所有的生成物所有权是属于用户的。正是因为我们把所有权完全让渡给用户了,所以又返回来需要取得用户的同意授权,才能够展示这些信息。
其实大家如果关注很多产品的用户协议的话,它是不说在我平台上制作的物品的所有权属于用户,而是模糊的,甚至是属于平台的。如果属于平台,那当然不需要要求用户的授权使用,平台本来就拥有这个所有权。
这个操作当然是我们的问题,相当于把我们本来的好意表达成了一个大家非常非常害怕的表现形式。这里必须要再澄清一下我们团队的本心,从来都没有考虑过用户隐私数据和滥用用户隐私数据的事情,所以当我们发现这个表述不太接地气,用户理解不了之后,我们也第一时间马上就修改掉,也没有任何心理压力,因为我们压根就没干这个事情。
问:用户的面部特征会不会被提取和泄露?
答:我们没有提取用户的脸部关键点,根本没有这个操作。用户上传照片时,会有一个识别的流程,这个识别流程是进行一些安全相关的检测,避免用户上传的照片不符合国家法律规定,但是我们并没有去获取用户的脸部数据点。
第二,用户去制作数字分身的过程,也不是把脸部特征进行提取的过程。反过来说,我们没有办法再反向把你当时那 20 张照片推出来,不可能做得到。虽然不方便透露具体的技术原理,但是不涉及到用户脸部数据信息的提取。
这也是为什么刚才我提到,可能大家发个社交媒体,或者甚至朋友圈,发你本人的脸,这个危险性,如果要担心这方面安全性的话,那他的危险性可能比我们这种生成类产品要高。
问:如果没有提取用户的脸部关键数据的话,怎么做到现在的效果?
答:它是用一些现在 AI 的技术,但是肯定不是提取脸部特征点的这种方式来实现。我相信行业很多人会有各种各样(技术路线)的猜测,这里我不方便直接证实他,但是肯定不会涉及到安全问题。AI 的所有东西都是一个概率性的东西,它没有办法把你的照片再复刻出来,再推理出来,所以是非常安全的。
问:在用户隐私保护上,妙鸭做了哪些举措?
答:我们在协议里承诺,没有留存用户的照片数据。用户上传的所有照片,不管是 20 张还是多少张,都会在数字分身的制作完毕后删除掉。所以既没有保留用户的数据,也没有办法通过用户的数字分身反向再把这些数据反推算出来。
第二,我们也不会把你的数字分身或其他任何的数据展示给第三方看。我们的产品形式里每个用户只能看到自己生成的图片,可以选择是否与他人分享展示。
第三,我们本身也做了大量的网络安全防护。因为即使我们保护用户的隐私、不滥用用户隐私,也要防止第三方黑客的获取,但这得益于阿里在隐私保护、安全方面的整体技术支持。
希望大家不要过度恐惧,这个工具本质上是一个制图工具,制作出来的内容只有你自己可以看到,并且没有公开传播的属性,恰恰更加安全。有人会问,AI 已经可以生成我的脸,那么它是否可以用于恶意用途呢?但实际上可能再怎么生成,也只是像你而已。但你在,比如说一些公开的社交媒体,直接发你的照片,那就是你,(如果有人)直接把你的脸抠下来,就可以做坏事了。反而我们做出的类似你的图片,是一个没有这么大风险的产品。
综合来看,这是一个对用户影响极低的产品,几乎没有。数据没保留,无法反向推算你的数据,没有获取原本的数据和特征点,所有的东西只有你自己看得到,是否传播自己的生成物数据也是你的个人行为,传播出去的生成物也不可能通过比如说人脸检测安全点,因为它只是像你自己,但并不是跟自己完全一样。
问:现在看来,妙鸭 APP 的下载量,以及用户复用的情况如何?
答:涉及到具体的数据指标,这些都是机密性质,不便分享。但我们觉得数据效果还不错,符合预期。在内测两周的时间里,大约有 1 万用户,其中核心用户主要来自同事圈,大部分是互联网行业。
关于未来的用户规模,我们有自己的计划,但不便透露。我们希望能够为更广泛的用户提供这种产品或服务,以满足未来的发展趋势。
问:妙鸭相机在保持用户活跃方面是如何考量的?市面上有声音在说,这种 APP 避免不了昙花一现,你怎么看这种担忧?
答:首先,效果类产品的刷屏在这个行业中几乎司空见惯。每隔几年或者在互联网高峰期,每年都会出现类似的产品。有些产品确实能够引起大众的关注,然后没有声音了,但有些会沉淀下来。例如脸萌这个产品,大家都认为它在刷屏完之后就销声匿迹了。但实际上,脸萌的需求最终被抖音的特效和滤镜所取代。这是一个非常稳定的需求,到今天仍有很多用户每天使用。
对于妙鸭相机而言,我们期待肯定它不是「一波流」的东西,而是一个稳定的服务需求。当然,这需要我们持续提高产品效果和服务质量,也需要不断推出更多的服务。具体实现方式不便分享,但我们的目标是为用户提供低成本、高质量的图像服务。
问:妙鸭的 B 端工作站将于 8 月 4 日(今天)上线,已邀请了一些在AI和相关技术领域中表现优秀的设计师进行内测。这个工作站是否具备内容社区属性?如何与摄影师合作?主要吸引哪些方面的设计师?B 端面临的核心痛点是什么?妙鸭能解决什么?
答:B 端工作站没有内容社区属性。我们现在的 ToB 业务比较简单,更像是对 ToC 业务的一个生态补充。我们主要希望能够与一些对 AI 技术有研究和兴趣的设计师、摄影师合作,给其提供服务并一起制作模板,以满足用户的需求。具体的合作形式不便透露,简单来说就是一起制作模板。
问:怎么样想到卖 9 块 9 的?为什么一开始就做商业化前置?
9.9 元包含的权益|妙鸭截图
答:商业化潜质有两个要素。首先,算力成本昂贵,这是业内人士都知道的。其次,AIGC 和互联网时代的商业逻辑根本不同。在 AIGC 时代,如果你不能在第一天就向用户收费,那么你永远都不可能收到用户的钱。AIGC 产品应该在诞生的第一天就开始向用户收费。
如果将互联网的所有业务抽象出来看,本质上都是一种信息流通和渠道生意。平台的作用是将信息从 A 点搬移、分发到 B 点。无论分发的是什么信息,抽象来看就是一个渠道。一开始这个渠道是免费的,但逐渐增加抽佣点或通过其他方式,实现二次变现。
然而,AI 时代改变的不是渠道,而是工厂。AI 产品本身就是工厂,而不是分发平台。工厂生产的货品,如果第一天卖不到钱,你以后也卖不到钱。这就是为什么我坚信好的 AI 产品在商业化方面有很大的潜力。
妙鸭之所以选择 9 块 9,是经过了各种测算和考虑,希望能够提供一个相对简单易懂的价格心智。从我们观察到的用户自发传播的情况来看,9 块 9 这个价格点是用户比较容易接受和理解的。
问:爆火之后排队很久,目前有缩短但还在 3 到 4 个小时,你们做了哪些优化?成本如何?
答:当前排队时间减少是算力大幅扩容的结果,但我们一方面在增加容量,另一方面用户使用量也在增加,因此排队问题仍将存在。解决问题的本质在于扩大算力。扩容成本是可控的,我们定价时有许多考虑因素。我与其他团队沟通过,他们表示在开发这个产品时存在许多隐形门槛无法克服,但外形上看,其他团队也能够开发出类似的产品。然而,他们没有开发的原因是因为如果上传的用户过多,算力成本会变得特别高,从经济上来看是不划算的。公司在这方面给予了妙鸭非常大的空间和支持。加上付费,我们在这件事情上还是相对健康的情况。
问:toB 产品上线了之后,除了 9 块 9 还会有其他定价吗?答:大家对产品保持关注,具体不太方便讲。肯定要符合基本的商业逻辑,最终要赚钱,无非收入、成本和利润。是否已经实现盈利的账还不方便算,我只能说我认为是一个相对健康的商业模式。
问:人像写实这个赛道做到什么程度,你会觉得比较满意、可以开拓其他的业务了?
答:我觉得可能路还很长,我们现在刚刚上路。
文章转载自“极客公园”