2022年,美图CEO吴欣鸿将年度总结的主题,从“居安思危”改成了“居危思危”。
他的焦虑,来自奔腾而来的AIGC浪潮。Stable Diffusion、Midjourney等AI文生图应用的出现,让美图一直以来引以为豪的审美被挑战。
2023年初,这家靠审美起家、曾创造出“美图秀秀”“美颜相机”等爆款应用产品的公司,一度把面对AI的如履薄冰摆到了明面上——美图集团高级副总裁陈剑毅与合作方的一段聊天记录直接出了圈:“公司因为AI,已经是生死存亡之秋了。”
两年后,美图的焦虑消失了吗?
吴欣鸿的答案是:并没有,反而更焦虑了。
在外界看来,两年来美图的AI应用探索成果颇丰:产品矩阵全球VIP会员数量已经突破千万,AI专业设计平台“美图设计室”每月付费用户达到93万,多款产品2023年营收过亿。
但在实现规模化盈利的背后,三款不算成功的应用,是两年来美图上交的“学费”。2022年以来,美图前后一共发布了13款新品——如今,留存的是绝大多数,余下的三款或召回迭代升级,或并入了其他的产品中。
△框外为美图没有跑通的三款AI应用。图源:作者拍摄
总结失败的经验,吴欣鸿告诉《智能涌现》,对落地赛道的判断重要,但找到合适的切入口更重要。他以合并到其他应用中的数字人生成应用“DreamAvatar”为例,“我觉得单点的数字人功能是比较薄的,很难长期立住。所以当我们整合到像‘开拍’这种数字人生成口播视频的应用里,就能跑得通。”
作为一家应用公司,用产品去敏锐地响应技术浪潮,并非易事。2023年12月,美图自研的奇想大模型(MiracleVision)就推出了文生视频的能力。然而,仅不到两个月后,能生成更丝滑、更长视频的Sora炸场——在生成效果上,Sora采取的DiT架构,对MiracleVision选择的U-Net架构,是一种无情碾压。
吴欣鸿的第一反应是:赶紧追技术,改做DiT架构!但一个月后,理性渐渐回归,他思考的重点成了:“Sora做出来以后,到底能给我们的用户带来什么价值?Sora怎么落地和变现?怎么帮助用户增收?”
在2024年6月12日的第三届美图影像节上,新发布的AI短片创作平台MOKI,是这段时间吴欣鸿的一个思考结果。在他看来,外界很容易被Sora的生成时长所迷惑,但“长”并不是AI视频产品最核心的功能,如何结合工作流才是最关键的。
从落地的现实角度,他也劝AI公司,狂卷参数的技术军备竞赛,是不理性的,“不是所有AI公司都要达到AGI,美图的目标,是做AGI能够调用的应用工具”。
以下是《智能涌现》与美图公司CEO吴欣鸿、集团高级副总裁陈剑毅的对话,内容略经编辑:
智能涌现:我看到发布会的PPT上,得到市场验证的产品都在框里,框外还有三款没有得到验证的产品。这三款是什么情况?
吴欣鸿:“ChicCam”(一款相机App)现在在维护状态,“DreamAvatar”(一款数字人生成应用)现在把能力整合到了“开拍”,“RoboNeo”(美图AI助手)现在还在不断迭代。
其实我们新品的留存率还可以了,留下了绝大多数。
陈剑毅:很多大公司,几百款产品里面就跑出来一款。
智能涌现:如果要从这些没有被验证的产品当中,总结一些失败经验的话,你觉得是什么?
吴欣鸿:“ChicCam”是因为对趋势的判断不太对。因为相机应用已经是一个供大于求的红海市场,有太多产品可以满足拍摄滤镜的需求。但2022年我们推出的视频编辑应用Wink,增长就非常好。
所以从“ChicCam”能看到,赛道的选择特别重要。你如果去选择一个像视频编辑这种全球用户需求很大、在未来消费能高速增长的赛道,你大概率能立得住。但是如果选择一个竞争白热化、供大于求的赛道可能就没那么好。
像“DreamAvatar”,我觉得单点的数字人功能是比较薄的,很难长期立住。所以当我们整合到像“开拍”这种数字人生成口播视频的应用里,就能跑得通。
陈剑毅:总结所有失败的产品,共性第一个是赛道没选对,第二是如果赛道选对了,在赛道里面的需求点以及切入点有没有选对。
智能涌现:现在外部技术和产品迭代是非常快的,下场的公司也越来越多,选择赛道会不会更困难?
陈剑毅:我觉得不会,因为生成式AI还在红利期,还是有很多垂直场景没有足够好的解决方案。这意味着很多公司进去以后,其实是有机会成为标杆的。
特别像美图这样有用户的规模效应,还有技术的积累,进入到一些垂直场景应该是有机会的。所以还远没到移动互联网中后期的白热化。
吴欣鸿:其实相比于选赛道,选赛道的切入点反而是更难的。
因为选赛道,很多人会通过宏观的数据,大概知道哪一条赛道是高速增长的。但是找切入点反而要做蛮多的市场供应需求的挖掘、竞品的分析,然后找目前市面上还没有被满足的点,这个点还要有足够的规模。所以相对于选赛道来说,选切入点更难。
智能涌现:美图现在的产品矩阵是相当庞大的,让每一款产品都被记住是不是一件很难的事?像在互联网时代非常明星的一些公司,他们在AI时代发的一些新品还没有被大家记住。
吴欣鸿:首先我觉得你要服务的用户,需要非常清晰,这样你才能精准地触达,针对性地建立心智。
比如我们做“美图设计室”(美图AI电商设计工具),虽然它可以广泛应用于各种设计场景,但它只做电商物料升级。我们讨论产品,要求就是能用一句话介绍,比如“美图设计室”是“电商人必备的AI设计工具”。
所以这是我们的策略,与其大而全,不如选择比较清晰的用户,然后逐步建立心智。
另外,我觉得要做到像“美图秀秀”这样深入人心的品牌认知,确实需要时间的沉淀。我们蛮开心看到“美图设计室”在电商设计领域已经是非常头部的产品了,不能说人尽皆知,但是有不小的知名度,可能再过两年会更深入人心。我们还是有这样的耐心的。
智能涌现:就像你说的,其实大家不太倡导做大而全的AI产品,而且现在跑得特别快的也是小而美的产品。这是技术的特性导致的,还是有别的原因?
吴欣鸿:我觉得AI技术的发展是比应用落地要快的,现在大模型的能力很强,但是真正把它很好地落地变现,还需要一点时间,因为会涉及到很多工程化的投入,所以这是一个时间问题。
智能涌现:这么多小而美的产品和场景,哪些可以单独拎出来做独立应用,哪些需要集成到一个平台,成为平台的单点功能?美图是怎么考虑的?
陈剑毅:举个例子,“开拍”这个产品的诞生过程很有意思,它其实就是从“美颜相机”的一个提词器单点功能拆出来的。当时“美颜相机”里的提词器功能是收费的,而且当时还一度成为里面收入最高的功能。
当时我们就好奇为什么这个功能这么赚钱,就详细做了一些用户调研。后来发现,付费人群主要是KOL,他们拍视频发抖音或者B站的时候需要录口播,但是碍于记不住词,所以就用“美颜相机”来题词。当时10元的定价对他们来说也很便宜,所以付费很容易。
后来,我们发现这一群KOL在录口播的时候,是有很多痛点的,包括前期的构思、提词器、一系列的辅助拍摄,也包括后期文字的编辑、快速的剪辑。
所以沿着提词器这个点,我们把美颜相机的单点功能拉了一条线出来,去做口播场景的项目。所以“开拍”就是“美颜相机”团队孵化的,这是一个从点到线的例子。
吴欣鸿:现在AI应用也正在从点到线,大家正在把这些单点功能串联起来,普遍都还处在一个相对早期的阶段。
智能涌现:从点到线,是每次技术革命下产品发展的共性吗?“美图秀秀”的发展遵循这个脉络吗?
吴欣鸿:它也是点线面。“美图秀秀”一开始就是针对人像美容这个特定需求,因为当时我们洞察到一个客户群:爱拍照分享的女生,她们往往对于人像美容有比较高的要求。所以“美图秀秀”是从人像美容这个点切入,再逐步拓宽到更多的图像处理场景当中。
智能涌现:验证PMF(产品-市场匹配度)是点发展成线的必要条件吗?
陈剑毅:对,大部分都先在大产品里面做验证。
我总结一下,首先还是看目标用户群是否足够精准,是否有一群明确的人有创作的需求;其次,这个需求用户是很愿意付费的;最后,围绕这个需求能够拉出一条线,或者工作流的功能。
其实我们很多产品都是,像“美图设计室”和“Wink”就是从“美图秀秀”里面孵化出来的。
智能涌现:但“MOKI”完全是从技术发展里长出来的产品。它还没验证PMF对吗?
吴欣鸿:对。新品确实都存在风险,但因为我们看到了这个趋势,越早投入,意味着越早获得用户的反馈,从而快速迭代产品。因为现在视频是我们在生产力工具布局中的重中之重,所以无论如何,我们都得去做“MOKI”这样的一个打样。
智能涌现:先发优势对AI应用来说重要吗?比如过几天你会看到一个像OpenAI的巨头发了一个新东西,你就可能错过了时间窗口。
吴欣鸿:能真正在垂直场景里面落地、变现,是一个长期竞争。去年有一款主打AI写真的产品特别火,但很快可能又被大家淡忘了。
所以有句话是:流水不争先,争滔滔不绝。所以我们不见得能在这些领域抢得头筹,这不仅仅需要实力,还需要运气。但至少我们可以踏实地去选择一个垂直的赛道、选择我们要服务的这群人。
△美图AI短片制作应用“MOKI”。图源:美图
智能涌现:去年小白(陈剑毅)有个梗挺出圈的,“公司到了生死存亡之秋”。过去一年了,现在还有这种感觉吗?
吴欣鸿:一直都有,美图是一个危机感特别强的公司,我们并不认为过去成功就能高枕无忧了。特别是最近这半年竞争越来越激烈,肯定不能忘掉这些外部的挑战。
智能涌现:外部的挑战是什么?
吴欣鸿:在影像与设计这个领域,我们更多看的是全球竞品带来的挑战。因为在国内,我们在行业里面还是有比较高的市场占有率。
如果从全球来看,行业最头部的公司肯定是Adobe,比较新锐的公司,代表就是Canva,以及像Figma这些以在线设计、协同为主的产品。当然这一波生成式AI又诞生了很多更垂直、同时规模也更小的公司。
陈剑毅:我们有一个小群,里面经常会发一些新兴的项目,包括团队的背景信息。
如果把这些公司按金字塔划分的话,Adobe、Canva肯定在腰部以上,腰部以下是各种创业团队的新产品,比如像一些企业做的数字人、华人在海外做的新产品,我们都会密切关注。
智能涌现:今年Sora的发布在多模态领域是件大事,美图做的也是影像,Sora发布对美图来说意味着什么?
吴欣鸿:ChatGPT发布的时候其实对我们的业务还没什么冲击,甚至这一类的文本大模型,对美图业务是一个很好的互补。
但Sora对于大部分有视频大模型业务的公司来说都是降维打击。不过好坏都有。好的方面是,它给到整个行业相对清晰的技术架构,让大家可以用相对短的时间去追赶。
智能涌现:美图是怎么响应Sora的发布的?内部做了怎样的决策?
吴欣鸿:我们的第一反应是:这事我们得做,因为和我们业务的相关性非常强。
但做了一段时间后,我们就逐步回归理性,开始思考一个问题:Sora做出来以后,到底能给我们的用户带来什么价值?Sora怎么落地和变现?怎么帮助用户增收?
整个过程简单来讲就是从技术跟随到找产品的切入点,再找我们自己的技术路径。我们未必要做到全线对标Sora,因为这对我们这样体量的公司来说是不现实的。所以再过去这一个多月,我们在不断让思路变清晰,完成了新方向的确定。
智能涌现:思考新方向的成果是什么?
吴欣鸿:比如我们发布了AI短片创作工具MOKI。一开始因为我们自己做视频大模型,需要做一些短片来打样。在打样的过程中我们就发现,视频大模型直接一步到位生成短片是不现实的,因为工作流拆解下来还是非常复杂的。
所以我们就想,其实里面所需要的很多能力我们是具备的,为什么不把这些能力串联起来,用一个工程化的思路来解决问题?
整个思路的转变就是,我们自己碰到短片制作难、故事成片难的问题,以此为思考点来推导到MOKI。
陈剑毅:Sora之前发了一个人脖子上长了气球的视频,其实是因为Sora没有办法解决角色一致性的问题,所以它讨巧地把头换成了气球。但是我们看片段又发现,每一个画面气球的大小也不太一样。
一个完整的短片,包括完整的故事、完整的角色一致性、完整的旁白,这些只靠Sora很难完成,并且需要做很多的后期,未来这些问题是需要被解决的。
我们理解Sora虽然技术进展很快,但技术是时间问题。如果明年的这个时候再来看,大家的技术差距应该就不大了,更多比的还是对工程问题的理解和解决程度。
智能涌现:目前在技术层面,美图追到了什么程度?
吴欣鸿:我觉得客观来说和Sora还是有较大的差距。因为Sora 2月发布,我们3月开始启动全新架构的模型训练,要在这么短的时间里拉齐,至少对我们来说是不现实的。
所以我们不去硬刚基础模型,不去做军备竞赛,而是在垂直场景的应用上,我们先自己打样、先做迭代。
智能涌现:2023年下半年开始,美图在AI上有一些投资和并购的布局,比如投资了Weitu AI(香港中文大学教授王历伟创立的大模型公司)。考量是什么?
吴欣鸿:我们是觉得Weitu AI团队在创业之前,就已经有很深厚的大语言模型研发经验,也成功做出了很好的模型产品。
其实我们更多还在于投人。Weitu AI的创始人和我们在计算机视觉时代就有合作了。我们是基于这些合作建立的信任关系,再展开到大语言模型、多模态能力的结合。
因为术业有专攻,美图很难什么都做。美图擅长的是在影像与设计领域去做对应的图像和视频的大模型,Weitu AI的大语言模型和多模态技术可以很好地与我们互补。
智能涌现:这是不是意味着美图旗下的产品,不止会依托于美图自研的奇想大模型?
吴欣鸿:对。其实我们作为一个应用厂商,对于其他家的大模型是持有极其开放的态度的。因为我们未来很大概率会在工具上集成不同家的大模型,我们自己的大模型只是其中一个,可能作为默认选择。
但未来更多大模型的选择会给到用户。如果确实有一些在特定领域非常好的大模型的API,我们也会选择去接入,并且把它们呈现给用户去选择。
智能涌现:今年如果没有Sora的发布,美图做视频模型的节奏本来是怎样的?
吴欣鸿:去年12月我们发了一个视频生成模型,是3秒的版本。不过架构用的不是Sora的DiT,而是基于U-Net神经网络。
Sora对整个行业的确是一个极大的加速,让视频生成和各种应用落地的速度快了起来,我们还挺需要有这样一个外部推力。
但说实话,抛开场景、抛开成本去讲技术就是耍流氓,因为你最终的用户还是很关注成本和可控性的,U-Net的可控性就比DiT强。
所以我们不去卷这些技术指标,不等于说我们的技术很差,而是因为我们不认为在技术上做军备竞赛是一件理性的事。
智能涌现:但军备竞赛也不是坏事。不少企业堆参数和数据,是为了更快到达AGI。
吴欣鸿:我觉得哪怕是到了AGI,无论你叫它AI Agent、AI助手,还是超级大脑,它实际上还是在调用各种能力去完成任务,把所有能力集成到一个大模型里是不现实的,成本会非常高。
所以美图做的实际上是被AGI调用的能力,能够快速组合成各种灵活的工作流。
我们还是有所谓的战略定力的,不会头脑发热说我们也要做AGI。好比说以前有无数公司说要挑战微信,这是一种螳臂当车的狂热。
文章来源于“周鑫雨”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales