ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
美图CEO吴欣鸿:两年做了13款AI应用,我们都踩了哪些坑?
8215点击    2024-07-13 12:51

2022年,美图CEO吴欣鸿将年度总结的主题,从“居安思危”改成了“居危思危”。


他的焦虑,来自奔腾而来的AIGC浪潮。Stable Diffusion、Midjourney等AI文生图应用的出现,让美图一直以来引以为豪的审美被挑战。


2023年初,这家靠审美起家、曾创造出“美图秀秀”“美颜相机”等爆款应用产品的公司,一度把面对AI的如履薄冰摆到了明面上——美图集团高级副总裁陈剑毅与合作方的一段聊天记录直接出了圈:“公司因为AI,已经是生死存亡之秋了。”


两年后,美图的焦虑消失了吗?


吴欣鸿的答案是:并没有,反而更焦虑了。


在外界看来,两年来美图的AI应用探索成果颇丰:产品矩阵全球VIP会员数量已经突破千万,AI专业设计平台“美图设计室”每月付费用户达到93万,多款产品2023年营收过亿。


但在实现规模化盈利的背后,三款不算成功的应用,是两年来美图上交的“学费”。2022年以来,美图前后一共发布了13款新品——如今,留存的是绝大多数,余下的三款或召回迭代升级,或并入了其他的产品中。



△框外为美图没有跑通的三款AI应用。图源:作者拍摄


总结失败的经验,吴欣鸿告诉《智能涌现》,对落地赛道的判断重要,但找到合适的切入口更重要。他以合并到其他应用中的数字人生成应用“DreamAvatar”为例,“我觉得单点的数字人功能是比较薄的,很难长期立住。所以当我们整合到像‘开拍’这种数字人生成口播视频的应用里,就能跑得通。”


作为一家应用公司,用产品去敏锐地响应技术浪潮,并非易事。2023年12月,美图自研的奇想大模型(MiracleVision)就推出了文生视频的能力。然而,仅不到两个月后,能生成更丝滑、更长视频的Sora炸场——在生成效果上,Sora采取的DiT架构,对MiracleVision选择的U-Net架构,是一种无情碾压。


吴欣鸿的第一反应是:赶紧追技术,改做DiT架构!但一个月后,理性渐渐回归,他思考的重点成了:“Sora做出来以后,到底能给我们的用户带来什么价值?Sora怎么落地和变现?怎么帮助用户增收?”


在2024年6月12日的第三届美图影像节上,新发布的AI短片创作平台MOKI,是这段时间吴欣鸿的一个思考结果。在他看来,外界很容易被Sora的生成时长所迷惑,但“长”并不是AI视频产品最核心的功能,如何结合工作流才是最关键的。


从落地的现实角度,他也劝AI公司,狂卷参数的技术军备竞赛,是不理性的,“不是所有AI公司都要达到AGI,美图的目标,是做AGI能够调用的应用工具”。


以下是《智能涌现》与美图公司CEO吴欣鸿、集团高级副总裁陈剑毅的对话,内容略经编辑:


失败的产品,要么赛道不对,要么切入点不对


智能涌现:我看到发布会的PPT上,得到市场验证的产品都在框里,框外还有三款没有得到验证的产品。这三款是什么情况?


吴欣鸿:“ChicCam”(一款相机App)现在在维护状态,“DreamAvatar”(一款数字人生成应用)现在把能力整合到了“开拍”,“RoboNeo”(美图AI助手)现在还在不断迭代。


其实我们新品的留存率还可以了,留下了绝大多数。


陈剑毅:很多大公司,几百款产品里面就跑出来一款。


智能涌现:如果要从这些没有被验证的产品当中,总结一些失败经验的话,你觉得是什么?


吴欣鸿:“ChicCam”是因为对趋势的判断不太对。因为相机应用已经是一个供大于求的红海市场,有太多产品可以满足拍摄滤镜的需求。但2022年我们推出的视频编辑应用Wink,增长就非常好。


所以从“ChicCam”能看到,赛道的选择特别重要。你如果去选择一个像视频编辑这种全球用户需求很大、在未来消费能高速增长的赛道,你大概率能立得住。但是如果选择一个竞争白热化、供大于求的赛道可能就没那么好。


像“DreamAvatar”,我觉得单点的数字人功能是比较薄的,很难长期立住。所以当我们整合到像“开拍”这种数字人生成口播视频的应用里,就能跑得通。


陈剑毅:总结所有失败的产品,共性第一个是赛道没选对,第二是如果赛道选对了,在赛道里面的需求点以及切入点有没有选对。


智能涌现:现在外部技术和产品迭代是非常快的,下场的公司也越来越多,选择赛道会不会更困难?


陈剑毅:我觉得不会,因为生成式AI还在红利期,还是有很多垂直场景没有足够好的解决方案。这意味着很多公司进去以后,其实是有机会成为标杆的。


特别像美图这样有用户的规模效应,还有技术的积累,进入到一些垂直场景应该是有机会的。所以还远没到移动互联网中后期的白热化。


吴欣鸿:其实相比于选赛道,选赛道的切入点反而是更难的。


因为选赛道,很多人会通过宏观的数据,大概知道哪一条赛道是高速增长的。但是找切入点反而要做蛮多的市场供应需求的挖掘、竞品的分析,然后找目前市面上还没有被满足的点,这个点还要有足够的规模。所以相对于选赛道来说,选切入点更难。


智能涌现:美图现在的产品矩阵是相当庞大的,让每一款产品都被记住是不是一件很难的事?像在互联网时代非常明星的一些公司,他们在AI时代发的一些新品还没有被大家记住。


吴欣鸿:首先我觉得你要服务的用户,需要非常清晰,这样你才能精准地触达,针对性地建立心智。


比如我们做“美图设计室”(美图AI电商设计工具),虽然它可以广泛应用于各种设计场景,但它只做电商物料升级。我们讨论产品,要求就是能用一句话介绍,比如“美图设计室”是“电商人必备的AI设计工具”。


所以这是我们的策略,与其大而全,不如选择比较清晰的用户,然后逐步建立心智。


另外,我觉得要做到像“美图秀秀”这样深入人心的品牌认知,确实需要时间的沉淀。我们蛮开心看到“美图设计室”在电商设计领域已经是非常头部的产品了,不能说人尽皆知,但是有不小的知名度,可能再过两年会更深入人心。我们还是有这样的耐心的。


智能涌现:就像你说的,其实大家不太倡导做大而全的AI产品,而且现在跑得特别快的也是小而美的产品。这是技术的特性导致的,还是有别的原因?


吴欣鸿:我觉得AI技术的发展是比应用落地要快的,现在大模型的能力很强,但是真正把它很好地落地变现,还需要一点时间,因为会涉及到很多工程化的投入,所以这是一个时间问题。


单点功能,是AI应用的起点


智能涌现:这么多小而美的产品和场景,哪些可以单独拎出来做独立应用,哪些需要集成到一个平台,成为平台的单点功能?美图是怎么考虑的?


陈剑毅:举个例子,“开拍”这个产品的诞生过程很有意思,它其实就是从“美颜相机”的一个提词器单点功能拆出来的。当时“美颜相机”里的提词器功能是收费的,而且当时还一度成为里面收入最高的功能。


当时我们就好奇为什么这个功能这么赚钱,就详细做了一些用户调研。后来发现,付费人群主要是KOL,他们拍视频发抖音或者B站的时候需要录口播,但是碍于记不住词,所以就用“美颜相机”来题词。当时10元的定价对他们来说也很便宜,所以付费很容易。


后来,我们发现这一群KOL在录口播的时候,是有很多痛点的,包括前期的构思、提词器、一系列的辅助拍摄,也包括后期文字的编辑、快速的剪辑。


所以沿着提词器这个点,我们把美颜相机的单点功能拉了一条线出来,去做口播场景的项目。所以“开拍”就是“美颜相机”团队孵化的,这是一个从点到线的例子。


吴欣鸿:现在AI应用也正在从点到线,大家正在把这些单点功能串联起来,普遍都还处在一个相对早期的阶段。


智能涌现:从点到线,是每次技术革命下产品发展的共性吗?“美图秀秀”的发展遵循这个脉络吗?


吴欣鸿:它也是点线面。“美图秀秀”一开始就是针对人像美容这个特定需求,因为当时我们洞察到一个客户群:爱拍照分享的女生,她们往往对于人像美容有比较高的要求。所以“美图秀秀”是从人像美容这个点切入,再逐步拓宽到更多的图像处理场景当中。


智能涌现:验证PMF(产品-市场匹配度)是点发展成线的必要条件吗?


陈剑毅:对,大部分都先在大产品里面做验证。


我总结一下,首先还是看目标用户群是否足够精准,是否有一群明确的人有创作的需求;其次,这个需求用户是很愿意付费的;最后,围绕这个需求能够拉出一条线,或者工作流的功能。


其实我们很多产品都是,像“美图设计室”和“Wink”就是从“美图秀秀”里面孵化出来的。


智能涌现:但“MOKI”完全是从技术发展里长出来的产品。它还没验证PMF对吗?


吴欣鸿:对。新品确实都存在风险,但因为我们看到了这个趋势,越早投入,意味着越早获得用户的反馈,从而快速迭代产品。因为现在视频是我们在生产力工具布局中的重中之重,所以无论如何,我们都得去做“MOKI”这样的一个打样。


智能涌现:先发优势对AI应用来说重要吗?比如过几天你会看到一个像OpenAI的巨头发了一个新东西,你就可能错过了时间窗口。


吴欣鸿:能真正在垂直场景里面落地、变现,是一个长期竞争。去年有一款主打AI写真的产品特别火,但很快可能又被大家淡忘了。


所以有句话是:流水不争先,争滔滔不绝。所以我们不见得能在这些领域抢得头筹,这不仅仅需要实力,还需要运气。但至少我们可以踏实地去选择一个垂直的赛道、选择我们要服务的这群人。



△美图AI短片制作应用“MOKI”。图源:美图


技术军备竞赛,是不理性的


智能涌现:去年小白(陈剑毅)有个梗挺出圈的,“公司到了生死存亡之秋”。过去一年了,现在还有这种感觉吗?


吴欣鸿:一直都有,美图是一个危机感特别强的公司,我们并不认为过去成功就能高枕无忧了。特别是最近这半年竞争越来越激烈,肯定不能忘掉这些外部的挑战。


智能涌现:外部的挑战是什么?


吴欣鸿:在影像与设计这个领域,我们更多看的是全球竞品带来的挑战。因为在国内,我们在行业里面还是有比较高的市场占有率。


如果从全球来看,行业最头部的公司肯定是Adobe,比较新锐的公司,代表就是Canva,以及像Figma这些以在线设计、协同为主的产品。当然这一波生成式AI又诞生了很多更垂直、同时规模也更小的公司。


陈剑毅:我们有一个小群,里面经常会发一些新兴的项目,包括团队的背景信息。


如果把这些公司按金字塔划分的话,Adobe、Canva肯定在腰部以上,腰部以下是各种创业团队的新产品,比如像一些企业做的数字人、华人在海外做的新产品,我们都会密切关注。


智能涌现:今年Sora的发布在多模态领域是件大事,美图做的也是影像,Sora发布对美图来说意味着什么?


吴欣鸿:ChatGPT发布的时候其实对我们的业务还没什么冲击,甚至这一类的文本大模型,对美图业务是一个很好的互补。


但Sora对于大部分有视频大模型业务的公司来说都是降维打击。不过好坏都有。好的方面是,它给到整个行业相对清晰的技术架构,让大家可以用相对短的时间去追赶。


智能涌现:美图是怎么响应Sora的发布的?内部做了怎样的决策?


吴欣鸿:我们的第一反应是:这事我们得做,因为和我们业务的相关性非常强。


但做了一段时间后,我们就逐步回归理性,开始思考一个问题:Sora做出来以后,到底能给我们的用户带来什么价值?Sora怎么落地和变现?怎么帮助用户增收?


整个过程简单来讲就是从技术跟随到找产品的切入点,再找我们自己的技术路径。我们未必要做到全线对标Sora,因为这对我们这样体量的公司来说是不现实的。所以再过去这一个多月,我们在不断让思路变清晰,完成了新方向的确定。


智能涌现:思考新方向的成果是什么?


吴欣鸿:比如我们发布了AI短片创作工具MOKI。一开始因为我们自己做视频大模型,需要做一些短片来打样。在打样的过程中我们就发现,视频大模型直接一步到位生成短片是不现实的,因为工作流拆解下来还是非常复杂的。


所以我们就想,其实里面所需要的很多能力我们是具备的,为什么不把这些能力串联起来,用一个工程化的思路来解决问题?


整个思路的转变就是,我们自己碰到短片制作难、故事成片难的问题,以此为思考点来推导到MOKI。


陈剑毅:Sora之前发了一个人脖子上长了气球的视频,其实是因为Sora没有办法解决角色一致性的问题,所以它讨巧地把头换成了气球。但是我们看片段又发现,每一个画面气球的大小也不太一样。


一个完整的短片,包括完整的故事、完整的角色一致性、完整的旁白,这些只靠Sora很难完成,并且需要做很多的后期,未来这些问题是需要被解决的。


我们理解Sora虽然技术进展很快,但技术是时间问题。如果明年的这个时候再来看,大家的技术差距应该就不大了,更多比的还是对工程问题的理解和解决程度。


智能涌现:目前在技术层面,美图追到了什么程度?


吴欣鸿:我觉得客观来说和Sora还是有较大的差距。因为Sora 2月发布,我们3月开始启动全新架构的模型训练,要在这么短的时间里拉齐,至少对我们来说是不现实的。


所以我们不去硬刚基础模型,不去做军备竞赛,而是在垂直场景的应用上,我们先自己打样、先做迭代。


智能涌现:2023年下半年开始,美图在AI上有一些投资和并购的布局,比如投资了Weitu AI(香港中文大学教授王历伟创立的大模型公司)。考量是什么?


吴欣鸿:我们是觉得Weitu AI团队在创业之前,就已经有很深厚的大语言模型研发经验,也成功做出了很好的模型产品。


其实我们更多还在于投人。Weitu AI的创始人和我们在计算机视觉时代就有合作了。我们是基于这些合作建立的信任关系,再展开到大语言模型、多模态能力的结合。


因为术业有专攻,美图很难什么都做。美图擅长的是在影像与设计领域去做对应的图像和视频的大模型,Weitu AI的大语言模型和多模态技术可以很好地与我们互补。


智能涌现:这是不是意味着美图旗下的产品,不止会依托于美图自研的奇想大模型?


吴欣鸿:对。其实我们作为一个应用厂商,对于其他家的大模型是持有极其开放的态度的。因为我们未来很大概率会在工具上集成不同家的大模型,我们自己的大模型只是其中一个,可能作为默认选择。


但未来更多大模型的选择会给到用户。如果确实有一些在特定领域非常好的大模型的API,我们也会选择去接入,并且把它们呈现给用户去选择。


智能涌现:今年如果没有Sora的发布,美图做视频模型的节奏本来是怎样的?


吴欣鸿:去年12月我们发了一个视频生成模型,是3秒的版本。不过架构用的不是Sora的DiT,而是基于U-Net神经网络。


Sora对整个行业的确是一个极大的加速,让视频生成和各种应用落地的速度快了起来,我们还挺需要有这样一个外部推力。


但说实话,抛开场景、抛开成本去讲技术就是耍流氓,因为你最终的用户还是很关注成本和可控性的,U-Net的可控性就比DiT强。


所以我们不去卷这些技术指标,不等于说我们的技术很差,而是因为我们不认为在技术上做军备竞赛是一件理性的事。


智能涌现:但军备竞赛也不是坏事。不少企业堆参数和数据,是为了更快到达AGI。


吴欣鸿:我觉得哪怕是到了AGI,无论你叫它AI Agent、AI助手,还是超级大脑,它实际上还是在调用各种能力去完成任务,把所有能力集成到一个大模型里是不现实的,成本会非常高。


所以美图做的实际上是被AGI调用的能力,能够快速组合成各种灵活的工作流。


我们还是有所谓的战略定力的,不会头脑发热说我们也要做AGI。好比说以前有无数公司说要挑战微信,这是一种螳臂当车的狂热。


文章来源于“周鑫雨


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales