一款主打手机辅助录音的 AI 硬件 PLAUD NOTE 成为了今年 AI 硬件里最为成功的产品之一,累计出货量超 10 万台,而且相比其他 AI 产品,用户口碑也很好。
号称是全球第一款提供 ChatGPT 支持的「AI 卡片录音机」,PLAUD NOTE 在 Kickstarter 上以 110 万美金的众筹成绩,打破类目纪录。2024 年 7 月,Plaud Note 登上亚马逊 BS 榜第一,全网销售额超 1000 万美元。
为什么这样一个细分赛道能取得这样的成就?PLAUD NOTE 从 0 到 1 的每一步又是怎么走的?久谦资本在 8 月份专访了 PLAUD AI CEO 许高,Founder Park 授权转载,对文章略作修改。
一些有意思的点:
久谦:Plaud 是一款非常成功的产品,热度和实际销量都排在非常靠前的位置,想先请您简单介绍一下您当初是怎么看到这个机会,以及在这个机会落地的过程当中您观察到哪些坑。
许高:我们选择赛道和切入点的依据:
第一个是全球市场加中国的不管是供应链、还是一些技术上的优势都有很大潜力。相比在中国市场内部内卷,全球化是一个巨大的机会。所以要做全球化的企业,就意味着它的产品形态要合乎全球大众市场的需求,然后产品定义、产品体验要合乎各个市场消费者一些主流的消费习惯和偏好。
第二个,我觉得任何一个赛道只有第一名能有机会长青。如果说你被锁定在了赛道的第二名,有时候干着干着就没了,因为第二名往往只能做到第一名 80% 的性能,50% 的定价,10% 的盈利能力。最后你会发现不管融资、顶级人才,还是定价能力、销售表现,最后都会向第一名聚拢。第二名和第三名再卷一卷,可能其中一个就不在了,这在经营上是不太稳健的。我创业的出发点是希望做一家有机会长青的公司,越做越轻松,越做越强大的公司,所以我们的产品要能做到显性的全球第一,就是消费者能讲出来为什么全球第一,不能说对手内存是 32G、我 64G,或者对手是黑色的、我白色的,这都不好使,要有技术层面的显著的优势。
但它其实也会影响到我们在开发产品的时候的思考,我们会内部挑战自己,假设加这个功能,或者开发这个产品形态能不能干到全球第一,干不到就不能开发,干不到就要去想怎么干到。我觉得这样的这种思考方式会带来另外几个小的框架:
所以我们的产品要软件和AI的深度融合,因为当你有软件和 AI 的融入,产品体验可以通过 OTA 的方式持续的增强,也有更好的抓手去获取用户体验,知道这个产品怎么去改进和开发。甚至在商业模式上面,当我们有 AI 的部分时,你就可以想象订阅制的商业模式,而不只是硬件的一锤子买卖。
第三个点是 Bootstrap,我创业的时候思考怎么样能够在有限的资源和资金条件下面能够做出来,一方面客观上资源有限,但是创业,想好了就要开干,不能等,所以要想办法去 Bootstrap,另外一个是执行能力要非常强,因为资源有限,在很多地方犯错是很容易挂掉的,所以我们在每一个细节处都做得很极致,例如说,对用户的洞察不够深刻,不够准确,对产品的定义不够清晰就会挂,如果营销执行的不够完美,不够高 ROI 的导向也会挂。
比如当时我在研究 AI 录音笔这个赛道的时候,从业界已经在使用的这些录音笔,大家都在用的某一款芯片,那我会去找到这个芯片的研发团队,去和他们探讨说芯片的工作原理、他们当时的思考、现在的局限性,然后找到录音产品代工厂的老板,再到业界所有做录音笔品牌的老板,再到搜狗部门负责人,当时我们看这个机会的时候,正好搜狗和讯飞是干得很优秀的。我能把整个赛道聊得非常的透,包括做用户洞察,人肉看超过 5000 条用户评价,当你把工作都做到那个份上的时候,其实你对整个业态产品形态的一些用户需求的思考就非常的立体化。
久谦:为什么最终选择了录音笔赛道?
许高:我们切入的录音笔赛道,原来是巨头来开发的,但是最近这十多年,手机把录音笔的功能替代之后,录音笔的销量已经很有限。巨头会优先看像 TWS 的其他机会,TWS 单月的出货量能到 1 亿级别,录音笔全球才五六百万。所以说上一代录音笔巨头,像索尼,Philips,Olympus,他们都不投入新的研发资源,这个产品形态已经十年没有创新了。像安克、大疆这样的公司,他们有研发资源,但他们看不上这个东西,所以录音笔最后就变成了一个大厂看不上,小公司搞不定的一个事情。
为什么小公司不容易搞定呢?就是你做AI录音笔,需要有硬件研发,软件研发和 AI 研发,人才模型是很不一样的,在国内大多数公司没有这么完整的模型。既需要擅长搞硬件研发的团队,又能摇到搞软件开发的人,然后还能摇到搞 AI 的人,这个事情很难,这也使得我们要是能把它干成的话就很有意思了。干成了就自然意味着有先发的竞争力,因为组织这样一个人才模型就已经不容易了。
久谦:最后是非常不容易的在各个大厂的夹缝里面找到这么一个难得的赛道。
许高:对大厂而言,大厂一年 100 亿收入,这个业务模块一年只能干三五个亿增量,到不了百亿,大厂会觉得这啥也不是,但对我来讲,能做一公司,我们只要做产品创新,就能比业界的产品要领先一代。
因为在海外市场是没有 AI 录音笔的,AI 产品会不可逆地去替代不带 AI 的产品,就像 TWS 去替代有线耳机一样。所以开发出一个创新的能被消费者接受的产品形态,然后经营做得好,在一个十到百亿区间的这个赛道起步,是很好的创业机会和角度。
还有一个很有趣的角度,就是我们怎么去定义需求,这就是一个很反差的地方,很多人就说那录音笔只有这么小的销量,但其实换一个角度,录音是一个很普适的用户需求。每个人手机都有录音能力,所以目标受众仍然是巨大的量级。Google 有个 APP 叫 Live Transcribe 有超过 10 亿的下载量,但它既不能存音频,也不能存文字,只有 Google Pixel 把这个功能作为它的核心之一去打,这说明既有特别广泛的录音受众,也有特别广泛的录音受众需要把录音转成文字。正好我发现手机 APP 当时也不容易做到这一点,所以我们把它做成一个硬件型的机会。
另外那个时候我们对 AI 也是有些模糊的期待的,那个时候(2021 年)没有 GPT 这个事情,我们想说至少从 NLP 技术而言有迭代的空间,因为在一段长的文本里面去摘取有效重要的信息非常有价值,所以那个时候会想以后通过投入 AI 搞 NLP 去实现这一点。GPT 出来的时候,这正好就是很完美的匹配,它以一万倍好的方式做到了这一点。所以有一些早期的 AI 的模糊信仰和运气成分在。
久谦:在考虑用户需求和产品功能的匹配度的时候,有什么样的方法论呢?
许高:我觉得是分业务阶段和拥有的资源。一个企业从 0 到 1 的时候,最好的做法是在同类型的产品形态里面,寻找已经在售产品的消费者评价,然后把它研究的非常通透。比如想做智能眼镜,那要去研究 AI 眼镜、VR 眼镜和普通的眼镜;要做 AI 耳机,要研究普通的耳机、运动耳机、不同形态的耳机,寻找用户需求里面最核心的购买要素,以及消费者评价的关键内容。
以耳机为例,第一性原理是音质表现和佩戴舒适度,所以开发一款 AI 耳机产品,不可避免的要去思考什么样的技术路线能把这两点做到优秀。有些公司说 AI 耳机也可以做录音转写,那就研究做录音转写的产品形态,APP 也行,其他的什么形态也行,然后看消费者需求,反馈是什么样的。
所以当一个企业在从 0 到 1,也从来没有人做过的时候,要去做一些更广泛的回到用户需求本身的调研,已经有产品在满足这些需求的话,他们是怎么做的,用户的反馈是什么样的。另外我们现在这个阶段,已经有小几十万用户了、有几十万个邮箱,做用户调研就非常方便了。
久谦:从 0 到 1 确实是很难的,需要看相似形态的产品评价,举个例子AI眼镜应该如何做呢?
许高:AI 眼镜无非是传感器和大脑的结合,传感器就是像麦克风,扬声器和摄像头,麦克风可以多看一些做收音相关的产品的用户评价,扬声器比较简单可以直接看耳机,然后摄像头得去看 AR、VR 产品的反馈。我认为不应该考虑做重量在 70 克以上的眼镜,不是说这个没有价值,而是说花一亿美金搞研发、做内容生态,但消费者第一性原理的要素没有解决,那玩意儿太重了,配戴不舒适,根本走不向大众市场。所以假设我们 2021 年有机会做眼镜产品,也只会做音频相关的眼镜,不会做显示模组。
但为什么有研发能力的创业公司都喜欢干 AR 和 VR,很少去碰音频眼镜?因为 AR/ VR 有所谓的高的天花板空间,未来的计算中心,也有研发壁垒。但问题是不管怎么去研究突破,离它变成体验好的产品始终有巨大的差距,会使得企业的发展非常不可控。但相对来说,音频眼镜就很简单了,你去研究下华为是怎么做的,再去做音频眼镜,也能很好的从 0 到 1,甚至销量大概率更容易超越 AR/VR 眼镜。更容易让企业找到 PMF,也能更好的拿到阶段性的业务结果,再去往前推进。
但每个人资源禀赋不一样,有些人只要刷脸就能融资 1 个亿,就会追求一个 100 亿美金的概念,就根本看不上音频眼镜,这涉及到个人的禀赋和选择。
业界很多人会觉得要干就得干未来的计算设备,扎克伯格说眼镜可能是未来的计算入口,Tim Cook 说耳机可能是未来的计算入口,所以大家创业就去干未来的计算入口,但要想想,你到底有没有能力做计算入口呢?做计算入口需要有强大的研发能力及雄厚的资金支持。这里面有个命题是,如果 AI 硬件就是未来的计算中心,问题是 how do we get there?
久谦:所以你觉得在未来的很长时间内,手机还是计算中心吗?
许高:谁是计算中心不是我们定的,甚至都不是开发者定的,是由它的体验决定的。例如眼镜超过 30 克就不可能是中心。但是很多创业者不是这样想的,他说现在 AI 的大脑如此的强大以至于计算能力并不会比手机弱,且在交互上面甚至会比手机更进一步。但那玩意戴着不舒服,谁戴呢?
手机现在还是计算中心,是因为硬件的研发不像芯片拥有摩尔定律和跨越式的迭代,甚至在研发资源和人才密度上面,芯片的研发都是比硬件的研发要高一个段位的。所以假设我们要把眼镜作为计算中心,那能不能做到 30 克以内,AI 方式交互的续航要超过十几个小时,然后还要具备随时唤醒、随时计算的能力?但现在你看 Meta 的计算是受限的,并没有做很多的计算,只能续航四个小时,离计算中心是有距离的。
所以我觉得手机现在是计算中心,是因为达到了比较好的需求和体验的平衡,那么其他产品有没有机会就取决于产品能不能开发到那个份上,甚至取决于电池技术、有关的硬件形态、芯片开发、功耗管理等各个方面。
久谦:你觉得哪些特点的硬件和哪些品类的硬件会有机会?
许高:一个角度是,我们把 AI 硬件理解为是人的器官的延伸,比如说把嘴巴、耳朵、眼睛的数据通过传感器的方式来收集起来,就是麦克风、扬声器、摄像头,去采集人所相关的数据。第二个角度是开发大脑,就是 AI 的部分,做信息数据的处理。
所以回到哪些产品形态更容易完成这些 PMF,包括成为计算中心。像耳机、眼镜,甚至一些可穿戴的AI设备,因为它靠近头部的器官,其实都是有机会 AI 化的。是眼镜还是耳机更容易去成为计算中心,不是由产品形态本身决定的,是由你能打造出来的产品体验决定的。现在有些人说,要给耳机加上摄像头,那你仔细想,女生怎么办,长头发的人怎么办,就会把摄像头挡住。有些人说,我要用眼镜作为计算中心,那你能不能开发到 30 克以内?所以我觉得答案要靠开发团队去探索它能做到什么份上,它的体验能不能交付到那个程度。
我觉得管理好一个平衡特别重要。比如说很多人特别追求成为那个更先进的可能的计算中心,于是非得去搁耳机里面加摄像头,但问题是,当你加入那么多传感器的时候,你就管理不好体验了。
你不需要此时此刻回答说要成为大家的计算中心,因为那个事情未必是 5 年后 10 年后有机会做到的,但是此时此刻你可以想怎么很好的从 0 到 1,然后拥有几十万的用户,再从 1 到 10,变成一个有影响力的AI硬件品牌,为你成为那个计算中心打下基础。
AI Pin 就是失败的例子,他搞手势识别,就是为了尝试开发一种新的有视觉能力的人机交互形态,但是它的体验并不自然,而且手势的体验并不精确,效率还不如你在屏幕上点一下,这就不是一个好的 PMF。
像智能戒指,从蓝牙能力来讲,智能戒指也可以加麦克风,通过对话让手机处理个人事项。但问题是在某个产品形态和用户需求里面,需要找到解决需求的最丝滑的角度。智能戒指往往做到了健康检测、睡眠建议就可以了,把这几个事情做好就有一定规模的受众。那如果现在非要把戒指搞得要能开始说话,要能拍照,你会发现很多核心体验环节,还是不如手机方便。所以克制就非常重要了。
久谦:你说要做就要尽力做到全球第一,那如何划分功能边界?怎么叫做到全球第一呢?
许高:要结合目标人群和目标使用场景。例如 Apple Vision Pro,很多消费者对它评价是很低的,但是它在某些医疗的交互式体验领域,评价是非常正向的。如果说 Vision Pro 就是针对手术室的医生,或者针对这些对空间视觉交互有要求的人群,然后一年卖 50 万台,达到了我的预期,那就是一款成功的产品。但为什么大家觉得 Apple Vision Pro 这个产品并不成功?因为它定位在大众市场,但最后只卖了 50 万台,发现研发投入和商业结果不匹配。
但实际上你想,谁最后买了这些产品?那就是那些真的能发现它很有价值的人。所以对于一家公司而言,假设创业的时候就是想明白了要服务好医生和对空间视觉交互有需求的这两个特定的人群,抓住这两个人群,然后研发成本只需要一亿人民币或者一亿美金,商业回报能有十亿美金,那它一样是一个很好的产品。但为什么它不是这样的?因为干这个事情的人发现要投入十亿美金搞研发,然后干了半天只卖了五亿美金,那这就是不匹配。
所以你去定义你想解决什么样的用户的什么样的问题,然后你用什么样的研发代价去做到这一点,然后你的定价推算出来说你的商业回报能不能支持你这个事情,如果能做到这一点,那这个边界就是对的。所以我觉得边界它肯定是从目标受众、目标使用场景,对应的产品价值、可以获得的产品定价和预期销量,预期的商业回报和你的研发投入之间的整个匹配关系确定的。
久谦:硬件产品的开发遵循木桶原理吗?比如供应链缺一个零部件就生产不出来,产品定义有问题可能就卖不好,如果销售团队不会卖,运营和投放效率就不高,都可能导致硬件产品的失败?
许高:我觉得现在来看确实是。为什么是这样呢?因为它还没有到大众消费品的成熟度。今天做扫地机器人或者是吸尘器,大家都知道吸尘器是什么、怎么工作的、它价值在哪里、大概价格是多少,大家都是十万转,你干二十万转,大家都卖 399,你卖 450,大家说那试一试,很容易卖,甚至不需要所谓的什么整合营销的能力。
但要是做所谓的AI硬件,从 0 到 1 就需要做用户教育,包括你获得商业结果,就要做可靠的零售渠道的布局,它对能力的要求确实是会更高的。你想成功但不知道什么样的策略一定会奏效,于是你得去试。一个成熟的消费品公司所拥有的那些能力都得去试,比如说整合营销,线上基于内容的、红人的、广告的,然后线下的传播方式,销售渠道你也要考虑,DTC、平台电商各种,你最后也很难直接预期说哪个销售网络是最有效的。这不是 AI 硬件的单一特点,是任何做创新产品形态的公司要经历的过程。
久谦:深圳做AI硬件的圈子现在怎么思考做 AI 硬件的逻辑?
许高:我觉得是分成三类公司,一类是已经在产品形态上相当成熟,有好的市场份额的公司,不管是像 Insta360 的摄像头还是韶音的耳机,他们现在肯定是有项目在跑着,我觉得这些公司肯定是有机会的。
很多人说在存量的硬件里面加入AI能力是有价值的,但你看这些产品的特点哈,一个是已经找到了 PMF,且市场教育成功,有麦克风、摄像头收集用户的数据的产品形态。但另外一类,我举一个反例,像涂鸦是说 IOT 万物互联,为什么后来从公司价值来讲做的不是很理想?因为他专门去做了灯控、开关类的,即便 IOT 了价值也特别有限,就是开关,开关没有 Rich Data,没有 Rich Data Value,所以说我觉得有 Rich Data Value 的这些产品形态,成熟公司是有价值的。
第二类呢,是像我们在细分垂直领域去寻找极致的 PMF 这一类,比如深圳有一个业态很小众,他们专门设计给穆斯林人群,他们要朝拜,那几点要朝拜,朝哪?这个产品就是解决人家朝哪拜的问题的,非常实用,销量非常好。但是有很多研发大咖看不上这些。
第三类就是还在路上的,围绕着整个计算中心来做的。就现在 meta ray-ban 出来了,好多公司也开始去朝着那个方向去推进,自己都没做过耳机,就开始想怎么做 AI 耳机。那这些人我觉得还在路上,我也评价不了,因为我也不知道他们现在是什么状态。从我对产品和研发的角度去了解,我觉得并不容易。
久谦:你在投融资行业有丰富的经验,如果让你从投资人的视角去挑公司,你会看哪些点?
许高:我觉得看他对于 PMF 的思考。我接触过一个研发上非常顶级的某大厂产品经理,他有很多 insights。问题是你在一个世界级大厂,研发投入投个几十亿美金眼睛都不眨的,那你爱咋干咋干。卖个一百万台公司就很开心了,反正我是朝着未来的计算中心去的。但是当他创业的时候,他一下就有点懵,他肯定还干不过之前自己在大公司带队做的产品,体验还不一定交付成什么样。
我举个很小的例子,假设是眼镜型的产品,你就专搞骑行,那骑行的人需要什么?他需要目视导航,然后听听歌,就够了。不要去加入什么代办事项各种的,你就把骑行的人最关心的那些给做透了,其实是能找到 PMF 的。但问题是团队不好弄,真正有研发能力的人想法比较极限,可能看不上骑行、对骑行也不一定了解和热爱。再举滑雪眼镜的例子,也要寻找 balance,因为过于小众的话,研发投入也不一定容易收回,甚至拿不到融资支持。
所以在这个阶段就是看 PMF,创业团队的方案和思路是不是能行的。我觉得反倒硬件的研发能力暂时还不是 rocket science,因为这里面真正的 rocket science 在 AI 大模型的那部分,属于 AI 应用公司。所以我觉得对于用户的理解,对于产品的理解,对于商业的成熟度的潜力挖掘是重要的。
久谦:你在创业过程中,有碰到过哪些坑吗?
许高:我们没怎么踩太多坑,因为我们特别克制,特别专注,但是我们会少一些想象力,这是一个 trade off。因此在海外的市场,当人们提到 AI 硬件的时候,很多的研究报告、媒体、顶级科技媒体的文章都没有提到我们,他们不一定觉得我们是 AI 硬件。我们有时候也会想要不要也激进地走一步,尝试把我们的边界往更模糊的地带去推进,这样可能就要踩坑了。
久谦:在AI加硬件的方向上,硬件能力是否比其他能力更重要,占整个体验的大头?以及硬件是长供应链的生意,意味着团队是需要全栈紧耦合的,整个团队没有短板,克制的做事也很重要?
许高:前两天有一个朋友也和我讲 AI 的二八原则,硬件占 80%,AI 只是 20%,其实我不认可。我觉得真正决定的是交付的体验环节,就是 PMF。比如 AI 眼镜,为什么大家会说必须做到 30 克以内,因为它作为体验环节太重要了,那这个时候硬件就是这里面的核心。但是你看我戴的普通眼镜只要十几克,那为什么要搞一个带 AI 智能的眼镜?就是为了追求体验,所以我觉得试图去量化谁是 20% 谁是 80%,是不那么客观的,因为这样是有误导性的,还是要深刻的去认识到 AI 才是体验的 magic,没有做出真的好的体验是不行的。
本质上讲你是尝试去识别在达成 PMF 里面,硬件和 AI 的权重。对于眼镜而言,现在 GPT-4o 已经足够强大了,AI 已经准备好了,这个时候确实硬件的权重是非常大的。但是为什么现在眼镜的体验做的不好?因为大家想把过多的 AI 体验加进去,又想做视觉、又想做音频、又要去搞即时交互,所以功耗电量、显示模组的要求就高了,于是硬件就很难搞了,所以我觉得硬件难不难做,都是取决于 PMF,这个特别重要。
久谦:你有观察到北美市场和国内市场在各种AI硬件产品上的需求差异吗,北美团队会更有优势吗?
许高:暂时还没有看到什么差异,其实我觉得他们在硅谷搞更难。就是因为做 PMF 不容易,搞研发要做模组的测试、调试,北美确实有些不错的人才,但问题是他们不在深圳呆着,供应链响应速度就慢了,光做研发测试的效率会偏低。
所以现在大家都在同一起跑线,但北美这边会相对更难一些。我觉得他们的创意能力肯定是更好,像智能眼镜很多产品都是从海外的创新开始的。但其实很多创意都已经越来越被穷尽了,这个时候,我觉得中国团队现在是有点拼通过实验做这个来看谁能行,谁不能行,中国公司的实验效率还是更高的。
我们将本次访谈录音的逐字稿分别通过 PLAUD、科大讯飞、GPT-4o、Gemini、Kimi 等语言大模型进行整理并总结为会议纪要,对比这 5 份会议纪要,综合来看,PLAUD 在总结的内容准确性、全面性、逻辑性、语言质量等在本次会议的总结中都优于其他产品,作为专业的录音产品,在会议总结功能方面的实力完胜!
深色表示在该维度表现优
文章来自于微信公众号“Founder Park”