到底是硬件+AI,还是AI+硬件?
“我真的不喜欢当前的消费电子产品。比如,无论怎样都会默认每年更新一代。”
近期,智能硬件Rabbit创始人吕骋在接受专访时谈到了此前饱受争议的Rabbit R1以及对AI硬件产品的看法。
Rabbit R1自从在今年年初的CES上推出以来,就因为AI硬件的标签而广受关注,但是数据造假、套壳安卓、炒作概念等质疑纷至沓来,全球拥有近2000万粉丝的知名数码评测博主Marques Brownlee(MKBHD)对Rabbit R1的评价是:“这很难评( Barely Reviewable)。”
Rabbit R1,图片来源:@MKBHD
但是,这些质疑和差评并没有让Rabbit“凉”下去,吕骋在访谈中还专门提到公司的最新进展,Rabbit发布了一个建立在大型行为模型Large Action Model之上的通用跨平台代理系统——LAM Playground,LAM可以根据用户的语音指令浏览网络内容。而且,吕骋还透露,售价199美元的Rabbit R1,硬件利润率超过40%。
「甲子光年」从AI硬件行业知情人士处了解到,Rabbit还计划推出一款新的AI硬件。
而在国内,字节跳动近期发布了集成了豆包大模型的智能耳机Ola Friend。用户戴上该智能耳机后,可以通过语音对话随时使用豆包,同时在豆包App上也可以操控这款耳机。
和Rabbit R1发布后一样,这款产品也遭受了质疑,例如:为什么必须要用一款专门的耳机来跟豆包对话;Ola Friend和普通耳机加个大模型chatbot没什么本质差别,不是真正的AI硬件。
但不管怎么样,AI硬件的热潮是翻起来了,无论是大厂还是初创公司都在纷纷入局。「甲子光年」统计,自2019年以来,包括吕骋在内,已经有十多位大厂或知名公司的高管下场进行AI硬件的创业。
AI硬件领域大公司高管创业汇总,整理及制图:甲子光年
AI硬件的赛道中,并不缺少现象级产品,但是部分产品似乎陷入了一种“昙花一现”的魔咒——它们短时间内吸引了大量关注,却没有形成足够的产品力,也没有获得更广泛的市场认可。
虽然如此,但是正如吕骋所说的,如今的消费电子产品缺乏创新,即使一些AI硬件不尽如人意,但AI硬件的市场前景仍不容忽视。
那么,AI硬件当前存在什么问题,又有哪些解决之道?什么样的AI硬件才是理想的产品?
AI硬件几乎是和GPT-4等大模型在同一时间出现在市场上的,但是其发展速度并没有追上大模型的步伐。
2023年11月,Humane AI Pin横空出世,以刷屏的姿态引爆了当时的科技圈。这款以自然语音交互为基础、以增强现实(AR)的投影功能为亮点的AI别针被当时的媒体类比为“初代iPhone”。还未正式发布的时候,Ai Pin就被《时代》杂志评为「2023 年最佳发明」之一,并获得了超过2亿美元的投资。
Humane AI Pin 图源:官网
然而,就是这样一款“出道即巅峰”的明星产品,其销售量却不及退货量。
今年6月份,《纽约时报》援引两位匿名消息人士的话称,Humane公司已售出10000台 AI Pin。但据媒体在8月援引一位“直接知情人士”的话报道,如今只有7000台售出的设备没有被退回,内部销售数据显示退货量超过了设备/配件销售额(约900万美元)。媒体还透露,有1000台AI Pin的订单在发货前就被取消了。
AI Pin之所以遭遇销售滑铁卢,主要是因为产品功能太鸡肋。
AI Pin只能打电话、发信息、拍照,缺少App调用的能力,唯一靠谱的功能是播报时间;此外,续航和发热等也是其经常被用户吐槽的问题。前文提到的博主MKBHD甚至做了一期视频吐槽AI Pin,标题是《目前为止我测评过最差劲的产品(The Worst Product I've Ever Reviewed... For Now)》。
AI Pin测评,图片来源:@MKBHD
AI Pin推出之后,Rabbit R1也上演了类似的故事。此外,去年苹果推出的Apple Vision Pro、索尼XR头显等大模型时代诞生的AI硬件,也都在发布后的不同时期遭遇了销售的滑铁卢。
AI硬件之所以总是复制这种“昙花一现”的发展路径,主要还是产品定义上存在缺失。它们要么是没有找到用户真正的需求、提供了冗余功能,要么是只满足了用户某一部分的需求,但是仍然需要依赖手机运行,无法作为独立的个人计算设备出现。
即便如此,大厂和初创公司还是一窝蜂地投入到AI硬件的创业浪潮中去,试图抢占AI时代的流量入口。Emergen Research数据显示,AI硬件在2022年的市场规模为92.1亿美元,年复合增长率为17.7%,预计到2032年将达到465.9亿美元的市场规模。如此庞大的市场,任何一个玩家都想提前进场分一杯羹。
字节推出Ola Friend耳机就是最典型的例子。
AI开发者、“科创学院”旗下AI硬件创业者陈正翔告诉「甲子光年」,对于这款耳机,以字节的实力,本可以在麦克风阵列的相位处理、内噪和外噪的处理、声纹分离、唤醒词和意图的识别、结束标志的延迟、息屏唤醒、后台无豆包App运行的唤醒对话等音频和声学领域做得更好,但是字节没有这么做,而是通过收购Oldance团队再用大模型做简单包装的形式迅速推出AI耳机。在陈正翔看来,这体现了字节想要赶上AI硬件这趟车的焦虑。
一位接近字节的人士对「甲子光年」印证了这一说法。他表示,字节想建立一个以C端应用为基础,横跨C端(消费端)和B端(企业端)的“大而全”的AI体系,然后以此为支点,进一步打入云计算等底层技术的基建生态。豆包大模型是字节在B端的布局,在占住B端生态位之后,字节要在C端也抢占生态位,而AI硬件就是不可或缺的流量入口。
市场如此广阔,玩家却普遍焦虑。AI硬件,到底该怎么做才好?
「甲子光年」认为,或许可以从“硬件”和“软件”两个方面思考这一问题,思考是“硬件+AI”还是“AI+硬件”。
做新的硬件产品一般有两种思路:一,在已有品类上做创新和提升;二,定义全新的品类。
第一种思路是“硬件+AI”的逻辑,用AI赋能本就存在的硬件产品,做功能的迭代升级,或者找准细分市场需求做差异化的创新。
第二种思路是“AI+硬件”的逻辑。AI作为一种新的技术形式,是可以从根本上变革个人计算设备的产品形态的。正如互联网催生了PC和笔记本电脑,移动互联网催生了智能手机、iPad,AI大模型也催生了Humane AI Pin、Rabbit R1等新的AI硬件形态。换句话说,可以通过软件定义硬件。
在原有产品功能已经非常强大的情况下,“硬件+AI”要怎么才能做出让用户眼前一亮的花样来呢?
或许可以从科技发展的历史规律中找答案。
科技行业一直有一个“普适计算(ubiquitous computing)”的思想,它来自美国计算机科学家马克·维瑟。
马克·维瑟,图片来源:维基百科
1991年,时年39岁马克·维瑟在《科学美国人》上发表了《21世纪的计算机(The Computer for the 21st Century )》。在这篇文章中,马克·维瑟对普适计算做了如下描述:
计算机的目的是帮助你做其他事情;
最好的计算机是安静的、看不见的仆人;
你越能按直觉做事,就越聪明。计算机应该扩展你的潜意识;
技术应该创造宁静。
用一句话概括,就是“润物细无声”。
在普适计算理念之下,马克·维瑟认为21世纪的计算机会融入网络、融入环境、融入生活。为此,计算机会更小、更廉价;同时,它们会有网络连接、超越图形界面、可以与环境和人做更多的交互;他认为最伟大的计算技术是那些从人们的视线中消失,融入到日常生活用品当中的技术,让人们意识不到计算的存在。他甚至为这种“融入网络、融入环境、融入生活”的智能设备定义了三种形式:
尽管马克·维瑟在1999年与世长辞,但他的思想对乔布斯产生了巨大的影响。2001年,iPod诞生;2007年,iPhone发布,开启了真正意义上的“普适计算”时代;2010年,iPad发布,连名字都与马克·维瑟的预言吻合了。
马克·维瑟的普适计算预言不仅帮助乔布斯缔造了苹果这样一个庞大的商业帝国,后来TWS耳机、AR眼镜、蓝牙音箱等智能硬件和可穿戴设备的出现更是印证了这一预言的有效性。
也就是说,想要在“硬件+AI”领域做出花样,第一种可行策略可以借鉴马克·维瑟和苹果的思路,将产品做得更便利,更有陪伴性,更具沉浸感。
Rewind(后更名为Limitless)公司推出的Pendant吊坠就是这种“陪伴性”的体现。Limitless吊坠可以像无线麦克风一样别在衬衫上,也可以像项链一样用绳子系起来,挂在脖子上。该设备不受天气影响,电池寿命长达100小时,可通过USB-C端口轻松充电,因此可以保持一种“always on”的状态,随时记录用户一天的谈话内容,并借助后台AI软件自动生成转录内容。
Limitless的Pendant吊坠 图源:官网
这种吊坠的存在,使得用户无需开启手机录音就可以自然地记录自己2到3天的全场景信息,并随时调用后台生成的转录做复盘,是一种“润物细无声”的信息记录者。
销量证明了这一产品的成功:仅仅发布5天,Limitless Pendant吊坠的销量就突破了2万条,其中美国用户占一大半。
除了陪伴性和沉浸感,对AI硬件领域的新玩家来说,第二种可行策略是寻找到一条足够细分差异化的赛道,用AI升级原有硬件,寻找新的需求。
科大讯飞就是其中的一个典型代表。他们瞄准了“商务办公”场景,围绕各种痛点需求,用AI升级原有硬件的能力。
在办公场景,针对办公场景下80%使用的是台式机、没有麦克风的痛点,科大讯飞推出了AI智能鼠标,在鼠标里内置了麦克风,能够将用户的语音转换成文字输入到电脑中;同时,用户的语音输入还能调起讯飞星火大模型,帮助用户快速生成PPT大纲、分析数据表格。
针对会议场景下手机录音嘈杂、整理不便的痛点,科大讯飞推出了iFLYBUDS Pro 2耳机,该耳机拥有“红点录”功能,开盒按压耳机盒内置的“红点”按钮,无需开启APP,即可开启现场闪录,讯飞星火大模型会自动整理录音、做会议纪要;此外,针对商务洽谈多语言场景,该耳机接入大模型,实现近乎实时的翻译体验。
自2023年5月科大讯飞正式发布星火大模型以来,讯飞星火大模型的变现方式就分为赋能现有业务、API授权付费、企业定制化模型3类,目前来看,C端硬件的营收增长是最明显的。可以说,在当下大模型商业化的普遍困境下,用“硬件+AI”的方式做大模型的落地变现似乎也是大模型企业的一条破局之道。
除了“硬件+AI”,还有一种方式是“AI+硬件”,也就是用软件定义硬件。
黄仁勋今年7月在和《连线》杂志资深撰稿人劳伦·古德(Lauren Goode)的炉边谈话中,给以GPU为代表的AI计算下了一个定义叫“加速计算”。之所以叫“加速计算”,是因为要和之前的“经典计算”做出根本性的区别。2G—5G时代的个人计算设备算力是运行在云端的,它是在冯诺依曼结构的计算机上跑的确定性的代码, 输入与输出是由人编写的代码定义的精确的关系,类似农耕民族以种地谋生的方式,一分耕耘一分收获;而AI加速算力是在Transformer等神经网络上训练出来的,它是一个黑盒,动态性更高、结果更不可预测,类似游牧民族以放羊、狩猎为生。
不同的文明催生不同的经济形态,不同的算力催生不一样的产品。此次AI算力变革的力度之大让科技领域直接从农耕时代进入了游牧时代,也让AI硬件产品的形态发生了巨大的变革——从以窗口和命令为主导的Photoshop到只输入一段Prompt就能生成图片的Midjourney,从智能手机通过屏幕交互的GUI(Graphic User Interface,图形用户界面)型的硬件,到后来Humane AI Pin、Rabbit R1等通过语音与用户交互的LUI(Language User Interface,语音用户界面)型的硬件,算力和软件的变化对硬件形态的更新起到了举足轻重的作用。
个人计算设备的演变 图源:公众号“鹿其鹿粦chilling”
大模型厂商提供的产品和服务千篇一律,新的AI硬件形态具体是什么也并没有收敛和达成共识。那如何才能做好“软件定义硬件”这件事、做出有商业化变现能力的AI硬件产品呢?
软件定义硬件,最重要的不是发挥硬件的价值,而是发挥软件的价值,将硬件作为流量入口来设计。这就倒逼AI硬件厂商从需求端想问题。
用AI重塑需求,或许是软件定义硬件的一种解决思路。
正在探索“AI+养老”方向创业的陈正翔认为,正如语言可以塑造人的想象,具有语言理解能力的AI也可以重新塑造需求。
“以TWS/OWS耳机为例,我们大多数人是用它们来听音频的,极少主动跟耳机对话。但是AI耳机相较于传统的TWS/OWS耳机来说,最大的变量就在于用户是在跟大模型、跟一个‘虚拟的人’对话。一开始你可能只是对耳机说,我今天心情不好,你给我讲个笑话吧,AI耳机会在聊天过程中主动提议,那你把手里的工作放一放,咱们去喝杯咖啡放松一下,然后触发大众点评或者滴滴打车的接口,这就成为了这些App的流量入口,可以获得App收益的流量分成。”陈正翔说。
在陈正翔描述的这一案例中,AI耳机让一个原来只想吐槽工作,并不想喝咖啡的人通过大模型下了一单咖啡外卖,或者驱使他去了咖啡馆散心,这就是成功的需求塑造。
假如AI耳机调用了滴滴或者马蜂窝的接口,在用户劳累的时候主动触发用户出门旅游的需求,给用户做行程规划、路线安排并发起一个100公里的顺风车订单,那么在马蜂窝、滴滴等互联网服务商受益的同时,AI耳机的运营商也可以从中获得抽成,这甚至已经为AI耳机趟出一条清晰可见的商业模式——在中国制造业的利润只有1%、2%的艰难处境下,单卖硬件是不赚钱的,必须要靠软件获取增值收益;而AI耳机对需求的重塑,就是放大这种增值收益的绝佳杠杆。
而要想真正做出这种能重塑需求的AI硬件,首先就需要在硬件技术上做升级和革新。
以AI耳机为例,要想实现真正对需求的重塑,就需要AI耳机厂商在声纹分离、麦克风阵列、语义识别等方面做更多的工作。这里面甚至可以加入一些视觉的因素,比如搭载摄像头,让AI耳机具备环境感知和识别的功能,进而更加深入地理解用户行为、重塑用户需求。
值得一提的是,前魅族副总裁、怒喵科技创始人李楠就在筹备带有摄像头的AI耳机产品。
这和马克·维瑟在《21世纪的计算机》里提出的另一条构想不谋而合。他认为,更多传感器的加入可以给AI设备带来更多新的交互手段,“随身携带的智能设备+传感器”将拥有人和环境的感知能力,拿到环境数据的新型硬件产品形态将越来越理解人,越来越能满足甚至重新定义人的需求,逐步替代掉原有的GUI时代的王牌产品,谷歌搜索甚至都将成为历史。
这也是苹果这么多年来一直在升级传感器的原因。每一个传感器的加入、每一代产品的革新,都解决了上一代产品解决不了的问题;更多传感器的加入,也让苹果积累了更多的用户行为数据,为发现更多新的需求、推出更多新的功能做准备。
连续创业者、Airbnb前中国区产品负责人Roc Yu告诉「甲子光年」,AI硬件中有一个非常好的打法是超级单品路径,他认为,Tesla电动汽车就是一个“超级大单品”,它拥有海量的传感器和上亿公里的FSD自动驾驶数据,用数据资产搭建起了自己的护城河。AI硬件产品创业也可以参考这种打法,让自己的产品形成一个Data-Information-Knowledge-Wisdom的闭环。
但除了硬件技术,软件和交互方式的突破同样重要。某前沿科技基金管理合伙人、专注于AI和机器人方向投资的Aaron Qian就在自己的文章中提出了在多模态大模型出现之后,AI硬件的三层架构:
Aaron认为,现阶段的AI硬件,特别是新品类新团队的机会大多在第一层,即新式传感器,但长期中如果不能将价值向第二和第三层延伸,则会陷入消费电子卷成本的深渊无限竞争(参考激光雷达之于自动驾驶)。因此,如何在“软件定义硬件”的基础上,更加充分地发挥软件的能力,AI硬件创业者需要考虑的最根本问题。
Roc Yu持有同样的观点。他认为,硬件是入口,真章全在入口后面,垂直的小模型,端侧模型,丰富的场景数据,机器深度的绑定垂直场景,精密协作的分工和详细的Agentic Flow(智能体工作流),才有机会基于数据资产和数据网络效应,形成AI时代的护城河——正所谓“冰山底下见真章”。
Roc Yu表示,在超级单品路径之外,AI硬件的第二类创业思路是大生态路径,类似苹果的打法,围绕硬件这一基础的载体去做开发者生态,形成一个类似App Store一样的开发者平台,比如可以以AI耳机为载体,在里面做足够多的Agent,用户可以随时通过语音调用Agent,满足自己各样的需求。
“外在的形式是很容易做的,中国作为制造业大国,外在function的能力不是难题,核心能力是能否更深层次地触达、了解用户,倾听他、辅导他,陪伴他,这比单纯做硬件是难上加难。”Roc Yu说。
尤瓦尔·赫拉利在他的新书《Nexus(智人之上)》中写道:“计算机在人类之间充当中介,有时候甚至会控制人类。这些计算机与人的连接不同于传统的人与文件的连接,因为计算机现在能够自行做出决策、创造想法,并深度伪造亲密关系,对人类发挥过去文件做不到的影响力。”
正如尤瓦尔·赫拉利所说,曾经算法驱动的注意力经济,正逐步演变成AI驱动的深层次亲密关系经济。无论是AI软件还是AI硬件,他们都是作为一种个人助手,也就是Agent存在的。“未来无论是软件这种虚拟的Agent还是AI硬件这种实体的Agent,所有的Agent都将成为relationship Agent。”Roc Yu说。
尽管到底是走“硬件+AI”还是“AI+硬件”的道路,市场和工业界仍然没有达成共识,但是在多模态大模型、强化学习、传感器和新材料技术的突飞猛进下,一个更加智能的、用AI驱动深层次亲密关系的个人计算设备时代离人们将不会遥远。
*参考资料:
《万字探讨:AI硬件的突围方向和可能性未来》,鹿其鹿粦chilling
《和怒喵李楠聊AI硬件:取代iPhone的可能是耳机、项链、眼镜,“AI手机”不是正确答案》,脑放电波
文章来自于微信公众号“甲子光年”,作者“王艺”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0