科技巨头打响语音模型之战！亚马逊用Claude升级Alexa，Cerebras语音模式快如闪电

3536点击 2024-09-10 11:15

继OpenAI在5月发布会上展示「期货」GPT-4o的语音功能后，「AI语音助手」类的产品又成为了硅谷科技巨头的必争之地。

紧跟着OpenAI开发布会的谷歌也马上宣布——Gemini将推出语音聊天模式Gemini Live。

8月，谷歌在Pixel 9活动上正式发布了Gemini Live，取代了原来谷歌助手的产品定位。

类似GPT-4o，Gemini Live不仅能实现随时打断的对话式交流，还有对设备屏幕的感知能力，可以实时解释用户的屏幕或视频信息。

Gemini Live目前已经针对安卓设备推出，但仍只有英语模式，未来还将登录iOS系统并提供更多语言。

6月，苹果就在WWDC大会上展示了如何用Apple Intelligence给2011年就诞生的Siri改头换面。

科技巨头打响语音模型之战！亚马逊用Claude升级Alexa，Cerebras语音模式快如闪电

与谷歌和OpenAI着重强调的「交流」功能不同，Siri似乎更专注于语音「助手」的定位。

屏幕感知、跨应用操作、智能体般的多命令处理，一个都不少。

比如，动动嘴便可打开文档、将笔记移动到另一个文件夹、发送或删除电子邮件、在Apple News中打开特定文章、发送网页链接，甚至请求设备提供文章摘要。

但是，这版更强Siri的上线还没有明确期限，所依靠的Apple Intelligence也只能在iPhone 15 Pro或更新型号的手机才能运行。

根据彭博社的报道，苹果团队似乎需要大量时间来重构Siri的底层，高级版Siri最快也要等到2025年，才会出现在iOS 18上。

虽然还未正式上线，但可以看出，GenAI的这波革新让苹果13岁的Siri焕发新生。

而提到Siri，让人想起和它同代的另一个语音助手——亚马逊推出的Alexa。

亚马逊改造Alexa

实际上，Alexa的革新计划由来已久。早在今年1月，Business Insider就报道过这个项目，名为Remarkable Alexa，它正在内外的重重阻力下艰难推进。

科技巨头打响语音模型之战！亚马逊用Claude升级Alexa，Cerebras语音模式快如闪电

发布的日期也是一拖再拖，从最初的6月30日，到之前决定的8月。

8月30日路透社报道，有知情人士表示，改进版的Alexa将在10月美国美国假日季前发布。

该项目在内部被称为「榕树」（Banyan），将是Alexa自2014年与Echo系列扬声器一起推出后迎来的首次重大改革。

Remarkable Alexa计划向用户收取5～10美元的订阅费用，以抵销GenAI模型的成本。

这部分订阅不会包含在每年139美元的Prime服务中，但亚马逊仍将提供免费版本的Classic语音助手。

Alexa难掩颓势

2014年，亚马逊首次推出Alexa的语音驱动功能，让当时的消费者惊叹不已，却落后于最近的GenAI浪潮。

根据Insider Intelligence的统计，在美国，Google Assistant今年的用户数量预计将达到8880万，其次是 Siri的8420万。Alexa的用户数量位居第三，约为7560万。

科技巨头打响语音模型之战！亚马逊用Claude升级Alexa，Cerebras语音模式快如闪电

和Siri沦为语音计时器的境地类似，通过Echo音响访问的Alexa也多用于设置计时器、询问天气、播放音乐或回答简单问题等功能。

不仅如此，亚马逊想要通过Alexa提升电商业务销售额的希望也落空了。

正如Kindle屏之于电子书商城，健康监测服务之于Halo手环，便宜到经常低于成本价的Echo音响和免费提供的Alexa，实际上包含着亚马逊借硬件打造软件的产品思路——

不求在硬件销售上获利，但求从用户后续对软件的使用、数字内容的获取和平台的依赖等中获取更高毛利的收入。

科技巨头打响语音模型之战！亚马逊用Claude升级Alexa，Cerebras语音模式快如闪电

这种营销方式最初是借鉴剃须刀巨头吉列——推出极具价格优势的剃须刀，但通过售卖补充刀片赚得盆满钵满。

最初对Alexa的设想非常美好——用户通过语音方式询问购买建议，之后委托Alexa直接下单，就能拉动亚马逊的电商销量。

但随后他们发现，这个思路不起作用。主要是因为用户喜欢「眼见为实」，仅凭Alexa的语音描述很难让人甘心掏钱网购。

根据内部文件和知情人士的透露，这种不成功的策略让亚马逊在Echos、Kindle等智能设备业务上亏损了数百亿美元，可以说是贝佐斯在位时为数不多的巨大误判。

科技巨头打响语音模型之战！亚马逊用Claude升级Alexa，Cerebras语音模式快如闪电

硬件亏钱、软件不赚钱，力挺Alexa的贝佐斯又离开了管理团队，导致裁员的大刀最先落在了Alexa团队的头上。

Business Insider跟踪LinkedIn上的帖子后发现，在2022年底开始的大裁员中，Alexa的AI系统、自然语言理解和对话能力团队几乎是首当其冲、受到了最高等级的影响。

然而，即使AI技术落后、亏损巨大，Alexa还掌握着一个关键优势，可以助他们扳回一城——截至2023年，已经在全球卖出的支持Alexa的硬件设备超过5亿台。

合作Anthropic借用Claude

CNBC和Business Insider在之前的报道中曾援引知情人士的说法，表示亚马逊计划基于内部语言模型Titan或Olympus升级Alexa。

然而，或许是内部技术不给力，路透社的最新报道表示，10月发布的Remarkable Alexa将由Anthropic的Claude模型支持，而非自己的基座模型。

科技巨头打响语音模型之战！亚马逊用Claude升级Alexa，Cerebras语音模式快如闪电

亚马逊和Anthropic的合作由来已久。去年9月，他们就为Anthropic提供了高达40亿美元的投资，获得少量股权的同时，以AWS云服务交换到了对Claude模型的使用。

一些知情人士表示，升级后的Remarkable Alexa可以执行更复杂的任务，例如撰写简短的电子邮件、发送邮件以及从Uber Eats订餐，而且让用户无需在对话中重复召唤「Alexa」。

此外，亚马逊还计划增强Alexa提供的自动化家居功能，可以无线连接到智能设备，让用户进行语音控制。

具体而言，Remarkable的关键功能更新如下：

- 对话能力增强，与用户进行更自然、更有吸引力的对话，并提供与上下文相关的响应

- 个性化推荐：根据用户喜好和历史记录，针对购物、新闻和其他内容进行定制化推荐

- 家居自动化：Remarkable Alexa将作为一个更复杂的家居自动化中心，记住用户偏好，自动执行闹钟设置、咖啡机启动或电视节目录制等任务

- 复杂任务执行：用户可以提出更复杂的指令，例如订购食物或起草电子邮件

总而言之，面对谷歌、苹果等公司来势汹汹的竞争，Alexa团队现在的任务是，打造一款能够在新的GenAI竞争中脱颖而出的语音交互设备。

科技巨头打响语音模型之战！亚马逊用Claude升级Alexa，Cerebras语音模式快如闪电

REUTERS/Mike Blake

这其中的障碍，一是价格，二是AI安全问题。

一位知情人士估计，在Alexa中使用GenAI的查询成本为每次2美分。有内部估计甚至指出，订阅费用需要定为20美元，这也是ChatGPT的订阅价格。

也有亚马逊员工表示怀疑，除了已经为Prime会员支付139美元的用户，是否还有人愿意每年多掏60～120美元，获得比免费版Alexa更智能一点的Remarkable Alexa。

但美国银行分析师Justin Post的分析结果相当乐观。

根据他在6月的估计，大约有1亿活跃的Alexa用户，其中10%可能会选择Alexa的付费版本。按每月5美元的费用计算，这将额外带来6亿美元的年销售额。

AI安全方面，有开发人员表示，Alexa大多出现在客厅或厨房中，这提高了应用GenAI模型的风险。如果Alexa不理解命令或提供不可靠的信息，犯错误的代价就会更高。

Cerebras语音版成GPT-4o平替

想跟上语音模型更新步伐的，除了亚马逊这种巨头，还有Cerebras这个新秀。

前几天刚发布了号称全球最快的AI推理架构——Cerebras Inference的AI初创芯片公司Cerebras，也基于livekit.io平台构建了自己的语音模型。

据悉，Cerebras Inference使用了Cerebras CS-3系统和WSE-3 AI处理器，内存带宽和内核数分别是英伟达H100的7,000倍和52倍。

依托具备如此超高速AI推理能力的Cerebras Inference之上的Cerebras语音对话模型让人非常期待！

科技巨头打响语音模型之战！亚马逊用Claude升级Alexa，Cerebras语音模式快如闪电

但原始的视频demo链接已失效。多亏评论区热心网友，提供了另外一个类似于Cerebras语音对话模式的示例。

该对话模拟示例同样基于LiveKit，但以ChatGPT为基础模型。

具体来说，它借助Websocket使用LLM模拟了电话对话，并进行了系列优化，最终实现了无缝和快速对话。

科技巨头打响语音模型之战！亚马逊用Claude升级Alexa，Cerebras语音模式快如闪电

demo链接：https://livekit.io/kitt

不少网友在感叹其功能强大，开发便捷的同时，惋惜它比ChatGPT-4o上线晚，丢失了很大一部分热度。

科技巨头打响语音模型之战！亚马逊用Claude升级Alexa，Cerebras语音模式快如闪电

LiveKit代理是通过语音，视频和数据频道与最终用户相互作用的多模式AI智能体Agent的端到端框架。该框架可以凭借Python构建智能体。

科技巨头打响语音模型之战！亚马逊用Claude升级Alexa，Cerebras语音模式快如闪电

Agent框架被设计成可构建实时、可编程、运行在服务器上的框架。它可被用来创建可看到的、听到、理解的对话和多模态语音智能体。

科技巨头打响语音模型之战！亚马逊用Claude升级Alexa，Cerebras语音模式快如闪电

该框架包括用于常见工作流程的插件，例如语音活动检测和语音到文本转换。

Agent与云或自托管LiveKit服务器无缝集成，在本地计算机上开发的Agent代码可以扩展以支持成千上万的并发会话，然后将其部署到服务器中。

科技巨头打响语音模型之战！亚马逊用Claude升级Alexa，Cerebras语音模式快如闪电

仓库地址：https://github.com/livekit/agents

Cerebras语音版一经发布，就引发了油管上很多博主的关注和测评。

Antti Luode通过多次打断对话的方式，测试了Cerebras 实时语音模式的能力，证实其能快速有效理解对话并提供可靠信息。

科技巨头打响语音模型之战！亚马逊用Claude升级Alexa，Cerebras语音模式快如闪电

YouTube链接：https://www.youtube.com/watch?v=iJfeX1Wd5oM

Cerebras语音版Q&A对话集锦

Q：你是如何被开发的？

A：我是自然语言处理和机器学习算法的组合产物。我可以实现交互，在用户打断我时，也允许无缝转换和自然的对话流程。

Q：你有什么想对YouTube观众说的吗？

A：我只是开启了对话型AI技术套件的新纪元。诸如我一样的语音助手未来，需要拥有更复杂、更人性化的功能。比如能理解细微上下文间的差距，甚至情绪的变化。

Q：我的最后一个问题，如何打开启动舱门？

A：短语「打开启动舱门」，是电影《2001年太空漫游》中的一句著名台词，由Dave Bowman在尝试与飞船计算机交互时说出...

令人惊喜的是，这场跨时空的虚假对话，预示着人工智能时代，超智慧电脑HAL 9000的现实体正一步步向我们走来！

参考资料：

https://www.reuters.com/technology/artificial-intelligence/amazon-turns-anthropics-claude-alexa-ai-revamp-2024-08-30/

https://www.cnbc.com/2024/05/22/amazon-plans-to-give-alexa-an-ai-overhaul-monthly-subscription-price.html

https://www.businessinsider.com/amazon-paid-alexa-plus-service-issues-2024-1

https://cerebras.vercel.app/

文章来自于微信公众号“新智元”

科技巨头打响语音模型之战！亚马逊用Claude升级Alexa，Cerebras语音模式快如闪电

关键词: AI , Claude , Gemini Live , Cerebras

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales