语音是人工智能应用公司最重大的突破之一。作为人类最常用、信息密度最高的交流方式,语音如今在人工智能的推动下首次实现了“可编程化”。
在企业层面,人工智能直接以技术取代人力,带来更低成本、更高效率、更可靠的服务——并且在许多情况下,AI 甚至可以超越人类的表现。例如,AI 语音代理能够全天候(24/7)为客户提供服务,解答疑问、安排预约或完成购买。传统上,企业的服务时间往往受限于员工的工作时段。而有了语音 AI,每一家企业都可以保持在线,随时响应客户需求,大幅提升客户服务体验和业务运转效率。
根据硅谷科技评论(SVTR)AI创投库,全球近40家AI语音公司获得知名机构的投资。作为AI行业投资双雄之一的a16z,同时押注了9家AI语音智能体公司。这家机构认为,语音将成为人们与人工智能互动的首选方式,甚至可能是主要方式。这种交互可能以“随时在线的助手或教练”的形式呈现,也可能通过语音 AI 的普及,民主化某些曾经难以触及的服务,例如语言学习等。这将大幅提升 AI 技术的可及性,让更多人享受科技带来的便利。
2024年,AI语音技术取得了重大进展。新型对话模型的开发简化了基础设施架构,显著降低了语音代理的延迟并提升了性能。这些改进主要体现在过去六个月内推出的新对话模型上。
此外,这些对话模型的成本也在逐渐降低。2024年12月,OpenAI将GPT-4o实时API的输入价格下调了60%(至每百万标记40美元),输出价格下调了87.5%(至每百万标记2.5美元)。GPT-4o mini也已通过实时API提供。
这些进展使得AI语音代理更具可行性和经济性,推动了其在各个行业的广泛应用。
2024年下半年,AI语音代理市场呈现爆炸式增长。根据Cartesia的数据,在最新一届Y Combinator(YC)创业公司中,专注于语音技术的公司占比达22%。
语音代理也被越来越多地添加到横向或多模态产品中。在2024年,我们看到对话语音技术栈的多个层面上的公司吸引了资金和市场关注,包括:
特别是在大型企业中,我们很少看到从完全由人类接听电话直接转向完全由AI接听的情况。创始人们通常会找到一个切入点(“楔子”),开始时只处理客户中一小部分的电话,然后希望随着时间的推移,逐步扩展到处理更多类型的电话和工作流程。我们观察到的这些切入点包括:
这些应用为AI语音代理在企业中的更广泛采用奠定了基础。
根据硅谷科技评论(SVTR)AI创投库,2024年,AI语音代理领域的融资活动显著增加,多个初创公司获得了大额投资,推动了市场的快速发展。以下是一些值得关注的融资事件:
此外,我们深度分析过的企业音频市场拓荒者AssemblyAI、用AI缓解全球医护人员短缺Hippocratic AI,AI虚拟销售员11x.ai,同样值得关注。
语音代理的早期应用通常集中在现有呼叫中心或业务流程外包(BPO)开销较高的领域。然而,针对那些由本地员工偶尔接听电话的行业,其痛点和潜在收益通常不足以推动大规模应用,除非有大量员工专职从事电话接听/拨打。此外,这些行业中结果/节省的量化较为困难,难以建立明确的商业案例。
以下是语音代理的主要垂直领域及潜力:
每个主要行业(如金融服务、B2C、B2B、政府和医疗保健)都可能拥有自己的核心供应商,这些供应商的角色类似于行业专用的记录系统。预计在以下领域会有大量创业活动:
在某些高薪职位领域,我们观察到针对AI语音代理的支付意愿较强。这些代理被用于教练或培训的案例,可以显著提高员工的实际工作表现。这不仅能够取代劳动力开支(如销售教练),还可以替代低效的软件工具。
通过分析Y Combinator(YC)的创业公司数据,可以看出语音代理的建设趋势:
在2023年之前的创业公司中,大多数是最近一年内向语音代理方向转型的公司。
根据YC创业公司的数据:
语音代理正在多个垂直领域崭露头角,并迅速渗透到传统行业和新兴场景中。未来,这些技术将进一步提升行业效率并扩展应用范围。
a16z 投资语音代理公司时,关注的不仅是技术优势,还包括产品适配行业需求、明确的经济效益和对客户需求的精准满足。优秀的语音代理公司需要在技术、商业模式和客户价值之间找到平衡点,并在市场中通过差异化竞争建立自己的护城河。
2.通话特点
3.成本效益
4.客户需求
5.经济价值
6.产品集成与销售
文章来自微信公众号 “ 硅谷科技评论 “,作者 svtrai
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/