你是否经历过,给客服打电话总是遇到让人高血压的 AI?
买的智能音箱对话时总是被错误识别?
以及,最新的 AI 陪伴机器人总是感觉有点呆板?
提效不明显,也提供不了足够的情绪价值...
语音交互体验成为了 AI 落地的一块绊脚石。
而如今扣子推出的技术,有望使这种情况成为过去式。
经过近两年来的发展与验证,大语言模型(LLM)和智能体(Agent)已经逐渐成为行业共识,落地到了生活各处。
AI 游戏陪玩、AI 虚拟陪伴、AI 口语陪练、AI NPC等应用遍地开花,由此也激发了对更优质的 AI 语音交互的强烈需求。
不少产品的语音过于机械,响应速度过慢...这种“对讲机式”的对话,极大的降低了用户体验。
对此,扣子上线了全新的智能语音 OpenAPI,让 AI 从“能说话”到“会说话”。
此前的所有方案,都是在用工程思维处理人文问题。
Google Assistant 虽然能识别几十种语言,却理解不了“中式英语”;Alexa 虽然能控制一整个智能家居,却无法自然地应对打断;Siri 虽然能讲笑话,却始终没有真实的情感温度...
而扣子的方案,首次将“理解”的能力注入了整个语音交互链路。
它不只是在听你说话,而是在理解你说话的场景、语境、甚至情绪。
这让 AI 终于开始像人一样思考和表达。
基于扣子这套“组合拳”做出来的智能体或是 AI 应用,当你跟它交谈时,它不只是在应答,而是在理解、思考、然后用最恰当的方式回应!
这一切的实现归功于以下四个核心突破:
1. 精准语音识别:使用 ASR 语音转成文本,且具备上下文理解能力(比如上文出现过的名词等信息能够在识别中复用,说话等风格和代称也能理解的较好),并对中英混说、噪音、垂直领域等复杂场景识别效果有所提升;
2. 强大的 AI Agent 能力:扣子不只听懂你所说的,更能真正理解你的需求。它拥有 Agent 的各项能力,能够像人一样有记忆力(文件盒子、数据库、变量)、有知识(文本、表格、照片)、有技能(插件、触发器)、还能编排(工作流、图像流)等;
3. 低延迟、可打断:使用了火山引擎 RTC 方案,将链路中的延迟充分降低,并确保即使在弱网络环境下也能通话顺畅。此外,智能体能毫秒级响应用户打断,流畅切换话题并即时反馈,通过火山引擎 RTC 的智能降噪技术,能有效过滤 90% 以上的背景噪音,降低误触发概率,提升对话质量;
4. 自然的语音效果:使用大模型的 TTS 进行文本转语音,根据上下文,智能预测文本的情绪、语调等信息;生成超自然、高保真、个性化的语音,在自然度、音质、韵律、气口、情感、语气词表达等方面更像真人;即使是中英文混说也能行云流水应答自如。
通过将 Agent 的认知能力引入整个语音交互链路,扣子让 AI 首次具备了真正的“对话感”。
以下是实测演示👇
1. Demo 配置流程视频演示。
2. 与智能体实时对话测试。
3. 语音对话过程中,支持实时打断。
4. 轻松完成逼真的音色克隆。
目前该功能还在内测,有相关需求可以在下方链接或点击阅读原文申请。
https://www.coze.cn/survey/7431180581536268314?FG_source=15
回望 AI 发展史,从最初的命令式交互,到基于规则的对话,再到今天的自然语音交流,我们一直在试图跨越人机之间的鸿沟。
扣子的这次突破,终于让AI具备了真正的“理解力”——不是简单的听和说,而是像人一样思考、表达与回应。
这绝对不是简单的功能叠加,而是交互范式的革新,是智能体走向真正智能的关键一步。
文章来自于微信公众号“特工宇宙”,作者“特工少女”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales