ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
智能体:太好了是语音交互新功能,我们说话有救了!
4897点击    2024-11-16 13:48

你是否经历过,给客服打电话总是遇到让人高血压的 AI?


买的智能音箱对话时总是被错误识别?


以及,最新的 AI 陪伴机器人总是感觉有点呆板?


提效不明显,也提供不了足够的情绪价值...


语音交互体验成为了 AI 落地的一块绊脚石。


而如今扣子推出的技术,有望使这种情况成为过去式。



经过近两年来的发展与验证,大语言模型(LLM)和智能体(Agent)已经逐渐成为行业共识,落地到了生活各处。


AI 游戏陪玩、AI 虚拟陪伴、AI 口语陪练、AI NPC等应用遍地开花,由此也激发了对更优质的 AI 语音交互的强烈需求。


不少产品的语音过于机械,响应速度过慢...这种“对讲机式”的对话,极大的降低了用户体验。


对此,扣子上线了全新的智能语音 OpenAPI,让 AI 从“能说话”到“会说话”


此前的所有方案,都是在用工程思维处理人文问题。


Google Assistant 虽然能识别几十种语言,却理解不了“中式英语”;Alexa 虽然能控制一整个智能家居,却无法自然地应对打断;Siri 虽然能讲笑话,却始终没有真实的情感温度...


而扣子的方案,首次将“理解”的能力注入了整个语音交互链路。


它不只是在听你说话,而是在理解你说话的场景、语境、甚至情绪。


这让 AI 终于开始像人一样思考和表达。



基于扣子这套“组合拳”做出来的智能体或是 AI 应用,当你跟它交谈时,它不只是在应答,而是在理解、思考、然后用最恰当的方式回应!


这一切的实现归功于以下四个核心突破:


1. 精准语音识别:使用 ASR 语音转成文本,且具备上下文理解能力(比如上文出现过的名词等信息能够在识别中复用,说话等风格和代称也能理解的较好),并对中英混说、噪音、垂直领域等复杂场景识别效果有所提升;


2. 强大的 AI Agent 能力:扣子不只听懂你所说的,更能真正理解你的需求。它拥有 Agent 的各项能力,能够像人一样有记忆力(文件盒子、数据库、变量)、有知识(文本、表格、照片)、有技能(插件、触发器)、还能编排(工作流、图像流)等;


3. 低延迟、可打断:使用了火山引擎 RTC 方案,将链路中的延迟充分降低,并确保即使在弱网络环境下也能通话顺畅。此外,智能体能毫秒级响应用户打断,流畅切换话题并即时反馈,通过火山引擎 RTC 的智能降噪技术,能有效过滤 90% 以上的背景噪音,降低误触发概率,提升对话质量;


4. 自然的语音效果:使用大模型的 TTS 进行文本转语音,根据上下文,智能预测文本的情绪、语调等信息;生成超自然、高保真、个性化的语音,在自然度、音质、韵律、气口、情感、语气词表达等方面更像真人;即使是中英文混说也能行云流水应答自如


通过将 Agent 的认知能力引入整个语音交互链路,扣子让 AI 首次具备了真正的“对话感”。


以下是实测演示👇


1. Demo 配置流程视频演示。



2. 与智能体实时对话测试。



3. 语音对话过程中,支持实时打断。



4. 轻松完成逼真的音色克隆。



目前该功能还在内测,有相关需求可以在下方链接或点击阅读原文申请。


https://www.coze.cn/survey/7431180581536268314?FG_source=15


回望 AI 发展史,从最初的命令式交互,到基于规则的对话,再到今天的自然语音交流,我们一直在试图跨越人机之间的鸿沟。


扣子的这次突破,终于让AI具备了真正的“理解力”——不是简单的听和说,而是像人一样思考、表达与回应。


这绝对不是简单的功能叠加,而是交互范式的革新,是智能体走向真正智能的关键一步。


文章来自于微信公众号“特工宇宙”,作者“特工少女”


关键词: 智能体 , AI , 人工智能 , 扣子
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales