据相关数据显示,早在 2020 年,国内选择语音输入的用户数量已经达到 2.5 亿,使用率接近 40%,更为便捷的语音交流,已经越来越成为主流。
前几年就涌现出许多深受用户喜爱的聊天室、语音房产品,而最近这一波 AIGC 浪潮之下,更是如雨后春笋,诞生了 AI 虚拟陪伴、AI 口语陪练、AI NPC、AI 游戏陪玩等等各种应用。
遍地开花的产品,也激发了对更优质的 AI 语音交互的强烈需求。
正如我们几日前推文中所说的那样,现在许多产品的切入点都很好,但是其中的角色的配音过于机械,一听便是那 AI,同时响应速度较慢,用户说了一句话之后,甚至过个 3-5s 才会有回复。
这种「对讲机式」的对话,极大的降低了用户体验,限制了 AI 语音在各行各业中更好的落地。
而上半年 GPT-4o 的发布,宛如春雷惊蛰,震撼了无数人。
一时之间,多模态语音交互成为兵家必争之地。众多大型模型厂商和应用层创业者,即将或已经发布了具备「端到端实时多模态能力」的新产品。
然而,在人与云端大型模型智能体之间的对话中,不仅需要依赖 AIGC 大模型强大的推理能力,还依赖一些必要的音视频技术支持。
早期的音频采集、处理和传输技术,主要依赖于 Websocket 这种通信方式。但这在实际使用中,有时会遇到一些问题,比如在网络环境复杂的情况下,可能会导致对话出现卡顿,或者在传输过程中丢失一些关键信息,这可能会造成对话内容的误解。另外,探索基于多模态大模型的智能场景感知和识别类应用场景,Websocket 也无法承接视频传输的扩展能力。
而豆包大模型,如今已经向 ChatGPT 对齐,传输已经采用了 RTC 技术。结合 RTC 实时音视频服务,可为应用提供更加自然和高效的交互体验。
8 月 21 日,火山引擎在 AI 创新巡展活动上,发布了豆包大模型的一系列产品升级。
据活动现场披露,最新版豆包大语言模型的综合能力相比三个月前首次发布时提升了 20.3%:
在六项关键能力评测中,角色扮演能力提升 38.3%,具备了更强的上下文感知,让对话情境更连贯、角色更拟人化;语言理解提升 33.3%,包括信息分类和抽取、总结摘要、阅读理解和问答等能力增强。此外,模型在长文任务、数学、专业知识、代码能力上也有不同程度提升。
豆包大模型团队还推出了一系列针对语音功能的升级,该团队的 Seed-ASR 和 Seed-TTS 研究成果已经成功地集成到了豆包的语音识别和语音合成模型中(详细论文和 Demo 见文末)。
针对 AI 语音行业的痛点问题,火山引擎推出了对话式 AI 实时交互解决方案,让豆包大模型也可以支持对话式实时交互。
经过升级的 AI 声音现在更加富有表现力和情感,使得对话更加自然、真实和流畅,从而大大提升了与大模型的交互体验。
整合豆包大模型和实时音视频技术,企业可以轻松地在自己 AI 应用中嵌入实时语音交互功能,让用户可以用最自然的沟通方式与大模型直接对话。
我们将能力接入到之前在做的一个 AI 虚拟陪伴项目,综合体验下来的感受是,火山的对话式 AI 实时交互方案一共有三大亮点。
亮点一:AI 语音更自然
全双工对话,通话双方可以同时交谈和聆听,用户可以在对话中适时地插话和打断,与智能体像朋友一样轻松自然的交谈。
亮点二:AI 语音更真实
豆包大模型结合了全新的语音生成模型,告别声音的机械感,拥抱具有表现力和情感色彩的音色。
此外,若官方提供的语音包不能满足使用场景,还可以个性化定制,支持声音克隆的能力,丰富了更多场景下的用户使用体验。
亮点三:AI 语音更流畅
端到端响应时间已经优化可低至 1 秒,确保了通信的实时性。
即便在 80% 的高丢包率环境下,据官方所述,通过 RTC 实时、精准的网络预测和自适应拥塞控制策略,依然能够保证音频传输的流畅性和清晰度,为用户提供不间断的高质量通信体验。
那又是如何做到如此真实自然流畅的呢?
火山引擎推出的对话式 AI 实时交互解决方案,搭载了火山方舟大模型服务平台,通过 RTC 实现语音数据的高效采集、处理和传输。
并深度整合豆包·语音识别模型和豆包·语音合成模型,简化了 ASR 和 TTS 的转换过程,以此提供卓越的智能对话和自然语言处理技术,助力应用迅速实现用户与云端大模型之间的实时语音交流。
在技术实现上,利用了音频帧级别的人声检测技术,并结合智能 3A 中的回声抑制技术,有效解决了用户与智能体同时讲话时的双讲问题,避免了对话中的干扰,确保了语音识别的高准确性,能够精确捕捉并识别用户的语音信息。
在提升真实感方面,全新升级的语音合成技术在情感表达、语音自然度、演绎效果以及流式输出方面都取得了显著进步,更好地满足了对话场景中的交流需求。
此外,如果提供的音色不能满足特定场景的需求,还可以通过声音复刻技术提供更加个性化的声音定制服务。
通过这一方案,能够帮助企业在各种场景下迅速实现大模型语音交互技术的应用,让企业无需在音视频处理和资源部署运维上投入过多精力。而是可以将更多资源和注意力集中在创新应用的开发上,推动业务的持续创新和发展~
如果你还在被 GPT4o 的语音对话功能钓成翘嘴,
如果你还在苦苦续费 Plus 只为最早体验到全新功能,
如果你还在被用户吐槽,产品的语音对话效果太差而辗转反侧,
那么可以尝试一下火山的对话式 AI 实时交互方案,点击文末「阅读原文」即刻了解详情~
Seed-TTS 及 Seed-ASR 技术详情:
Seed-TTS: A Family of High-Quality Versatile Speech Generation Models
论文链接:
https://arxiv.org/pdf/2406.02430
Demo展示:
https://bytedancespeech.github.io/seedtts_tech_report/
Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition
论文链接:
https://team.doubao.com/zh/publication/seed-asr-understanding-diverse-speech-and-contexts-with-llm-based-speech-recognition?view_from=research
Demo展示:
https://bytedancespeech.github.io/seedasr_tech_report/
文章来源“特工宇宙”,作者“特工少女”
【开源免费】MockingBird是一个5秒钟即可克隆你的声音的AI项目。
项目地址:https://github.com/babysor/MockingBird
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales