百度全新语音语言大模型发布!实时通话延迟卷至1秒,还公开了技术细节

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
百度全新语音语言大模型发布!实时通话延迟卷至1秒,还公开了技术细节
6831点击    2025-04-02 10:35

大家好,我是小瑶,今天是你们的 AI 前排吃瓜 + 技术解读博主。


昨天人在百度科技园,参加了百度 AI DAY 活动,不仅吃到了「文小言」的一手大瓜,还非常荣幸的采访到了语音技术大牛——百度语音首席架构师贾磊老师!


在现场时,我感觉脑子 CPU 都要干烧了,给你们看一张现场 PPT——


百度全新语音语言大模型发布!实时通话延迟卷至1秒,还公开了技术细节


技术大牛贾磊老师,现场硬核拆解语音大模型,更重要的是,拆的是这次文小言全新升级的语音语言大模型背后的核心技术。


这让我的技术基因止不住的躁动起来了,瞬间有一种参加 ICASSP 语音学术顶会的错觉。


先带你们一手感受下文小言最新的实时语音通话——


百度全新语音语言大模型发布!实时通话延迟卷至1秒,还公开了技术细节


从测试一开始,我就在无情的、疯狂的打断文小言的讲话,我试图让整个对话变得支离破碎,但在这个情况下,文小言都能在我插嘴 1 秒左右反应过来,流畅转变,聪明如人。不过,这要换成真人,被我这样打断,对方早就炸毛了。


要知道,市面上的语音通话产品,普遍 3~5 秒的反应延迟,文小言这反应速度 + 对话的顺畅程度,真的爽到我了。


而且实测下来,我发现更新后的文小言不止实时打断 + 反应速度非常牛逼,其在情感、方言、记忆、知识方面也都可圈可点。


但,今天这篇文章,我不准备写产品评测,大家可以升级「文小言 APP」到最新版后自行感受。


因为,这次百度 AI DAY 上,贾磊老师公开并深入拆解了这个惊艳的语音大模型背后的技术实现,这对于推动业界的语音技术进步,有非常重要的参考意义。


延迟:语音对话模型的第一技术命题


语音对话这个赛道,与文本对话相比有根本性的不同。


在文本对话的场景,用户对于等待回复的容忍度比较高。但,你跟一个人说话的时候,如果对方总是先卡顿个 3、5 秒才说话,你肯定心里不愿意再说了。


还有人类看东西,往往一目十行,但听东西,是一个字一个字的接收。


所以,看一家厂商的语音对话技术牛不牛,第一个要关注的指标,就是看对方多快吐出第一个字。


业界普遍能做到的水平是 3~5 秒,而能做到 1 秒左右的,一只手就能数得过来,包括这次百度发布的全新语音大模型。


百度全新语音语言大模型发布!实时通话延迟卷至1秒,还公开了技术细节


百度的端到端语音语言建模方案


对于语音对话来说,最简单的建模方案就是——


  1. ASR: 先把你的语音识别成文字。
  2. LLM: 把文字交给大语言模型去理解,生成回答的文字。
  3. TTS: 再把回答的文字转换成语音播放出来。


这种工程化的模块级联方案,不仅会导致信息在传递中多级损耗,导致效果差,而且多环节积累起来的延迟、成本也会爆炸。市面上仍然有不少语音对话产品,走的是这种传统的技术方案。所以你能感受到的就是对方“又慢又笨”。


百度这里则是训出了一个端到端的语音语言大模型,把原本独立的语音识别、LLM 理解生成、语音合成给直接编码到了一个模型里——


百度全新语音语言大模型发布!实时通话延迟卷至1秒,还公开了技术细节


这个端到端的语音语言大模型采用了 MoE 架构,是基于成熟的文心一言预训练模型冷启,采用自蒸馏、多模数据混合的方式 post-train 训练出来的。


这里非常关键的是,百度这里竟然用了 Cross-Attention 这个我本以为已经被历史遗忘的注意力机制。


通过它,巧妙的将大模型的 Encoder 与语音识别进行融合,然后将 Decoder 与语音合成进行融合,优雅的把文本和语音两个模态,整合进了一个模型中。


这样做的好处非常直接——从接收用户语音到吐出第一个字,只需要一次模型推理,直接把第一个 token 的延迟给打了下来。


看到这个模型结构图,我突然懂了为什么这个模型叫“端到端语音语言大模型”了。


同时,从上图可以看出,这里 Cross Attention 的效率,极大的决定了延迟高低。


1 秒延迟黑科技:EALLQA 技术改进 Cross-Attention 建模


贾磊老师在现场提到,现有的 Attention 技术,比如 DeepSeek 中使用的MLA(Multi-Head Latent Attention),用在 Cross-Attention 的时候,容易出现不稳定的情况。


于是,百度探索出了一个成为 EALLQA(Efficient All Query Attention,高效全查询注意力)的“黑科技”,也就是专门为 Cross-Attention 场景设计的全新 Attention 机制


百度全新语音语言大模型发布!实时通话延迟卷至1秒,还公开了技术细节


这个 EALLQA,可以总结成以下几点:


  1. 更合理的“位置编码”:创新的采用了“隐式 RNN 的两级位置编码”,让模型在处理语音这种时序信息流时,对前后位置关系的理解更稳、更准了,解决了之前容易不稳定的问题。
  2. 训练和推理“双管齐下”的效率:EALLQA 在训练时用的是 MHA(Multi-Head Attention,在 128 维度空间),这相对“节省资源”;而到了推理阶段,它又巧妙地切换到 MQA(Multi-Query Attention,在 512 维度空间,并且这个关键的 K 和 V 值是各层共享的)。这波操作,既保证了训练效果和效率,又极大降低了实际运行时的计算成本。
  3. KV Cache 瘦身:这是关键!大模型运算慢、成本高,很大一部分“锅”要甩给 KV Cache(键值缓存)。它就像是大模型处理信息时需要临时存放的“草稿”,数据量一大就特别占地方、拖慢速度。而 EALLQA 这个技术,根据贾磊老师的介绍,能把 KV Cache 降低几十倍。
  4. KV 计算量也锐减:不仅 Cache 小了,连计算量也少了。结合前面提到的语音识别与 LLM Encoder 的融合,KV 计算量也节省了 10 倍以上


EALLQA 加上 Encoder 的融合设计,直接把 Cross Attention 这个环节的计算量和缓存需求给打了下来。这对于降低延迟,尤其是让我们能在 1 秒左右听到文小言回应的第一个字,起到了决定性的作用。


可以说,EALLQA 就是百度这次为了攻克语音对话低延迟难题,专门打磨出的核心技术突破。


MoE+ 流式逐字处理:最高 90% 降本,L20 显卡高达数百并发


通过 EALLQA 技术,解决了“慢”的问题。与此同时,百度这波还巧妙的通过“流式逐字处理 +MoE 架构”来解决了实时语音对话“成本高”和“并发低”的问题,相比行业平均水平,成本能降低 50% ,甚至达到惊人的 90%。


百度全新语音语言大模型发布!实时通话延迟卷至1秒,还公开了技术细节


先说一下「流式逐字处理」的机制。


我们平时听别人说话,是不是一个字一个字听进去


的?我们并不需要等对方说完一整段话,才开始理解和反应。百度这个语音大模型就模拟了这一点。它不是先生成一整句完整的文本,再去合成语音;而是一边听 + 思考,一边一个字、一个词地往外“说”


正因为是“一个字一个字”地听和说,对于系统来说,同一时间处理一个用户的计算压力相对分散。这使得系统可以非常从容地同时服务大量用户(也就是高并发)。


而且,百度这里用了 MoE 架构,在处理语音时,可能每个用户(每个 token)只需要激活 5 亿或 10 亿参数的“专家小分队”。在高并发下,这个模型就能被极大地共享,成本自然就摊薄了。


根据百度 AI DAY 上公布的信息,这个模型可以部署在 L20 这样廉价的显卡上,并且在满足低延迟要求的同时,实现超过数百的并发处理能力。


这波操作,直接把实时语音大模型的使用门槛和成本极大的打下来了,让以前可能觉得“用不起”大模型的语音应用场景,一下子变得触手可及。


要我说,对于推动语音通话技术的普及来说,这些技术点的公开,要比发布新产品有更大的社会意义。


多达 17 种情感的超自然语音对话


光快、光便宜还不够,如果声音听起来像个没有感情的机器人,那再快也是没人用的。


还记得前面我们说的那个「端到端语音语言大模型」和「流式逐字处理」吗?它们不仅解决了延迟和成本问题,也恰恰是让声音更自然的关键。


前面提过,传统的语音助手通常是“三段式”:先识别成文字 (ASR),再让大模型思考文字 (LLM),最后把文字交给语音合成模块 (TTS) 念出来。这个过程中,TTS 模块往往只知道要念什么字,但对这句话背后的情感、上下文语境可能一无所知,念出来的声音自然就容易平淡、生硬。


但百度这次,是端到端的。


百度全新语音语言大模型发布!实时通话延迟卷至1秒,还公开了技术细节


端到端 + 流式逐字之后,便可以:


  1. 大模型直接“指挥”发声:大模型在思考生成回答内容的同时,就已经把“该用什么语气”、“哪里该停顿”、“这句话应该带有什么情感”这些信息一起考虑进去了。它不是简单地输出文字,而是直接输出带有丰富韵律和情感指令的“准语音信号”。
  2. 基于数据训练情感、韵律:通过在大规模的文本-语音数据上进行训练,端到端的模型可以很自然的学会人说话的各种腔调和情感。它可以根据对话的上下文,实时生成带有饱满情感自然停顿语调韵律的语音。从上面的技术图看,其设计了专门的机制(比如双层 GPT-like Transformer 和 Prompt )来控制这些,据称能覆盖多达 17 种情感


更新后的文小言,给我的感觉就是,它不是在“念”答案,更像是在用带有情绪和理解的语气和你“聊”。这让整个对话体验变得亲切、舒服了许多。


贾磊:不应该将技术创新捂在手里


一个语音模型,能同时做到超低延迟 + 超高并发 + 超低成本 + 效果提升,是一个相当难的事情,足以反映百度这个工作的含金量。


但,我想用我在专访时,被贾磊老师深深打动到的一个点,来结束本文。


我:


为何要把这个技术突破公开传播出去?


贾磊老师:


科学可能有国界,但没有公司边界。大家就应该积极去分享,推动这个学科的进步。我们拿出来,告诉你语音领域有重大突破,它有重大进展,你想想做大模型的人是不是就更关注语音领域的研究?语音领域高速发展,手机就会更智能,有利于整个行业和生态,你应该这样想这个问题,不应该将技术创新捂在手里,这不是做科研甚至技术进步的途径。


我们百度也是一直秉承开放、自由的学术理念,我们做百度 AI Day 就是把核心技术分享出去,告诉大家我们是怎么做的。就想要这个领域爆发出来,不单单百度语音人工智能发展起来,我希望腾讯、阿里、头条、华为都发展起来,整个行业都发展起来,大模型才能真正推动社会进步,做大模型的所有人才能够有好的发展,好的收益,我是这样一个理念,百度公司也跟我一样的理念。


文章来自于“夕小瑶科技说”,作者“夕小瑶编辑部”。


百度全新语音语言大模型发布!实时通话延迟卷至1秒,还公开了技术细节

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

2
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales