百度全新语音语言大模型发布！实时通话延迟卷至1秒，还公开了技术细节

7261点击 2025-04-02 10:35

大家好，我是小瑶，今天是你们的 AI 前排吃瓜 + 技术解读博主。

昨天人在百度科技园，参加了百度 AI DAY 活动，不仅吃到了「文小言」的一手大瓜，还非常荣幸的采访到了语音技术大牛——百度语音首席架构师贾磊老师！

在现场时，我感觉脑子 CPU 都要干烧了，给你们看一张现场 PPT——

技术大牛贾磊老师，现场硬核拆解语音大模型，更重要的是，拆的是这次文小言全新升级的语音语言大模型背后的核心技术。

这让我的技术基因止不住的躁动起来了，瞬间有一种参加 ICASSP 语音学术顶会的错觉。

先带你们一手感受下文小言最新的实时语音通话——

百度全新语音语言大模型发布！实时通话延迟卷至1秒，还公开了技术细节

从测试一开始，我就在无情的、疯狂的打断文小言的讲话，我试图让整个对话变得支离破碎，但在这个情况下，文小言都能在我插嘴 1 秒左右反应过来，流畅转变，聪明如人。不过，这要换成真人，被我这样打断，对方早就炸毛了。

要知道，市面上的语音通话产品，普遍 3~5 秒的反应延迟，文小言这反应速度 + 对话的顺畅程度，真的爽到我了。

而且实测下来，我发现更新后的文小言不止实时打断 + 反应速度非常牛逼，其在情感、方言、记忆、知识方面也都可圈可点。

但，今天这篇文章，我不准备写产品评测，大家可以升级「文小言 APP」到最新版后自行感受。

因为，这次百度 AI DAY 上，贾磊老师公开并深入拆解了这个惊艳的语音大模型背后的技术实现，这对于推动业界的语音技术进步，有非常重要的参考意义。

延迟：语音对话模型的第一技术命题

语音对话这个赛道，与文本对话相比有根本性的不同。

在文本对话的场景，用户对于等待回复的容忍度比较高。但，你跟一个人说话的时候，如果对方总是先卡顿个 3、5 秒才说话，你肯定心里不愿意再说了。

还有人类看东西，往往一目十行，但听东西，是一个字一个字的接收。

所以，看一家厂商的语音对话技术牛不牛，第一个要关注的指标，就是看对方多快吐出第一个字。

业界普遍能做到的水平是 3~5 秒，而能做到 1 秒左右的，一只手就能数得过来，包括这次百度发布的全新语音大模型。

百度全新语音语言大模型发布！实时通话延迟卷至1秒，还公开了技术细节

百度的端到端语音语言建模方案

对于语音对话来说，最简单的建模方案就是——

ASR： 先把你的语音识别成文字。
LLM： 把文字交给大语言模型去理解，生成回答的文字。
TTS： 再把回答的文字转换成语音播放出来。

这种工程化的模块级联方案，不仅会导致信息在传递中多级损耗，导致效果差，而且多环节积累起来的延迟、成本也会爆炸。市面上仍然有不少语音对话产品，走的是这种传统的技术方案。所以你能感受到的就是对方“又慢又笨”。

百度这里则是训出了一个端到端的语音语言大模型，把原本独立的语音识别、LLM 理解生成、语音合成给直接编码到了一个模型里——

百度全新语音语言大模型发布！实时通话延迟卷至1秒，还公开了技术细节

这个端到端的语音语言大模型采用了 MoE 架构，是基于成熟的文心一言预训练模型冷启，采用自蒸馏、多模数据混合的方式 post-train 训练出来的。

这里非常关键的是，百度这里竟然用了 Cross-Attention 这个我本以为已经被历史遗忘的注意力机制。

通过它，巧妙的将大模型的 Encoder 与语音识别进行融合，然后将 Decoder 与语音合成进行融合，优雅的把文本和语音两个模态，整合进了一个模型中。

这样做的好处非常直接——从接收用户语音到吐出第一个字，只需要一次模型推理，直接把第一个 token 的延迟给打了下来。

看到这个模型结构图，我突然懂了为什么这个模型叫“端到端语音语言大模型”了。

同时，从上图可以看出，这里 Cross Attention 的效率，极大的决定了延迟高低。

1 秒延迟黑科技：EALLQA 技术改进 Cross-Attention 建模

贾磊老师在现场提到，现有的 Attention 技术，比如 DeepSeek 中使用的MLA（Multi-Head Latent Attention），用在 Cross-Attention 的时候，容易出现不稳定的情况。

于是，百度探索出了一个成为 EALLQA（Efficient All Query Attention，高效全查询注意力）的“黑科技”，也就是专门为 Cross-Attention 场景设计的全新 Attention 机制。

百度全新语音语言大模型发布！实时通话延迟卷至1秒，还公开了技术细节

这个 EALLQA，可以总结成以下几点：

更合理的“位置编码”：创新的采用了“隐式 RNN 的两级位置编码”，让模型在处理语音这种时序信息流时，对前后位置关系的理解更稳、更准了，解决了之前容易不稳定的问题。
训练和推理“双管齐下”的效率：EALLQA 在训练时用的是 MHA（Multi-Head Attention，在 128 维度空间），这相对“节省资源”；而到了推理阶段，它又巧妙地切换到 MQA（Multi-Query Attention，在 512 维度空间，并且这个关键的 K 和 V 值是各层共享的）。这波操作，既保证了训练效果和效率，又极大降低了实际运行时的计算成本。
KV Cache 瘦身：这是关键！大模型运算慢、成本高，很大一部分“锅”要甩给 KV Cache（键值缓存）。它就像是大模型处理信息时需要临时存放的“草稿”，数据量一大就特别占地方、拖慢速度。而 EALLQA 这个技术，根据贾磊老师的介绍，能把 KV Cache 降低几十倍。
KV 计算量也锐减：不仅 Cache 小了，连计算量也少了。结合前面提到的语音识别与 LLM Encoder 的融合，KV 计算量也节省了 10 倍以上。

EALLQA 加上 Encoder 的融合设计，直接把 Cross Attention 这个环节的计算量和缓存需求给打了下来。这对于降低延迟，尤其是让我们能在 1 秒左右听到文小言回应的第一个字，起到了决定性的作用。

可以说，EALLQA 就是百度这次为了攻克语音对话低延迟难题，专门打磨出的核心技术突破。

MoE+ 流式逐字处理：最高 90% 降本，L20 显卡高达数百并发

通过 EALLQA 技术，解决了“慢”的问题。与此同时，百度这波还巧妙的通过“流式逐字处理 +MoE 架构”来解决了实时语音对话“成本高”和“并发低”的问题，相比行业平均水平，成本能降低 50% ，甚至达到惊人的 90%。

百度全新语音语言大模型发布！实时通话延迟卷至1秒，还公开了技术细节

先说一下「流式逐字处理」的机制。

我们平时听别人说话，是不是一个字一个字听进去

的？我们并不需要等对方说完一整段话，才开始理解和反应。百度这个语音大模型就模拟了这一点。它不是先生成一整句完整的文本，再去合成语音；而是一边听 + 思考，一边一个字、一个词地往外“说”。

正因为是“一个字一个字”地听和说，对于系统来说，同一时间处理一个用户的计算压力相对分散。这使得系统可以非常从容地同时服务大量用户（也就是高并发）。

而且，百度这里用了 MoE 架构，在处理语音时，可能每个用户（每个 token）只需要激活 5 亿或 10 亿参数的“专家小分队”。在高并发下，这个模型就能被极大地共享，成本自然就摊薄了。

根据百度 AI DAY 上公布的信息，这个模型可以部署在 L20 这样廉价的显卡上，并且在满足低延迟要求的同时，实现超过数百的并发处理能力。

这波操作，直接把实时语音大模型的使用门槛和成本极大的打下来了，让以前可能觉得“用不起”大模型的语音应用场景，一下子变得触手可及。

要我说，对于推动语音通话技术的普及来说，这些技术点的公开，要比发布新产品有更大的社会意义。

多达 17 种情感的超自然语音对话

光快、光便宜还不够，如果声音听起来像个没有感情的机器人，那再快也是没人用的。

还记得前面我们说的那个「端到端语音语言大模型」和「流式逐字处理」吗？它们不仅解决了延迟和成本问题，也恰恰是让声音更自然的关键。

前面提过，传统的语音助手通常是“三段式”：先识别成文字 (ASR)，再让大模型思考文字 (LLM)，最后把文字交给语音合成模块 (TTS) 念出来。这个过程中，TTS 模块往往只知道要念什么字，但对这句话背后的情感、上下文语境可能一无所知，念出来的声音自然就容易平淡、生硬。

但百度这次，是端到端的。

百度全新语音语言大模型发布！实时通话延迟卷至1秒，还公开了技术细节

端到端 + 流式逐字之后，便可以：

大模型直接“指挥”发声：大模型在思考生成回答内容的同时，就已经把“该用什么语气”、“哪里该停顿”、“这句话应该带有什么情感”这些信息一起考虑进去了。它不是简单地输出文字，而是直接输出带有丰富韵律和情感指令的“准语音信号”。
基于数据训练情感、韵律：通过在大规模的文本-语音数据上进行训练，端到端的模型可以很自然的学会人说话的各种腔调和情感。它可以根据对话的上下文，实时生成带有饱满情感、自然停顿和语调韵律的语音。从上面的技术图看，其设计了专门的机制（比如双层 GPT-like Transformer 和 Prompt ）来控制这些，据称能覆盖多达 17 种情感。

更新后的文小言，给我的感觉就是，它不是在“念”答案，更像是在用带有情绪和理解的语气和你“聊”。这让整个对话体验变得亲切、舒服了许多。

贾磊：不应该将技术创新捂在手里

一个语音模型，能同时做到超低延迟 + 超高并发 + 超低成本 + 效果提升，是一个相当难的事情，足以反映百度这个工作的含金量。

但，我想用我在专访时，被贾磊老师深深打动到的一个点，来结束本文。

我：

为何要把这个技术突破公开传播出去？

贾磊老师：

科学可能有国界，但没有公司边界。大家就应该积极去分享，推动这个学科的进步。我们拿出来，告诉你语音领域有重大突破，它有重大进展，你想想做大模型的人是不是就更关注语音领域的研究？语音领域高速发展，手机就会更智能，有利于整个行业和生态，你应该这样想这个问题，不应该将技术创新捂在手里，这不是做科研甚至技术进步的途径。

我们百度也是一直秉承开放、自由的学术理念，我们做百度 AI Day 就是把核心技术分享出去，告诉大家我们是怎么做的。就想要这个领域爆发出来，不单单百度语音人工智能发展起来，我希望腾讯、阿里、头条、华为都发展起来，整个行业都发展起来，大模型才能真正推动社会进步，做大模型的所有人才能够有好的发展，好的收益，我是这样一个理念，百度公司也跟我一样的理念。

文章来自于“夕小瑶科技说”，作者“夕小瑶编辑部”。

百度全新语音语言大模型发布！实时通话延迟卷至1秒，还公开了技术细节

关键词: AI新闻 , 百度语音大模型 , 文小言 , TTS

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales