想象这样一个场景:同一个 AI 模型,用文字交流时对答如流,一旦开口说话就变得磕磕巴巴、答非所问。这不是假设中的场景,而是当下语音交互系统的真实写照。
杜克大学和 Adobe 最近发布的 VERA 研究,首次系统性地测量了语音模态对推理能力的影响。研究覆盖 12 个主流语音系统,使用了 2,931 道专门设计的测试题。
核心发现令人意外,最触目惊心的对比来自 OpenAI 的 GPT 家族:
相差 68.7 个百分点,几乎是「学霸」和「学渣」的差距。
这不是个例。研究团队测试了 12 个主流语音系统——从 OpenAI 的 GPT-realtime 到谷歌的 Gemini-native-audio,从亚马逊的 Nova Sonic 到阿里巴巴的 Qwen 音频模型——无一例外,全部在推理任务上「翻车」。
延迟与准确率的关系图。追求 1.5 秒内响应的系统,准确率都在 10% 左右徘徊。
为了公平对比,研究团队精心设计了一套前所未有的评测体系。他们从五个维度考察语音系统的推理能力:
这些题目来自美国数学邀请赛,原本是为顶尖高中生设计的。比如:「有两个二次多项式 P 和 Q,P 的最高次项系数是 2,Q 的是负 2,它们都经过点(16,54)和(20,53),求 P(0) 加 Q(0) 的值。」 文本模型游刃有余,语音模型几乎全军覆没。
需要整合多个信息源才能回答的问题(取材自 BrowseComp 数据集)。「有位非洲作家在车祸中去世,他小时候想当警察,2018 年起在私立大学任教直到去世。他在哪些年份做过缓刑官?」 这类题目考验的是网络搜索能力和多跳推理能力——同样也是语音系统薄弱的环节。
来自 GPQA Diamond 数据集,连博士生都觉得有挑战性。涉及量子力学、有机化学、分子生物学等深度专业知识。
测试系统能否记住之前对话的内容(由 MRCR 数据集改编)。「你能把之前写的第二篇关于灯光的新闻给我看看吗?」看似简单,却难倒了大部分语音系统。
最简单的知识问答(源于 Simple QA 数据集),如「2010 年 IEEE Frank Rosenblatt 奖得主是谁?」用来验证系统的基础能力。
五类测试题示例。每道题都经过精心改写,确保能自然说出。
VERA 的独特之处在于其严格的语音改写流程。研究团队没有简单地让 TTS 读出原始题目,而是进行了系统性的「语音原生化」改造:
这个过程由四个步骤组成:语音适配性筛选 → TTS 感知改写 → 质量验证 → 语音生成。最终,从约 22,000 道原始题目中精选出 2,931 道高质量测试题。
核心结果对比表。展示各模型在不同任务上的表现差异。
研究指出了一个根本性的架构冲突:
文本生成像写草稿:思考 → 打草稿 → 修改 → 输出终稿
语音生成像现场直播:边想边说 → 说出去收不回 → 硬着头皮继续
这种「不可逆的流式承诺」导致语音系统倾向于选择安全但肤浅的回答路径。它们宁可流畅地说出错误答案,也不愿停下来深入思考。
当系统需要同时处理「想什么」和「怎么说」时,认知资源被迫分散。研究发现,即使给语音模型更多「思考时间」(如 Audio Flamingo 3 的 thinking 模式,将响应时间从 2.4 秒延长到 15.1 秒),准确率不升反降(从 1.7% 降到 1.5%)。
这说明问题不在于时间,而在于架构本身的局限性。
错误模式热力图。不同系统展现出独特的「失败指纹」。
研究团队分析了 16 种错误类型,发现不同架构有着截然不同的失败模式:
这项研究最令人震惊的发现是问题的普遍性。无论是商业巨头还是开源项目,无论是端到端训练还是模块化设计,所有语音系统都表现出相似的「智商下降」。
宏观数据令人深思:
更糟糕的是,这个差距在需要深度推理的任务上进一步扩大。在数学推理任务上,最好的文本模型(GPT-5)达到 74.8%,而最好的语音系统也只有 6.1%。
不同模型家族的性能对比。雷达图清晰展示了文本与语音的巨大鸿沟。
研究团队还搭建了一个简易的 LiveAnswer 系统进行实验:让 GPT-5 在后台负责推理,前台用快速模型(由 Groq 优化的 Llama-3 模型)实时解释,再接上文字转语音系统生成语音。结果数学准确率提升到 59.1%,但仍比纯文本低 15.7%。更要命的是,在需要精确匹配的长对话记忆任务上完全失效(0.2%)。
这证明了一个残酷的事实:问题不是工程优化能解决的,而是架构层面的根本矛盾。
研究团队提出了几个可能的方向:
VERA 的发布不仅揭示了当前技术的局限性,更重要的是提供了一个标准化的评测框架,让整个行业可以量化地追踪进展。这项研究传递的信息很明确:真正智能的语音助手不是把文本模型接上 TTS 那么简单。
它需要从根本上重新思考如何在实时对话的约束下进行深度推理。研究者们乐观地指出,识别问题是解决问题的第一步。现在我们知道了差距有多大(42.7 个百分点),知道了问题出在哪里(架构而非工程),接下来就是寻找突破的时候了。
下次当 Siri 或小爱同学答非所问时,不妨多一份理解。这不是它们「笨」,而是整个行业都在面对的技术挑战。
从「会说话的搜索框」到「能推理的智能助手」,我们还有很长的路要走。
但至少现在,我们有了一把标尺(VERA benchmark)来衡量进步。每一个百分点的提升,都意味着语音交互向真正的智能更近了一步。
或许有一天,当语音助手能够流畅地解决数学竞赛题时,钢铁侠的贾维斯就不再是幻想了。
文章来自于微信公众号“机器之心”。
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales