完爆ChatGPT！谷歌这招太狠：连你的「阴阳怪气」都能神还原

10338点击 2025-12-15 11:36

谷歌发布Gemini 2.5 Flash原生音频模型，不仅能保留语调进行实时语音翻译，更让AI在复杂指令和连续对话中像真人一样自然流畅。这一更新标志着AI从简单的「文本转语音」跨越到了真正的「拟人化交互」时代。

想象这样一个场景：

你戴着耳机走在印度孟买喧闹的街头，周围是嘈杂的叫卖声和完全听不懂的印地语。

此时，一位当地大叔急匆匆地用印地语向你询问路线，他的语速很快，语气焦急。

若是以前，你可能得手忙脚乱地掏出手机，打开翻译App，按下按钮，尴尬地把手机递到他嘴边，然后听着手机里传出毫无感情的「机翻」电子音。

完爆ChatGPT！谷歌这招太狠：连你的「阴阳怪气」都能神还原

Nano Banana Pro制图

但现在，一切都变了。

你站在原地不动，耳机里直接传来了流利的中文：「嘿！朋友，麻烦问一下，火车站是不是往这边走？」

最绝的是，这句中文不仅意思准确，甚至连大叔那种焦急、气喘吁吁的语调都完美复刻了！

你用中文回答，耳机自动把你的声音转化成印地语传给对方，甚至保留了你热情的语调。

这不仅是科幻电影里的《巴别塔》重现，这是谷歌本周刚刚扔下的重磅「核弹」——Gemini 2.5 Flash Native Audio（原生音频模型）。

完爆ChatGPT！谷歌这招太狠：连你的「阴阳怪气」都能神还原

今天，我们就来扒一扒这次更新到底有多强。

所谓的「原生音频」，到底强在哪？

很多人可能会问：「现在的手机不都有朗读功能吗？这有啥稀奇的？」

这里有个巨大的误区。

以前的AI语音交互，流程是这样的：听到声音 -> 转成文字 -> AI思考文字 -> 生成文字回复 -> 转化成语音读出来。

这个过程不仅慢，而且在「转来转去」的过程中，语气、停顿、情感这些人类沟通中最微妙的东西，全都丢了。

完爆ChatGPT！谷歌这招太狠：连你的「阴阳怪气」都能神还原

而谷歌这次发布的Gemini 2.5 Flash Native Audio，核心就在「Native（原生）」这两个字。

它不需要把声音转成文字再转回来，它是直接听、直接想、直接说。

完爆ChatGPT！谷歌这招太狠：连你的「阴阳怪气」都能神还原

举个栗子，这就好比你和一个老外聊天，以前你需要脑子里疯狂查字典，现在你已经形成了「语感」，脱口而出。

这次更新，谷歌不仅升级了Gemini 2.5 Pro和Flash的文本转语音模型，带来了更强的控制力。

更重要的是，它让实时语音代理（Live Voice Agents）成真了。

完爆ChatGPT！谷歌这招太狠：连你的「阴阳怪气」都能神还原

这意味着什么？

意味着在Google AI Studio、Vertex AI，甚至是搜索（Search Live）里，你不再是和一个冷冰冰的机器对话，而是在和一个有「脑子」、有「耳朵」的智能体进行实时头脑风暴。

耳机里的「同声传译」

打破语言的巴别塔

这次更新中，最让普通用户感到兴奋的，绝对是实时语音翻译（Live Speech Translation）功能。

谷歌这次没有画饼，功能已经开始在美国、墨西哥和印度的安卓设备上，通过Google翻译App进行Beta测试了（iOS用户稍安勿躁，马上就来）。

这个功能有两个杀手锏，直击痛点：

持续监听与双向对话：真正的「无感」翻译

以前用翻译软件，最烦的就是要不停地点「说话」按钮。

现在，Gemini支持持续监听。

你可以把手机揣兜里，戴上耳机，Gemini会自动把你周围听到的多种语言，实时翻译成你的母语。

这就相当于随身带了个隐形翻译官。

而在双向对话模式下，它更聪明。

比如你会说英语，想和一个说印地语的人聊天。

Gemini能自动识别是谁在说话。

你在耳机里听到的是英语，而当你开口说完话，手机会自动外放印地语给对方听。

你不需要去设置「现在我说」、「现在他说」，系统全自动切换。

风格迁移：连「情绪」都能翻译

这是最让我起鸡皮疙瘩的功能——Style Transfer（风格迁移）。

传统的翻译是「莫得感情」的朗读机器。

但Gemini利用其原生音频能力，能捕捉人类语言的细微差别。

完爆ChatGPT！谷歌这招太狠：连你的「阴阳怪气」都能神还原

如果对方说话时语调上扬、节奏轻快，翻译出来的声音也会是欢快的；

如果对方语气低沉、犹豫，翻译出来的声音也会带着迟疑。

它保留了说话者的语调、节奏和音高。

这不仅仅是听懂意思，这是听懂态度。

完爆ChatGPT！谷歌这招太狠：连你的「阴阳怪气」都能神还原

在商务谈判或者吵架的时候，这个功能简直太重要了！

此外，它还支持：

70多种语言和2000多个语言对：覆盖了全球绝大多数人的母语。
多语言混输：即使在一场对话中混杂着几种不同的语言，它也能同时理解，不用你手动切来切去。
噪声鲁棒性：专门针对嘈杂环境优化，过滤背景音。哪怕你在嘈杂的户外市场，也能听得清清楚楚。

开发者狂喜

这个AI终于「听懂人话」了

如果你是开发者，或者想为企业构建客服AI，这次Gemini 2.5 Flash Native Audio带来的三个底层能力提升，绝对是「及时雨」。

完爆ChatGPT！谷歌这招太狠：连你的「阴阳怪气」都能神还原

函数调用更精准

以前的语音助手，一旦涉及到查天气、查航班这种需要调用外部数据的操作，很容易卡壳或者回答得很生硬。

现在的Gemini 2.5，知道何时该去获取实时信息，并且能把查到的数据无缝地编织进语音回复里，不会打断对话的流畅感。

在专门测试复杂多步骤函数调用的ComplexFuncBench Audio评测中，Gemini 2.5拿下了71.5%的高分，遥遥领先。

完爆ChatGPT！谷歌这招太狠：连你的「阴阳怪气」都能神还原

更新后的 Gemini 2.5 Flash Native Audio 在 ComplexFuncBench 上与之前版本及行业竞争对手的性能对比

这意味着，它能真正充当一个靠谱的「办事员」，而不是一个只会陪聊的「傻白甜」。

指令遵循更听话

你是不是经常觉得AI听不懂复杂的指令？

谷歌这次下了狠功夫。

新模型对开发者指令的遵循率从84%提升到了90%！

这意味着，如果你要求AI「用这种特定的格式回答，语气要严厉一点，不要废话」，它能更精准地执行你的要求。

对于构建企业级服务来说，这种可靠性才是核心竞争力。

对话更丝滑

多轮对话是AI的老大难问题。

聊着聊着，AI就忘了前面说过啥。

Gemini 2.5在检索上下文方面取得了显著进步。

它能更有效地记住之前的对话内容，让整个交流过程不仅连贯，而且具有逻辑性。

配合上原生音频的低延迟，你会感觉对面真的像坐了一个人。

我们离「贾维斯」还有多远？

谷歌这次的更新，其实是在传递一个明确的信号：

语音交互正在成为下一个时代的入口。

完爆ChatGPT！谷歌这招太狠：连你的「阴阳怪气」都能神还原

从Gemini Live到Search Live，再到耳机里的实时翻译，谷歌正在把AI从屏幕里解放出来，塞进我们的耳朵里。

对于普通用户：语言的障碍正在被技术铲平。

明年（2026年），这一功能将通过Gemini API扩展到更多产品中。

未来，也许我们真的不再需要花费数年时间痛苦地背单词，一个耳机就能让我们走遍天下。

对于企业：构建一个能听、能说、能办事、有情绪的下一代AI客服，门槛正在大幅降低。

彩蛋

除了原生音频模型外，谷歌还丢出个核弹级实验产品——Disco。

它是来自Google Labs的新发现工具，用于测试未来网络的想法。

它内置了基于谷歌最强模型Gemini 3打造的神器GenTabs。

完爆ChatGPT！谷歌这招太狠：连你的「阴阳怪气」都能神还原

谷歌直言，目前还处于早期阶段，并非所有功能都能完美运行。

最牛的地方在于，它能看懂你的需求。

GenTabs通过主动理解复杂任务（通过用户打开的标签页和聊天记录）并创建交互式网络应用程序来帮助完成任务，从而帮助浏览网络。

不用写一行代码，它直接把你乱七八糟的标签页和聊天记录，「变」成一个专属的交互式App。

完爆ChatGPT！谷歌这招太狠：连你的「阴阳怪气」都能神还原

想做周餐计划？想教孩子认识行星？

完爆ChatGPT！谷歌这招太狠：连你的「阴阳怪气」都能神还原

跟它说人话就行，它自动给你生成工具，所有数据都有据可查，绝不瞎编。

目前macOS版已经开放排队了，虽然还是早期实验版，但这绝对是把「浏览」变成了「创造」。

赶紧冲，这波未来感拉满了！

One More Thing

技术进步的速度往往超乎我们的想象。

昨天我们还在嘲笑Siri听不懂人话，今天Gemini已经开始帮我们进行跨语言的情感交流了。

别光看着，Gemini 2.5 Flash Native Audio现在已经在Vertex AI上全面推出，Google AI Studio里也能试用了。

赶紧去体验一下吧！

或许在听到AI用你的语气说出第一句外语时，你会真切地感受到——未来已来。

参考资料：

https://deepmind.google/blog/

https://x.com/GoogleAI/status/1999560839679082507?s=20

https://blog.google/technology/google-labs/gentabs-gemini-3/

文章来自于“新智元”，作者 “YHluck”。

关键词: AI新闻 , AI语音 , Gemini 2.5 Flash Native Audio , Gemini Audio

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales