谷歌发布Gemini 3.5 Live Translate，干掉了「等你说完才翻译」！70+语言边听边译

12410点击 2026-06-11 15:27

Google 发布 Gemini 3.5 Live Translate，把实时同传从「等你说完再翻」推进到「边听边说」，70+语言、几秒延迟、语气保留。

一句话还没说完，译音已经响在你耳边——而且是对方的语速、对方的语调，只慢几秒。

刚刚，Google 甩出了 Gemini 3.5 Live Translate。

这是它最新的语音对语音翻译模型，一句话概括：把「等你说完再翻」的老规矩，直接掀了。

谷歌干掉了「等你说完才翻译」！70+语言边听边译

Google DeepMind 首席科学家 Jeff Dean 亲自发帖官宣，字里行间透着一股「二十年磨一剑」的底气：

语音翻译是 Google 跑得最久的机器学习项目之一，而这一次，它终于跑进了耳机。

谷歌干掉了「等你说完才翻译」！70+语言边听边译

把「对讲机」式翻译给掀了

过去的翻译机大家都熟。

你说一句，它憋着，等你把话说完，再吭哧吭哧翻给对方。

一来一回，节奏全断，俩人像在打对讲机。

更要命的是，真实对话从来不是规规矩矩的你一句我一句——人会抢话、会犹豫、会说半截改口。

Gemini 3.5 Live Translate 不这么干。它边听边译，话音未落，译音先到。

谷歌发布Gemini 3.5 Live Translate，干掉了「等你说完才翻译」！70+语言边听边译

这背后是一套相当微妙的平衡术：多等一会儿，上下文听得更全，翻得更准；立刻开口，能紧紧跟住说话人，但可能猜错后半句。

模型就在这两头之间逐字逐句地反复拿捏，最终交出的效果是——输出连贯、没有尴尬的卡顿，全程只落后说话人几秒。

更绝的是声音本身。

它能保留你的语速、音高和语调——译出来的不是冷冰冰的机器音，是带着你说话味儿的声音。你着急，译音也跟着急；你慢条斯理，译音也悠着来。

DeepMind 同步放出的模型卡透了点底：这个模型基于 Gemini 3 Pro 打造，能吃进最长 128K token 的音频上下文，评测就盯着三个指标死磕——翻译质量、延迟、语音自然度。

谷歌干掉了「等你说完才翻译」！70+语言边听边译

换句话说，Google 给它定的 KPI 不是「翻得对」，而是「聊得顺」。

它能一口气认 70 多种语言，而且全自动识别，你中途换种语言它也能跟上，不用手动设置。环境吵也不怕，菜市场、机场、马路边都能用。

开发者、企业、普通人，一个不落

这次 Google 玩得很狠，三条线同时铺开。

开发者，通过 Gemini Live API 和 Google AI Studio 公测，今天就能上手；
企业，本月起在 Google Meet 私测；
普通人，Google Translate 的安卓和 iOS 版全球上线——点开 App 左下角的「实时翻译」，接上任意一副耳机就能用。

谷歌干掉了「等你说完才翻译」！70+语言边听边译

最让打工人有感的是 Google Meet。以前它的语音翻译只支持 5 种语言，而且只能在英语和其他语言之间打转。

现在一口气干到 70+，单场会议能撑起 2000 多种语言组合——英语、普通话、瑞典语满桌子飞，谁说什么对方都能秒懂。

谷歌发布Gemini 3.5 Live Translate，干掉了「等你说完才翻译」！70+语言边听边译

安卓还藏了个细节：「聆听模式」。把手机像打电话一样贴到耳边，译音直接从听筒里钻进来，旁人听不到。

跟个西语导游团、临时没带耳机，掏出手机往耳边一贴就能救急。

每月一千万通电话

光说参数太虚，看个真实场景。

Google 找了东南亚的 Grab 来试。司机说本地话，乘客听到的是自己的母语，接驾常用的那几句「你在哪」、「我马上到」不再鸡同鸭讲。

要知道，Grab 用户每月要打超过 1000 万次语音电话——这不是发布会上的 Demo，是真要塞进千万次日常对话里跑的活儿。

谷歌发布Gemini 3.5 Live Translate，干掉了「等你说完才翻译」！70+语言边听边译

除了 Grab，CJ ENM、LiveKit 这些公司也提前上手试过，反馈都指向同一点：质量、准确度、低延迟。

开发者这边也省了大力气。

Agora、Fishjam、LiveKit 一票平台已经接入 Gemini Live API，把最难啃的实时媒体流基础设施全包圆了——采集、传输、回声消除这些脏活累活有人扛，开发者只管做体验。

视频配音、多语直播、跨语言客服、在线课堂，全是现成的落点。

二十年长跑，跑进耳机里

往回看一步，你会发现这事儿 Google 憋了很久。

20 年前，Google 翻译只是一个开创性的小实验，想把语言这门科学，变成人和人连接的魔法。

如今每个月，它要为数十亿用户翻译超过一万亿个单词。

从「把文字翻成文字」，到「拍张照翻菜单」，再到今天「把你说的话实时变成另一种语言的声音」，这条路走了整整二十年。

当然，话别说太满。

谷歌官方自己也标了限制：目前只吃音频输入；遇上重口音、快速来回切语言、好几个人抢着说、或者长时间停顿，声音复刻还可能不稳。

它不是终点，但是一个相当能打的起点。

方向已经很清楚了。同声传译曾经是顶尖译员才扛得下来的活儿，一小时几千块，还得提前一周备稿。

现在，它正变成耳机里一个默默运转的功能，随叫随到。

当语言不再是墙，剩下的，就只有人和人想不想聊了。

参考资料：

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-live-3-5-translate/

https://deepmind.google/models/model-cards/gemini-3-5-audio/

https://ai.google.dev/gemini-api/docs/live-api/live-translate

https://x.com/JeffDean/status/2064400689825288351

文章来自于"新智元"，作者 "所罗门"。

AI新闻 Gemini 3.5 Live Translate 谷歌AI AI翻译

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales