谷歌发布Gemini 3.5 Live Translate,干掉了「等你说完才翻译」!70+语言边听边译

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
谷歌发布Gemini 3.5 Live Translate,干掉了「等你说完才翻译」!70+语言边听边译
8334点击    2026-06-11 15:27

Google 发布 Gemini 3.5 Live Translate,把实时同传从「等你说完再翻」推进到「边听边说」,70+语言、几秒延迟、语气保留。


一句话还没说完,译音已经响在你耳边——而且是对方的语速、对方的语调,只慢几秒。


刚刚,Google 甩出了 Gemini 3.5 Live Translate。


这是它最新的语音对语音翻译模型,一句话概括:把「等你说完再翻」的老规矩,直接掀了。


谷歌干掉了「等你说完才翻译」!70+语言边听边译


Google DeepMind 首席科学家 Jeff Dean 亲自发帖官宣,字里行间透着一股「二十年磨一剑」的底气:


语音翻译是 Google 跑得最久的机器学习项目之一,而这一次,它终于跑进了耳机。


谷歌干掉了「等你说完才翻译」!70+语言边听边译


把「对讲机」式翻译给掀了


过去的翻译机大家都熟。


你说一句,它憋着,等你把话说完,再吭哧吭哧翻给对方。


一来一回,节奏全断,俩人像在打对讲机。


更要命的是,真实对话从来不是规规矩矩的你一句我一句——人会抢话、会犹豫、会说半截改口。


Gemini 3.5 Live Translate 不这么干。它边听边译,话音未落,译音先到。


谷歌发布Gemini 3.5 Live Translate,干掉了「等你说完才翻译」!70+语言边听边译


这背后是一套相当微妙的平衡术:多等一会儿,上下文听得更全,翻得更准;立刻开口,能紧紧跟住说话人,但可能猜错后半句。


模型就在这两头之间逐字逐句地反复拿捏,最终交出的效果是——输出连贯、没有尴尬的卡顿,全程只落后说话人几秒。


更绝的是声音本身。


它能保留你的语速、音高和语调——译出来的不是冷冰冰的机器音,是带着你说话味儿的声音。你着急,译音也跟着急;你慢条斯理,译音也悠着来。


DeepMind 同步放出的模型卡透了点底:这个模型基于 Gemini 3 Pro 打造,能吃进最长 128K token 的音频上下文,评测就盯着三个指标死磕——翻译质量、延迟、语音自然度。


谷歌干掉了「等你说完才翻译」!70+语言边听边译


换句话说,Google 给它定的 KPI 不是「翻得对」,而是「聊得顺」。


它能一口气认 70 多种语言,而且全自动识别,你中途换种语言它也能跟上,不用手动设置。环境吵也不怕,菜市场、机场、马路边都能用。


开发者、企业、普通人,一个不落


这次 Google 玩得很狠,三条线同时铺开。


  • 开发者,通过 Gemini Live API 和 Google AI Studio 公测,今天就能上手;
  • 企业,本月起在 Google Meet 私测;
  • 普通人,Google Translate 的安卓和 iOS 版全球上线——点开 App 左下角的「实时翻译」,接上任意一副耳机就能用。


谷歌干掉了「等你说完才翻译」!70+语言边听边译


最让打工人有感的是 Google Meet。以前它的语音翻译只支持 5 种语言,而且只能在英语和其他语言之间打转。


现在一口气干到 70+,单场会议能撑起 2000 多种语言组合——英语、普通话、瑞典语满桌子飞,谁说什么对方都能秒懂。


谷歌发布Gemini 3.5 Live Translate,干掉了「等你说完才翻译」!70+语言边听边译


安卓还藏了个细节:「聆听模式」。把手机像打电话一样贴到耳边,译音直接从听筒里钻进来,旁人听不到。


跟个西语导游团、临时没带耳机,掏出手机往耳边一贴就能救急。


每月一千万通电话


光说参数太虚,看个真实场景。


Google 找了东南亚的 Grab 来试。司机说本地话,乘客听到的是自己的母语,接驾常用的那几句「你在哪」、「我马上到」不再鸡同鸭讲。


要知道,Grab 用户每月要打超过 1000 万次语音电话——这不是发布会上的 Demo,是真要塞进千万次日常对话里跑的活儿。


谷歌发布Gemini 3.5 Live Translate,干掉了「等你说完才翻译」!70+语言边听边译


除了 Grab,CJ ENM、LiveKit 这些公司也提前上手试过,反馈都指向同一点:质量、准确度、低延迟。


开发者这边也省了大力气。


Agora、Fishjam、LiveKit 一票平台已经接入 Gemini Live API,把最难啃的实时媒体流基础设施全包圆了——采集、传输、回声消除这些脏活累活有人扛,开发者只管做体验。


视频配音、多语直播、跨语言客服、在线课堂,全是现成的落点。


二十年长跑,跑进耳机里


往回看一步,你会发现这事儿 Google 憋了很久。


20 年前,Google 翻译只是一个开创性的小实验,想把语言这门科学,变成人和人连接的魔法。


如今每个月,它要为数十亿用户翻译超过一万亿个单词。


从「把文字翻成文字」,到「拍张照翻菜单」,再到今天「把你说的话实时变成另一种语言的声音」,这条路走了整整二十年。


当然,话别说太满。


谷歌官方自己也标了限制:目前只吃音频输入;遇上重口音、快速来回切语言、好几个人抢着说、或者长时间停顿,声音复刻还可能不稳。


它不是终点,但是一个相当能打的起点。


方向已经很清楚了。同声传译曾经是顶尖译员才扛得下来的活儿,一小时几千块,还得提前一周备稿。


现在,它正变成耳机里一个默默运转的功能,随叫随到。


当语言不再是墙,剩下的,就只有人和人想不想聊了。


参考资料:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-live-3-5-translate/

https://deepmind.google/models/model-cards/gemini-3-5-audio/

https://ai.google.dev/gemini-api/docs/live-api/live-translate

https://x.com/JeffDean/status/2064400689825288351


文章来自于"新智元",作者 "所罗门"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales