【新智元导读】Google 发布 Gemini 3.5 Live Translate,把实时同传从「等你说完再翻」推进到「边听边说」,70+语言、几秒延迟、语气保留。
一句话还没说完,译音已经响在你耳边——而且是对方的语速、对方的语调,只慢几秒。
刚刚,Google 甩出了 Gemini 3.5 Live Translate。
这是它最新的语音对语音翻译模型,一句话概括:把「等你说完再翻」的老规矩,直接掀了。
Google DeepMind 首席科学家 Jeff Dean 亲自发帖官宣,字里行间透着一股「二十年磨一剑」的底气:
语音翻译是 Google 跑得最久的机器学习项目之一,而这一次,它终于跑进了耳机。
你说一句,它憋着,等你把话说完,再吭哧吭哧翻给对方。
更要命的是,真实对话从来不是规规矩矩的你一句我一句——人会抢话、会犹豫、会说半截改口。
Gemini 3.5 Live Translate 不这么干。它边听边译,话音未落,译音先到。
这背后是一套相当微妙的平衡术:多等一会儿,上下文听得更全,翻得更准;立刻开口,能紧紧跟住说话人,但可能猜错后半句。
模型就在这两头之间逐字逐句地反复拿捏,最终交出的效果是——输出连贯、没有尴尬的卡顿,全程只落后说话人几秒。
它能保留你的语速、音高和语调——译出来的不是冷冰冰的机器音,是带着你说话味儿的声音。你着急,译音也跟着急;你慢条斯理,译音也悠着来。
DeepMind 同步放出的模型卡透了点底:这个模型基于 Gemini 3 Pro 打造,能吃进最长 128K token 的音频上下文,评测就盯着三个指标死磕——翻译质量、延迟、语音自然度。
换句话说,Google 给它定的 KPI 不是「翻得对」,而是「聊得顺」。
它能一口气认 70 多种语言,而且全自动识别,你中途换种语言它也能跟上,不用手动设置。环境吵也不怕,菜市场、机场、马路边都能用。
这次 Google 玩得很狠,三条线同时铺开。
开发者,通过 Gemini Live API 和 Google AI Studio 公测,今天就能上手;
企业,本月起在 Google Meet 私测;
普通人,Google Translate 的安卓和 iOS 版全球上线——点开 App 左下角的「实时翻译」,接上任意一副耳机就能用。
最让打工人有感的是 Google Meet。以前它的语音翻译只支持 5 种语言,而且只能在英语和其他语言之间打转。
现在一口气干到 70+,单场会议能撑起 2000 多种语言组合——英语、普通话、瑞典语满桌子飞,谁说什么对方都能秒懂。
安卓还藏了个细节:「聆听模式」。把手机像打电话一样贴到耳边,译音直接从听筒里钻进来,旁人听不到。
跟个西语导游团、临时没带耳机,掏出手机往耳边一贴就能救急。
Google 找了东南亚的 Grab 来试。司机说本地话,乘客听到的是自己的母语,接驾常用的那几句「你在哪」、「我马上到」不再鸡同鸭讲。
要知道,Grab 用户每月要打超过 1000 万次语音电话——这不是发布会上的 Demo,是真要塞进千万次日常对话里跑的活儿。
除了 Grab,CJ ENM、LiveKit 这些公司也提前上手试过,反馈都指向同一点:质量、准确度、低延迟。
Agora、Fishjam、LiveKit 一票平台已经接入 Gemini Live API,把最难啃的实时媒体流基础设施全包圆了——采集、传输、回声消除这些脏活累活有人扛,开发者只管做体验。
视频配音、多语直播、跨语言客服、在线课堂,全是现成的落点。
往回看一步,你会发现这事儿 Google 憋了很久。
20 年前,Google 翻译只是一个开创性的小实验,想把语言这门科学,变成人和人连接的魔法。
如今每个月,它要为数十亿用户翻译超过一万亿个单词。
从「把文字翻成文字」,到「拍张照翻菜单」,再到今天「把你说的话实时变成另一种语言的声音」,这条路走了整整二十年。
谷歌官方自己也标了限制:目前只吃音频输入;遇上重口音、快速来回切语言、好几个人抢着说、或者长时间停顿,声音复刻还可能不稳。
方向已经很清楚了。同声传译曾经是顶尖译员才扛得下来的活儿,一小时几千块,还得提前一周备稿。
现在,它正变成耳机里一个默默运转的功能,随叫随到。
当语言不再是墙,剩下的,就只有人和人想不想聊了。
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-live-3-5-translate/
https://deepmind.google/models/model-cards/gemini-3-5-audio/
https://ai.google.dev/gemini-api/docs/live-api/live-translate
https://x.com/JeffDean/status/2064400689825288351
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.
量子位 2026-06-11 10:28:55
新智元 2026-06-09 14:22:18
量子位 2026-06-09 14:25:37
智东西 2026-06-11 11:39:01
华尔街见闻官方 2026-06-11 03:40:24
量子位 2026-06-11 12:10:57
93913虚拟现实 2026-06-11 10:37:53
摸鱼算法 2026-06-11 00:42:15
钛媒体APP 2026-06-10 10:25:34
晚风也遗憾 2026-06-10 02:43:14
顶峰相见剧场 2026-06-10 08:27:06
量子位 2026-06-11 09:07:12
机器之心Pro 2026-04-29 17:20:04
界面新闻 2026-06-09 21:30:35
NOWNESS现在 2026-06-09 21:33:25
姜武 2026-06-07 03:33:04
氧气周末 2026-06-10 14:13:51
南阳日报 2026-06-10 14:25:49
机器之心Pro 2026-03-31 11:09:26
新智元 2026-06-10 16:05:48
车马点兵V 2026-06-10 15:25:17
Ping值焦虑 2026-06-11 02:15:03
界面新闻 2026-06-10 20:38:30
智东西 2026-06-11 11:17:43
虎嗅APP 2026-06-11 00:48:30
beebee 2026-06-11 11:00:27
我是一个养虾人 2026-06-11 04:21:15
爱范儿 2026-04-02 21:57:11
CG说科技 2026-06-11 11:13:45
野生运营 2026-06-11 01:33:58
爱范儿 2026-06-11 08:47:25
丙子看剧 2026-06-09 16:35:55
小幸运追影 2026-06-11 09:38:12
晚风也遗憾 2026-06-11 00:15:49
驾驭信息纵横科技 2026-06-11 11:16:09
新京报 2026-06-10 11:58:08
智东西 2026-06-11 11:47:49
都市快报橙柿互动 2026-06-10 11:01:41
香蕉唠生活 2026-06-11 01:31:46
驾驭信息纵横科技 2026-06-11 11:19:04
时评
深度阅读
谷歌干掉了「等你说完才翻译」!70+语言边听边译,彻底改变实时翻译体验
丁淑辉
主笔 · 资深编辑
2026-06-12 13:19:14
编辑:丁淑辉
标签:
丁淑辉
本文由 辽源市西安区教育局 审核发布