谷歌发布Gemini 3.5实时语音互译模型

谷歌于近日正式发布了最新的实时语音互译音频模型Gemini 3.5 Live Translate，标志着实时翻译技术迈出了重要一步。该模型能够自动识别70多种语言，并生成流畅、自然的翻译语音，同时保留说话者原有的语调、语速和音高，极大提升了跨语言交流的真实感与自然度。

与传统的轮流式翻译系统不同，Gemini 3.5 Live Translate采用连续生成语音的方式，在“等待更多上下文以提升翻译质量”与“即时翻译以跟上说话者节奏”之间取得了巧妙平衡。整个会话过程中，翻译音频能够保持流畅，避免尴尬的停顿，始终只比原始说话者慢几秒，从而让对话更加连贯。

目前，Gemini 3.5 Live Translate已陆续登陆谷歌旗下多款产品。开发者可以通过Gemini Live API和Google AI Studio使用公开预览版，企业客户可从本月起在Google Meet中体验私有预览版。普通用户则可通过Android和iOS版谷歌翻译应用直接使用这一功能。用户只需连接任意耳机，即可在70多种语言中获得更顺畅的翻译体验，且译文语音更接近说话者的语气。

此外，Android用户还将陆续获得基于Gemini 3.5 Live Translate的全新“聆听模式”。该模式允许用户像接电话一样将手机贴到耳边，直接通过手机听筒收听翻译音频，在没有耳机又不希望旁人听见翻译内容时尤为方便。模型还具备强大的抗噪能力，能够适应嘈杂、复杂和不可预测的环境，自动处理多语言输入，无需手动调整设置。

开发者可以将Gemini 3.5 Live Translate应用于多语言通话、会议、课程、直播和广播等多种场景，提供实时口译体验。这一技术突破不仅提升了翻译的实时性和自然度，也为跨语言沟通开辟了更广阔的应用前景。