谷歌发布Gemini 3.5实时语音互译模型
「谷歌推出Gemini 3.5 Live Translate,支持70余种语言实时语音互译,保留说话者语调,已在谷歌翻译等产品中上线。」
谷歌于近日正式发布了最新的实时语音互译音频模型Gemini 3.5 Live Translate,标志着实时翻译技术迈出了重要一步。该模型能够自动识别70多种语言,并生成流畅、自然的翻译语音,同时保留说话者原有的语调、语速和音高,极大提升了跨语言交流的真实感与自然度。
与传统的轮流式翻译系统不同,Gemini 3.5 Live Translate采用连续生成语音的方式,在“等待更多上下文以提升翻译质量”与“即时翻译以跟上说话者节奏”之间取得了巧妙平衡。整个会话过程中,翻译音频能够保持流畅,避免尴尬的停顿,始终只比原始说话者慢几秒,从而让对话更加连贯。
目前,Gemini 3.5 Live Translate已陆续登陆谷歌旗下多款产品。开发者可以通过Gemini Live API和Google AI Studio使用公开预览版,企业客户可从本月起在Google Meet中体验私有预览版。普通用户则可通过Android和iOS版谷歌翻译应用直接使用这一功能。用户只需连接任意耳机,即可在70多种语言中获得更顺畅的翻译体验,且译文语音更接近说话者的语气。
此外,Android用户还将陆续获得基于Gemini 3.5 Live Translate的全新“聆听模式”。该模式允许用户像接电话一样将手机贴到耳边,直接通过手机听筒收听翻译音频,在没有耳机又不希望旁人听见翻译内容时尤为方便。模型还具备强大的抗噪能力,能够适应嘈杂、复杂和不可预测的环境,自动处理多语言输入,无需手动调整设置。
开发者可以将Gemini 3.5 Live Translate应用于多语言通话、会议、课程、直播和广播等多种场景,提供实时口译体验。这一技术突破不仅提升了翻译的实时性和自然度,也为跨语言沟通开辟了更广阔的应用前景。
来源:Heooo AI工具导航