Gemini 3.5 实时翻译:实时、真实的声音

Google 推出了 Gemini 3.5 Live Translate,这是一种先进的人工智能模型,可提供 70 多种语言的近乎即时、连续的语音翻译。与传统工具不同,它可以即时翻译语音,实现流畅的对话,同时保留说话者自然的语气、音调和节奏。

来源:Qudata

Gemini 3.5 实时翻译:实时、真实的声音

谷歌推出了 Gemini 3.5 Live Translate,这是一种新的人工智能驱动的语音到语音翻译模型,旨在实现不同语言的人们之间近乎实时的对话。该技术标志着实时翻译的重大进步,提供更自然、更流畅的沟通,同时保留说话者声音的关键元素,包括语气、语速和音调。

此次发布代表了 Google 数十年来通过人工智能改进语言翻译的努力的最新里程碑。据该公司介绍,Gemini 3.5 Live Translate 可以自动检测 70 多种语言,并生成翻译语音,仅比原说话者慢几秒,创造比传统回合制翻译系统更流畅的体验。

传统翻译工具需要等待说话者说完句子才产生响应,而 Gemini 3.5 实时翻译则在说话时连续处理语音。这种方法可以使对话更加自然地进行,减少尴尬的停顿并提高发言者之间的同步性。

谷歌表示,该模型平衡了翻译速度和上下文理解,有助于保持准确性,同时跟上实时对话的步伐。该系统还设计用于过滤背景声音并处理多语言输入,从而在嘈杂的环境中可靠地运行,而无需手动配置。

新的翻译模型正在多个 Google 产品和服务中推广。开发人员可以通过 Gemini Live API 和 Google AI Studio 中提供的公共预览版开始试验 Gemini 3.5 Live Translate。该公司表示,该技术可用于构建多语言会议、直播、在线课程、客户支持和实时口译服务的应用程序。