耳机克隆的新的AI翻译系统同时多种声音 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

耳机克隆的新的AI翻译系统同时多种声音

2025年5月9日 09:00 33 Comments

想象与一群朋友一起吃晚饭，他们不说话，但仍然能够理解他们在说什么。这种情况是新的AI耳机系统的灵感来源，该系统可以实时同时翻译多个扬声器的演讲。该系统称为空间…

来源:MIT Technology Review _人工智能

空间语音翻译由两种AI模型组成，第一个模型将戴着耳机的人周围的空间划分为小区域，并使用神经网络来寻找潜在的扬声器并确定其方向。

第二个模型将使用公开的数据集转化为法语，德语或西班牙语的扬声器单词。相同的模型可以提取每个说话者声音（例如音调和振幅）的独特特征和情感音调，并将这些属性应用于文本，从本质上产生了“克隆”的声音。这意味着，当扬声器的单词的翻译版本在几秒钟后传达给耳机戴手的时，听起来好像是来自扬声器的方向，声音听起来很像扬声器自己的，而不是扬声器的计算机。

鉴于对人工智能系统的分离足以使AI系统融入到实时翻译系统中，绘制佩戴者和扬声器之间的距离，并在真实设备上达到不错的潜伏期，这给人留下了深刻的印象。

“实时演讲到语音翻译非常困难，”他说。 “他们的结果在有限的测试设置中非常好。但是对于一种实际产品，人们需要更多的培训数据，这可能是耳机的噪声和现实世界记录，而不是纯粹依赖合成数据。”

Gollakota的团队现在致力于减少AI翻译所花费的时间，此前演讲者说了些什么，这将适应说不同语言的人们之间更自然的对话。 Gollakota说：“我们希望真正将潜伏期显着下降到不到一秒钟，以便您仍然具有对话氛围。”

Gollakota 扬声器人们 AI 有限的更多的语言的数据集计算机声音音调公开的耳机系统需要花费的数据系统的测试设置致力于相同的周围的西班牙方向自己的空间划分潜伏期潜在的神经网络意味着模型人工智能语音翻译自然的单词

耳机克隆的新的AI翻译系统同时多种声音

其他外部链接

Tags

XiaoMi-AI