详细内容或原文请订阅后点击阅览
耳机克隆的新的AI翻译系统同时多种声音
想象与一群朋友一起吃晚饭,他们不说话,但仍然能够理解他们在说什么。这种情况是新的AI耳机系统的灵感来源,该系统可以实时同时翻译多个扬声器的演讲。该系统称为空间…
来源:MIT Technology Review _人工智能空间语音翻译由两种AI模型组成,第一个模型将戴着耳机的人周围的空间划分为小区域,并使用神经网络来寻找潜在的扬声器并确定其方向。
第二个模型将使用公开的数据集转化为法语,德语或西班牙语的扬声器单词。相同的模型可以提取每个说话者声音(例如音调和振幅)的独特特征和情感音调,并将这些属性应用于文本,从本质上产生了“克隆”的声音。这意味着,当扬声器的单词的翻译版本在几秒钟后传达给耳机戴手的时,听起来好像是来自扬声器的方向,声音听起来很像扬声器自己的,而不是扬声器的计算机。
鉴于对人工智能系统的分离足以使AI系统融入到实时翻译系统中,绘制佩戴者和扬声器之间的距离,并在真实设备上达到不错的潜伏期,这给人留下了深刻的印象。
“实时演讲到语音翻译非常困难,”他说。 “他们的结果在有限的测试设置中非常好。但是对于一种实际产品,人们需要更多的培训数据,这可能是耳机的噪声和现实世界记录,而不是纯粹依赖合成数据。”
Gollakota的团队现在致力于减少AI翻译所花费的时间,此前演讲者说了些什么,这将适应说不同语言的人们之间更自然的对话。 Gollakota说:“我们希望真正将潜伏期显着下降到不到一秒钟,以便您仍然具有对话氛围。”