AI耳机同时翻译多个扬声器的选票在3D

华盛顿大学(UW)的研究人员开发了一种开创性的助听器系统,称为“空间语音翻译”,该系统可以同时翻译几位演讲者,同时保留其声音的方向和特征。该系统使用带有内置的麦克风的常见噪音 - 还原耳机,在嘈杂的环境中创造更自然和有用的翻译体验。该系统[…] AI Post AI耳机同时翻译了几位演讲者,将他们的选票克隆在3D中首次出现在AI新闻中。

来源:AI新闻

华盛顿大学(UW)的研究人员开发了一种开创性的助听器系统,称为“空间语音翻译”,该系统可以同时翻译几位演讲者,同时保留其声音的方向和特征。该系统使用带有内置的麦克风的常见噪音 - 还原耳机,在嘈杂的环境中创造更自然和有用的翻译体验。

华盛顿(UW) 空间语音翻译

系统使用两个主要AI模型

    一个模型,以360度扫描房间以识别和跟踪扬声器。一个在保留语音角色时翻译演讲的模型。
  • 一个模型,以360度扫描房间以识别和跟踪扬声器。
  • 模型在保留语音字符的同时翻译演讲。
  • 该技术基于两个主要的AI模型。第一个模型通过将周围的音景分为较小的段来标识说话者及其方向。第二个模型将西班牙语,法语和德语等语言的语音转化为英语,并在演讲者的声音中保留了独特的特征和情感笔记。

    空间语音翻译的演示视频

    视频

    系统在带有Apple M2芯片的常规设备上工作,并避免使用云供隐私。 在不同环境中的测试表明,用户更喜欢延迟3-4秒,以提高准确性。

    该系统可以通过使用户能够聆听特定的扬声器而不会因周围的声音而分心,尤其是在具有很多背景声音(例如博物馆,学校或机场)的环境中,尤其是在具有很多背景声音的环境中进行彻底改变。它还可以改善听力损失的人获得信息的访问。

    更多信息:

    AI耳机一次翻译多个扬声器

    空间-spech翻译github