AI耳机一次翻译多个扬声器,将声音克隆到3D声音

UW研究人员设计了一个耳机系统,该系统可以立即翻译几个人讲话,跟随他们移动并保留声音的方向和素质。该团队构建了该系统,称为“空间语音翻译”,带有麦克风的现成噪声耳机。

来源:华盛顿大学

工程|  新闻发布|  研究|  技术

工程 新闻发布 研究 技术

2025年5月9日

AI耳机一次翻译多个扬声器,将声音克隆到3D声音

视频

Tuochao Chen是华盛顿大学博士生,最近在墨西哥参观了一家博物馆。 Chen不会说西班牙语,因此他在手机上运行了一个翻译应用程序,并将麦克风指向导游。但是,即使在博物馆的相对安静中,周围的噪音也太多了。由此产生的文字没有用。

tuochao chen

最近出现了各种有希望的流利翻译,但这些都没有解决陈的公共空间问题。例如,Meta的新眼镜仅与孤立的扬声器一起起作用;扬声器完成后,他们播放自动语音翻译。

Meta的新眼镜 播放自动语音翻译

现在,Chen和一组UW研究人员设计了一个耳机系统,可以一次翻译几个演讲者,同时保持人们声音的方向和素质。该团队构建了该系统,称为“空间语音翻译”,带有麦克风的现成噪声耳机。该团队的算法将空间中的不同扬声器分开,并在他们移动时跟随他们,翻译演讲并以2-4秒的延迟播放。

翻译几个扬声器的耳机系统

该团队于4月30日在日本横滨的ACM CHI人为因素会议上介绍了其研究。概念验证设备的代码可供其他人构建。保罗·G·艾伦(Paul G. “但是在现实世界中,您不能只有一个机器人的声音在房间里为多个人说话。这是第一次,我们保留了每个人的声音和它来自的方向的声音。”

Qirui Wang