详细内容或原文请订阅后点击阅览
Google AI 现在可以从人群中挑选出声音(+视频)
Люди, как правило, способны хорошо выделять отдельный голос в толпе, но могут ли это делать компьютеры? До сих пор это у них не очень хорошо получалось。 Однако теперь у Google есть удивительно простое решение. Исследователи разработали систему глубокого обучения, которая может выбрать конкретные голоса, глядя на лица людей, гда они говорят。
来源:Robogeek新闻频道(关于机器人技术的俄罗斯与世界新闻)人类通常擅长在人群中辨别出个人的声音,但计算机可以做到吗?到目前为止,他们还不太擅长。然而,谷歌现在有了一个令人惊讶的简单解决方案。研究人员开发了一种深度学习系统,可以通过观察人们说话时的面部表情来选择特定的声音。
该团队训练他们的神经网络模型来识别各个人说话的声音,然后创建虚拟“派对”(带有背景噪音)来教人工智能将多个声音隔离到不同的音轨中。
结果很棒。即使人们明显试图互相交谈(例如喜剧演员约翰·多尔(John Dore)和罗里·斯科维尔(Rory Scovel)),人工智能只需关注一个人的脸部就可以为他们生成清晰的音轨。即使该人用手势或麦克风遮住部分脸部,也能实现分离。
Google 目前正在探索在其产品中使用此功能的可能性。它可能非常适合 Hangouts 或 Duo 等视频聊天服务,可以帮助您了解谁在拥挤的房间里说话。开发的人工智能还可以用于提高视频录制中的语音清晰度。这使得创建与摄像头相连的助听器成为可能,该助听器可以增强您面前的人的声音水平。
存在潜在的隐私问题(该技术可用于公众收听)。然而,开发人员保证,将投票共享仅限于已经明确表示同意的人不会有大问题。