详细内容或原文请订阅后点击阅览
MDG小组的科学家在解决最困难的语音识别问题上排名第三
在海得拉巴举行的全球最大的语音技术会议 INTERSPEECH 上,公布了国际语音识别竞赛第五届 CHiME 语音分离与识别挑战赛 (CHiME-5) 的结果。
来源:Robogeek新闻频道(关于机器人技术的俄罗斯与世界新闻)在海得拉巴举行的全球最大的语音技术会议 INTERSPEECH 上,公布了国际语音识别竞赛第五届 CHiME 语音分离与识别挑战赛 (CHiME-5) 的结果。
“与其他科学挑战一样,CHiME 的目标是确保世界各地最强大团队的经验交流,推动语音识别领域全球性问题的解决。今年我们刚刚解决了其中最困难的一个,”数字发展研究所所长基里尔·莱文 (Kirill Levin) 说道。 — 根据结果,参与者在会议上介绍他们的决定。所以这不仅是一个绞尽脑汁、展示成果的机会,也是与同事们交流经验、与他们一起更加接近解决人类多年来苦苦挣扎的问题。”
每年组织者都会为参与者提供不同的任务。来自近距离麦克风(例如耳机或电话)的语音识别已经显示出良好的效果 - IT 巨头报告称其准确度达到了“人类”水平。与此同时,中长距离(超过1米)的识别仍然会产生更多的错误。因此,今年参赛者解决了所谓的鸡尾酒会问题——在语音和噪声部分重叠的情况下,即在聚会上的典型交流情况下,识别多个发言者的自发语音。
参赛作品是在真实的房子里举行的 20 场晚宴上进行的,人们在聚会上做饭、吃饭、洗碗、自由而情感地交流、开玩笑和大笑。这里很难辨认出2-4人同时讲话、混响和强烈的噪音——电器的叮当声、水龙头的流水声、空调的嗡嗡声、脚步声、笑声。
“当我们学会定性识别不同说话者的语音(也被噪声打断)时,语音技术将达到一个新的水平。语音助手和智能扬声器将超越创新玩具的范畴,成为我们的日常助手。”Kirill Levin 评论道。
