详细内容或原文请订阅后点击阅览
机器像人一样从图片中学习单词
Системы распознавания речи, подобные тем, что преобразуют произносимые слова в текст на смартфонах, как правило, ются результатом машинного обучения。 Компьютеры просматривают тысячи или даже миллионы аудиофайлов и их транскрипцию, чтобы узнать, какие акустические арактеристики соответствуют написанным словам。
来源:Robogeek新闻频道(关于机器人技术的俄罗斯与世界新闻)语音识别系统,例如那些在智能手机上将口语单词转换为文本的系统,通常是机器学习的结果。计算机查看数千甚至数百万个音频文件及其转录,以了解哪些声学特征与书面文字相匹配。
但转录录音是一项昂贵且耗时的工作,并且仅适用于有限的语言。
在最近的神经信息处理系统会议上,麻省理工学院 (MIT) 计算机科学与人工智能实验室 (CSAIL) 的研究人员提出了一种不依赖转录的训练语音识别系统的新方法。相反,他们的系统分析图像和这些图像的口头描述之间的对应关系,并将其编译成大量录音。系统了解录音的哪些声学特征与某些图像特征相关。
“这项工作的目标是尝试以人们喜欢的方式教机器学习语言,”CSAIL 的资深科学家、描述新系统的论文的合著者吉姆·格拉斯 (Jim Glass) 说。 “训练语音识别系统的现代方法受到严格控制。”
谷歌的 Siri 系统已经取得了长足的进步,但它需要昂贵的学习曲线。因此,它被训练为仅识别基本语言。世界上有 7000 种语言,其中可能只有不到 2% 得到语音识别系统的支持。麻省理工学院的新方法已经使用了好几年,但它使用的是一种控制较少的方法。
据报道,新系统不会将录制的语音与书面文本进行匹配,而是将语音与主题相关的图像组进行匹配。
为了测试他们的系统,研究人员使用了包含 1,000 张图像的数据库,每张图像都有与其相关的口头描述的自由形式记录。