机器学习系统识别语音和物体

麻省理工学院的科学家开发了一种系统,可以根据图像的口头描述来学习识别图像中的对象。考虑到图像本身和音频伴奏,模型将实时突出显示图片中当前描述的对象和区域。

来源:Robogeek新闻频道(关于机器人技术的俄罗斯与世界新闻)

麻省理工学院的科学家开发了一种系统,可以根据图像的口头描述来学习识别图像中的物体。考虑到图像本身和音频伴奏,模型将实时突出显示图片中当前正在描述的对象和区域。

与当今的语音识别技术不同,该系统不需要手动转录和注释训练示例。相反,它直接从录制的语音文件和原始图像中学习单词,并将它们链接在一起。

该模型目前只能识别几百种不同的单词和对象类型。但研究人员希望有一天,他们的语音和图像识别技术相结合,能够节省无数小时的体力劳动,并为识别开辟新的可能性。

例如,Siri 等识别系统需要转录数千小时的语音录音。使用这些数据,系统将学习将语音信号与特定单词进行匹配。当新术语被引入我们的词汇表并且系统必须重新训练时,这种方法就变得尤其有问题。

麻省理工学院开发的系统的一个有前景的应用是教授不同语言之间的翻译,而无需双语评论员。世界上大约有 7000 种语言,但其中只有大约 100 种拥有语音识别所需的转录数据。然而,考虑一下两个人用不同语言描述同一个图像的情况。如果模型识别出来自语言 A 的与图像中的对象相对应的语音信号,并学习来自语言 B 的与相同对象相对应的信号,则可以假设这两个信号及其对应的单词是同一图像片段的翻译。