新算法只需观看视频即可发现语言

麻省理工学院开发的 DenseAV 只需观看人们说话的视频即可学会解析和理解语言的含义,在多媒体搜索、语言学习和机器人技术方面具有潜在的应用。

来源:MIT新闻 - 人工智能

麻省理工学院电气工程和计算机科学博士生、麻省理工学院计算机科学和人工智能实验室 (CSAIL) 成员 Mark Hamilton 希望利用机器来了解动物的交流方式。为此,他首先着手创建一个可以“从头开始”学习人类语言的系统。

“有趣的是,灵感的关键时刻来自电影《帝企鹅日记》。有一个场景是一只企鹅在穿越冰面时摔倒了,站起来时发出一声轻微的呻吟。当你观看它时,几乎可以明显看出,这声呻吟代表了一个四个字母的单词。正是在那一刻,我们想到,也许我们需要使用音频和视频来学习语言,”Hamilton 说。“有没有办法让算法整天看电视,并从中弄清楚我们在说什么?”

“我们的模型‘DenseAV’旨在通过预测听到的内容来学习语言,反之亦然。例如,如果你听到有人说‘在 350 度下烤蛋糕’,那么你很可能看到的是蛋糕或烤箱。要想在数百万个视频中成功完成这个音频视频匹配游戏,模型必须了解人们在谈论什么,”汉密尔顿说。

在他们对 DenseAV 进行这个匹配游戏的训练后,汉密尔顿和他的同事们查看了模型在听到声音时寻找的像素。例如,当有人说“狗”时,算法会立即开始在视频流中寻找狗。通过查看算法选择了哪些像素,可以发现算法认为单词的意思。

团队面临着一项艰巨的挑战:在没有任何文本输入的情况下学习语言。他们的目标是从一张白纸上重新发现语言的含义,避免使用预先训练的语言模型。这种方法的灵感来自于儿童通过观察和聆听周围环境来理解语言的方式。

描述作品的论文