AI学会同步视觉和声音
MIT研究人员开发了Cav-Mae Sync,这是一种AI模型,该模型学会了将声音与视频中的匹配视觉效果联系起来,而无需任何标签。这项技术可以使我们更接近更聪明的人工智能,就像人类一样,可以看到,听到和理解世界。
来源:QudataAI学会同步视觉和声音
想象一下观看视频,有人猛击门,幕后的AI立即将声音的确切时刻与门的视觉闭合联系在一起 - 从未被告知门是什么。这是麻省理工学院和国际合作者的未来研究人员正在建立,这要归功于机器学习的突破,这些突破模仿了人类如何直观地将视觉和声音联系起来。
研究人员团队引入了Cav-Mae Sync,这是一种升级的AI模型,该模型学习了音频和视觉数据之间的细粒度连接 - 所有这些都没有人提供的标签。潜在的应用程序从视频编辑和内容策划到更好地了解现实世界环境的更智能机器人。
cav-mae同步,一种升级的AI模型,学习音频和视觉数据之间的细粒度连接根据麻省理工学院博士学位的学生兼研究的合着者安德鲁·鲁迪奇科(Andrew Rouditchenko)的说法,人类自然会使用视觉和声音一起处理世界,因此团队希望AI也能做到这一点。通过将这种视听理解集成到大语模型之类的工具中,它们可以解锁全新类型的AI应用程序。
作品建立在先前的型号Cav-Mae的基础上,该模型可以从视频中处理和对齐视觉和音频数据。该系统通过将未标记的视频剪辑编码为称为令牌的表示,并自动匹配相应的音频和视频信号。
但是,原始模型缺乏精确性:它将长音频和视频片段视为一个单元,即使某种声音(例如狗狗树皮或门大满贯)仅出现了。
新型号Cav-Mae Sync通过将音频分成较小的块并将每个块映射到特定的视频框架来修复该模型。这种细粒度的对齐使该模型可以将单个图像与当时发生的确切声音相关联,从而大大提高了精度。
cav-mae同步使用双学习策略来平衡两个目标: