ai了解视力和声音如何连接，而无需人工干预 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

ai了解视力和声音如何连接，而无需人工干预

2025年5月22日 00:00 33 Comments

这个新的机器学习模型可以匹配相应的音频和视觉数据，这可能有一天可以帮助机器人在现实世界中进行交互。

来源:MIT新闻 - 人工智能

人类自然会通过在视觉和声音之间建立联系来学习。例如，我们可以看着有人在演奏大提琴，并认识到大提琴手的动作正在产生我们听到的音乐。

MIT和其他地方的研究人员开发的一种新方法，提高了AI模型以同样的方式学习的能力。这在新闻和电影制作等应用程序中可能很有用，该应用程序可以通过自动视频和音频检索来帮助策划多模式内容。

从长远来看，这项工作可用于提高机器人理解现实世界环境的能力，在这些环境中，听觉和视觉信息通常密切相关。

为了改善他们小组的先前工作，研究人员创建了一种方法，可以帮助机器学习模型对齐视频剪辑的相应音频和视觉数据，而无需人机标签。

他们调整了原始模型的训练方式，因此它在特定的视频框架和那一刻发生的音频之间学习了更细粒度的对应关系。研究人员还进行了一些架构调整，以帮助系统平衡两个不同的学习目标，从而提高了性能。

综上所述，这些相对简单的改进提高了它们在视频检索任务中的方法的准确性，并在视听场景中对动作进行了分类。例如，新方法可以自动而精确地匹配门的声音，并在视频剪辑中闭合它的视觉效果。

“我们正在构建可以像人类一样处理世界的AI系统，即使音频和视觉信息立即出现并能够无缝处理这两种方式。在这项研究中。

同步

模型的应用程序机器人不同的细粒度视频动作简单的机器学习调整地方的视觉信息视频剪辑多模式世界的同样的精确地环境的新方法学习研究人员学习的音频 AI 进行原始模型准确性特定的检索帮助认识到提高