详细内容或原文请订阅后点击阅览
正在寻找视频中的特定动作?这种基于人工智能的方法可以帮你找到它
一种新方法可以简化虚拟培训流程或帮助临床医生查看诊断视频。
来源:MIT新闻 - 人工智能互联网上充斥着各种教学视频,这些视频可以教会好奇的观众一切知识,从烹饪完美的煎饼到执行救命的海姆立克急救法。
但是,在长视频中精确定位某个特定动作发生的时间和地点可能非常繁琐。 为了简化流程,科学家们正在尝试教计算机执行这项任务。 理想情况下,用户只需描述他们正在寻找的动作,AI 模型就会跳转到视频中的位置。
但是,教机器学习模型做到这一点通常需要大量昂贵的视频数据,这些数据都是经过精心手工标记的。
麻省理工学院和麻省理工学院-IBM Watson AI 实验室的研究人员提出了一种新的、更有效的方法,即仅使用视频及其自动生成的记录来训练模型来执行这项任务,称为时空接地。
研究人员通过两种不同的方式教会模型理解未标记的视频:通过查看小细节来确定物体的位置(空间信息),以及查看更大的图景来了解动作发生的时间(时间信息)。
与其他 AI 方法相比,他们的方法可以更准确地识别包含多项活动的较长视频中的动作。有趣的是,他们发现同时对空间和时间信息进行训练可以使模型更好地识别每个信息。
除了简化在线学习和虚拟训练流程外,这种技术还可以在医疗保健环境中发挥作用,例如,通过快速查找诊断程序视频中的关键时刻。
“我们解开了试图同时编码空间和时间信息的挑战,而是将其视为两个独立工作的专家,事实证明这是一种更明确的信息编码方式。我们的模型结合了这两个独立的分支,可实现最佳性能,”该技术论文的主要作者 Brian Chen 说。
关于此技术的论文