使用亚马逊基岩数据自动化和开放式对象检测来增强视频理解

在现实世界的视频和图像分析中,企业经常面临检测不是模型原始培训集的对象的挑战。在新的,未知或用户定义的对象经常出现的动态环境中,这变得特别困难。在这篇文章中,我们探讨了亚马逊基岩数据自动化如何使用OSOD来增强视频理解。

来源:亚马逊云科技 _机器学习
在现实世界的视频和图像分析中,企业经常面临检测不是模型原始培训集的对象的挑战。在新的,未知或用户定义的对象经常出现的动态环境中,这变得特别困难。例如,媒体出版商可能希望在用户生成的内容中跟踪新兴品牌或产品;尽管有视觉差异,广告客户仍需要在影响者视频中分析产品出现。零售提供商旨在支持灵活的描述性搜索;自动驾驶汽车必须确定意外的道路碎片;制造系统需要在没有事先标签的情况下捕获新颖或细微的缺陷。在所有这些情况下,传统的封闭式对象检测(CSOD)模型(仅识别固定的预定义类别列表)进行交付。它们要么误分类未知对象,要么完全忽略它们,从而限制了它们对现实世界应用的有用性。开放对象检测(OSOD)是一种方法,使模型能够检测已知和以前看不见的对象,包括在训练中未遇到的对象。它支持灵活的输入提示,从特定对象名称到开放式描述,并且可以实时适应用户定义的目标而无需重新训练。通过将视觉识别与语义理解相结合(通常是通过视觉语言模型),即即使它是不熟悉,模棱两可或全新的。非结构化的内容,例如文档,图像,视频和音频。具体而言,对于视频内容,亚马逊基础数据自动化支持功能,例如章节细分,框架级文本检测,章级分类互动广告