Loading...
机构名称:
¥ 4.0

视频理解是计算机视觉中深度学习研究工作的自然扩展。图像理解领域从人工神经网络(ANN)机器学习(ML)方法的应用中受益匪浅。许多图像理解问题 - 对象识别,场景分类,语义细分等 - 可行的深度学习“解决方案”。 FIXEFFEFFICEDNET-L2当前在Imagenet对象分类任务上拥有88.5%/98.7%TOP-1/TOP-5精度[211,253]。HikVision D模型D在Place2场景分类任务上得分为90.99%的前5个精度[211,322]。hrnet-ocr在CityScapes语义细分测试中的平均值为85.1%[11,40]。自然,许多人希望深度学习方法可以在视频理解问题上取得相似的成功水平。从Diba等人那里绘制。(2019),语义视频理解是理解场景/环境,对象,动作,事件,属性和概念的组合[48]。本文重点介绍了动作理解部分,并通过介绍一组通用的术语和工具,解释基本和基本的概念并提供具体示例,作为教程。我们打算对一般计算机科学受众访问这一点,并假设读者对监督学习有基本的了解 - 从投入输出示例中学习的范式。

视频动作理解:教程-DTIC

视频动作理解:教程-DTICPDF文件第1页

视频动作理解:教程-DTICPDF文件第2页

视频动作理解:教程-DTICPDF文件第3页

视频动作理解:教程-DTICPDF文件第4页

视频动作理解:教程-DTICPDF文件第5页