人类行动识别(HAR)涵盖了监视各个领域的人类活动的任务,包括但不限于医学,教育,娱乐,视觉监视,视频检索以及对异常活动的识别。在过去十年中,HAR领域通过利用卷积神经网络(CNN)和经常性的神经网络(RNN)来有效提取和理解复杂的信息,从而增强了HAR系统的整体性能,从而取得了实质性的进展。最近,计算机视觉的领域见证了视觉变压器(VIT)的启示作为有效的解决方案。超出图像分析的范围,已验证了变压器体系结构的功效,从而将其适用性扩展到了不同的视频相关任务上。值得注意的是,在这一景观中,研究界表现出对HAR的浓厚兴趣,承认其多种效用并在各个领域中广泛采用。本文旨在提出一项涵盖CNN的涵盖调查,鉴于它们在HAR领域的重要性,RNNS对VIT的发展。通过对现有文献进行彻底研究并探索新兴趋势,本研究对该领域的累积知识进行了批判性分析和综合。此外,它还研究了正在进行的开发混合方法的努力。遵循此方向,本文提出了一种新型的混合模型,该模型旨在整合CNN和VIT的固有优势。
主要关键词