在应用于板球分析的计算机视觉领域中,分类击球镜头带来了巨大的挑战,要求细微的理解和分类。板球投篮的分类至关重要,因为它使玩家有效地评估,适应和执行他们的游戏计划,从而塑造比赛的结果。本文介绍了板球击球照片图像数据集(CBSID),这是一个新的基准数据集,其中包含2160个精心注释的板球镜头图像,这些板球拍摄了七个不同的类别。这项研究的核心目标是开发一个能够有效分类图像中板球击球的强大系统。为了解决这个问题,我们提出了一种基于视觉变压器的微调模型,专门适用于板球射击分类,称为板球击球射击视觉变压器(Shot-Vit)。我们提出的方法证明了出色的性能,在CBSID上实现了92.58%的验证精度。shot-Vit在板球射击分类精度中明显胜过建立的模型,例如VGG19,resnet50,i-alexnet和fit_b32,展示了视觉变压器在超过现有的深度学习体系结构方面的显着功能。视觉变压器具有通过自我注意的机制来捕获图像中的全球环境和远程依赖性的能力,从而实现了有效的特征提取和表示,传统模型可能难以实现。板球击球的准确分类对板球教练,球员发展和比赛分析具有深远的影响。它有可能改变培训方法,为球员和教练提供对击球技巧和策略的精确见解,从而为这项运动的整体进步做出了贡献。
虽然采集过程也很耗时。此外,此方法需要3D数字化器的范围,这也相对昂贵(价格约为3000英镑)。相比之下,摄影测量方法是用于空间注册的低成本解决方案,因为它们可以通过单个智能手机轻松实现。8摄影测量法从不同角度戴上FNIRS设备的受试者拍摄了多个照片图。使用专业软件(例如MetaShape 10)将获得的2D照片图转换为3D模型(点云或网格)。该软件分析照片中的视觉特征,并首先估算与每个图像关联的相机位置。通过比较图像并识别共同点和特征,摄影测量软件可以重建对象的3D表示(在我们的情况下,是受试者的头部)。通过检查所得的3D点云或网格,可以确定Optodes的位置相对于受试者的颅骨标记。但是,此过程在计算上是昂贵且耗时的,因此通常在实验后执行,通常需要使用标准计算资源来花费数小时。如果结果3D模型不足以捕获所有OPTODES的所有位置信息,则不可能进行重新验证,因为对受试者的实验将具有长期的实验。除了上面概述的挑战外,如果受试者是婴儿,则EM跟踪和传统的摄影方法通常是不切实际的,因为它们的近乎恒定的运动。鉴于头部实际上是一个刚性对象,从理论上讲,婴儿受试者的运动不应排除有效的摄影测量法。但是,在移动婴儿的情况下,传统的摄影测量方法面临重大挑战。次优的照明条件,例如在婴儿脸上施放的不均匀照明或阴影,可能会影响获得图像的质量和清晰度。另外,当受试者运动中时,必须掩盖由此产生的2D图像中的背景以隔离婴儿的头部。这些因素共同使单机摄影测量法高度挑战,以捕获移动婴儿的准确可靠的3D头模型。最近,实施了一种使用智能手机的结构化刷新深度相机来获取主题的3D头模型进行空间注册的方法。11结构化刷新深度摄像机通过将特定的光模式投射到视野中,并分析这些模式如何被拍摄的对象形状变形。深度摄像机可以使用此信息来计算对象表面与摄像机表面上每个点的距离,从而生成对象的精确3D代表。与FNIRS注册的摄影测量法相比,结构化照明提供的直接获得的3D深度信息消除了将2D图像转换为3D模型所需的时间,从而有可能允许用户在实验过程中调整扫描过程以确保模型覆盖扫描中的所有Optodes位置,并且具有足够的质量。此外,通过直接获取量化的深度信息,结构化刷新方法具有比传统摄影测量法更准确和可靠的潜力。尽管这种直接的3D扫描方法不需要受试者严格固定,但过度移动可以并且会影响扫描图像的质量。通常不可能在一次收购中获得移动婴儿头部的完整3D模型。结果,在为婴儿应用智能手机3D扫描方法时,用户仍然需要从不同角度拍摄多个快照以产生部分3D表面,然后随后将它们缝合在一起,将其拼接在一起成一个完整的全头3D模型。尽管所需快照的数量远低于准确的光语法所需的2D图像数量,但这仍然会导致更长的获取时间,降低准确性并防止Instanta-neous结果。