摘要:人体步态非常个性化,可以用作摄像机录音中的人的生物识别。使用人类脚步声的声学标志时,可以实现可比的结果。与视觉系统相比,这种声学解决方案提供了更少的安装空间和使用成本偏僻的麦克风的机会。在本文中,提出了一种基于脚步声的人识别方法。首先,从麦克风记录中隔离台阶声音,并分成500 ms的样品。将样品用滑动窗口转换为MEL频率的Cepstral系数(MFCC)。该结果表示为作为卷积神经网络(CNN)输入的图像。在DLR的声学实验室中,记录了用于训练和验证CNN的数据集。这些实验确定了1125个步骤的总数。CNN的验证显示所有五个类别的最小f 1秒为0.94,精度为0.98。Grad-CAM方法用于可视化其决策背景,以验证所提出的CNN的功能。随后,使用实验数据讨论了实施实际实现,噪声和不同鞋类的两个挑战。
主要关键词