人工智能技术有潜力帮助聋哑人士交流。由于手势碎片化的复杂性和捕捉手势的不足,作者提出了一种基于 Deep SLR 的手语识别 (SLR) 系统和可穿戴表面肌电图 (sEMG) 生物传感设备,可将手语转换为印刷信息或语音,让人们更好地理解手语和手势。在前臂上安装了两个臂带,臂带上装有生物传感器和多通道 sEMG 传感器,可以很好地捕捉手臂和手指的动作。Deep SLR 在 Android 和 iOS 智能手机上进行了测试,并通过全面测试确定了它的实用性。Sign Speaker 在用智能手机和智能手表识别双手手势方面存在相当大的局限性。为了解决这些问题,本研究提出了一种新的实时端到端 SLR 方法。连续句子识别的平均单词错误率为 9.6%,检测信号并识别一个包含六个手势词的句子需要不到 0.9 秒的时间,证明了 Deep SLR 的识别能力。
摘要:无线电探测和测距(雷达)技术的发展使得手势识别成为可能。在基于热图的手势识别中,特征图像尺寸很大,需要复杂的神经网络来提取信息。机器学习方法通常需要大量数据,而用雷达收集手势非常耗时耗能。因此,提出了一种基于调频连续波(FMCW)雷达和合成手势特征生成器的低计算复杂度手势识别算法。在低计算复杂度算法中,对雷达原始数据实施二维快速傅里叶变换以生成距离-多普勒矩阵。之后,应用背景建模来分离动态物体和静态背景。然后选择距离-多普勒矩阵中幅度最高的箱来定位目标并获得其距离和速度。可以利用天线维度上此位置的箱来使用傅里叶波束控制计算目标的角度。在合成生成器中,使用Blender软件生成不同的手势和轨迹,然后直接从轨迹中提取目标的距离、速度和角度。实验结果表明,当以合成数据作为训练集,以真实数据作为测试集时,模型在测试集上的平均识别准确率可达89.13%。这表明合成数据的生成在预训练阶段可以做出有意义的贡献。
随着技术的快速发展,我们在常规日常生活中使用的设备正在以蓝牙或其他无线技术的形式紧密包装。本文采用不同的方法来对鼠标的一般使用,而鼠标不需要鼠标。这可以通过虚拟软件来实现,该虚拟软件使用称为手势识别的概念并检测执行鼠标功能的手提示。手工检测技术并不新鲜,并且在行业中已经使用了很长时间,例如在自动化领域,IT枢纽,银行业,医学科学等。提出虚拟鼠标的主要动机是使用网络摄像机或内置摄像机与计算机进行交互以执行光标函数,例如滚动等。
随着数字环境已变得更加融合到我们的日常生活中,虚拟现实(VR),增强现实(AR)和混合现实(MR)平台在最近的十年中越来越受欢迎。新技术正在使用传感器技术调整这些范式,以获取有关2D和3D空间中位置跟踪的相关数据。在这种情况下,机器学习已成为具有可访问性和负担能力的关键技术。这些模型的使用提供了对传感器输入的准确解释,这可能会创建可靠的系统。在这项技术方面,特定的感兴趣领域是交互式游戏,以及系统如何从这些技术进步中受益以创造沉浸式体验。此外,Bowling等人的研究。(2006),探索计算机游戏中机器学习的领域,确定其在增强游戏智能和玩家参与度中的重要作用。
摘要 - 动态手势识别是签名者手的姿势,大小和形状的变化,引起的研究领域之一。在这封信中提出了用于动态手势识别的多幕后注意视频变压器网络(MSMHA-VTN)。使用变压器多刻录头注意模型提取了multiscale特征的锥体层次结构。所提出的模型对变压器的每个头部采用不同的注意力维度,使其能够在多尺度上提供注意力。此外,除了单一模态外,还检查了使用multiple模态的识别性能。广泛的实验表明,在NVMENTURE和BRIAREO数据集上,总体精度分别为88.22%和99.10%的总体精度,表现出了卓越的性能。
摘要 在各种潜在的安全关键场景中,对机器人进行有效的人工监督是确保机器人正确运行的关键。本文通过结合两种人体生物信号流(分别通过 EMG 和 EEG 获得的肌肉和大脑活动),朝着快速可靠的人工干预监督控制任务迈出了一步。它介绍了使用肌肉信号对左手和右手手势进行连续分类、使用脑信号(在观察到错误时无意识产生)对错误相关电位进行时间锁定分类,以及结合这些管道在多项选择任务中检测和纠正机器人错误的框架。以“即插即用”的方式评估由此产生的混合系统,其中 7 名未经训练的受试者监督执行目标选择任务的自主机器人。离线分析进一步探索了 EMG 分类性能,并研究了选择可能促进可推广的即插即用分类器的训练数据子集的方法。
摘要 - 本文介绍了Gestllm,这是人类机器人相互作用的高级系统,可以通过手势来实现直观的机器人控制。与常规系统不同,该系统依赖于有限的预定义手势,Gestllm利用大型语言模型并通过MediaPipe [1]提取功能来解释各种各样的手势。该集成解决了现有系统中的关键局限性,例如受限的手势灵活性以及无法识别人类交流中常用的复杂或非常规的手势。通过结合最先进的功能提取和语言模型功能,Gestllm实现了与领先的视觉模型相当的性能,同时支持传统数据集中没有代表的手势。例如,这包括来自流行文化的手势,例如《星际迷航》的“瓦肯敬礼”,没有任何其他预处理,及时的工程等。这种灵活性增强了机器人控制的自然性和包容性,使互动更加直观和用户友好。gestllm在基于手势的相互作用方面提供了重要的一步,使机器人能够有效地理解和响应各种手势。本文概述了其设计,实施和评估,证明了其在高级人机协作,辅助机器人技术和互动娱乐中的潜在应用。索引条款 - llm;手势识别;机器人控制
摘要 在各种潜在的安全关键场景中,对机器人进行有效的人工监督是确保机器人正确运行的关键。本文通过结合两种人体生物信号流(分别通过 EMG 和 EEG 获得的肌肉和大脑活动),朝着快速可靠的人工干预监督控制任务迈出了一步。它展示了使用肌肉信号对左手和右手手势进行连续分类、使用脑信号(在观察到错误时无意识产生)对错误相关电位进行时间锁定分类,以及结合这些管道在多项选择任务中检测和纠正机器人错误的框架。以“即插即用”的方式评估由此产生的混合系统,其中 7 名未经训练的受试者监督执行目标选择任务的自主机器人。离线分析进一步探索了 EMG 分类性能,并研究了选择可能促进可推广的即插即用分类器的训练数据子集的方法。
挑战,我们提出了一种新型的三潮混合模型,该模型与RGB像素和基于骨架的特征相结合以识别手势。在过程中,我们对数据集进行了预处理,包括增强功能,以进行旋转,翻译和缩放独立系统。我们采用了三个流混合模型,使用深度学习模块的功率提取多功能融合。在第一个流中,我们使用预训练的成像网模式提取了初始特征,然后使用GRU和LSTM模块的多层来增强此功能。在第二个流中,我们使用预先训练的Resenet模块提取了初始特征,并通过GRU和LSTM模块的各种组合对其进行了增强。在第三次流中,我们使用介质管提取了手姿势的关键点,然后使用堆叠的LSTM来增强它们,以构建分层功能。之后,我们加入了三个功能以产生最终。最后,我们采用了一个分类模拟来产生概率图以生成预测的输出。我们主要通过利用基于像素的深度学习功能和基于POS估计的堆叠深度学习功能来产生强大的功能向量,其中包括具有带有划痕深度学习模型的预训练的模型,以实现无与伦比的手势检测功能。所提出的系统的设计旨在在挑战工业情况下有用并创建高效,无接触式的接口。我们对新创建的手持数据集进行了广泛的实验,并提出的模型达到了良好的性能准确性。
摘要:本文研究了不同噪声水平和不同照明水平对飞行机器人语音和手势控制命令界面的影响。目的是通过研究各个组件的局限性和使用可行性来确定语音和视觉手势多模态组合在人类有氧机器人交互中的实际适用性。为了确定这一点,分别使用 CMU(卡内基梅隆大学)sphinx 和 OpenCV(开源计算机视觉)库开发了一个自定义多模态语音和视觉手势界面。设计了一项实验研究来测量语音和手势两个主要组成部分各自的影响,并招募了 37 名参与者参与实验。环境噪声水平从 55 dB 到 85 dB 不等。环境照明水平从 10 勒克斯到 1400 勒克斯不等,在不同的照明色温混合下,黄色(3500 K)和白色(5500 K),以及用于捕捉手指手势的不同背景。实验结果包括大约 3108 个语音话语和 999 个手势质量观察,并进行了介绍和讨论。观察到语音识别准确率/成功率随着噪声水平的上升而下降,75 dB 噪声水平是航空机器人的实际应用极限,因为语音控制交互由于识别率低而变得非常不可靠。结论是,多词语音命令被认为比单词语音命令更可靠和有效。此外,由于其清晰度,一些语音命令词(例如,land)在较高噪声水平下比其他命令词(例如,hover)更耐噪。从手势照明实验的结果来看,照明条件和环境背景对手势识别质量的影响几乎微不足道,不到 0.5%。这意味着其他因素,例如手势捕获系统设计和技术(相机和计算机硬件)、捕获的手势类型(上身、全身、手、手指或面部手势)以及图像处理技术(手势分类算法),在开发成功的手势识别系统中更为重要。根据从这些发现得出的结论,提出了一些进一步的研究,包括使用替代的 ASR(自动语音识别)语音模型和开发更强大的手势识别算法。