摘要 — 人机交互中的手势识别是人工智能和计算机视觉领域的一个活跃研究领域。为了估计现实环境中的手势识别性能,我们收集了考虑到杂乱背景、机器人的各种姿势和运动的手势数据,然后评估机器人的性能。这涉及骨架跟踪,其中骨架数据是由通过 Microsoft Kinect 传感器获得的深度图像生成的。Kinect 捕获 3D 空间中的人体手势,并由机器人处理和复制。Arduino 控制器用于控制机器人的运动,它将来自 Kinect 传感器的关节角度输入并将其反馈给机器人电路,从而控制机器人的动作。手势识别研究的主要目标是创建一个可以识别特定人体手势并将其用于设备控制的系统。手势控制机器人将在未来节省大量的劳动力成本。这种机器人的基本优势是它具有成本效益并且不需要远程控制。
摘要: - 手语动作的解释对于改善聋人和听力障碍者的交流可访问性至关重要。本研究提出了一个全面的计算框架,用于特征提取和长期记忆(LSTM)网络,以捕获跨手势序列的时间动态。CNN体系结构用于评估视觉输入,成功地识别和分类了对正确手势解释至关重要的手动形状,面部表情和身体姿势。通过添加LSTM,我们的方法有效地复制了手语的顺序性质,从而识别了先前运动影响的连续手势。我们使用众多创新策略来处理手语检测问题,例如签名样式,周围噪声以及实时处理的需求。多模式数据融合包含视觉,上下文和语言信息,以提高模型鲁棒性。旋转,缩放和时间变化被用作数据增强程序,以增加训练数据集并提高各种签名设置的模型适用性。混合CNN-LSTM体系结构通过超级参数调整,辍学正则化和批准化来增强,以减少过度拟合,同时保持出色。
摘要 - 在高分辨率事件摄像机的能力驱动的基于事件的视觉中的突破,具有显着改善的人类机器人相互作用。事件摄像机在管理动态范围和运动模糊方面表现出色,无缝适应各种环境条件。本文提出的研究利用这项技术开发了能够解释手势进行精确机器人控制的直觉机器人指导系统。我们介绍了“ Eb Handgesture”数据集,这是一种与我们的网络“ Convrnn”结合使用的创新高分辨率手势数据集,以在解释任务中证明95.7%的值得称赞的精度,涵盖了不同照明场景中的六种手势类型。为了验证我们的框架,使用ARI机器人进行了现实生活实验,从而确认了在各种相互作用过程中训练有素的网络的有效性。这项研究代表了确保共享工作空间中更安全,更可靠,更有效的人类机器人协作的实质性飞跃。索引术语 - 基于现实的手势识别,机器人控制,手势数据集
1 Institute for Advanced Consciousness Studies, Santa Monica, CA, United States, 2 Media Lab, Massachusetts Institute of Technology, Cambridge, MA, United States, 3 Emlyon Business School, Ecully, France, 4 Independent Developer, Paris, France, 5 Aura Healthcare, Paris, France, 6 Centre for Research and Interdisciplinarity, University of Paris, Paris, France, 7 Centre for Philosophy of Science,里斯本大学,里斯本大学科学学院,葡萄牙8,认知神经科学研究所,伦敦大学学院,伦敦大学,英国,计算与传播学院,开放大学9号计算机与通讯学院,英国爱丁堡,英国爱丁堡,人类自然,人工智能和神经科学中心10法国BobignyUniversité,Bobigny,ParisCité大学12号,Inserm,UMR-S 1266,精神病学研究所和巴黎神经科学研究所,Inserm U1266,巴黎,法国,法国
摘要计算机应用程序的进步已经越来越促进了日常任务,最近的创新集中在语音助手和虚拟输入设备上。该技术对具有移动性挑战的个体或直接手动计算机交互的情况有限。利用计算机视觉和人工智能,这些应用程序可以解释视觉数据,例如人类运动,并决定执行相应的命令。本研究结合了语音助手,虚拟鼠标和虚拟键盘,以增强可访问性和可用性,特别是对于身体残疾人或喜欢替代输入方法的人。使用Python,MediaPipe和OpenCV,该应用程序有效地处理和解释用户手势,提供响应迅速,有效的计算体验。MediaPipe的功能特别有助于模型的精确度,优化了对AI驱动任务的手动跟踪和手势识别。用户可以通过各种手势来控制计算机光标,使用彩色盖或磁带在虚拟键盘上键入,并执行诸如左键单击和拖动项目之类的基本操作。这种集成的解决方案旨在提高生产率,使计算机更容易访问并增强用户的整体数字体验。在此类应用中,AI和计算机视觉的融合继续推动了创新和包容性的计算解决方案,并承诺在人类计算机互动中具有更大的可访问性和便利性的未来。
大多数日常活动需要灵巧地使用手和手指。残疾人的手部假肢可以通过连接到上肢的表面电极非侵入式获取的表面肌电图 (sEMG) 信号来控制。在对从 10 位截肢者获取的 12 个电极 sEMG 信号进行预处理后,计算了时域和频域中的不同特征。考虑到 sEMG 是一种复杂、随机、非平稳和非线性信号,还通过多重分形去趋势波动分析 (MFDFA) 的方法提取了复杂的非线性特征。使用不同的分类方法(包括支持向量机 (SVM)、线性判别分析 (LDA) 和多层感知器 (MLP))来比较它们在八种不同手指运动分类中的表现。观察发现,SVM 在手指运动分类方面的表现优于其他两个分类器。新特征与传统特征融合后,分类准确率、精确率、召回率(灵敏度)分别为98.70%、98.74%、98.67%。结果表明,加入MFDFA提取的新特征与其他传统特征,可以有效提高数据采集效果。
摘要 - 本文介绍了Gestllm,这是人类机器人相互作用的高级系统,可以通过手势来实现直观的机器人控制。与常规系统不同,该系统依赖于有限的预定义手势,Gestllm利用大型语言模型并通过MediaPipe [1]提取功能来解释各种各样的手势。该集成解决了现有系统中的关键局限性,例如受限的手势灵活性以及无法识别人类交流中常用的复杂或非常规的手势。通过结合最先进的功能提取和语言模型功能,Gestllm实现了与领先的视觉模型相当的性能,同时支持传统数据集中没有代表的手势。例如,这包括来自流行文化的手势,例如《星际迷航》的“瓦肯敬礼”,没有任何其他预处理,及时的工程等。这种灵活性增强了机器人控制的自然性和包容性,使互动更加直观和用户友好。gestllm在基于手势的相互作用方面提供了重要的一步,使机器人能够有效地理解和响应各种手势。本文概述了其设计,实施和评估,证明了其在高级人机协作,辅助机器人技术和互动娱乐中的潜在应用。索引条款 - llm;手势识别;机器人控制
对与计算机的免提交互的需求不断增长,导致开发基于手势识别的系统,用于控制鼠标和键盘等虚拟输入设备。本文使用计算机视觉技术提出了一种基于手势控制的新方法,在该技术中,手势被捕获并处理以执行鼠标和键盘操作。系统利用实时手势识别算法将特定的手移动映射到相应的动作,例如鼠标运动,点击,滚动和文本输入。通过使用机器学习和图像处理技术,该系统为传统输入设备提供了直观且易于访问的替代方案。所提出的架构设计为强大且适应各种环境,为用户提供无缝的互动体验。该研究还强调了挑战,例如环境噪声,照明条件和手势准确性,同时提出了克服这些局限性的潜在解决方案。该系统在可访问性,辅助技术和免提计算等领域中具有广泛的应用。
摘要:中手势界面已在特定场景中流行起来,例如通过头戴式显示器与增强现实的交互、通过智能手机或游戏平台进行特定控制。本文探讨了使用位置感知的基于空中手势的命令三元组语法与智能空间进行交互。该语法的灵感来自人类语言,构建为具有命令结构的呼格。在“请打开灯!”这样的句子中,通过模仿其首字母/首字母缩略词(呼格,与句子的省略主语一致)的手势来调用被激活的对象。然后,几何或方向手势识别动作(命令式动词),可能包括对象特征或要与之联网的第二个对象(补语),也由首字母或首字母缩略词表示。从技术上讲,依赖于可训练的多设备手势识别层的解释器使对/三元组语法解码成为可能。识别层适用于可抓取设备(智能手机)和自由手持设备(智能手表和外部深度摄像头)以及特定编译器的加速度和位置输入信号。在 Living Lab 设施的特定部署中,语法已通过使用源自英语的词典(关于首字母和首字母缩略词)进行实例化。对 12 名用户的受试者内分析使我们能够分析手势语法在其三种设备实现(可抓取、可穿戴和无设备)中的语法接受度(就可用性、手势对物体动作的一致性和社会接受度而言)和技术偏好。参与者对学习语法的简单性及其在管理智能资源方面的潜在有效性表示了共识。在社交方面,参与者倾向于在户外活动中使用手表,在家庭和工作环境中使用手机,强调了社交背景在技术设计中的重要性。由于其效率和熟悉度,手机成为手势识别的首选。该系统可适应不同的传感技术,解决了可扩展性问题(因为它可以轻松扩展到新对象和新动作)并允许个性化交互。
3 Galgotias University,大诺伊达摘要:计算机是我们生活的重要组成部分,我们的许多日常工作都取决于它们。使它们更容易,更有效地使用是我们一直在努力改进的东西。与计算机交互的最重要工具之一是鼠标。虽然无线老鼠(例如蓝牙鼠标)可以帮助我们切断绳索,但它们仍然需要USB连接,因此它们并非完全没有设备。该系统通过提供一种仅使用相机来控制计算机光标的方法来解决计算机的光标。它使用MediaPipe和OpENCV通过机器学习来检测手势,使用户可以免费移动光标,单击和滚动,并完全免费。这使与计算机进行交互更加容易,更方便,而无需任何额外的设备。
