摘要 - 本文介绍了Gestllm,这是人类机器人相互作用的高级系统,可以通过手势来实现直观的机器人控制。与常规系统不同,该系统依赖于有限的预定义手势,Gestllm利用大型语言模型并通过MediaPipe [1]提取功能来解释各种各样的手势。该集成解决了现有系统中的关键局限性,例如受限的手势灵活性以及无法识别人类交流中常用的复杂或非常规的手势。通过结合最先进的功能提取和语言模型功能,Gestllm实现了与领先的视觉模型相当的性能,同时支持传统数据集中没有代表的手势。例如,这包括来自流行文化的手势,例如《星际迷航》的“瓦肯敬礼”,没有任何其他预处理,及时的工程等。这种灵活性增强了机器人控制的自然性和包容性,使互动更加直观和用户友好。gestllm在基于手势的相互作用方面提供了重要的一步,使机器人能够有效地理解和响应各种手势。本文概述了其设计,实施和评估,证明了其在高级人机协作,辅助机器人技术和互动娱乐中的潜在应用。索引条款 - llm;手势识别;机器人控制
对与计算机的免提交互的需求不断增长,导致开发基于手势识别的系统,用于控制鼠标和键盘等虚拟输入设备。本文使用计算机视觉技术提出了一种基于手势控制的新方法,在该技术中,手势被捕获并处理以执行鼠标和键盘操作。系统利用实时手势识别算法将特定的手移动映射到相应的动作,例如鼠标运动,点击,滚动和文本输入。通过使用机器学习和图像处理技术,该系统为传统输入设备提供了直观且易于访问的替代方案。所提出的架构设计为强大且适应各种环境,为用户提供无缝的互动体验。该研究还强调了挑战,例如环境噪声,照明条件和手势准确性,同时提出了克服这些局限性的潜在解决方案。该系统在可访问性,辅助技术和免提计算等领域中具有广泛的应用。
摘要:中手势界面已在特定场景中流行起来,例如通过头戴式显示器与增强现实的交互、通过智能手机或游戏平台进行特定控制。本文探讨了使用位置感知的基于空中手势的命令三元组语法与智能空间进行交互。该语法的灵感来自人类语言,构建为具有命令结构的呼格。在“请打开灯!”这样的句子中,通过模仿其首字母/首字母缩略词(呼格,与句子的省略主语一致)的手势来调用被激活的对象。然后,几何或方向手势识别动作(命令式动词),可能包括对象特征或要与之联网的第二个对象(补语),也由首字母或首字母缩略词表示。从技术上讲,依赖于可训练的多设备手势识别层的解释器使对/三元组语法解码成为可能。识别层适用于可抓取设备(智能手机)和自由手持设备(智能手表和外部深度摄像头)以及特定编译器的加速度和位置输入信号。在 Living Lab 设施的特定部署中,语法已通过使用源自英语的词典(关于首字母和首字母缩略词)进行实例化。对 12 名用户的受试者内分析使我们能够分析手势语法在其三种设备实现(可抓取、可穿戴和无设备)中的语法接受度(就可用性、手势对物体动作的一致性和社会接受度而言)和技术偏好。参与者对学习语法的简单性及其在管理智能资源方面的潜在有效性表示了共识。在社交方面,参与者倾向于在户外活动中使用手表,在家庭和工作环境中使用手机,强调了社交背景在技术设计中的重要性。由于其效率和熟悉度,手机成为手势识别的首选。该系统可适应不同的传感技术,解决了可扩展性问题(因为它可以轻松扩展到新对象和新动作)并允许个性化交互。
摘要 - 动态手势识别是签名者手的姿势,大小和形状的变化,引起的研究领域之一。在这封信中提出了用于动态手势识别的多幕后注意视频变压器网络(MSMHA-VTN)。使用变压器多刻录头注意模型提取了multiscale特征的锥体层次结构。所提出的模型对变压器的每个头部采用不同的注意力维度,使其能够在多尺度上提供注意力。此外,除了单一模态外,还检查了使用multiple模态的识别性能。广泛的实验表明,在NVMENTURE和BRIAREO数据集上,总体精度分别为88.22%和99.10%的总体精度,表现出了卓越的性能。
技术,Karnataka 2 BE Scholar,CSE,部门,Shri Dharmasthala Manjunatheshwara技术学院,卡纳塔克邦摘要 - 该研究提出了一种基于手势的交互系统,旨在使用OpenCV和MediaPipe实时控制。此系统使用手势来提供一种直观且不接触的方式来与计算机进行交互,从而为与传统输入设备(如鼠标或键盘等传统输入设备)挣扎的人相互访问。使用单个网络摄像头,该系统连续捕获并监视手动移动。这些运动是通过模式识别算法处理的,以准确识别特定的手势,每个手势都与各种计算机操作相对应,包括鼠标运动,咔嗒声和滚动。该系统是针对用户友好性和效率进行设计的,使用户可以在无人接触的情况下轻松浏览其计算机屏幕。研究的结果强调了使用手势来实现基本计算机控制任务的实用性和有效性,在日常和专业计算方案中提出了一种有希望的无提交互方法。索引术语 - 手势识别,OpenCV,MediaPipe,小鼠控制,人类计算机相互作用。
摘要: - 根据国际自动驾驶技术标准,如果要在道路上驾驶自动驾驶车辆,它们必须具有承认交通警察手势的功能。目前,交通警察的手势识别方法主要分为三类,即基于生物电信号,基于传感器的识别和基于机器视觉的识别的识别。本文主要关注传统机器视觉技术在处理动态的交通警察手势时很容易忽略关键坐标和时间功能的情况。本论文提出了一个多层LSTM模型,该模型整合了连续的子中限角度和交通警察的注意力模型。基于MediaPipe,在统一关键点之后,接受融合角度信息的模型的精度比未经角度信息融合的训练的模型更高,并且使用33个关键点训练的模型及其MediaPipe的角度信息比501关键点及其角度信息更准确。最后,根据本文提出的模型,对中国交通警察的手势数据集取得了良好的测试结果。
在当今快节奏的世界中,技术在使演讲更具动态和互动性方面起着至关重要的作用。传统的控制演示文稿(例如使用键盘,鼠标或点击器)有时会阻碍扬声器的流程和受众参与度。为了解决这个问题,我们提出了一个基于手势和语音的演示控制器,该系统允许演示者通过手势和语音命令轻松控制幻灯片。这种创新的解决方案利用机器学习和自然语言处理的进步来创建演示者及其内容之间的无缝接口。通过消除对物理设备的需求,该系统不仅可以提高可访问性,还可以增强整体演示体验。是通过简单的手浪移动到下一个幻灯片还是通过口语命令激活钥匙函数,我们的方法会改变演示文稿的方式。
语言是多模式,包含语音和手势。手势是一种丰富日常交流的视觉语言形式。尽管手势与语音同时发生,但它们经常传达独特的信息,特别是关于视觉空间描述和行动(Aribali,2005; Feyereisen&Havard,1999; Hostetter&Alibali,2019; Melinger&Levelt,2004)。手势有意义地描绘了视觉世界的各个方面(例如,物体的大小,形状或运动)称为标志性手势(McNeill,1992)。语音和手势在语义和时间上都是相关的;然而,标志性手势的发作经常在语音中进行语义上的影响(Fritz,Kita,Littlemore和Krott,2021; Morrel-Samuels&Krauss,1992; Ter Bekke,Drijvers,&Holler,&Holler,&Holler,2020)。词汇效果是与手势含义最紧密相关的单词。例如,在句子中,“他拿起这本书”,搭配举起的手势,“捡起”将被视为词汇效果。在对话数据的语料库中,人们发现,手势运动的开始是在词汇范围前发生的672毫秒,并且手势运动的有意义的中风开始发生215毫秒之前,发生在词汇效果之前(Ter Bekke等人,2020年)。为了理解语音传语信号,听众必须在多模式语言处理过程中整合语音和姿态的时间和语义特征。许多研究都使用眼神跟踪来检查语言处理,因为语音信号实时展开。但是,对多模式处理的研究受到了较少的关注。使用改编的视觉世界范式,我们研究了听众如何使用手势中的信息来解决语音中的临时参考歧义。至关重要的是,我们还检查了中度重度创伤性脑损伤(TBI)的个体是否会破坏这一过程,从而促进了我们对认知沟通障碍对丰富多模式交流环境中语音障碍对言语传语整合的影响的理解。
粘附药物输送系统(MDDS)代表了一种通过口服途径(例如颊,舌下和牙龈区)管理药物的创新方法。这些系统利用天然或合成聚合物确保对粘膜表面的长时间粘附,从而可以扩展和受控的药物释放。几个因素影响粘附的有效性,包括聚合物的亲水性,分子量和pH和水分水平等环境因素。mdds可以采取各种形式,包括片剂,膜,斑块,烤肉和凝胶,每种都提供不同的药物释放曲线,例如立即,持续或控制。这些系统通过避免首次代谢来增强药物生物利用度,使其对低口服生物利用度或需要靶向递送的药物特别有益。尽管MDD提供了改善的患者合规性和治疗效果,但它们仍然面临诸如刺激,口味关注和唾液稀释作用之类的挑战,这可能会影响药物稳定性。尽管面临这些挑战,但MDD仍具有在各种医疗应用中推进药物输送技术的巨大希望。本综述彻底研究了粘附药物输送系统的机制,优势,局限性和未来前景。
近年来,机器人已成为我们日常生活的重要组成部分,随着各种应用程序。人类机器人相互作用在机器人领域产生了积极的影响,以与机器人进行交互和通信。手势识别技术与机器学习算法相结合,近年来表现出了显着的进步,尤其是在人类机器人相互作用(HRI)方面。本文全面回顾了手势识别方法的最新进步及其与机器学习方法的集成以增强HRI。此外,本文代表了基于视觉的手势识别与深度感应系统的安全可靠的人类现象相互作用,分析了机器学习算法的作用,例如深度学习,增强学习以及转移学习在改善人类与人类与机器人之间有效交流的手势识别系统的准确性和鲁棒性方面的转移学习中。