摘要。社交触摸提供了人类和机器人之间丰富的非语言交流。先前的工作已经确定了一套用于人类互动的触摸手势,并用自然语言标签(例如,抚摸,拍拍)描述了它们。然而,尚无关于用户思想中的触摸手势之间的半智关系的数据。为了赋予机器人的触摸智能,我们调查了人们如何看待文献中的社会触摸标签的相似之处。在一项在线研究中,有45位参与者根据他们的相似之处对36个社交触摸标签进行了分组,并用描述性名称注释了他们的分组。我们从这些分组中得出了手势的定量相似性,并使用层次聚类分析了相似性。分析导致围绕手势的社会,情感和接触特征形成9个触摸手势。我们讨论了结果对设计和评估触摸感应和与社交机器人的互动的含义。
挑战,我们提出了一种新型的三潮混合模型,该模型与RGB像素和基于骨架的特征相结合以识别手势。在过程中,我们对数据集进行了预处理,包括增强功能,以进行旋转,翻译和缩放独立系统。我们采用了三个流混合模型,使用深度学习模块的功率提取多功能融合。在第一个流中,我们使用预训练的成像网模式提取了初始特征,然后使用GRU和LSTM模块的多层来增强此功能。在第二个流中,我们使用预先训练的Resenet模块提取了初始特征,并通过GRU和LSTM模块的各种组合对其进行了增强。在第三次流中,我们使用介质管提取了手姿势的关键点,然后使用堆叠的LSTM来增强它们,以构建分层功能。之后,我们加入了三个功能以产生最终。最后,我们采用了一个分类模拟来产生概率图以生成预测的输出。我们主要通过利用基于像素的深度学习功能和基于POS估计的堆叠深度学习功能来产生强大的功能向量,其中包括具有带有划痕深度学习模型的预训练的模型,以实现无与伦比的手势检测功能。所提出的系统的设计旨在在挑战工业情况下有用并创建高效,无接触式的接口。我们对新创建的手持数据集进行了广泛的实验,并提出的模型达到了良好的性能准确性。
项目文档第 1 组 II 目录 1. 执行摘要 1 2. 项目描述和背景 2 2.2. 动机 3 2.3. 目标和目的 4 2.4. 要求和规范 5 2.5. 框图 7 3. 相关项目研究 9 3.1. 自动售货机和相关技术 9 3.2. 光学元件 12 3.3. 电子元件 20 3.4. 软件相关组件 41 3.5. 机器学习 52 3.6. 其他感兴趣的组件 61 4. 项目标准和设计 67 4.1. 硬件标准和约束 67 4.2. 软件标准和约束 70 5. ChatGPT 和类似算法 81 5.1. ChatGPT 81 5.2. 类似算法 84 6. 硬件设计 86 6.1.电源子系统 86 6.2. ESP-WROOM-32 88 6.3. GPIO 外设 90 6.4. 完整原理图 95 6.5. 外壳设计 96 7. 软件设计 97 7.1. ESP32-WROOM-32 97 7.2. LED 软件设计 98 7.3. 前置红外传感器设计 98 7.4. LCD 设计 99 7.5. 风扇系统设计 101 7.6. 物体检测设计 102 8. 光学设计 106 8.1. 摄像头镜头系统设计 106 8.2. 红外系统设计 112 9. 测试和质量保证 114 10. 管理内容 121 10.1. 里程碑 121 10.2. 物料清单 122 11. 结论 124
肌电控制,在肌肉收缩期间生成的肌电图(EMG)信号来控制系统或设备,是一种有希望的方式,可实现对新兴无处不在的计算应用程序的始终可用控制。但是,由于用户之间的行为和生理差异,其历史上的广泛使用受到对用户特定机器学习模型的需求的限制。利用公开可用的612-用户EMG-EPN612数据集,这项工作消除了这一概念,表明如果没有特定用户的培训,则可以实现真正的零射击交叉用户肌电控制。通过采用离散的分类方法(即,将整个动态手势视为一个事件),在一组306个未见的用户(没有提供培训数据)的一组中,可以实现六个手势的分类精度为93.0%,与大多数EMG研究(通常仅使用10-20个用户相比),可以雇用强大的交叉控制。通过将结果组织成一系列的小型研究,这项工作提供了对离散跨用户模型的深入分析,以回答未知问题并发现新的研究方向。特别是,这项工作探讨了建立跨用户模型所需的参与者数量,转移学习对这些模型的影响以及代表性不足的最终用户人口统计数据在培训数据中的影响等。结果表明,大型数据模型可以有效地推广到新的数据集,并减轻历史上限制基于EMG的输入的常见混杂因素的影响。另外,为了进一步评估创建的跨用户模型的性能,创建了一个全新的数据集(使用相同的记录设备),其中包括已知的协变量因子,例如跨日使用和肢体位置可变性。
1学生,2教授1-2计算机科学工程,1个Sharnbasva University,Kalaburagi,Karnataka,India摘要:心脏病是全球死亡率的主要原因,需要有效及时诊断。这项研究提出了一种使用先进的机器学习技术和数据驱动的见解来预测心脏病的新方法。该系统设计用于识别心脏病,利用各种机器学习分类器在选定功能上的性能。采用了预测模型,包括决策树(DT),天真贝叶斯(NB),随机森林(RF)和支持向量机(SVM)来识别心脏病。评估这些分类器的有效性,以确定最准确的心脏病检测方法。此外,该系统还为患者提供有关最近医生的信息,从而促进快速获得医疗诊断和治疗。这种综合方法旨在增强对心脏病的早期检测和干预,最终改善患者的结果并减轻医疗保健系统的负担。索引术语 - 心脏病,机器学习,预测,识别,决策树,天真的贝叶斯,随机森林,支持向量机,数据驱动的见解,早期检测,医学诊断,医疗保健系统。
ⅰ。简介该项目使用计算机视觉来实现手势识别和指尖检测,引入AI驱动的虚拟鼠标系统,从而实现直观的计算机交互。在良性和无线技术普遍存在的景观中,该系统提供了一种简化的计算方法。手势识别系统已成为一种杰出的技术,取代了传统的机械通信方法。本文根据技术,类型,应用,产品,用法和地理位置等各种因素来描述域市场的细分。手势识别系统的扩散涵盖了各种应用程序,包括虚拟控制器,虚拟小鼠,智能电视,沉浸式游戏技术,辅助机器人技术和手语识别。值得注意的是,尽管存在大量解决方案,但只有少数人直接利用网络摄像头来识别手势。大多数人依赖于Arduino和基于传感器的方法。然而,挑战仍然存在,尤其是在背景环境中包含类似人皮肤的组成部分的情况下,可能导致动作的误解。另外,确保手保持在允许范围内的构成重大约束。本文提供了手势识别系统的全面概述,强调了进步,应用程序和相关挑战,从而为该领域的未来研究和发展努力提供了见解。
摘要 - 在扩展现实(XR)的背景下对文本输入的挑战和社会接受,激发了新型输入方式的研究。我们研究了使用Qwerty-layout虚拟键盘应用于文本条目的惯性测量单元(IMU)控制和表面肌电图(SEMG)手势识别的融合。我们设计,实施和评估了名为Myokey的提议的多模式解决方案。用户可以通过手臂运动和手势组合选择字符。Myokey采用轻量级卷积神经网络分类器,可以在具有微不足道的推理时间上部署在移动设备上。我们通过在三种情况下招募12名参与者并测试了三组抓地力微观手机,证明了与Myokey无中断的文本条目的实用性:空手文本输入,三脚架抓握(例如,笔)和圆柱形掌握(例如,pen)。使用Myokey,用户的平均文本输入率为每分钟9.33个单词(WPM),8.76 wpm和8.35 wpm,分别为徒手,三脚架掌握和圆柱形掌握条件。
抽象的说话者使用韵律来解决歧义,但是如果韵律不能做出区分,该怎么办?我们探讨了(1)说话者如何采用韵律和手势提示来处理含义模棱两可的句子,以及(2)对歧义性提供有关交流效率和努力的视听性解决方案的见解。三十二名中国人被要求阐明22个模棱两可的普通话句子。一半可以使用韵律在语义上进行区分,而一半则不能。首先,参与者自发地阐明了所有模棱两可的句子,并向同盟国提供了解释,并揭示了他们的主要解释。其次,参与者每次都以暗示不同含义的提示指导,参与者两次表达了相同的模棱两可的句子。参与者的韵律提示和手势进行了编码和分析。结果表明,对于可以韵律区分的模棱两可的句子,参与者采用了各种韵律提示,例如暂停,音调,压力和口语率。此外,有51.85%的句子伴随着参考(标志性的指向)手势,而17.33%的句子伴随着非援助(Beat;互动)手势。然而,当韵律提示无法标记歧义时,参与者采取了更多的参考手势(97.30%),但非指南的手势却更少(1.28%)。总而言之,说话者采用多模式的方法来提高交流效率,而模式之间存在权衡。索引术语:韵律,手势,中文,权衡假设,多模式歧义,沟通效率和努力
手势,一种非语言交流的形式,涵盖了可见的身体动作,例如手动运动,面部表情或其他身体部位,以传达特定的信息,无论是或旁边还是语音。与不传达特定信息的非语言提示不同,手势可以传达广泛的情感和思想,例如批准,感情,蔑视或敌意,并且经常与口头语言一起使用以增强意义。某些手势,尤其是手势,可以像言语一样行事,在文化中具有固定的含义,但在不同文化中,甚至在同一文化中的子社区中都有很大变化。这种文化特殊性使得对手势的分类充满挑战,尤其是随着时间的流逝,例如从模仿传统手机到平坦手掌表示智能手机的“呼叫我”手势的转变。传统的用于控制PowerPoint演示文稿的系统,例如键盘,鼠标和演示文稿单击器,表现出明显的限制。这些设备要求主持人保持靠近演示设备,限制他们的运动,并且由于需要手动操作控制设备,因此通常会中断与观众的互动。此外,这些方法可能不精确,并且可能遭受滞后或错过的命令。现有的手势识别算法也因准确性,实时性能和对各种环境的适应性而挣扎。这些问题强调了一种更直观和免提的解决方案的必要性,该解决方案利用了AI和深度学习等先进技术来改善演示控制。人工智能(AI)涵盖了模仿人类认知功能(例如解决问题和学习)的系统,以及在面部和语音识别,决策和翻译等领域的应用。机器学习(AI的子集)涉及通过经验改善的算法。深度学习是机器学习中的一个专业领域,它使用具有多层的神经网络以受人脑启发的方式处理数据,从而识别图像,文本和声音中的复杂模式。卷积神经网络(CNNS)是一种深度学习模型,在分析视觉数据,通过卷积和合并层从数据中学习特征的能力来区分自己。在视频分析的上下文中,两流网络体系结构用于捕获空间和时间组件。这涉及通过单独的卷积神经网络(Convnet)流进行处理静止的框架和光流信息,然后通过晚期融合技术组合。空间流提取有关场景和对象的信息,而时间流则通过光流动位移捕获运动信息。此体系结构增强了识别
抽象的人类交流本质上是多模式的。听觉演讲,但视觉提示也可以用来理解另一个说话者。大多数视听语音感知的研究都集中在语音段的感知上(即语音)。然而,对视觉信息对词汇应力等语音上段方面的感知的影响鲜为人知。在两个实验中,我们研究了不同视觉提示(例如面部关节线索和手势)对词汇应力的视听感的影响。我们介绍了disyllabic荷兰压力对的听觉词法压力连续性以及在第一个或第二个音节上产生压力的扬声器的视频(例如,表达voornaam或voornaam)。此外,我们将扬声器的表面结合起来,在音节上产生词汇应力,并在第一个音节或第二个音节上产生节拍手势,从而产生词汇应力。结果表明,人们成功地使用了视觉发音线索来在静音视频中进行压力。但是,在视听条件下,我们无法找到视觉关节线索的影响。相比之下,我们发现节拍手势的时间对齐具有强烈的影响,从而影响了参与者对词汇压力的看法。这些结果强调了在多模式上下文中考虑语言上部方面的重要性。