在本方当事人复审程序(“IPR”)中,专利审判和上诉委员会(“委员会”)裁定,美国专利号 8,878,949(“'949 专利”)的权利要求 1-3、5-10 和 12-17 不可获得专利,但其裁定权利要求 4、11 和 18 并未被证明不可获得专利。专利权人 Gesture Technology Partners, LLC (“Gesture”) 对委员会关于权利要求 1-3、5-10 和 12-17 的不可专利性裁定提出上诉,1 IPR 请求人 Apple Inc. (“Apple”) 对委员会关于权利要求 4、11 和 18 的裁定提出上诉。我们将讨论限制在权利要求 1-7,因为我们已在 In re Gesture Tech. Partners,No. 2023-001857,复审号 90/014,903 (PTAB Aug. 8, 2023) 的单方复审决定中分别确认了委员会认为权利要求 8-18 不可获得专利的决定。参见 In re Gesture Tech. Partners, LLC,No. 24-1038,slip op. at 2 (Fed. Cir. 2025) (非先例)。
肌电控制,在肌肉收缩期间生成的肌电图(EMG)信号来控制系统或设备,是一种有希望的方式,可实现对新兴无处不在的计算应用程序的始终可用控制。但是,由于用户之间的行为和生理差异,其历史上的广泛使用受到对用户特定机器学习模型的需求的限制。利用公开可用的612-用户EMG-EPN612数据集,这项工作消除了这一概念,表明如果没有特定用户的培训,则可以实现真正的零射击交叉用户肌电控制。通过采用离散的分类方法(即,将整个动态手势视为一个事件),在一组306个未见的用户(没有提供培训数据)的一组中,可以实现六个手势的分类精度为93.0%,与大多数EMG研究(通常仅使用10-20个用户相比),可以雇用强大的交叉控制。通过将结果组织成一系列的小型研究,这项工作提供了对离散跨用户模型的深入分析,以回答未知问题并发现新的研究方向。特别是,这项工作探讨了建立跨用户模型所需的参与者数量,转移学习对这些模型的影响以及代表性不足的最终用户人口统计数据在培训数据中的影响等。结果表明,大型数据模型可以有效地推广到新的数据集,并减轻历史上限制基于EMG的输入的常见混杂因素的影响。另外,为了进一步评估创建的跨用户模型的性能,创建了一个全新的数据集(使用相同的记录设备),其中包括已知的协变量因子,例如跨日使用和肢体位置可变性。
在本文中介绍了人类计算机接口(HCI),以允许用户用手势和语音命令控制鼠标光标。系统使用没有代码ML的计算机视觉效果净B4体系结构来识别不同的手势并将其映射到相应的光标运动。目的是创建一种与系统交互的更有效,更直观的方式。主要目的是为现有鼠标控制系统提供可靠且具有成本效益的替代方法,从而使用户可以通过手势和语音命令控制鼠标光标。该系统设计为简单的设置过程,既直观又对用户友好。高度可配置的系统允许用户自定义其工作原理以最适合其需求。通过多个实验评估了系统的性能,这表明基于手势的小鼠控制系统可以准确100%,并可靠地移动鼠标光标。总体而言,该系统可能会改善生活质量,并提高身体残障人士的独立性。
大多数日常活动需要灵巧地使用手和手指。残疾人的手部假肢可以通过连接到上肢的表面电极非侵入式获取的表面肌电图 (sEMG) 信号来控制。在对从 10 位截肢者获取的 12 个电极 sEMG 信号进行预处理后,计算了时域和频域中的不同特征。考虑到 sEMG 是一种复杂、随机、非平稳和非线性信号,还通过多重分形去趋势波动分析 (MFDFA) 的方法提取了复杂的非线性特征。使用不同的分类方法(包括支持向量机 (SVM)、线性判别分析 (LDA) 和多层感知器 (MLP))来比较它们在八种不同手指运动分类中的表现。观察发现,SVM 在手指运动分类方面的表现优于其他两个分类器。新特征与传统特征融合后,分类准确率、精确率、召回率(灵敏度)分别为98.70%、98.74%、98.67%。结果表明,加入MFDFA提取的新特征与其他传统特征,可以有效提高数据采集效果。
语言是多模式,包含语音和手势。手势是一种丰富日常交流的视觉语言形式。尽管手势与语音同时发生,但它们经常传达独特的信息,特别是关于视觉空间描述和行动(Aribali,2005; Feyereisen&Havard,1999; Hostetter&Alibali,2019; Melinger&Levelt,2004)。手势有意义地描绘了视觉世界的各个方面(例如,物体的大小,形状或运动)称为标志性手势(McNeill,1992)。语音和手势在语义和时间上都是相关的;然而,标志性手势的发作经常在语音中进行语义上的影响(Fritz,Kita,Littlemore和Krott,2021; Morrel-Samuels&Krauss,1992; Ter Bekke,Drijvers,&Holler,&Holler,&Holler,2020)。词汇效果是与手势含义最紧密相关的单词。例如,在句子中,“他拿起这本书”,搭配举起的手势,“捡起”将被视为词汇效果。在对话数据的语料库中,人们发现,手势运动的开始是在词汇范围前发生的672毫秒,并且手势运动的有意义的中风开始发生215毫秒之前,发生在词汇效果之前(Ter Bekke等人,2020年)。为了理解语音传语信号,听众必须在多模式语言处理过程中整合语音和姿态的时间和语义特征。许多研究都使用眼神跟踪来检查语言处理,因为语音信号实时展开。但是,对多模式处理的研究受到了较少的关注。使用改编的视觉世界范式,我们研究了听众如何使用手势中的信息来解决语音中的临时参考歧义。至关重要的是,我们还检查了中度重度创伤性脑损伤(TBI)的个体是否会破坏这一过程,从而促进了我们对认知沟通障碍对丰富多模式交流环境中语音障碍对言语传语整合的影响的理解。
1602 CV: Biometrics, Face, Gesture & Pose Gaze Label Alignment: Alleviating Domain Shift for Gaze Estimation Guanzhong Zeng; Jingjing Wang; Zefu Xu; Pengwei Yin; Wenqi Ren; Di Xie; Jiang Zhu Saturday March 1, 12:30pm-2:30pm
摘要。目前无人机记录的数据集大多局限于动作识别和物体跟踪,而手势信号数据集大多记录在室内空间。目前,尚无用于无人机指挥信号的室外记录公共视频数据集。利用无人机的视觉传感器和操作简单性,可以有效地将手势信号用于无人机。为了填补这一空白并促进更广泛应用领域的研究,我们提出了一个在室外环境中记录的无人机手势信号数据集。我们从一般飞机操纵和直升机操纵信号中选择了13个适合基本无人机导航和指挥的手势。我们提供了119个由37151帧组成的高清视频片段。使用基于姿势的卷积神经网络 (P-CNN) 计算得出的整体基线手势识别性能为 91.9%。所有帧都标注了身体关节和手势类别,以便将数据集的适用性扩展到更广泛的研究领域,包括手势识别、动作识别、人体姿势识别和情境感知。
摘要:本评论探讨了手势的历史和当前意义,作为一种通用的交流形式,重点是虚拟现实应用中的手势。它突出了1990年代的手势检测系统的演变,该系统使用计算机算法在静态图像中找到模式,直到当今的传感器技术,人工智能和计算能力的进步已经实现了实时的手势识别。本文强调了手势在虚拟现实(VR)中的作用,该领域通过3D建模,声音效果和传感技术的MA融合来创造沉浸式数字体验。本评论介绍了用于手势检测的最先进的硬件和软件技术,主要用于VR应用程序。它讨论了手势检测中的挑战,将手势分类为静态和动态,并将其评分为检测困难。本文还回顾了VR中使用的触觉设备及其优势和挑战。它概述了手势采集的过程,从输入和预处理到姿势检测,以供静态和动态手势。
虽然最近在代理[9]和机器人文献[24]中进行手势合成的工作已将手势视为共同语音,因此依赖于口头话语,我们提供了表明手势可以利用模型上下文的证据(即导航任务),不仅取决于口头话语。这种效果在含糊不清的口头话语中尤为明显。将这种依赖性解耦可能会使未来的系统能够综合澄清手势,这些手势阐明了模棱两可的口头话语,同时使研究能够更好地理解手势的语义。我们从这个领域中的经验中汇集了证据,使我们能够首次看到需要开发哪种端到端的关注模型,以合成一声互动的手势,同时仍然可以保留用户的结果并允许机器人模棱两可。我们在“基本方向手势计划”的背景下讨论这些问题,该指示指的是人类将来必须遵循的行动。
随着人工智能 (AI) 硬件和机器学习 (ML) 算法的发展,半导体行业开发了新一代标准化基准,例如 MLPerf™,用于衡量特定于 AI 的工作负载和推理能力的性能。这些基准包括 IBM DVS128 Gesture Dataset、ImageNet 和 GLUE。尽管一些基准测试组织继续引入新的领域和子类别来衡量边缘的 AI 推理,但这些新增内容通常受到过分强调孤立 TOPS 的限制,并且无法有效量化以功耗为主要关注点的实际用例的结果。