长期以来,眼球运动一直被研究作为了解人类大脑注意力机制的窗口,并作为新颖的人机界面提供。然而,并不是我们注视的所有东西都是我们想要与之互动的东西;这被称为凝视界面的点石成金问题。为了克服点石成金问题,目前的界面往往不依赖自然的凝视线索,而是使用停留时间或凝视手势。在这里,我们提出了一种完全由数据驱动的方法,用于仅基于自然凝视线索来解码人类对对象操作任务的意图。我们进行了数据收集实验,其中 16 名参与者被赋予操作和检查任务,这些任务将在他们面前的桌子上的各种物体上执行。受试者的眼球运动使用可穿戴眼球追踪器记录,允许参与者自由移动头部并注视场景。我们使用我们的 Semantic Fovea,一种卷积神经网络模型来获取场景中的物体及其与每一帧的凝视轨迹的关系。然后,我们评估数据并研究几种对意图预测的分类任务进行建模的方法。我们的评估表明,意图预测不是数据的简单结果,而是依赖于凝视线索的非线性时间处理。我们将该任务建模为时间序列分类问题,并设计双向长短期记忆 (LSTM) 网络架构来解码意图。我们的结果表明,我们可以仅从自然凝视线索和物体相对位置解码人类的运动意图,准确率为 91.9%。我们的工作证明了自然凝视作为人机交互的零 UI 界面的可行性,即用户只需自然地行动,而不需要与界面本身交互或偏离其自然的眼球运动模式。
摘要:当使用凝视运动操作电动轮椅时,检查环境和观察物体等眼球运动也会被错误地识别为输入操作。这种现象被称为“点石成金问题”,对视觉意图进行分类非常重要。在本文中,我们开发了一种实时估计用户视觉意图的深度学习模型,以及一种结合意图估计和凝视停留时间方法的电动轮椅控制系统。所提出的模型由 1DCNN-LSTM 组成,它从 10 个变量的特征向量估计视觉意图,例如眼球运动、头部运动和到注视点的距离。对四种视觉意图进行分类的评估实验表明,与其他模型相比,所提出的模型具有最高的准确性。此外,实施所提出模型的电动轮椅的驾驶实验结果表明,与传统方法相比,用户操作轮椅的努力减少了,轮椅的可操作性得到了提高。从这些结果中,我们得出结论,通过从眼球和头部运动数据中学习时间序列模式可以更准确地估计视觉意图。