长期以来,眼球运动一直被研究作为了解人类大脑注意力机制的窗口,并作为新颖的人机界面提供。然而,并不是我们注视的所有东西都是我们想要与之互动的东西;这被称为凝视界面的点石成金问题。为了克服点石成金问题,目前的界面往往不依赖自然的凝视线索,而是使用停留时间或凝视手势。在这里,我们提出了一种完全由数据驱动的方法,用于仅基于自然凝视线索来解码人类对对象操作任务的意图。我们进行了数据收集实验,其中 16 名参与者被赋予操作和检查任务,这些任务将在他们面前的桌子上的各种物体上执行。受试者的眼球运动使用可穿戴眼球追踪器记录,允许参与者自由移动头部并注视场景。我们使用我们的 Semantic Fovea,一种卷积神经网络模型来获取场景中的物体及其与每一帧的凝视轨迹的关系。然后,我们评估数据并研究几种对意图预测的分类任务进行建模的方法。我们的评估表明,意图预测不是数据的简单结果,而是依赖于凝视线索的非线性时间处理。我们将该任务建模为时间序列分类问题,并设计双向长短期记忆 (LSTM) 网络架构来解码意图。我们的结果表明,我们可以仅从自然凝视线索和物体相对位置解码人类的运动意图,准确率为 91.9%。我们的工作证明了自然凝视作为人机交互的零 UI 界面的可行性,即用户只需自然地行动,而不需要与界面本身交互或偏离其自然的眼球运动模式。
主要关键词