目光的估计已成为最近研究日益兴趣的主题。大多数当前方法都依赖于单视面图像作为输入。然而,这些副本很难处理较大的头部角度,从而导致估计的准确性。要解决此问题,添加二视摄像头可以帮助更好地捕获眼睛的外观。但是,现有的多视图方法具有两个限制。1)他们需要培训的多视图注释,这很昂贵。2)更重要的是,在测试过程中,必须知道多个相机的确切位置并与训练中使用的相匹配,这限制了应用程序场景。为了应对这些挑战,我们提出了一种新颖的1视图 - 2视图(1-2视图)适应解决方案,在本文中,无监督的1-2视图适应框架 - 用于注视估计的工作(UVagaze)。我们的方法适应了一个传统的单视凝视估计器,以灵活地放置了双摄像头。在这里,“灵活”意味着我们将双摄像头放在任意位置,而不论训练数据如何,而不知道它们的外部参数。具体来说,乌瓦加兹(Uvagaze)建立了双视图相互监督适应策略,它利用了两种观点之间的凝视方向的内在一致性。以这种方式,我们的方法不仅可以从常见的单视图预训练中受益,而且还可以实现更高级的双视凝视估计。实验结果表明,单视图估计量适用于双重视图,可以获得更高的效果,尤其是在跨数据集设置中,取代率提高了47.0%。项目页面:https://github.com/ mickeyllg/uvagaze。
课堂感知是一个重要且活跃的研究领域,具有巨大的教学改进潜力。作为当前最佳实践的专业观察员的补充,自动化教学专业发展系统可以参加每节课并捕捉所有在场人员的细微细节。课堂注视行为是需要捕捉的一个特别有价值的方面。对于学生来说,某些注视模式已被证明与对材料的兴趣相关,而对于教师来说,以学生为中心的注视模式已被证明可以提高可接近性和即时性。不幸的是,之前的课堂注视传感系统的准确性有限,通常需要专门的外部或佩戴式传感器。在这项工作中,我们开发了一种新的计算机视觉驱动系统,该系统为教室的 3D“数字孪生”提供支持,并实现全班 6DOF 头部注视矢量估计,而无需对任何在场人员进行测量。我们描述了我们的开源实现,以及受控研究和现实世界课堂部署的结果。
人类被一个充满信息的复杂世界所包围。人类如何才能生存而不被淹没?视野内通常有数百到数千个物体和其他类型的信息,但是我们的感官和认知能力是有限的。幸运的是,并非所有物体或信息都与我们当前的议程或长期生存目标有关。通过进化和学习,人类逐渐开发出选择信息的策略。这被称为选择性注意。随着人工智能 (AI) 从简单的数字世界迁移到复杂的现实世界,AI 代理面临着同样的挑战:它们如何从充满信息的世界中选择重要信息?给定的计算模型(无论是生物的还是数字的)的容量都是有限的。因此,注意力选择对于确保将资源投入到关键组件上是必要的。由于人类会主动寻找所需的信息,因此凝视可以揭示潜在的注意力模式 [Posner and Petersen,1990]。人类在视野中央 1-2 度的视觉中心具有高敏锐度(即,在手臂长度处覆盖手指的宽度),而周边的分辨率则逐渐降低。他们学会了在正确的时间将中央凹移动到正确的位置,以处理与任务相关的重要视觉刺激 [Borji and Itti,2014;Hayhoe,2017]。这种选择性注意机制
课堂感知是一个重要且活跃的研究领域,具有巨大的教学改进潜力。作为专业观察员(当前最佳实践)的补充,自动化教学专业发展系统可以参加每节课并捕捉所有在场人员的细微细节。课堂注视行为是捕捉的一个特别有价值的方面。对于学生来说,某些注视模式已被证明与对材料的兴趣相关,而对于教师来说,以学生为中心的注视模式已被证明可以提高可接近性和即时性。不幸的是,之前的课堂注视传感系统的准确性有限,通常需要专门的外部或佩戴传感器。在这项工作中,我们开发了一种新的计算机视觉驱动系统,该系统为教室的 3D“数字孪生”提供支持,并实现全班 6DOF 头部注视矢量估计,而无需对任何在场人员进行测量。我们描述了我们的开源实现,以及受控研究和现实世界课堂部署的结果。
更直观的输入设备用于游戏交互,凝视是一种快速而自然的输入方法,也可以被利用[18]。Jonsson 比较了眼球和鼠标控制作为两个三维 (3D) 计算机游戏的输入,发现凝视控制更准确,游戏体验更令人愉快和投入 [3]。Smith 和 Graham 研究了几种游戏类型的眼球输入,主要是 3D 导航。他们的结果表明,参与者在使用眼动仪作为游戏输入设备时感觉更加沉浸 [4]。Kenny 等人。开发了一款第一人称射击 (FPS) 游戏,可同时记录眼动追踪数据、视频数据和游戏内部数据。他们发现玩家大部分时间都注视着屏幕中心 [5]。这些结果提出了将凝视集成到现代游戏应用中的前景。
摘要:随着沉浸式计算设备的出现,自我中心感知迅速发展。人类注视预测是分析自我中心视频的一个重要问题,主要通过基于显着性的建模或高度监督的学习来解决。我们定量分析了监督深度学习模型在看不见的域外数据的自我中心注视预测任务中的泛化能力。我们发现它们的性能高度依赖于训练数据,并且仅限于训练注释中指定的域。在这项工作中,我们解决了在不使用任何训练数据的情况下联合预测人类注视点和自我中心视频时间分割的问题。我们引入了一个无监督的计算模型,该模型汲取了事件感知的认知心理学模型的灵感。我们使用 Grenander 的模式理论形式来表示时空特征,并将惊讶建模为预测注视点的机制。对两个公开数据集(GTEA 和 GTEA+ 数据集)的广泛评估表明,所提出的模型可以显著超越所有无监督基线和一些监督凝视预测基线。最后,我们表明该模型还可以对以自我为中心的视频进行时间分割,其性能可与更复杂、完全监督的深度学习基线相媲美。
在 Fitts 定律实验中,开发了一种混合凝视和脑机接口 (BCI) 来完成目标选择。该方法 GIMIS 使用凝视输入来控制计算机光标以指向目标,并通过 BCI 使用运动意象 (MI) 执行点击以选择目标。一项实验 (n = 15) 比较了三种运动意象选择方法:仅使用左手、使用腿以及使用左手或腿。后一种选择方法(“任一”)具有最高的吞吐量(0.59 bps)、最快的选择时间(2650 毫秒)和 14.6% 的错误率。随着目标宽度的增加,瞳孔大小显著增加。我们建议使用大目标,这显著降低了错误率,并使用“任一”选项进行 BCI 选择,这显著提高了吞吐量。与停留时间选择相比,BCI 选择速度较慢,但如果凝视控制正在恶化,例如在 ALS 疾病的晚期阶段,GIMIS 可能是一种逐步引入 BCI 的方法。
肌电接口在消费者和健康应用中前景广阔,但目前它们受到不同用户之间性能差异和任务间通用性差的限制。为了解决这些限制,我们考虑在操作过程中不断适应的接口。尽管当前的自适应接口可以减少受试者之间的差异,但它们在任务之间的通用性仍然很差,因为它们在训练期间使用了特定于任务的数据。为了解决这一限制,我们提出了一种新范式,使用自然眼球注视作为训练数据来调整肌电接口。我们招募了 11 名受试者,使用从前臂肌肉测量的高密度表面 EMG 信号在 2D 计算机光标控制任务上测试我们提出的方法。我们发现我们的凝视训练范式和当前的任务相关方法之间的任务性能相当。这一结果证明了
图1:我们发现我们发现在重定向步行(RDW)期间发现与场景运动相关的生理信号的特性的可视化和生理信号的特性。(a)我们进行了心理物理实验,其中参与者完成了数百个试验的旋转任务,在旋转过程中,将不同量的额外场景运动注入虚拟环境中。参与者报告了他们是否认为额外的注射动作,我们计算了他们对这些动作的视觉敏感性。(b)我们的分析表明,随着注射动作的速度提高,参与者的凝视(左)和姿势(右)的稳定性下降。这些结果首次表明了重定向强度(注入视觉运动增长)和生理信号之间的直接相关性。
凝视是一种将他人关注转向特定位置的重要且有力的社会提示。但是,在许多情况下,方向符号(如箭头)实现了类似的目的。是由总体问题进行的,人造系统如何有效地传达方向信息,我们进行了两个提示实验。在两个实验中,都要求参与式插图识别屏幕上出现的外围目标,并通过按下按钮尽快响应它们。在出现目标之前,屏幕中心显示了一个提示。在实验1中,提示是凝视或指向一个方向的箭头或箭头,但对目标位置无可预测。对早期研究的意见,我们发现箭头或凝视的侧面有一个反应时间益处。延伸了早期的研究,我们发现这种效应在垂直轴和水平轴之间以及面部和箭头之间是不可或缺的。在实验2中,我们使用了100%的“反预测性”提示;也就是说,目标总是发生在与凝视或箭头方向相反的一侧。具有没有固有定向含义(颜色)的线索,我们控制了一般学习效果。尽管在实验1中观察到的非预测性目光与非预测性箭头提示之间的定量匹配,但反预测箭头比中性提示的反应时间益处比对反预测性目光的相应益处更强大。这种差异可能具有实际相关性,例如,在人机相互作用的背景下设计提示时。这表明 - 如果符合其固有方向的功效,则与箭头更难覆盖或重新解释。
