本文件是经过答辩评审团批准的大量工作的结果,并向整个大学社区提供。它受作者知识产权的保护。这意味着使用本文档时有义务引用和引用。此外,任何伪造、剽窃或非法复制行为都将受到刑事起诉。联系方式:ddoc-theses-contact@univ-lorraine.fr
这篇论文由 ScholarWorks 的 Walden 论文和博士研究系列免费提供给您,供您开放访问。它已被 ScholarWorks 的授权管理员接受并收录在 Walden 论文和博士研究中。如需更多信息,请联系 ScholarWorks@waldenu.edu。
摘要:长期以来,眼球注视追踪器因其在航空领域的实用性而受到广泛研究。到目前为止,已经在飞行电子显示器和模拟条件下头戴式显示系统的注视控制界面方面进行了大量研究。在本文中,我们介绍了在实际飞行条件下眼球注视追踪器的使用情况及其在此类使用条件和照明下的故障模式的研究。我们表明,具有最先进精度的商用现货 (COTS) 眼球注视追踪器无法提供超出一定眼部照明水平的注视估计。我们还表明,眼球注视追踪器的有限可用跟踪范围限制了它们即使在飞行员自然操作行为期间也无法提供注视估计。此外,我们提出了三种开发眼球注视追踪器的方法,这些方法旨在使用网络摄像头代替红外照明,旨在在高照度条件下发挥作用。我们展示了使用 OpenFace 框架开发的智能追踪器,在室内和室外条件下的交互速度方面,它提供了与 COTS 眼动追踪器相当的结果。
摘要 随着智能手机的普及和移动应用程序的普及,人们,特别是年轻人,花越来越多的时间与智能手机上各种各样的应用程序进行交互。这引出了一个问题:人们在使用应用程序时如何分配注意力到界面上。为了解决这个问题,我们在本研究中设计了一个包含两个会话的实验(即会话1:浏览原始界面;会话2:浏览去除颜色和背景后的界面),并结合眼动追踪系统。在被试浏览应用程序界面时,用眼动追踪仪记录被试的注意注视时长。将智能手机的整个屏幕划分为四个均匀的区域以探究注视时长。结果显示,与其他区域相比,被试在会话中对左下方区域的总注视时长明显更长(1)在会话2中,被试在底部的总注视时长得以保留,但左侧和右侧之间没有显著差异。与总注视时长类似,首次注视时长也主要集中在界面的底部区域。此外,通过评估手机操作的熟悉度和准确性来量化手机使用技能,并研究其与注视时长的关系。我们发现,在会话 1 中,左下角区域的首次注视时长与智能手机操作水平呈显著负相关,但在会话 2 中,两者之间无显著相关性。根据比率探索的结果,在两个会话中,感兴趣区域之间的首次注视时长与总注视时长之比并没有显著差异。本研究的结果为浏览应用程序界面时的注意力分配提供了见解,并且对应用程序界面和广告的设计具有启发意义,因为可以根据注意力分配来优化布局,以最大限度地传递信息。
图 4 凝视运动。 (a) 三种模式下参与者目光注视的示例。屏幕上显示 16 个字母数字字符,由 4×4 矩阵表示。每次试验在 16 个字符中有一个、三个或五个目标与声音呈现的单词相匹配。在单人模式下,屏幕上显示的红色圆圈表示参与者的注视点。在合作和竞争模式下,屏幕上两位参与者的注视点以红色和绿色圆圈区分。 (b) 单次试验中观察到的参与者扫描路径和注视热图的示例。虚线框在实验期间不可见,标记了目标的位置。请注意,观察者的注视点在实验期间不可见。 (c) 40 次试验的注视热图。 (d) 两位参与者眼动追踪热图之间的相似性。每个小提琴图(透明色)上都叠加了一个箱线图,显示了相似性度量的分布,包括单一、合作和竞争模式下的 Pearson's r、结构相似性指数度量 (SSIM) 和 Jaccard 相似性系数。黑色星号和线分别表示相似性的平均值和中位数。使用重复测量方差分析确定任务模式之间相似性的显著差异。
Apple Vision Pro 和 Meta Quest Pro 等眼动追踪混合现实头戴设备已将眼动追踪推向主流。截至撰写本文时,消费级混合现实 (XR) 产品通常将眼动追踪用于两个主要目的。首先,Vision Pro 将目光注视和手指捏合 [ 11 , 12 ] 作为其主要输入模式。其次,VRChat 等社交 XR 应用可以使用目光注视数据在虚拟形象中实现准确的目光表现和目光接触 [ 1 ]。这些机制通常将瞳孔位置数据作为输入,并产生光线投射或虚拟形象运动作为输出。然而,目光注视和人类心理学之间的深厚联系可以使研究方向超越显式位置输入。传统上,HCI 专注于显式输入领域的眼动追踪——用于交互或运动追踪的位置数据。在系统综述中,Vasseur 等人 2019 年 9 月发表了一篇系统综述,介绍了一种用于追踪眼动追踪的眼动追踪方法。 [ 13 ] 发现大多数眼动追踪研究传统上都是使用桌面设置进行的,并建议将眼动追踪人机交互扩展到新的指标、分析和设备中。心理生理学领域率先使用可观察的物理数据来揭示人类的认知过程。眼球运动和特征以及心跳、脑电波和荷尔蒙变化等其他指标已被用来得出有关用户行为和认知状态的结论。可观察的认知行为可以包括有目的的(有意识的)状态和冲动的(无意识的)状态 [ 3 ]。此外,可测量的认知还可以包括一般的个人现象,如学习、反思、情感和记忆。凝视数据可以预测疲劳、注意力、分心和走神等认知状态 [ 9 ]。除了瞳孔扩张和眨眼率可以 61% 的准确率预测用户的困惑之外 [ 5 ],瞳孔大小还与
3D武器凝视是一个公共数据集,旨在从精确控制的,舒适的姿势到达宽的可触及空间中的物体时提供自然的手臂运动以及视觉和凝视信息。参与者参与了在虚拟环境中挑选和将物体放置在各种位置和方向上,从而使工作空间最大化了探索工作区,同时通过指导参与者通过躯干和肩部来确保参与者通过视觉反馈来确保一致的坐姿姿势。这些实验设置允许以高成功率(> 98%的物体)和最小的补偿性运动捕获自然手臂运动。数据集重组超过250万个样本,这些样本从20位健康参与者中记录,他们执行14,000个单次选拔运动(每位参与者700个)。最初旨在探索基于自然眼睛和手臂协调的新型假体控制策略,但该数据集也将对对核心感觉运动控制,人形机器人机器人,人类机器人相互作用以及在注视指导计算机视觉中相关解决方案的开发和测试的研究人员也很有用。
课堂感知是一个重要且活跃的研究领域,具有巨大的教学改进潜力。作为当前最佳实践的专业观察员的补充,自动化教学专业发展系统可以参加每节课并捕捉所有在场人员的细微细节。课堂注视行为是需要捕捉的一个特别有价值的方面。对于学生来说,某些注视模式已被证明与对材料的兴趣相关,而对于教师来说,以学生为中心的注视模式已被证明可以提高可接近性和即时性。不幸的是,之前的课堂注视传感系统的准确性有限,通常需要专门的外部或佩戴式传感器。在这项工作中,我们开发了一种新的计算机视觉驱动系统,该系统为教室的 3D“数字孪生”提供支持,并实现全班 6DOF 头部注视矢量估计,而无需对任何在场人员进行测量。我们描述了我们的开源实现,以及受控研究和现实世界课堂部署的结果。
课堂感知是一个重要且活跃的研究领域,具有巨大的教学改进潜力。作为专业观察员(当前最佳实践)的补充,自动化教学专业发展系统可以参加每节课并捕捉所有在场人员的细微细节。课堂注视行为是捕捉的一个特别有价值的方面。对于学生来说,某些注视模式已被证明与对材料的兴趣相关,而对于教师来说,以学生为中心的注视模式已被证明可以提高可接近性和即时性。不幸的是,之前的课堂注视传感系统的准确性有限,通常需要专门的外部或佩戴传感器。在这项工作中,我们开发了一种新的计算机视觉驱动系统,该系统为教室的 3D“数字孪生”提供支持,并实现全班 6DOF 头部注视矢量估计,而无需对任何在场人员进行测量。我们描述了我们的开源实现,以及受控研究和现实世界课堂部署的结果。
我们研究了开发决策支持系统 (DSS) 的可能性,该系统整合了眼球注视测量,以便更好地调整其建议。事实上,眼球注视可以洞察人类的决策:个人倾向于更加关注与他们即将做出的选择一致的关键信息。因此,眼球注视测量可以帮助 DSS 更好地捕捉决定用户决策的背景。22 名参与者进行了简化的空中交通管制 (ATC) 模拟,他们必须根据屏幕上显示的特定参数值决定接受或修改路线建议。记录了每个参数的决策和注视时间。算法使用用户注视时间来估计每个参数对其决策的效用。在此训练阶段之后,算法立即在两种条件下生成新的路线建议:1) 考虑参与者的决策,2) 使用显示参数的停留时间测量,考虑参与者的决策及其视觉行为。结果表明,在考虑参与者的决策时,系统建议比基础系统更准确,使用他们的停留时间甚至更准确。使用眼动仪捕捉决策的关键信息加速了 DSS 的学习阶段,从而有助于进一步提高连续建议的准确性。此外,探索性眼动仪分析反映了决策过程的两个不同阶段,在整个决策时间过程中,相关参数(即涉及规则)的停留时间更长,这些相关参数的注视频率增加,尤其是在决策前的最后注视期间。因此,未来整合眼动仪数据的 DSS 应该特别关注决策前的最后注视。总的来说,我们的结果强调了眼动仪在增强和加速系统适应用户偏好、知识和专业知识方面的潜在意义。