用户的心理状态,并自适应地对这些心理状态做出反应 [1]。心智理论是一组表征能力,使人能够读懂他人的思想。它能够归因于他人的心理状态,并利用这种心理状态在有意图或有目标的框架内预测他人的行为和表情(Dennett 在 [2] 中将其称为有意图的立场)。面部动作和眼神语言在识别基本情绪(如快乐、悲伤、厌恶和恐惧)以及“认知”或复杂心理状态(如不信任、认可、计划、钦佩、兴趣、体贴等)方面尤其发挥着重要作用[3]。使用数字摄像机,读心计算系统可以实时分析一个人的面部特征,并推断出该人的潜在心理状态,例如他或她是同意还是不同意、感兴趣还是无聊、思考还是困惑。将特定心理状态如何在面部表达的先验知识与实时发生的面部表情和头部动作分析相结合。该模型以不同的粒度来表示这些,从面部和头部运动开始,并在时间和空间中构建这些运动,以更清晰地表示所代表的心理状态。Neven Vision 的软件识别面部的 24 个特征点并实时跟踪它们。然后分析运动、形状和颜色,以识别微笑或眉毛上扬等手势。随着时间的推移,这些组合表明心理状态。例如,头部点头、微笑和眉毛上扬的组合可能意味着感兴趣。使用动态贝叶斯网络对可观察到的头部和面部表现以及相应的隐藏心理状态之间的联系进行建模。剑桥目前的项目正在考虑进一步的输入,如身体姿势和手势,以增强推理。然后,我们将使用等效模型来控制卡通头像的动画。我们还在观察使用读心术来支持在线购物和学习系统。读心术计算系统也可用于监控和建议改进人机交互 [4]。
在许多现实世界中,必须实时进行6D自我动作估计和映射。尤其是在机器人领域,低延迟和稳健的运动估计对于控制自动驾驶是必不可少的。动态生成的地图对于避免障碍物和路径计划也是必不可少的。迄今为止,实时融合各种传感器及其大量数据仍然是一项相当艰巨的任务。当传感器遭受外部诉讼和测量误差时,问题的复杂性就会增加。当自我运动估计和映射应在6D中进行,准确,稳健,低延迟且形状较小时,问题尤其困难。在本文中,我们建议通过以粗到精细的方式利用范围,磁性和内部感测来解决问题。这项工作的内容分为两个主要小节:使用多传感器融合方法在室内环境中进行稳健的态度和标题估计,以及使用基于激光拉尔达的系统的低延迟6D EGO-MOTION估计和映射技术。在第一部分中,我们提出了一种基于偏僻的二惯性和磁性传感器的新型多传感器融合。它的发展是为了进行稳健的态度和标题估计,并能够补偿外部磁场异常。我们制定了一个基于相关的滤波器模型,用于预处理术语数据,并采用了复发性神经网络(RNN)融合模型,以在室内环境中执行强大的估计。在第二部分中,我们提出了基于LiDAR扫描切片和并发匹配方法的低延迟大满贯框架。此框架 - 在并发的多线程匹配管道中使用切成薄片的点云数据,并利用态度和标题角度来实现高更新率和低延迟6D自我感动估计。将lissajous旋转模式应用于传感器的有限视场(FOV)。二维粗糙度模型被删除,以提取特征点,以进行点云的精细匹配和注册。此外,姿势估计器会参与时间运动预测变量,该预测器有助于在地图中找到特征对应关系,以便非线性优化器的快速收敛性。我们已经通过一系列广泛的实验验证了所提出的自我运动估计和映射方法,这些实验从远程诉讼,手工接种到无人机连接设置。在整个实验中,探索了不同的环境,例如室内实验室,办公室,家庭和工业地点以及各种混合条件。表明,这些方法能够进行高精度,低延迟估计以及快速运动和环境退化方面的鲁棒性。
Kaushal Gawas,三位一体工程与研究摘要学生 - 口头交流认为是大多数人的主要互动方式,但是某些情况可能会抑制其使用。这提示了探索替代通信方法。本文为问题引入了一种新颖的解决方案:使用眼眨眼检测输入的虚拟键盘系统。利用网络摄像头,系统通过面部特征点标识眼睛闪烁,特别是“ 68分”方法。通过采用机器学习算法和图像处理技术的混合物,例如定向梯度(HOG)的直方图和卷积神经网络(CNN),该系统可实现实时和准确的眼睛闪烁检测。虚拟键盘的用户界面是直觉设计的,使用户能够无缝输入文本而无需物理键盘或其他设备。此外,眼睛闪烁是“ Enter”键的功能等效物。使用多种数据集对系统的评估表明了其在不同的照明条件和用户配置文件中的稳健性。所提出的系统对辅助技术,虚拟现实和人类计算机互动的应用有望。关键术语:虚拟键盘,眼睛眨眼检测,OpenCV,Python,Dlib库,人机交互(HCI)。I.我的研究论文介绍了一个虚拟键盘系统的创建,该系统引入了一种新颖的输入方法:眼眨眼检测。主要目的是开发一个不仅有效而且直观且易于使用的系统。这种系统的潜在应用是广泛的,跨越了各个领域,包括辅助技术,虚拟现实和人类计算机的互动。该虚拟键盘系统的一个值得注意的方面是它对传统输入设备(例如物理键盘之类的环境)的适应性。例如,在诸如核电站的高风险环境中,污染潜力很大,利用传统的输入设备可能会对操作员构成挑战甚至风险。在这种情况下,使用眼眨眼检测的虚拟键盘系统的实现可能会非常有益。通过消除与输入设备进行物理接触的需求,可以大大降低污染的风险。此外,系统对眼睛眨眼检测的依赖确保了操作员可以与界面进行交互,而不会损害其安全性或环境的完整性。因此,通过提供传统输入方法的更安全,更实用的替代方案,提出的虚拟键盘系统有可能极大地提高核电站等关键环境中的运营效率和安全性。动机传统输入设备(如键盘和小鼠)长期以来一直是计算机交互的基石。但是,这些工具对运动障碍或伤害的个体面临着重大挑战,从而限制了他们对技术的可及性。Eye Blink检测是一种有前途的解决方案,利用了用户眼睛的自然运动,以提供非侵入性和直观的输入机制。此外,在诸如虚拟现实危险工作场所之类的环境中,使用传统输入设备是不切实际的或有风险的,替代方法。本研究论文是出于需要探索眼睛眨眼检测的潜力作为虚拟键盘的可行输入方法的可能性。目的是开发一个能够准确检测眼睛并翻译它们
我的研究重点是开发用于生物医学应用的新型AI技术,重点是翻译生物医学数据科学研究以使临床实践和生物学研究受益。我在AI,生物信息学,高性能计算以及生物医学物理学(BMP)和成像方面具有独特的专业知识。我对翻译研究的热情使我对尖端的AI研究并领导AI舞会生物医学物理学的创新,建立了与癌症生物学和放射疗法建立联系,以对该领域做出重大贡献。以下总结了我的研究经验和成就,并概述了我的研究努力的未来方向。A.研究成就A1。医学成像和图像分析:我开发了创新的实验和计算技术,用于在我的博士研究中使用超声检查对癌症组织的弹性和毛弹性特性进行成像。建立了一种新的数学框架,用于重建癌症组织的弹性和流体转运性能(血管通透性,间质通透性和间质性液压)。此外,在框架内开发了一种准确的方法,用于同时估计弹性模量和超声图像的可压缩性。这项工作增强了我们对癌症组织复杂机械行为的理解,并为癌症诊断和治疗评估提供了宝贵的见解。A2。我最近的另一项贡献是对对比特征分析(CFA)框架的开发,在参考文献中详细介绍。5。用于BMP应用程序的高性能和可解释的AI:深度神经网络(DNNS)在推理和决策模型培训期间将数千个特定于任务的特定功能提取到数百万个特定于任务的功能。可视化这些功能对于理解学习过程和改善DNN的性能至关重要,但现有的可视化技术仅适用于分类任务。对于回归,该特征点位于具有固有复杂形状的高维连续体上,从而使特征有意义地可视化。鉴于BMP中的大多数深度学习应用都是以回归为导向的,因此开发了一种概念框架和计算方法来可靠地可视化回归特征具有很大意义。i引入了DNN特征可视化4的多种发现和分析方法(MDA)方法,其中涉及学习与DNN的输出和目标标签相关的歧管拓扑。MDA提供了DNN特征的深刻洞察力,突出了DNN的适当性,概括性和对抗性鲁棒性。这些作品可以更深入地了解DNN“黑匣子”,从而设计了更有效的神经网络体系结构。发现CFA和MDA在改善多个医学成像应用中提高DNN性能和可解释性方面的有效性是显着的。A3。 基因组学数据分析的深度学习:单细胞基因组学的显着进步提出了询问大量生物医学查询的独特挑战和机会。A3。基因组学数据分析的深度学习:单细胞基因组学的显着进步提出了询问大量生物医学查询的独特挑战和机会。高维基因组数据本质上是复杂的,这是由于基因之间的相互交织的关系。现有的方法,包括新兴的基于深度学习的方法,并未考虑数据处理过程中的潜在生物学特征,这极大地损害了数据分析的性能并阻碍了先进基因组技术的最大利用。i开发了一种基于熵的制图策略,以将高维基因表达数据数据构成配置的图像格式,称为Genomap,并明确地集成了基因组相互作用6,7。这种独特的表格转换将基因 - 基因相互作用投入了基因组的空间配置,使我们能够提取深基因组相互作用特征并发现数据的潜在歧视性模式。i表明,对于多种应用(细胞聚类和识别,基因签名提取,单细胞数据积分,细胞轨迹分析,降低性降低和可视化),所提出的方法可大大提高数据分析的准确性。