人工智能的发展提出了一个关于人类智能的基本问题:人类推理是通过应用从丰富的先前经验中获得的任务特定知识来最好地模拟的,还是基于领域通用的心理表征操纵和比较?我们针对视觉类比推理的情况来解决这个问题。使用熟悉的三维物体(汽车及其零件)的真实图像,我们系统地操纵视觉类比问题中的视点、零件关系和实体属性。我们将人类的表现与两种最近的深度学习模型(孪生网络和关系网络)的表现进行了比较,这两种模型直接经过训练来解决这些问题并将其任务特定知识应用于类比推理。我们还通过将领域通用的映射程序应用于汽车及其零部件的学习表征,开发了一个使用基于零件的比较 (PCM) 的新模型。在四项类比(实验 1)和开放式类比(实验 2)中,领域通用的 PCM 模型(而非特定任务的深度学习模型)在关键方面产生了与人类推理者相似的性能。这些发现证明,通过将大数据的深度学习应用于特定类型的类比问题,不太可能实现类似人类的类比推理。相反,人类确实(并且机器可能)通过学习对多个任务有用的结构信息进行编码的表示,再加上关系相似性的高效计算来实现类比推理。
AD Applicable Document DAS Direct Acess Station DEM Digital Elevation Model DN Digital Number DRA Dual Receive Antenna EEC Enhanced Ellipsoid Corrected product EO Earth Observation EPSG European Petroleum Survey Group EULA End User License Agreement GEC Geocoded Ellipsoid Corrected product GIM Geocoded local Incidence angle Mask GPS Global Positioning System GS Ground Segment HDS Hisdesat HS High resolution Spotlight mode ISLR Integrated SideLobe Ratio MGD Multi look Ground Detected product NEBN Noise Equivalent Beta Nought NESZ Noise Equivalent Sigma Zero NRT Near Real Time OGC Open Geospatial Consortium PRF Pulse Repetition Frequency PRI Pulse Repetition Interval PSLR Peak to SideLobe Ratio RE Radiometrically Enhanced product SAR Synthetic Aperture Radar SC ScanSAR mode SE Spatially Enhanced product SL SpotLight mode SM条映射模式SRA单个接收天线SSC单位倾斜范围复杂产品ST凝视点凝视tiff标记的图像文件格式UPS UNIVERACON PORLAR STEREMOGRAPHIOGUR USP用户服务提供商UTC协调UNIVERSION UNIVERSING UTM UTM UNDIVE UTM UNDIMER THRESS MERMERM MERCATOR WMS WES MAP SERVICE
摘要 — 机器学习模型在对未知数据集进行推理时,通常会对熟悉的组或相似的类集产生有偏差的输出。人们已经研究了神经网络的泛化以解决偏差,这也表明准确度和性能指标(例如精确度和召回率)有所提高,并改进了数据集的验证集。测试和验证集中包含的数据分布和实例在提高神经网络的泛化方面起着重要作用。为了生成无偏的 AI 模型,不仅应对其进行训练以实现高精度并尽量减少误报。目标应该是在计算权重时防止一个类/特征对另一个类/特征占主导地位。本文使用选择性得分和余弦相似度等指标研究了 AI 模型上最先进的对象检测/分类。我们专注于车辆边缘场景的感知任务,这些任务通常包括协作任务和基于权重的模型更新。分析是使用包括数据多样性差异、输入类的视点和组合的案例进行的。我们的结果表明,使用余弦相似度、选择性得分和不变性来衡量训练偏差具有潜力,这为开发未来车辆边缘服务的无偏 AI 模型提供了启示。索引术语 — 偏差、数据多样性、特征相似度、泛化、选择性得分
专业任命 2023 - 哥伦比亚大学巴纳德学院心理学助理教授 2017 - 2023 贝茨学院神经科学助理教授 2016 - 2017 斯坦福大学计算机科学系研究科学家 2015 - 2016 凯格斯堡研究生院密涅瓦学院计算科学助理教授 2013 - 2015 斯坦福大学计算机科学系研究员 2011 - 2013 斯坦福大学计算机科学系博士后研究员 2009 - 2011 哈佛医学院布莱根妇女医院外科系博士后研究员 资助支持 2023-2028 国家科学基金会 (2240815) “职业:视觉、结构和语义场景信息的有效编码” 653,960.00 美元 角色:PI 2019-2023 美国国家科学基金会 (1920896) “RII Track-2 FEC:视觉体验数据库:用于视觉研究的大规模视点视频数据库。” $3,974,003.00 角色:PI 2017-2021 美国国家科学基金会 (BCS 1736394) “通过脑电图、机器学习和神经调节揭示场景分类的神经动力学” $186,708.00 角色:联合 PI 2017 数字课程设计/重新设计计划(贝茨学院) 2015 认知和神经生物学成像中心种子基金(斯坦福大学) 2009-2012 Ruth L. Kirschstein 国家研究服务奖 (NEI-NRSA) 2005-2009 美国国家科学基金会研究生研究奖学金 (NSF)
摘要 —遥感图像场景分类在广泛的应用中起着重要作用,因此受到了广泛关注。在过去的几年中,人们付出了巨大的努力来开发各种数据集或提出各种遥感图像场景分类方法。然而,仍然缺乏对场景分类数据集和方法的文献的系统综述。此外,几乎所有现有的数据集都存在许多局限性,包括场景类别和图像数量的规模小、图像变化和多样性不足以及准确性饱和。这些限制严重限制了新方法的发展,尤其是基于深度学习的方法。本文首先对最近的进展进行了全面回顾。然后,我们提出了一个大规模数据集,称为“NWPU-RESISC45”,这是西北工业大学 (NWPU) 创建的遥感图像场景分类 (RESISC) 的公开基准。该数据集包含 31,500 张图像,涵盖 45 个场景类别,每个类别有 700 张图像。所提出的 NWPU-RESISC45 (i) 在场景类别和总图像数量方面规模庞大,(ii) 在平移、空间分辨率、视点、物体姿势、照明、背景和遮挡方面变化很大,(iii) 类内多样性和类间相似性很高。该数据集的创建将使社区能够开发和评估各种数据驱动算法。最后,使用所提出的数据集评估了几种代表性方法,并将结果报告为未来研究的有用基线。索引术语 — 基准数据集、深度学习、手工制作的特征、遥感图像、场景分类、无监督特征学习。
摘要 —遥感图像场景分类在广泛的应用中起着重要作用,因此受到了广泛关注。在过去的几年中,人们付出了巨大的努力来开发各种数据集或提出各种遥感图像场景分类方法。然而,仍然缺乏对场景分类数据集和方法的文献的系统综述。此外,几乎所有现有的数据集都存在许多局限性,包括场景类别和图像数量的规模小、图像变化和多样性不足以及准确性饱和。这些限制严重限制了新方法的发展,尤其是基于深度学习的方法。本文首先对最近的进展进行了全面回顾。然后,我们提出了一个大规模数据集,称为“NWPU-RESISC45”,这是西北工业大学 (NWPU) 创建的遥感图像场景分类 (RESISC) 的公开基准。该数据集包含 31,500 张图像,涵盖 45 个场景类别,每个类别有 700 张图像。所提出的 NWPU-RESISC45 (i) 在场景类别和总图像数量方面规模庞大,(ii) 在平移、空间分辨率、视点、物体姿势、照明、背景和遮挡方面变化很大,(iii) 类内多样性和类间相似性很高。该数据集的创建将使社区能够开发和评估各种数据驱动算法。最后,使用所提出的数据集评估了几种代表性方法,并将结果报告为未来研究的有用基线。索引术语 — 基准数据集、深度学习、手工制作的特征、遥感图像、场景分类、无监督特征学习。
摘要 — 遥感图像场景分类在广泛的应用中发挥着重要作用,因此受到了广泛关注。在过去的几年中,人们做出了巨大的努力来开发各种数据集或提出各种用于遥感图像场景分类的方法。然而,仍然缺乏有关场景分类数据集和方法的文献的系统综述。此外,几乎所有现有数据集都存在许多局限性,包括场景类别和图像数量规模小、图像变化和多样性不足以及准确性饱和。这些限制严重限制了新方法的发展,尤其是基于深度学习的方法。本文首先对最近的进展进行了全面的回顾。然后,我们提出了一个大规模数据集,称为“NWPU-RESISC45”,这是西北工业大学 (NWPU) 创建的遥感图像场景分类 (RESISC) 的公开基准。该数据集包含 31,500 张图像,涵盖 45 个场景类,每个类有 700 张图像。提出的 NWPU-RESISC45 (i) 在场景类和总图像数量上是大规模的,(ii) 在平移、空间分辨率、视点、物体姿势、照明、背景和遮挡方面具有很大的变化,并且 (iii) 具有很高的类内多样性和类间相似性。该数据集的创建将使社区能够开发和评估各种数据驱动算法。最后,使用提出的数据集评估了几种代表性方法,并将结果报告为未来研究的有用基线。索引术语 — 基准数据集、深度学习、手工制作的特征、遥感图像、场景分类、无监督特征学习。
摘要 — 遥感图像场景分类在广泛的应用中发挥着重要作用,因此受到了广泛关注。在过去的几年中,人们做出了巨大的努力来开发各种数据集或提出各种用于遥感图像场景分类的方法。然而,仍然缺乏有关场景分类数据集和方法的文献的系统综述。此外,几乎所有现有数据集都存在许多局限性,包括场景类别和图像数量规模小、图像变化和多样性不足以及准确性饱和。这些限制严重限制了新方法的发展,尤其是基于深度学习的方法。本文首先对最近的进展进行了全面的回顾。然后,我们提出了一个大规模数据集,称为“NWPU-RESISC45”,这是西北工业大学 (NWPU) 创建的遥感图像场景分类 (RESISC) 的公开基准。该数据集包含 31,500 张图像,涵盖 45 个场景类,每个类有 700 张图像。提出的 NWPU-RESISC45 (i) 在场景类和总图像数量上是大规模的,(ii) 在平移、空间分辨率、视点、物体姿势、照明、背景和遮挡方面具有很大的变化,并且 (iii) 具有很高的类内多样性和类间相似性。该数据集的创建将使社区能够开发和评估各种数据驱动算法。最后,使用提出的数据集评估了几种代表性方法,并将结果报告为未来研究的有用基线。索引术语 — 基准数据集、深度学习、手工制作的特征、遥感图像、场景分类、无监督特征学习。
摘要 —遥感图像场景分类在广泛的应用中起着重要作用,因此受到了广泛关注。在过去的几年中,人们付出了巨大的努力来开发各种数据集或提出各种遥感图像场景分类方法。然而,仍然缺乏对场景分类数据集和方法的文献的系统综述。此外,几乎所有现有的数据集都存在许多局限性,包括场景类别和图像数量的规模小、图像变化和多样性不足以及准确性饱和。这些限制严重限制了新方法的发展,尤其是基于深度学习的方法。本文首先对最近的进展进行了全面回顾。然后,我们提出了一个大规模数据集,称为“NWPU-RESISC45”,这是西北工业大学 (NWPU) 创建的遥感图像场景分类 (RESISC) 的公开基准。该数据集包含 31,500 张图像,涵盖 45 个场景类别,每个类别有 700 张图像。所提出的 NWPU-RESISC45 (i) 在场景类别和总图像数量方面规模庞大,(ii) 在平移、空间分辨率、视点、物体姿势、照明、背景和遮挡方面变化很大,(iii) 类内多样性和类间相似性很高。该数据集的创建将使社区能够开发和评估各种数据驱动算法。最后,使用所提出的数据集评估了几种代表性方法,并将结果报告为未来研究的有用基线。索引术语 — 基准数据集、深度学习、手工制作的特征、遥感图像、场景分类、无监督特征学习。
摘要 — 自动眼动追踪对于与患有肌萎缩侧索硬化症的人互动、用眼睛控制电脑鼠标以及对葡萄膜黑色素瘤进行控制性放射治疗都具有重要意义。据推测,凝视估计的准确性可能通过使用前庭眼动反射来提高。这种不自主的反射会导致缓慢的补偿性眼动,与头部运动的方向相反。因此,我们假设在眼动追踪过程中让头部自由移动一定比保持头部固定、只让眼睛移动产生更准确的结果。本研究的目的是创建一个低成本的眼动追踪系统,通过保持头部自由移动,将前庭眼动反射纳入凝视估计中。所用的仪器包括一个低成本的头戴式网络摄像头,可记录一只眼睛。尽管用于记录的网络摄像头是低端的,并且没有直接照明,但瞳孔检测是完全自动和实时的,采用了简单的基于颜色和基于模型的混合算法。本研究测试了基于模型的算法和基于插值的算法。根据凝视估计结果中的平均绝对角度差,我们得出结论,基于模型的算法在头部不动时表现更好,而在头部移动时同样表现良好。当头部自由移动时,使用任一算法,凝视点与目标点的大多数偏差小于 1 ◦,可以得出结论,我们的设置完全符合文献中的 2 ◦ 基准,而头部不动时的偏差超过 2 ◦。所使用的算法之前未在被动照明下进行测试。这是首次研究考虑到前庭眼反射的低成本眼动追踪装置。