首先,以受邀演讲、投稿论文和参与结构化讨论的形式,解决表征对齐的问题以及机器学习可解释性和安全性领域的相关问题,这些问题都是 ICLR 和其他机器学习会议持续关注的问题。这些问题源于以下中心主题:智能系统何时以及为何学习对齐的表示,以及科学家和工程师如何干预这种对齐?例如,由于大型模型在各个行业和科学领域的使用增加(例如,Gemini Team Google,2023 年;OpenAI,2023 年),该领域需要找到更好地解释和最终理解这些系统的方法。模型可解释性与这些系统形成的表示紧密相关(参见 Doshi-Velez 和 Kim,2017 年;Sucholutsky 等人,2023 年;Lampinen 等人,2024 年;Muttenthaler 等人,2024 年)。因此,更好地理解表示及其与参考系统(通常是人类目标)的一致性,反过来会促进模型的可解释性和可解释性。另一组问题集中于表示学习与计算神经科学和认知科学之间的联系。这些领域已经相对独立地开发了评估和增强人工智能与人类智能系统在神经和行为层面的一致性的方法(Collins 等人,2024 年;Muttenthaler 等人,2024 年;Dorszewski 等人,2024 年;Bonnen 等人,2024 年;Sundaram 等人,2024 年)。我们的研讨会旨在就确定衡量和增强人工智能与人类智能系统一致性的最有用方法展开公开讨论。
近年来,已经提出了各种方法和基准来实证评估人工神经网络与人类神经和行为数据的对齐情况。但是不同的对齐指标有多对齐呢?为了回答这个问题,我们分析了来自 Brain-Score 的视觉数据(Schrimpf 等人,2018 年),包括来自模型与人类工具箱的指标(Geirhos 等人,2021 年),以及人类特征对齐(Linsley 等人,2018 年;Fel 等人,2022 年)和人类相似性判断(Muttenthaler 等人,2022 年)。我们发现神经分数和行为分数之间的成对相关性非常低,有时甚至是负相关的。例如,在我们考虑的所有 69 个对齐指标上经过全面评估的 Brain-Score 上的 80 个模型之间的平均相关性仅为 0.198。假设所有采用的指标都是合理的,这意味着与人类感知的一致性最好被视为一个多维概念,不同的方法测量根本不同的方面。我们的结果强调了综合基准测试的重要性,但也提出了如何正确组合和汇总各个指标的问题。通过取算术平均值进行聚合(如 Brain-Score 中所做的那样)导致整体表现目前由行为主导(95.25% 的解释方差),而神经预测性起着不太重要的作用(仅 33.33% 的解释方差)。作为确保不同的一致性指标都公平地贡献综合基准分数的第一步,我们通过比较三种不同的聚合选项得出结论。