在广泛的数据集上预先训练的视觉语言模型(VLMS)可以通过将性别信息与特定对象或场景相关联,无意中地学习偏见。当前方法,该方法着重于修改输入并监视模型的输出概率分数的变化,通常从模型组件的角度来全面地偏见。我们提出了一个框架,该框架结合了因果中介分析,以确保并绘制VLM中偏见产生和传播的途径。我们的框架适用于广泛的视觉语言和多模式任务。在这项工作中,我们将其应用于对象检测任务并将其应用于GLIP模型。这种方法使我们能够确定干预措施对模型偏差的直接影响以及干预措施对通过不同模型组件介导的偏差的间接影响。我们的结果表明,图像效果是偏见的主要因素,其影响明显高于文本特征,特别是占MSCOCO和PASCAL-SONTIC数据集中偏见的32.57%和12.63%。值得注意的是,图像编码器的贡献超过了文本编码器和深层融合编码器的贡献。进一步的实验证实,语言和视力方式的贡献是对齐和不集中的。因此,在图像编码器中着重于模糊的性别表示,这对模型偏见做出了最大的贡献,在MSCOCO和PASCAL-SENTENCE数据集中,有效地降低了偏见22.03%和9.04%,并且具有最小的性能损失或增加的计算需求。1
因果关系边界的固有歧义在评估因果事件提取任务时构成了挑战。传统的会议诸如精确匹配和Bertscore之类的传统会议反映了模型性能,因此我们训练了评估模型以近似人类评估,从而达到了高度的一致性。我们用它们通过提取模型来形成增强学习,以使其与人类的喜好保持一致,并优先使用语义理解。我们通过多PLE数据集成功地探索了我们的方法,包括将在一个数据集中训练的评估者转移到另一个数据集中,以减轻对人类注销数据的依赖。在这种情况下,我们还提出了一种弱至较小的诉讼方法,该方法使用AN-NOTARDATED数据的一部分来训练评估模型,同时仍在训练RL模型中达到高性能。1
Haohong Lin, Wenhao Ding, Zuxin Liu, Yaru Niu, Jiacheng Zhu, Yuming Niu, and Ding Zhao
奖励黑客[Skalse等,2022]是AI对齐的关键问题,尤其是在增强学习(RL)中。AI系统旨在优化特定的奖励,通常会发现意想不到的方式来最大化这种奖励,这与人类意图不同。真正的目标与模型所学的行为之间的这种错位可能会导致不安全或不良结果。解决奖励黑客攻击对于构建可靠与人类价值观相吻合的AI系统至关重要。通过人类反馈(RLHF)进行加强学习的主要奖励黑客攻击是因果错误识别[Tien等,2022]。当模型错误地学习动作与奖励之间的因果关系,导致其优化代理或虚假相关性而不是真实目标时,就会发生这种情况。例如,该模型可能会在其环境中操纵指标或利用快捷方式。这创建了一个方案,其中AI根据奖励功能看起来很成功,但无法实现预期的目标。该项目旨在探索是否准确识别奖励模型中的因果机制是否可以帮助减轻奖励黑客攻击。通过对推动理想行为的因果关系进行建模,我们希望将AI引导到更加一致的学习中。具体来说,该项目将调查将因果推断整合到奖励建模中以提高RLHF鲁棒性的方法,从而降低AI利用意外漏洞的风险。目标是了解因果推理如何有助于更好地对齐具有人为价值的AI系统。
《行星因果推断》一书探讨了地球观测 (EO) 数据如何增强社会科学研究,加深我们对人类对环境、社会和经济影响的理解。虽然使用调查和国家统计数据的传统方法成本高昂且有限,但来自卫星的 EO 数据为以精细分辨率研究城市化、贫困、冲突和森林砍伐等现象提供了全球实时视角。本书介绍了以因果为导向的基于 EO 的机器学习 (ML),其中分析图像中的空间数据以创建社会科学指标的代理并用于因果推断。这些行星因果推断方法可以为全球社会问题提供高分辨率洞察,为评估冲突、可持续发展和其他现象提供新方法。通过结合地理、历史和多尺度分析的见解,“行星因果推断”为研究人员提供了基础,以解决家庭、社区、区域和全球尺度的综合问题。本书的“成分”和“食谱”食谱式框架使社会科学家能够采用 EO-ML 方法,开发自己的研究方法,并解决全球范围内的紧迫问题。
非经典因果模型是为了解释违反贝尔不等式而开发的,同时遵循相对论因果结构和可靠性——即避免微调因果解释。最近,基于维格纳朋友思想实验的扩展,得出了一个可以被视为比贝尔定理更强的不通定理:局部友好 (LF) 不通定理。在这里,我们表明,即使考虑非经典和/或循环因果解释,LF 不通定理也对因果模型领域提出了巨大的挑战。我们首先将 LF 不等式(LF 不通定理的关键元素之一)重新定义为源于统计边际问题的一夫一妻制关系的特殊情况。然后,我们进一步将 LF 不等式重新定义为因果兼容性不等式,它源于非经典因果边际问题,其因果结构由有理有据的因果形而上学假设所暗示。我们发现,即使允许观察到的事件的潜在原因接受后量子描述(例如在广义概率论或更奇特的理论中),LF 不等式仍会从这种因果结构中出现。我们进一步证明,没有非经典因果模型可以在不违反无微调原则的情况下解释 LF 不等式的违反。最后,我们注意到,即使诉诸循环因果模型,也无法克服这些障碍,并讨论了因果建模框架进一步扩展的潜在方向。
仅从测量结果的相关性来看,两个原本孤立的个体能否确定这种相关性是否是非时间性的?也就是说,他们能否排除在两个不同时间给予他们相同的系统的可能性?经典统计学认为不能,但量子理论却不同意。在这里,我们介绍了将这种量子相关性识别为非时间性的必要和充分条件。我们证明了时间反转下的非时间性不对称性,并揭示了它是不同于纠缠的空间量子相关性的度量。我们的结果表明,某些量子相关性具有内在的时间箭头,并能够根据它们与各种潜在因果结构的(不)兼容性对跨时空的一般量子相关性进行分类。
1 重庆医科大学附属第一医院临床分子医学检测中心,重庆,2 重庆医科大学附属第一医院重庆市分子肿瘤学与表观遗传学重点实验室,重庆,3 重庆医科大学脑科学与疾病研究所,重大脑疾病与衰老研究教育部重点实验室,重庆,4 重庆医科大学附属永川医院肿瘤科,重庆,5 高州市人民医院乳腺外科,高州,6 德国慕尼黑路德维希·马克西米利安大学普通外科、内脏外科和移植外科,7 重庆医科大学附属第一医院生物库中心,重庆,
机器学习算法对于各种预测任务很有用,但它们也可以学习如何根据性别,种族或其他敏感属性来区分。这种实现产生了公平的机器学习领域,该领域旨在识别,量化和最终减轻这种算法偏见。此手稿描述了R软件包Fairadapt,该软件包实现了因果推理预处理方法。通过使用因果图形模型以及观察到的数据,该方法可用于解决“我的薪水是什么,如果我的性别/种族不同?”的假设问题。这种个人级别的反事实推理可以帮助消除歧视并有助于证明公正的决定。我们还讨论了适当的放松,假设某些因果关系从敏感属性到结果没有歧视性。