因果关系边界的固有歧义在评估因果事件提取任务时构成了挑战。传统的会议诸如精确匹配和Bertscore之类的传统会议反映了模型性能,因此我们训练了评估模型以近似人类评估,从而达到了高度的一致性。我们用它们通过提取模型来形成增强学习,以使其与人类的喜好保持一致,并优先使用语义理解。我们通过多PLE数据集成功地探索了我们的方法,包括将在一个数据集中训练的评估者转移到另一个数据集中,以减轻对人类注销数据的依赖。在这种情况下,我们还提出了一种弱至较小的诉讼方法,该方法使用AN-NOTARDATED数据的一部分来训练评估模型,同时仍在训练RL模型中达到高性能。1
1,美国加利福尼亚州斯坦福大学斯坦福大学生物学系| 2美国加利福尼亚州斯坦福大学斯坦福大学遗传学系| 3美国密歇根州安阿伯市密歇根大学医学院| 4美国科罗拉多州奥罗拉(Aurora)的科罗拉多州Anschutz大学医学校园生物化学与分子遗传学系| 5蜂窝和分子生物学,加利福尼亚州立大学,诺斯里奇,美国加利福尼亚州诺斯里奇| 6国际人类基因组研究实验室,墨西哥Querétaro的JuriquillaQuerétaro大学NacionalAutónomadeMéxico(UNAM)| 7美国加利福尼亚州斯坦福大学斯坦福大学地球系统科学系| 8 Biocontol和Molecular Ecology,Manaaki wherua - Landcare Research,Lincoln,新西兰| 9新西兰奥克兰大学奥克兰大学生物科学学院1,美国加利福尼亚州斯坦福大学斯坦福大学生物学系| 2美国加利福尼亚州斯坦福大学斯坦福大学遗传学系| 3美国密歇根州安阿伯市密歇根大学医学院| 4美国科罗拉多州奥罗拉(Aurora)的科罗拉多州Anschutz大学医学校园生物化学与分子遗传学系| 5蜂窝和分子生物学,加利福尼亚州立大学,诺斯里奇,美国加利福尼亚州诺斯里奇| 6国际人类基因组研究实验室,墨西哥Querétaro的JuriquillaQuerétaro大学NacionalAutónomadeMéxico(UNAM)| 7美国加利福尼亚州斯坦福大学斯坦福大学地球系统科学系| 8 Biocontol和Molecular Ecology,Manaaki wherua - Landcare Research,Lincoln,新西兰| 9新西兰奥克兰大学奥克兰大学生物科学学院
Haohong Lin, Wenhao Ding, Zuxin Liu, Yaru Niu, Jiacheng Zhu, Yuming Niu, and Ding Zhao
奖励黑客[Skalse等,2022]是AI对齐的关键问题,尤其是在增强学习(RL)中。AI系统旨在优化特定的奖励,通常会发现意想不到的方式来最大化这种奖励,这与人类意图不同。真正的目标与模型所学的行为之间的这种错位可能会导致不安全或不良结果。解决奖励黑客攻击对于构建可靠与人类价值观相吻合的AI系统至关重要。通过人类反馈(RLHF)进行加强学习的主要奖励黑客攻击是因果错误识别[Tien等,2022]。当模型错误地学习动作与奖励之间的因果关系,导致其优化代理或虚假相关性而不是真实目标时,就会发生这种情况。例如,该模型可能会在其环境中操纵指标或利用快捷方式。这创建了一个方案,其中AI根据奖励功能看起来很成功,但无法实现预期的目标。该项目旨在探索是否准确识别奖励模型中的因果机制是否可以帮助减轻奖励黑客攻击。通过对推动理想行为的因果关系进行建模,我们希望将AI引导到更加一致的学习中。具体来说,该项目将调查将因果推断整合到奖励建模中以提高RLHF鲁棒性的方法,从而降低AI利用意外漏洞的风险。目标是了解因果推理如何有助于更好地对齐具有人为价值的AI系统。
《行星因果推断》一书探讨了地球观测 (EO) 数据如何增强社会科学研究,加深我们对人类对环境、社会和经济影响的理解。虽然使用调查和国家统计数据的传统方法成本高昂且有限,但来自卫星的 EO 数据为以精细分辨率研究城市化、贫困、冲突和森林砍伐等现象提供了全球实时视角。本书介绍了以因果为导向的基于 EO 的机器学习 (ML),其中分析图像中的空间数据以创建社会科学指标的代理并用于因果推断。这些行星因果推断方法可以为全球社会问题提供高分辨率洞察,为评估冲突、可持续发展和其他现象提供新方法。通过结合地理、历史和多尺度分析的见解,“行星因果推断”为研究人员提供了基础,以解决家庭、社区、区域和全球尺度的综合问题。本书的“成分”和“食谱”食谱式框架使社会科学家能够采用 EO-ML 方法,开发自己的研究方法,并解决全球范围内的紧迫问题。
作为靶点驱动药物发现的替代方案,表型驱动方法通过分析表型特征来识别可抵消整体疾病影响的化合物。我们的研究为该领域引入了一种新方法,旨在扩大新治疗药物的搜索空间。我们介绍了 PDGrapher,这是一种受因果启发的图神经网络 (GNN),旨在预测能够逆转疾病影响的组合扰动因素(治疗靶点集)。与学习对扰动的反应的方法不同,PDGrapher 解决了逆问题,即推断实现特定反应所必需的扰动因素,即通过了解哪些扰动会引起期望的反应来直接预测扰动因素。通过编码基因调控网络或蛋白质-蛋白质相互作用,PDGrapher 可以预测看不见的化学或遗传扰动因素,有助于发现新药或治疗靶点。对九种具有化学扰动的细胞系进行的实验表明,PDGrapher 成功预测了多达 13.33% 的额外测试样本中的有效扰动剂,并将治疗目标的排名提高了多达 35%,并且该方法在十个遗传扰动数据集中表现出了竞争力。PDGrapher 的一项关键创新是其直接预测能力,这与传统上用于表型驱动药物发现的间接、计算密集型模型形成鲜明对比,这些模型只能预测由于扰动导致的表型变化。直接方法使 PDGrapher 的训练速度比 scGEN 和 CellOT 等方法快 25 倍,代表着效率的显著飞跃。我们的结果表明,PDGrapher 可以推进表型驱动的药物发现,提供一种快速而全面的方法来识别有治疗用途的扰动。
非经典因果模型是为了解释违反贝尔不等式而开发的,同时遵循相对论因果结构和可靠性——即避免微调因果解释。最近,基于维格纳朋友思想实验的扩展,得出了一个可以被视为比贝尔定理更强的不通定理:局部友好 (LF) 不通定理。在这里,我们表明,即使考虑非经典和/或循环因果解释,LF 不通定理也对因果模型领域提出了巨大的挑战。我们首先将 LF 不等式(LF 不通定理的关键元素之一)重新定义为源于统计边际问题的一夫一妻制关系的特殊情况。然后,我们进一步将 LF 不等式重新定义为因果兼容性不等式,它源于非经典因果边际问题,其因果结构由有理有据的因果形而上学假设所暗示。我们发现,即使允许观察到的事件的潜在原因接受后量子描述(例如在广义概率论或更奇特的理论中),LF 不等式仍会从这种因果结构中出现。我们进一步证明,没有非经典因果模型可以在不违反无微调原则的情况下解释 LF 不等式的违反。最后,我们注意到,即使诉诸循环因果模型,也无法克服这些障碍,并讨论了因果建模框架进一步扩展的潜在方向。
基于多巴胺的奖励和学习机制有助于安慰剂作用。然而,多巴胺能神经递质在其发生和维持中的确切作用尚不清楚。这项研究旨在阐明多巴胺在建立积极的治疗期望以及对疼痛的影响的程度和持续时间中的因果作用。为此,我们使用了既定的安慰剂镇痛剂,以及2种相反的多巴胺能张力的药理学调节,即多巴胺拮抗剂苏硫酸硫酸硫酸和多巴胺前体L-dopa在一个实验,双盲,随机,随机,安慰剂中均应= 16个n = in = n = n = n = n = n = n = n = n = n = n = nekeys n = nekeys n = in = n = nekeys n n = in = n = n = seame seame-seame-seame in = ins-seame in =研究药物在调节过程中成功改变了多巴胺能张力。与我们的假设相反,药物没有调节1天后测试的阳性治疗预期和安慰剂镇痛的形成。安慰剂镇痛不再在连接后的第8天被检测到。使用合并的频繁主义和贝叶斯方法,我们的数据为直接多巴胺能对安慰剂效应的产生和维持提供了强烈的证据。进一步探索了安慰剂镇痛下的神经化学机制,这仍然是追求这些作用以获得最佳治疗结果的重要性。试验注册:ClinicalTrials.gov德国临床试验登记册,ID:DRKS00029366,https://drks.de/search/en/en/trial/drks00029366。
仅从测量结果的相关性来看,两个原本孤立的个体能否确定这种相关性是否是非时间性的?也就是说,他们能否排除在两个不同时间给予他们相同的系统的可能性?经典统计学认为不能,但量子理论却不同意。在这里,我们介绍了将这种量子相关性识别为非时间性的必要和充分条件。我们证明了时间反转下的非时间性不对称性,并揭示了它是不同于纠缠的空间量子相关性的度量。我们的结果表明,某些量子相关性具有内在的时间箭头,并能够根据它们与各种潜在因果结构的(不)兼容性对跨时空的一般量子相关性进行分类。