摘要我们提出了Fairx,这是一种基于python的开源基准测试工具,旨在全面分析公平,效用和解释性(XAI)的模型。FAIRX使用户可以使用各种公平指标,数据实用程序指标来训练基准测试模型,并评估其公平性,并在统一框架内生成模型预测的解释。现有的基准测试工具无法评估从公平生成模型产生的合成数据,也不支持培训公平生成模型。在Fairx中,我们在收集我们的Fair-Model库(预处理,处理,后处理)和评估指标中添加了公平生成模型,以评估合成公平数据的质量。此版本的FaiRX支持表格数据集和图像数据集。它还允许用户提供自己的自定义数据集。开源Fairx基准测试包在https://github.com/fahim-sikder/fairx上公开可用。
引入DNA甲基化发生时,将甲基(CH3)添加到DNA序列中时。添加的甲基的位置决定了甲基化的类型。在特殊性中,胞嘧啶(5MC)的第五位置的DNA修饰在基因调节中起着至关重要的作用,并且参与了其他重要的生物学过程(Breiling and Lyko 2015)在细菌和真核生物中都发生。目前对基于变压器的语言模型有很大的兴趣。诸如Bert之类的模型(Devlin等人2018)及其变体在几种自然语言处理任务上表现良好。除了适应特定领域(例如医学领域)外,基于变压器的语言模型也被转移到生物学序列(例如DNA序列)(Ji等人2021)和蛋白质术(Teufel等人2022)。在木兰 - 甲基(Zeng,Gautam和Huson 2023)中,我们介绍了几种针对域特异性的微型语言模型,用于对短DNA序列的甲基化状态进行分类。在这里,我们的目的是将这种模型用作编码器,以分类哺乳动物的5MC DNA甲基化状态。以前的研究(Abnar和Zuidema 2020)表明,变压器的自我发注意机制可用于解释模型并量化特征性节奏,而我们在Mulan-Methyl上的工作表明,注意力评分可以提高合理的特征重要性。因此,在这里,我们提出了一项研究,该研究使用由编码器产生的注意权重作为
随着人工智能算法在高风险社会应用中取得进一步进展,来自多个利益相关者的呼声越来越高,要求这些算法解释其输出。更具有挑战性的是,不同的解释消费者对解释有不同的要求。为了满足这些需求,我们推出了 AI Explainability 360,这是一个开源 Python 工具包,具有十种不同的先进可解释性方法和两个评估指标 (http://aix360.mybluemix.net)。同样重要的是,我们提供了一个分类法,帮助需要解释的实体浏览解释和解释方法的空间,不仅是工具包中的方法,还包括更广泛的可解释性文献中的方法。对于数据科学家和工具包的其他用户,我们实施了一个可扩展的软件架构,根据方法在 AI 建模管道中的位置对其进行组织。该工具包不仅是软件,也是指导材料、教程和交互式 Web 演示,用于向不同的受众介绍 AI 可解释性。我们的工具包和分类法可以帮助确定需要更多可解释性方法的差距,并在开发过程中提供一个平台来整合这些方法。关键词:可解释性、可解释性、透明度、分类法、开源
摘要 预测和健康管理 (PHM) 通过预测故障和采取预防措施对于确保机器可靠运行至关重要。在这种情况下,准确预测用于广泛应用的锂离子电池的容量至关重要,因为它们会随着时间的推移不可避免地退化。电池管理系统 (BMS) 在电池整个生命周期的健康状况监测和管理中发挥着关键作用。我们提出了一种新型的长短期记忆 (LSTM) 神经网络模型来预测锂离子电池容量。我们的模型旨在比最先进的模型更高效,特别是在可训练参数的数量方面,使其适合部署在 BMS 中常见的低资源设备上。利用 NASA 艾姆斯预测卓越中心提供的锂离子电池老化数据集,我们证明我们的 LSTM 模型可以提供准确可靠的容量预测。为了补充所提出的模型,本文介绍了 ExplainBattery,这是一个允许用户与我们高效的 LSTM 进行交互的 Web 应用程序。该工具使用户能够直观地了解不同电池的预测结果,并通过可解释的仪表板探索最具影响力的属性。ExplainBattery 增强了我们模型的可用性和透明度,为 PHM 和 BMS 环境中的进一步研究和实际应用提供了一个可访问的平台。
摘要:磁共振成像 (MRI) 通常会招募多个序列(本文定义为“模态”)。由于每种模态都旨在提供不同的解剖和功能临床信息,因此不同模态之间的成像内容存在明显差异。模态间和模态内仿射和非刚性图像配准是临床成像中必不可少的医学图像分析过程,例如,在成像之前,需要在不同的 MRI 模态、时间阶段和切片之间获取和临床评估生物标志物。尽管在实际临床场景中通常需要仿射和非刚性图像配准,但尚未使用单一无监督模型架构进行广泛研究。在我们的工作中,我们提出了一种无监督深度学习配准方法,可以同时准确地模拟仿射和非刚性变换。此外,逆一致性是基本模态间配准属性,深度学习配准算法并未考虑该属性。为了解决逆一致性问题,我们的方法执行双向跨模态图像合成以学习模态不变的潜在表示,并涉及两个因式分解变换网络(每个编码器-解码器通道一个)和一个逆一致性损失以学习保持拓扑的解剖变换。总体而言,我们的模型(名为“FIRE”)在多模态脑 2D 和 3D MRI 以及模态内心脏 4D MRI 数据实验中表现出比参考标准基线方法(即使用 ANTs 工具箱实现的对称归一化)更好的性能。我们专注于解释模型数据组件,以增强模型在医学图像配准中的可解释性。在计算时间实验中,我们表明 FIRE 模型在节省内存的模式下运行,因为它可以在训练阶段直接学习保持拓扑的图像配准。因此,我们展示了一种高效且通用的配准技术,该技术在临床环境中的多模态图像配准中具有优势。
我们开展了一项研究来评估梯度提升算法在岩爆评估中的潜力和稳健性,建立了一个变分自动编码器(VAE)来解决岩爆数据集的不平衡问题,并提出了一种针对基于树的集成学习的多级可解释人工智能(XAI)。我们从现实世界的岩爆记录中收集了537个数据,并选择了四个导致岩爆发生的关键特征。首先,我们使用数据可视化来深入了解数据的结构,并进行相关性分析以探索数据分布和特征关系。然后,我们建立了一个VAE模型来为由于类别分布不平衡而产生的少数类生成样本。结合VAE,我们比较和评估了六种最先进的集成模型,包括梯度提升算法和经典逻辑回归模型,用于岩爆预测。结果表明,梯度提升算法优于经典的单一模型,而 VAE 分类器优于原始分类器,其中 VAE-NGBoost 模型的结果最为理想。与针对不平衡数据集结合 NGBoost 的其他重采样方法(例如合成少数族群过采样技术 (SMOTE)、SMOTE 编辑最近邻 (SMOTE-ENN) 和 SMOTE-tomek 链接 (SMOTE-Tomek))相比,VAE-NGBoost 模型的效果最佳。最后,我们使用特征灵敏度分析、Tree Shapley 附加解释 (Tree SHAP) 和 Anchor 开发了一个多级 XAI 模型,以深入探索 VAE-NGBoost 的决策机制,进一步增强基于树的集成模型在预测岩爆发生方面的可靠性。
摘要 目的——对数据分析和人工智能 (AI) 系统的可解释性和可解释性的研究正在兴起。然而,最近的大多数研究要么仅仅宣传可解释性的好处,要么批评它会产生适得其反的效果。本研究针对这一两极分化的领域,旨在确定人工智能可解释性的对立影响及其之间的紧张关系,并提出如何管理这种紧张关系以优化人工智能系统的性能和可信度。 设计/方法/方法——作者系统地回顾文献,并使用权变理论的视角对其进行综合,以开发一个管理人工智能可解释性对立影响的框架。 发现——作者发现了可解释性的五个对立影响:可理解性、行为、保密性、完整性和对人工智能的信心 (5C)。作者还提出了管理 5C 之间紧张关系的六个观点:解释的实用主义、解释的情境化、人类机构和人工智能机构的共存、指标和标准化、监管和道德原则以及其他新兴解决方案(即人工智能封装、区块链和人工智能模糊系统)。研究局限性/含义——与其他系统文献综述研究一样,结果受到所选论文内容的限制。 实际意义——研究结果表明,人工智能所有者和开发者如何通过可见性、问责制和维护人工智能的“社会利益”来管理盈利能力、预测准确性和系统性能之间的紧张关系。研究结果指导从业者以人工智能操作的背景为重点,制定人工智能可解释性的指标和标准。 原创性/价值——本研究探讨了学者和从业者对人工智能可解释性的好处与其适得其反的影响的两极化看法。它提出,没有单一的最佳方法来最大化人工智能的可解释性。相反,必须管理促成效应和制约效应的共存。 关键词 权变理论、系统文献综述、可解释人工智能、可解释分析、缓解策略、相反影响 论文类型 研究论文
机器学习和基于深度学习 (DL) 的神经解码器的最新进展显著提高了使用头皮脑电图 (EEG) 的解码能力。然而,DL 模型的可解释性仍然是一个未被充分探索的领域。在本研究中,我们比较了多种模型解释方法,以确定最适合 EEG 的方法,并了解这些方法中的一些方法何时可能失败。我们开发了一个模拟框架,通过与地面真实特征进行比较来评估十二种基于反向传播的可视化方法的稳健性和灵敏度。这里测试的多种方法在随机化模型权重或标签后显示出可靠性问题:例如,显着性方法是 EEG 中最常用的可视化技术,它不是特定于类或模型的。我们发现 DeepLift 始终准确且稳健,可以检测这里测试的三个关键属性(时间、空间和频谱精度)。总体而言,本研究回顾了基于 DL 的神经解码器的模型解释方法,并提出了建议,以了解这些方法中的一些何时会失败以及它们可以在 EEG 中捕获什么。
摘要我们提出,可信赖的解释性接受度量指标,以使用专家在循环中评估AI系统。我们的指标通过量化AI系统产生的解释与专家根据其专业知识和经验提供的推理之间的解释之间的距离来计算接受。我们的指标还评估了专家的信任,使用我们的信任机制包括不同的专家组。我们的指标很容易适应任何可解释的AI系统,并用于可信赖的AI系统的标准化过程。我们使用高识别医学AI的应用说明了拟议的度量,该指标是预测导管癌的原位(DCIS)复发。我们的指标成功地捕获了专家在DCIS复发中AI系统的解释性。
摘要:区域气候模型(RCM)是模拟和研究区域气候变化和变化的重要工具。但是,它们的高计算成本限制了区域气候预测的全面合奏,涵盖了各个地区的多种情况和驱动全球气候模型(GCM)。RCM模拟器基于深度学习模型最近被引入了一种具有成本效益且有希望的替代方案,仅需要简短的RCM模拟来训练模型。因此,评估其转移性到不同时期,场景和GCMS成为一个关键而复杂的任务,其中GCM和RCMS的固有偏见起着显着的作用。在这里,我们通过考虑文献中引入的两种不同的仿真方法的关注,并在这里分别称为完美预后(PP)和模型输出统计量(MOS),遵循良好建立的降水术语。除了标准评估技术外,我们还通过可解释的人工智能(XAI)的方法扩展了分析,以评估模型学到的经验联系的物理一致性。我们发现,两种方法都能够在不同的时期和场景(软传递性)中模仿RCM的某些气候特性,但是仿真函数的一致性在AP的范围之间有所不同。虽然PP学习了鲁棒且身体上有意义的模式,但MOS结果在某些情况下依赖于GCM,并且在某些情况下缺乏物理一致性。这限制了其适用于构建RCM结束的适用性。由于存在GCM依赖性偏差,将仿真函数转移到其他GCM(硬传递性)时都面临问题。我们通过为未来的申请提供前景来得出结论。
