approx 逻辑指示是否计算更快但近似的边际效应图(精神上类似于 plotmo 包)。如果为 TRUE ,则 partial() 将计算 pred.var 中指定的预测因子的预测,同时保持其他预测因子不变(plotmo 的作者 Stephen Milborrow 称之为“穷人的部分依赖”函数)。默认值为 FALSE。注意,这也适用于 ice = TRUE。警告:此选项目前是实验性的。使用风险自负。可以(并且可能更安全)通过将特定的“样本”观察传递给 train 参数并手动指定 pred.grid 来手动执行此操作。quantiles 逻辑指示是否使用 pred.var 中列出的连续预测因子的样本分位数。如果 quantiles = TRUE 且 grid.resolution = NULL,则样本分位数将用于生成计算部分依赖性的联合值网格。 probs 概率的数字向量,值在 [0,1] 之间。(超出该范围的最大 2e-14 的值将被接受并移至附近的端点。)默认值为 1:9/10,对应于预测变量的十分位数。当 quantiles = TRUE 时,这些指定对 pred.var 中列出的连续预测变量使用哪些分位数。trim.outliers 逻辑指示在生成计算部分依赖性的联合值网格之前是否从 pred.var 中列出的连续预测器中修剪异常值(使用简单的箱线图方法)。默认值为 FALSE。type 字符串指定监督学习的类型。当前选项为 "auto" 、 "regression" 或 "classification" 。如果 type = "auto" ,则 partial 将尝试从 object 中提取必要的信息。inv.link 函数指定在计算部分依赖函数之前要应用于预测的转换(实验)。默认值为 NULL(即不进行转换)。此选项旨在用于允许非高斯响应变量(例如计数)的模型。对于这些模型,默认情况下,预测通常不会在原始响应尺度上返回。例如,泊松 GBM 通常在对数尺度上返回预测。在这种情况下,设置 inv.link = exp 将返回响应(即原始计数)尺度上的部分依赖函数。which.class 整数指定将预测概率矩阵的哪一列用作“焦点”类。默认使用第一个类。仅用于分类问题(即当 type =“classification”时)。prob 逻辑值指示分类问题的部分依赖是否应在概率尺度上返回,而不是中心 logit。如果为 FALSE ,则部分依赖函数与 logit 的尺度相似。默认值为 FALSE。recursive 逻辑指示是否使用 Friedman (2001) 中描述的加权树遍历方法。这仅适用于从类“gbm”继承的对象。默认值为 TRUE,这比用于所有其他模型的精确蛮力方法要快得多。(基于 plot.gbm 背后的 C++ 代码。) plot 逻辑指示是否返回包含部分依赖值的数据框( FALSE )或直接绘制部分依赖函数( TRUE )。默认值为 FALSE 。有关绘图详细信息,请参阅 plotPartial。
描述DepMap软件包是一个数据包,该数据包使用Broad Institute DepMap Cancer依赖性研究使用实验室。可用的数据集可用,包括RNAi和CRISPR-CAS9基因敲除筛查量量化精选癌细胞系的遗传依赖性。其他数据集也可用于与选择细胞系的基因的日志拷贝数,通过反相蛋白质裂解的蛋白质表达,通过反相裂解的蛋白质裂解物微阵列(RPPA),“百万到百万)(TPM)数据(TPM)数据,以及包含元数据和突变的补充数据集,并在当前释放中发现了其他数据集。19Q3释放添加了Drug_Depentency数据集,该数据集包含有关药物和药物候选化合物的癌细胞系依赖数据。20Q2释放添加了蛋白质组学数据集,该数据集包含通过质谱法对蛋白质进行定量分析。该软件包将每季度更新,以合并最新的广泛研究所的公共癌症依赖性数据集。该软件包中提供的所有数据都是由Broad Institute DepMap生成的,用于研究目的,而不是用于临床使用。此数据根据创意共享许可(属性4.0国际(CC By 4.0))分发。
描述DepMap软件包是一个数据包,该数据包使用Broad Institute DepMap Cancer依赖性研究使用实验室。可用的数据集可用,包括RNAi和CRISPR-CAS9基因敲除筛查量量化精选癌细胞系的遗传依赖性。其他数据集也可用于与选择细胞系的基因的日志拷贝数,通过反相蛋白质裂解的蛋白质表达,通过反相裂解的蛋白质裂解物微阵列(RPPA),“百万到百万)(TPM)数据(TPM)数据,以及包含元数据和突变的补充数据集,并在当前释放中发现了其他数据集。19Q3释放添加了Drug_Depentency数据集,该数据集包含有关药物和药物候选化合物的癌细胞系依赖数据。20Q2释放添加了蛋白质组学数据集,该数据集包含通过质谱法对蛋白质进行定量分析。该软件包将每季度更新,以合并最新的广泛研究所的公共癌症依赖性数据集。该软件包中提供的所有数据都是由Broad Institute DepMap生成的,用于研究目的,而不是用于临床使用。此数据根据创意共享许可(属性4.0国际(CC By 4.0))分发。
这项回顾性队列研究使用了香港公共医疗机构的电子健康记录。我们纳入了 18-65 岁无 MACE 的患者,这些患者在首次使用抗精神病药物前三年内曾患过两种或两种以上慢性疾病。研究考虑了基线特征,例如年龄、性别、慢性病史、抗精神病药物使用史和前一年的服药史。结果是主要不良心血管事件 (MACE),包括中风、急性心肌梗死 (AMI) 和心血管相关死亡 (CV 死亡)。根据抗精神病药物处方的初始年份,将数据集按 7:3 的比例随机分为训练和验证子集。使用条件推断生存树 (CISTree) 来识别 MACE 风险组。使用 5 倍交叉验证对十个机器学习模型进行超参数优化训练,并在验证集上进行验证。我们进行了时间依赖性的 ROC 曲线分析、校准图和决策曲线分析图,分别比较模型的判别能力、校准和临床应用价值。使用时间相关变量重要性、部分依赖图和 SHAP 图来解释所选模型。
电池寿命估计对于优化电池性能和最小降解至关重要,以提高电池动力系统的效率和可靠性。预测锂离子电池(LIB)剩余的有用寿命(RUL)的现有方法忽略了电池参数的关系依赖性以建模非线性降解轨迹。我们介绍了电池绘画集框架,该框架共同学会了在电池参数之间结合离散的依赖图结构,以捕获复杂的相互作用和图形学习算法,以建模用于RUL预后的固有电池降解。所提出的方法在公开可用的电池数据集上的显着余量优于几种流行方法,并实现了SOTA性能。我们报告了消融研究,以支持我们的方法的功效。
描述用于统计和机器学习的元包包,其统一界面用于模型拟合,预测,绩效评估和结果的呈现。用于模型拟合和预测数值,分类或审查的事件时间结果的方法包括传统的回归模型,正则化方法,基于树的方法,支持向量机,神经网络,合奏,数据预处理,滤清,滤波,过滤和模型调音和选择和选择。提供了用于模型评估的性能指标,并且可以通过独立的测试集,拆分抽样,交叉验证或引导程序重新采样来估算。重新样本估计可以并行执行以进行更快的处理,并在模型调整和选择的情况下嵌套。建模结果可以用描述性统计数据来汇总;校准曲线;可变重要性;部分依赖图;混淆矩阵;和ROC,LIFT和其他性能曲线。
摘要 - 机器学习确定来自数据的模式,以加快决策过程。基于事实的决策和数据驱动的决策由行业专家指定。由于医疗保健中机器语言模型的持续增长,它们在ML模型中繁殖了连续的复杂性和黑匣子。为了使ML模型晶体清晰且可实现的解释,AI登录率很高。这项研究审查了印度医疗保健系统中可解释的AI和能力检测糖尿病。石灰和外形是两个用于实现可解释AI的库和软件包。密封的基础合并局部和全局可解释的方法,从而增强了复杂模型的结晶度,并从复杂模型中获得了对公平性的直觉。此外,所获得的直觉还可以促进临床数据科学家计划对计算机辅助诊断的更奇怪的组成。XAI对预测顽固疾病的重要性。 在这种情况下,顽固的糖尿病,血浆与胰岛素与胰岛素之间的相关性,年龄与妊娠,类(糖尿病和非糖尿病患者)与血浆葡萄糖的相关性持续存在着牢固的关系。 具有塑形值的PIMD(PIMA印度糖尿病数据集)用于简洁依赖性,而当同时需要特征的锚定和重要性时,石灰是适用的。 依赖图可帮助医生可视化与预测疾病的独立关系。 要识别不同属性的依赖性,使用相关热图。XAI对预测顽固疾病的重要性。在这种情况下,顽固的糖尿病,血浆与胰岛素与胰岛素之间的相关性,年龄与妊娠,类(糖尿病和非糖尿病患者)与血浆葡萄糖的相关性持续存在着牢固的关系。具有塑形值的PIMD(PIMA印度糖尿病数据集)用于简洁依赖性,而当同时需要特征的锚定和重要性时,石灰是适用的。依赖图可帮助医生可视化与预测疾病的独立关系。要识别不同属性的依赖性,使用相关热图。从学术的角度来看,Xai在不久的将来对成熟是必不可少的。估算了其他适用数据集对应研究的介绍,这是非常学徒的。
摘要 — 使用早期退化数据进行电池循环寿命预测在整个电池产品生命周期中具有许多潜在应用。因此,已经提出了各种数据驱动方法来对电池循环寿命进行点预测,而无需对电池退化机制有最少的了解。然而,以较低的经济和技术风险管理迅速增加的报废电池数量需要对循环寿命进行量化的不确定性预测,而这仍然缺乏。这些先进的数据驱动方法的可解释性(即高预测精度的原因)也值得研究。这里引入了一个分位数回归森林 (QRF) 模型,该模型的优点是不假设任何特定的循环寿命分布,除了高精度的点预测之外,还可以进行循环寿命范围预测,其中不确定性量化为预测区间的宽度。使用提出的 alpha-logistic 加权标准优化 QRF 模型的超参数,从而校准与预测区间相关的覆盖概率。通过两种全局模型不可知方法,即排列重要性和部分依赖图,探索最终 QRF 模型的可解释性。
摘要 在改善教育条件的各种方法中,人们正在努力减少每位教师的学生人数。但是,对于政策决策,需要反映多种因素,例如学生人数随时间的变化以及当地要求。基于时间序列分析的统计模型已被用作指导政策决策的方法。但是,现有的统计模型是线性的,其预测准确性较低。此外,由于影响学生人数并进而影响所需教师人数的预测的因素既有内部因素,也有外部因素,因此有必要开发一个反映这一点的模型。因此,在本研究中,使用XGBoost技术开发了基于机器学习的人工智能模型,并使用特征重要性,部分依赖图和Shap值来增加模型的解释潜力。该模型的性能小于 0.03 RMSE,并确认在几个因素中,经济活动人口对教师数量的影响最为显著。通过本研究,可以检验具有更高解释可能性的人工智能模型在预测教师数量方面的适用性。关键词:教师供给、需求预测、人工智能模型开发、XGBoost、XAI、SHAP。