输入值,以便将模型预测更改为期望输出,这在可解释人工智能 (XAI) 中越来越多地用于促进人类与人工智能模型的交互 (Miller 2019)。我们通过扩展先前的反事实模型 (Russell 2019) 来形式化置信度的反事实解释。表 1 解释了 Russell (2019) 的模型与我们提出的方法之间的区别。然后,我以两种不同的呈现形式生成这些解释:(1) 基于示例的反事实和 (2) 基于可视化的反事实。为了评估解释,我们进行了用户研究,因为人们越来越接受可解释性技术应该建立在哲学、心理学和认知科学的研究之上 (Miller 2019),并且解释的评估过程应该涉及用户研究。我们为两个不同的领域招募了总共 180 名参与者。为了评估理解,我们使用任务预测(Hoffman 等人,2018 年,第 11 页)。参与者会得到一些实例,他们的任务是决定 AI 模型会为哪个实例预测更高的置信度分数。因此,任务预测有助于评估用户对他们对模型置信度的理解的心理模型。为了评估信任,我们使用了(Hoffman 等人,2018 年,第 49 页)的 10 点李克特信任量表。对于满意度,我们使用了(Hoffman 等人,2018 年,第 39 页)的 10 点李克特解释满意度量表。结果表明,与没有解释的基线相比,这两种形式的反事实解释都增加了信任和理解。值得注意的是,基于可视化和基于示例在提高理解、信任和满意度方面几乎没有差异。使用定性分析,我们观察到这两种方法的一些局限性:•人们使用基于案例的推理来理解基于示例的解释。也就是说,他们在基于示例的演示中找到最接近的例子,而忽略了置信度得分和特征值之间的线性相关性。这个结果表明,我们在使用基于示例的解释来解释连续变量时应该小心谨慎。•虽然使用基于可视化的解释更容易解释相关性,但是当并非所有反事实点都显示在解释中时,人们不愿意推断出最低值和最高值之外的相关性。因此,应该在解释中显示所有反事实点以缓解这个问题。
i 研究人员已经证明深度神经网络 (DNN) 可能会被各种(“对抗性”)攻击 1 所欺骗,包括对单个图像像素的更改 2 和物理世界中的攻击 3,4。因此,人们研究了针对对抗性攻击的对策 5,6。ii 常见的 DNN 类型,例如卷积神经网络 (CNN),并没有提供可靠的置信度指标。不确定性度量对于设计可靠的系统至关重要,这些系统可在置信度较低时做出反应,例如通过系统性能下降。人们研究了能够克服这一根本缺陷的 CNN 扩展,并取得了有希望的结果 7,8。iii DNN 通常由数百万个参数组成,这些参数人类无法直观理解。因此,DNN 的故障通常无法追溯到原因,这大大降低了可调试性和安全性分析的可能性。探索这一领域(“可解释的人工智能”)的研究已经产生了有用的方法 9,10,这些方法通常通过视觉表示显着提高可解释性。
在人工智能辅助决策中,人类决策者知道何时信任人工智能以及何时信任自己至关重要。然而,先前的研究仅基于表明人工智能正确性可能性 (CL) 的人工智能置信度来校准人类信任,而忽略了人类的 CL,从而阻碍了最佳团队决策。为了弥合这一差距,我们提出在任务实例级别基于双方的 CL 来促进人类适当的信任。我们首先通过近似人类的决策模型并计算他们在类似情况下的潜在表现来建模人类的 CL。我们通过两项初步研究证明了我们模型的可行性和有效性。然后,我们提出了三种 CL 利用策略来在人工智能辅助决策过程中显式/隐式地校准用户的信任。一项受试者间实验 (N=293) 的结果表明,与仅使用人工智能置信度相比,我们的 CL 利用策略可以促进人类对人工智能更合适的信任。我们进一步为更人性化的人工智能辅助决策提供了实际意义。
结果总共获得了24次扫描,所有扫描都包括在分析中。Among all CT acquisition modes, the highest image quality was obtained for the UHR mode [median score: 4 (interquartile range (IQR): 3.67–4.00)] ( P = 0.0015, with 37.5% rated as “excellent”), followed by the sequential mode [median score: 3.5 (IQR: 2.84–4.00)], P = 0.0326 and the spiral mode [median score: 3.0(IQR:2.53–3.47),p> 0.05]。高点模式的最低图像质量[中位数:2(IQR:1-3),p = 0.028]。同样,评估支架平坦的诊断置信度对于UHR的标准最高,而高点的诊断置信度最低(分别为p <0.001)。Measurement of stent dimensions was accurate for all acquisition modes, with the UHR mode showing highest robustness (FWHM for se quential: 0.926 ± 0.061 vs. high-pitch: 0.990 ± 0.083 vs. spiral: 0.962 ± 0.085 vs. UHR: 0.941 ± 0.036, P = non-significant, respectively).
医学图像细分(MIS)在医疗治疗计划和机器人导航中起着至关重要的作用。MIS中的原型学习方法专注于通过像素型锻炼比较生成分割面具。然而,电流通常通过使用语义类别使用固定的原型来忽略样本多样性,并忽略每个输入中的类内部变化。在此pa-per中,我们建议为MIS生成实例自适应的预型,该预型集成了一个常见的原型建议(CPP)捕获常见的视觉效果和量身定制的实例特定于实例的原型建议(IPP)。为了进一步说明类内的变化,我们建议通过根据其置信度得分重新加权中间特征图来指导IPP生成。使用变压器解码器,这些置信度得分是分层的。此外,我们还引入了一种新颖的自我监督过滤策略,以优先考虑变压器解码器训练期间的前景像素。广泛的实验表明我们的方法表现出色。
我们考虑如何预测量子计算领域的进展。为此,我们收集了迄今为止的量子计算机系统数据集,根据其物理量子比特和门错误率进行评分,并定义了一个结合这两个指标的指标,即广义逻辑量子比特。我们研究了物理量子比特和门错误率之间的关系,并初步得出结论,它们是正相关的(尽管有一些疑问),表明发展前沿在它们之间进行权衡。我们还对指标应用了对数线性回归,以提供可以预期的进展的初步上限。在我们模型的(总体上乐观的)假设范围内,包括量子比特数和门保真度将继续呈指数级增长这一关键假设,我们估计基于超导技术的概念验证容错计算不太可能(置信度 < 5%)在 2026 年之前出现,能够分解 RSA-2048 的量子设备不太可能(置信度 < 5%)在 2039 年之前出现。当然,这些里程碑实际上可能会更早实现,但这需要比迄今为止更快的进展。
4.9该开发目前正在进行一项详细的可行性研究,预计将在2025年初做出最终的投资决定。可行性研究利用了从2023年进行的进一步钻探计划获得的其他地质数据,该计划旨在扩大Trelavour矿物资源,并允许根据JORC代码下的(较高置信度)的转换为(更高的置信度)分类。重要的是,该钻井程序使康沃尔锂能够几乎将锂轴承岩石岩石的数量翻了一番。同时,在过去的几年中,康沃尔·锂一直在目前可访问的所有领域进行所需的基线调查和研究。此类研究包括社区和利益相关者的参与,水文学,生态等。为了进行影响研究并完成开发所需的同意申请。这项工作是与康沃尔委员会内部和环境局内的规划机构密切合作进行的。该开发项目得到了康沃尔委员会的大力支持,因为该开发项目将在矿山的生命中产生约8.7亿英镑。4
降低库存持有成本,改善现金流和供应链可视性,提高库存分析师的工作效率。C3 AI 库存优化使用先进的机器学习来分析需求变化、供应商交货时间、质量问题和产品线中断,从而为用户构建实时建议,以根据置信度优化运营并接收实时通知和根本原因分析。
对黄曲霉毒素和其他霉菌毒素的最佳保护是通过沿着从谷物的初始收获到成品的途径来监测它们在饲料和食物中的存在。对黄曲霉毒素的置信度测试是一种定量的ELISA Microwell分析,非常适合从食品制造商到商业实验室的实验室设置的人。该测定需要一个650 nm的滤波器微波测定读取器。