摘要:在快速发展的城市发展格局中,智慧城市越来越依赖人工智能 (AI) 解决方案来应对复杂挑战,利用人工智能准确预测房地产价格已成为城市规划和经济发展中不可或缺的多方面关键任务。本文深入研究了这一努力,强调了特定选择的上下文开放数据的变革性影响以及可解释人工智能 (XAI) 的最新进展,以提高智慧城市内房地产价格预测的准确性和透明度。我们专注于 2018 年至 2021 年里斯本的动态房地产市场,将各种开放数据源集成到使用 Optuna 超参数框架优化的极限梯度增强 (XGBoost) 机器学习模型中,以提高其预测精度。我们的初始模型实现了 51,733.88 欧元的平均绝对误差 (MAE),在纳入开放数据特征后显著降低了 8.24%。这一实质性改进凸显了开放数据提升房地产价格预测的潜力。此外,我们采用了 SHapley Additive exPlanations (SHAP) 来解决我们模型的透明度问题。这种方法阐明了每个预测因子对价格估计的影响,并增强了对 AI 驱动的房地产分析的责任感和信任度。本研究的结果强调了 XAI 的作用和开放数据在提高 AI 驱动的城市发展透明度和有效性方面的价值,明确展示了它们如何有助于更准确、更有洞察力的房地产分析,从而为智慧城市的可持续发展提供信息和改进政策决策。
摘要:本文介绍了可解释人工智能方法在医学图像分析场景中提供决策支持的潜力。通过将三种可解释方法应用于同一医学图像数据集,我们旨在提高卷积神经网络 (CNN) 提供的决策的可理解性。视频胶囊内窥镜 (VCE) 获得的体内胃部图像是视觉解释的主题,目的是提高医疗专业人员对黑盒预测的信任度。我们实施了两种事后可解释机器学习方法,称为局部可解释模型不可知解释 (LIME) 和 SHapley 附加解释 (SHAP),以及一种替代解释方法,即上下文重要性和效用 (CIU) 方法。产生的解释由人工评估。我们根据 LIME、SHAP 和 CIU 提供的解释进行了三项用户研究。来自不同非医学背景的用户在基于网络的调查环境中进行了一系列测试,并陈述了他们对给定解释的经验和理解。我们对具有三种不同解释形式的三个用户组(n = 20、20、20)进行了定量分析。我们发现,正如假设的那样,在改善对人类决策的支持以及更加透明从而让用户更容易理解方面,CIU 可解释方法比 LIME 和 SHAP 方法表现更好。此外,CIU 因能够更快地生成解释而优于 LIME 和 SHAP。我们的研究结果表明,在不同的解释支持设置之间,人类的决策存在显著差异。与此相符,我们提出了三种潜在的可解释方法,随着未来实施的改进,这些方法可以推广到不同的医疗数据集,并为医疗专家提供有效的决策支持。
Cybersickness是与虚拟现实(VR)用户体验相关的常见疾病。基于机器学习(ML)和深度学习(DL)的几种自动化方法,以检测网络病。但是,这些Cybersickness检测方法中的大多数被视为计算密集型和黑盒方法。因此,这些技术既不值得信赖,也不是实用的,因为它可以在独立的能源受限的VR头部安装设备(HMD)上。在这项工作中,我们提出了可解释的人工智能(XAI)基于Cybersickness检测的框架LiteVR,解释了模型的结果,降低了功能维度和整体计算成本。首先,我们基于长期短期记忆(LSTM),门控复发单元(GRU)和多层感知器(MLP)开发了三个Cybersickness DL模型。然后,我们采用了事后解释,例如Shapley添加说明(SHAP),以解释结果并提取Cybersickness的最主要特征。最后,我们以减少的功能数量重新训练DL模型。我们的结果表明,引人注目的特征是Cybersickness Declection的最主要的。此外,基于基于XAI的功能排名和降低维度,我们显着将模型的大小降低了4.3倍,训练时间最高为5.6倍,其推理时间最高为3.8倍,最高可降低Cybersick Nessick Nespection tection coctection tection coctiction Percipation Percipation和低回归误差(即快速运动尺度)(FMS)。我们提出的LITE LSTM模型在分类网络病和回归(即FMS 1-10)中获得了94%的精度,其根平方误差(RMSE)为0。30,表现优于最先进的。我们提出的LITEVR框架可以帮助研究人员和从业人员在独立的VR HMD中分析,检测和部署其基于DL的Cybersickness检测模型。
我们开展了一项研究来评估梯度提升算法在岩爆评估中的潜力和稳健性,建立了一个变分自动编码器(VAE)来解决岩爆数据集的不平衡问题,并提出了一种针对基于树的集成学习的多级可解释人工智能(XAI)。我们从现实世界的岩爆记录中收集了537个数据,并选择了四个导致岩爆发生的关键特征。首先,我们使用数据可视化来深入了解数据的结构,并进行相关性分析以探索数据分布和特征关系。然后,我们建立了一个VAE模型来为由于类别分布不平衡而产生的少数类生成样本。结合VAE,我们比较和评估了六种最先进的集成模型,包括梯度提升算法和经典逻辑回归模型,用于岩爆预测。结果表明,梯度提升算法优于经典的单一模型,而 VAE 分类器优于原始分类器,其中 VAE-NGBoost 模型的结果最为理想。与针对不平衡数据集结合 NGBoost 的其他重采样方法(例如合成少数族群过采样技术 (SMOTE)、SMOTE 编辑最近邻 (SMOTE-ENN) 和 SMOTE-tomek 链接 (SMOTE-Tomek))相比,VAE-NGBoost 模型的效果最佳。最后,我们使用特征灵敏度分析、Tree Shapley 附加解释 (Tree SHAP) 和 Anchor 开发了一个多级 XAI 模型,以深入探索 VAE-NGBoost 的决策机制,进一步增强基于树的集成模型在预测岩爆发生方面的可靠性。
全球,心血管疾病是死亡的主要原因。基于临床数据,机器学习(ML)系统可以在早期阶段检测心脏病,从而降低死亡率。然而,在ML中,不平衡和高维数据一直是持续的挑战,在许多现实世界中(例如检测心血管疾病的检测)阻碍了准确的预测数据分析。为了解决这个问题,已经开发了针对心脏病检测的计算方法。但是,他们的表现仍然不足。因此,本研究为心脏病模型(称为SPFHD)提供了一个新的堆栈预测因子。SPFHD使用五种基于树的基于树的集合学习算法作为心脏病检测的基本模型。此外,使用支持向量机算法的基础模型的预测进行了整合,以增强心脏病检测的准确性。开发了一种新的条件变异自动编码器(CVAE)方法来克服不平衡问题,该方法的性能比常规平衡方法更好。最后,SPFHD模型是通过贝叶斯优化调整的。结果表明,所提出的SPFHD模型的表现优于四个数据集的最新方法,分别为HD Clinical,Z-Alizadeh Sani,Statlog和Cleveland的HD Clinical,HD Clinical,HD Clinical,HD Clinical clinical of 4.68%,4.55%,2%和1%。此外,这个新框架提供了重要的解释,通过利用强大的Shapley添加说明(SHAP)算法来帮助理解模型成功。这重点介绍了检测心脏病的最重要属性,并克服了当前无法揭示特征之间因果关系的当前“黑盒”方法的局限性。
准线性偏好或转移是高度发展的。在准线性偏好的假设下,关于拍卖和定价的文献中,几乎所有关于离散交换经济体的知识。文献将这些模型称为“用金钱”的市场,而金钱在机制设计中无处不在。1没有转移,大多数进度仅限于单位需求模型; Shapley和Sarff(1974)的所谓住房市场。2一般的离散多件分配问题是非常困难的。本文试图进一步了解我们对这个困难问题的理解。出于概念和理论原因,离散的交换经济对理解很重要,并且因为它涵盖了重要的实际应用。首先,理论。交换经济是我们最基本的贸易模式,在这种贸易中,代理商互相有利的贸易动机。在无限可划分的商品的技术假设下,该模型非常不容置疑(并教给每个经济学的学生)。的确,在具有无限划分商品的经济中,凸性和连续性的标准假设足以确定各种解决方案概念的存在(请参阅Mas-Colell等人的第15-17章(1995))。关于平衡结构,不同解决方案概念及其福利含义之间的联系以及一般性等图表理论的范围的许多重要问题均已充分理解。没有假设无限划分的商品的假设,对交换的基本模型知之甚少。因此,我们认为更好地了解离散多物品市场的模型在概念上非常重要。简单地说(如果很明显):专业对市场和交流的理解受到我们对不可分割的商品对通用模型的理解的限制。纯粹的理论,一些重要的应用依赖于对一般离散交换经济的更好理解。也许是最明显的应用程序
B'Against心血管疾病和各种人群中的全因死亡率[4,6,7]。因此,由于人口寿命增加的相关性,CF的连续测量可以被视为生命体征,因此,这应该是公共卫生的优先事项[8];但是,CF的定义和评估方式是矛盾的[9 \ XE2 \ x80 \ x93 11]。CF,作为在心肺运动测试(CPET)期间获得的最大有氧功率指数[11 \ XE2 \ X80 \ X93 13]。_ vo 2 max分别反映了肺,心血管和代谢系统分别捕获,运输和利用氧气的最大容量,该系统直接受CF的影响[13,14]。但是,CPET期间的_ VO 2最大测量需要训练有素的专业人员和昂贵的设备[15 \ XE2 \ X80 \ X93 17],并且很少用作一般人群中的预防工具。因此,在CPET期间由_ VO 2 MAX评估的CF均不能为所有人群提供,并且无法连续获得。因此,考虑到执行CPET的困难,但是鉴于评估心血管健身的高临床价值,需要进行连续评估CF的新方法。在无监督的日常生活活动(ADL)的活动期间,如果在实验室外部进行的所有人口(ADL)[18],这些方法可能更现实,无障碍和可供所有人口访问。最近,在医学中使用了可解释的模型来更好地证明预测模型的决策[26]。可穿戴传感器和生命信号融合可能代表连续推断CF的独特可能性,从而允许将来使用该技术来预测NCD,尤其是心血管疾病[6,7]。此外,越来越多的研究结合了使用磨损和机器学习技术来监测NCD患者的使用,尤其是在心脏呼吸型领域[19,20]。实际上,来自可穿戴设备的纵向数据似乎包含足够的信息,可以预测来自Com-Plex机器学习算法的无监督ADL的健康志愿者[21 \ XE2 \ X80 \ X93 25]。然而,尽管可穿戴设备和机器学习之间存在着巨大的潜力,但仍然缺乏使用这些技术预测NCD患者的CF的证据,尤其是在糖尿病,慢性肺部疾病和心血管疾病中。此外,了解这些模型如何通过机器学习算法训练,可以将重要信号转换为_ VO 2 Max可能会提供有关志愿者之间CF差异的复杂机械见解。由于_ vo 2最大词语算法的复杂性,基于从可穿戴技术获得的功能[25],纵向生命信号的解释能力被转换为_ vo 2 max的纵向范围非常低[26] [26],因为对给定模型的解释性及其性能之间的预期折衷是可以预测的健康及其健康的折算[27]。在本文中,我们调查了Shapley来评估CF预测问题中特征的重要性。众所周知,可穿戴传感器对于可以与机器学习技术相关的连续生物数据采集很有用,例如随机森林回归,神经网络和支持向量回归机器可预测CF [21,25]。因此,理解这些模型还可能表明人类\ Xe2 \ x80 \ x9cblack box \ xe2 \ x80 \ x80 \ x9d生理系统如何与环境相互作用,近似这些复杂算法的解释能力,即我们在使用简单的方法中所体验的内容,例如在线性性回归模型中所体验的内容。Shapley添加说明(SHAP)是一种源自Cociational Game理论的宝贵方法,该方法可用于解释根据从生物学数据获得的监督机器学习方法构建的复杂模型[26,28]。其使用的主要动机依赖于(1)其成为模型不可知论的能力(即,与任何模型相关的解释方法,以提取有关预测过程的额外信息'
由于在估计许多含水层的地下水补给和跨边界性质的困难引起的摘要,因此已经提出了大规模估算地下水补给的摘要。已经建立了基于过程的模型以及数据驱动的模型,以满足这一需求。同时,随着可解释的人工智能(XAI)方法的出现,数据驱动的机器学习模型可以利用增强的解释性,同时保持高灵活性。在这项研究中,建立了一个集成神经网络模型,以检查该模型以预测地下水充电的适用性,并有可能从大型数据集中获得新的见解。最近的大量地下水补给数据输入和本研究中整理的阿拉伯半岛的其他投入被送入了该模型,该模型具有与气候,土壤和植物特征,地形和水文地质学有关的多种预测因素。该模型显示出比最近基于全球过程的模型预测地下水充值的模型更高的性能(调整后的R 2:0.702,RMSE:193.35 mm -yr -1)。使用XAI方法作为个人条件期望和沙普利添加说明相互作用值,分析了模型行为,并发现了预测因子和地下水补给率之间可能的线性和非线性关系。长期平均降水量和增强的植被指数显示出与地下水充电率的非线性关系,而坡度,化合物地形指数和地下水位深度对模型结果的重要性较低。大多数模型行为遵循域知识,而预测因子和数据偏斜之间的多相关阻碍了模型的学习。
抽象的农艺师和生产商通常固有地知道季节性和场内作物变异性的关键驱动因素。然而,随着全球对更可持续和生产性粮食系统的需求不断增长,了解和量化它们对于最大程度地提高投入效率和生产力潜力至关重要。这项研究的重点是位于新南威尔士州Moree(新南威尔士州)西部1099公顷的案例研究领域,那里有10个以上的收益率数据。数字土壤图是由关键土壤特性和约束产生的(例如使用野外收集的土壤数据在四个深度至0.9 m的土壤数据以及近端和远程感知的空间数据的情况下,使用了水的能力。使用LIDAR数据以1 m分辨率创建了场的高程图。Xgboost模型,具有土壤和高程预测因子为变量,用于预测每个季节的产量。然后使用Shapley添加说明(SHAP)来解释输出,并通过确定和映射预测变量的最负面值来解释最有限变量的图。然后确定田间每个点的最限制因素(小麦或鹰嘴豆),以及季节性潮湿或干季。结果在生产最有限的限制中显示出一些一致的趋势。“湿”季节产生了最不一致的趋势,因为在不同的农作物阶段或作物类型上,供水事件的影响和严重程度变化。此外,还检查了一个案例研究季节,以了解尿素管理决定对作物产量的可变率的影响。总体而言,这项研究表明,解释性机器学习对于理解和量化时空影响作物变异性非常有用,这将在未来改善作物管理。
抽象目标旨在通过使用大型样本数据集进行机器学习来研究糖尿病性视网膜病(DR)风险因素和预测模型。基于大型样本和高维数据库的设计回顾性研究。在北京设立中国中央三级医院。参与者有关32 452型糖尿病(T2DM)住院患者的信息从2013年1月1日至2017年12月31日从电子病历系统中检索方法保留了六十个变量(包括人口统计信息,物理和实验室测量,系统疾病和胰岛素治疗)进行基线分析。通过递归特征消除选择了最佳17变量。预测模型是基于XGBoost算法构建的,并与其他三种流行的机器学习技术进行了比较:逻辑回归,随机森林和支持向量机。为了更视觉上解释XGBoost模型的结果,使用了Shapley添加说明(SHAP)方法。结果DR发生在2038年(6.28%)T2DM患者中。XGBoost模型被确定为具有最高AUC的最佳预测模型(曲线值为0.90),表明HBA1C值大于8%,肾病,血清肌酐值大于100 µmol/L,胰岛素治疗和糖尿病下极端疾病的风险与DR的风险增加相关。患者的年龄超过65岁,与DR的风险降低有关。结论具有更好的全面性能,XGBoost模型具有很高的可靠性来评估DR的风险指标。可以通过Shap方法找到DR的最关键危险因素和危险因素的临界因素,以使XGBoost模型的输出在临床上可以解释。
