可解释人工智能 (XAI) 在过去几年中经历了显着增长。这是由于机器学习(尤其是深度学习)的广泛应用,导致开发出缺乏可解释性和可解释性的高精度模型。已经提出、开发和测试了大量解决此问题的方法,同时还有几项研究试图定义可解释性的概念及其评估。本系统综述通过分层系统将所有科学研究聚类,对与可解释性概念和 XAI 方法的评估方法相关的理论和概念进行分类,从而为知识体系做出了贡献。此层次结构建立在对现有分类法和同行评审的科学材料的详尽分析之上。研究结果表明,学者们已经确定了许多概念和要求,解释应该满足这些概念和要求,以便最终用户能够轻松理解并提供可操作的信息来指导决策。他们还提出了各种方法来评估机器生成的解释在多大程度上满足了这些要求。总体而言,这些方法可以归结为以人为本的评估和具有更客观指标的评估。然而,尽管围绕可解释性概念发展了大量知识,但学者们对于如何定义解释以及如何评估其有效性和可靠性并没有达成普遍共识。最后,本评论通过批判性地讨论这些差距和局限性得出结论,并以可解释性作为任何人工智能系统的起始组成部分,定义了未来的研究方向。
事件驱动的图像去模糊是一种创新方法,涉及输入从事件相机获取的事件以及模糊帧以促进去模糊过程。与传统相机不同,事件驱动成像中的事件相机表现出低延迟特性并且不受运动模糊的影响,从而显著提高了图像去模糊的效果。在本文中,我们提出了一种开创性的基于事件的由粗到细的图像去模糊网络CFFNet。与现有的去模糊方法相比,我们的方法结合了事件数据,从单个帧生成多个粗帧,然后进一步将它们细化为清晰的图像。我们引入了一个事件图像融合块(EIFB)来粗融合事件和图像,在不同的时间点生成粗帧。此外,我们提出了一个双向帧融合块(BFFB)来对粗帧进行精细融合。CFFNet 通过从粗到细的全面融合过程有效地利用了事件数据的时空信息。在 GoPro 和 REBlur 数据集上的实验结果表明,我们的方法在图像去模糊任务中达到了最先进的性能。
摘要:3D对象检测是自动驾驶和机器人技术的一项具有挑战性且有前途的任务,从LIDAR和相机等多传感器融合中受益匪浅。传感器融合的常规方法依赖于投影矩阵来对齐LiDAR和相机的特征。但是,这些方法通常遭受灵活性和鲁棒性不足,从而在复杂的环境条件下导致对齐精度降低。解决这些挑战,在本文中,我们提出了一个新型的双向注意融合模块,该模块名为Bafusion,该模块有效地使用跨注意力从激光雷达和照相机中融合了信息。与常规方法不同,我们的浮雕模块可以自适应地学习跨模式的注意力,从而使方法更加灵活和健壮。从2D Vision中的高级注意优化技术中汲取灵感,我们开发了集合的线性注意融合层(CFLAF层),并将其集成到我们的小管道中。该层优化了注意机制的计算复杂性,并促进了图像和点云数据之间的高级相互作用,展示了一种新的方法来解决跨模式注意计算的挑战。我们使用各种基线网络(例如Pointpillars,Second和A Part-A 2)在KITTI数据集上评估了我们的方法,并在这些基准线上表现出了3D对象检测性能的一致改进,尤其是对于骑自行车的人和骑行者等较小的对象。我们的方法在Kitti基准测试中取得了竞争成果。
显示出最高的拉伸应力,超过 800 MPa。Bodner 等人在 [33] 中报告了 Inconel 625 和 AISI 316L 的层内多材料结构中残余应力水平同样升高的情况。此外,图的上部区域显示拉伸应力从马氏体时效的左边缘开始,延伸到整个梯度区域,并在朝向 AISI 316L 区域的大约一半处减小,在试样的右边缘处发现应力减小到无应力区域。减小的
摘要。多模式传感器融合是机器人机器人的重要能力,在存在失败或不确定输入的情况下,可以实现对象检测和决策。虽然在正常环境条件下,最近的融合方法在不利的天气中失败了,例如,由于污染而导致的重雾,雪或障碍物。我们介绍了一种针对不利天气条件的新型多传感器融合方法。除了在最近的自主驾驶文献中构成的融合RGB和LIDAR传感器外,我们的传感器融合堆栈还能够从NIR门控相机和雷达方式中学习,以应对低光和欣赏天气。我们通过细心的,基于深度的混合方案融合了多模式传感器数据,并在鸟类视图(BEV)平面上进行了学习,以有效地组合图像和范围特征。我们的检测是由变压器解码器预先列出的,该解码器根据距离和可见性称量模态。我们证明,我们的方法在挑战性的天气条件下提高了自动驾驶汽车中多模式传感器融合的可靠性,从而弥合了理想条件和现实世界边缘案例之间的差距。我们的方法将平均精度提高了17。2 AP与长期存在的脆弱行人和富有挑战的雾蒙蒙场景相比,与弱势行人的下一个最佳方法相比。我们的项目页面可在此处找到1。
摘要。本文提出了一种利用预训练的视频扩散模型的新方法,用于构建可扩展的3D生成模型。开发基础3D生成模型的主要障碍是3D数据的可用性有限。与图像,文本或视频不同,3D数据不容易访问且难以获取。与大量其他类型的数据相比,这会导致规模差异显着。为了解决这个问题,我们建议使用视频扩散模型,该模型以大量文本,图像和视频培训,作为3D数据的知识源。通过通过微调解锁其多视图的能力,我们生成了一个大规模的合成多视图数据集,以训练一个馈送前进的3D生成模型。对近3M合成多视图数据进行训练的拟议模型Vfusion3D可以以秒的形式从单个图像中产生3D资产,并且与当前的SOTA Feed-Forward 3D生成模型相比,在90%以上的时间中,用户更喜欢我们的结果。
摘要本文旨在概述我们的方法,以区分人类生成的文本和具有模型融合方法的生成AI模型。我们的方法包括三个步骤:首先,我们将PAN的竞争数据集扩展到Clef 2024的竞争数据集,其中包括来自著名的数据科学和机器学习竞赛平台Kaggle的外部数据集,并应用Levenshtein距离算法算法纠正拼写错误的单词。然后,基于共享主题并将培训,验证和测试数据集形成文本对的数据集。第二,我们训练一个微调的BERT作为基本模型和使用R-Drop方法的BERT来减轻过度拟合问题。最后,这两个模型是使用合奏学习技术和投票策略组合的。我们的实验结果表明,融合模型的ROC-AUC度量为0.932,比基线模型Fast-DetectGpt(Mistral)提高了5.6%。
摘要:这项研究旨在通过整合综合少数群体过度采样技术(SMOTE)-TOMEK技术来开发一种健壮的糖尿病分类方法,用于数据平衡并使我们以极端梯度增强(XGB)为导致的机器学习合奏作为元学习者。我们提出了一个集成模型,该模型将深度学习技术(例如双向长期记忆(Bilstm)和双向门控复发单元(BIGRU)与XGB分类器作为基础学习者。使用的数据包括PIMA印第安人糖尿病和伊拉克社会糖尿病数据集,这些数据集是通过缺少价值处理,重复,归一化以及Smote-Tomek在解决数据失衡方面处理的。XGB作为元学习者,通过降低偏差和方差成功地提高了模型的预测能力,从而导致了更准确,更健壮的分类。所提出的合奏模型可在所有测试的数据集上达到完美的精度,精度,召回,特异性和F1分数为100%。此方法表明,将集成学习技术与严格的预处理方法结合在一起可以显着改善糖尿病分类性能。