摘要:本文研究了新颖的分类器集合技术,用于应用于图像分类的各种深层神经网络的不确定性校准。我们评估了准确性和校准指标,重点介绍了校准误差(ECE)和最大校准误差(MCE)。我们的工作比较了构建简单而高效的分类器合奏的不同方法,包括多数投票和几种基于元模型的方法。我们的评估表明,尽管用于图像分类的最新深层神经网络在标准数据集上具有很高的精度,但它们经常遭受重大校准误差。基本的合奏技术(例如多数投票)提供了适度的改进,而基于元模型的电源始终降低所有体系结构中的ECE和MCE。值得注意的是,我们比较的元模型表现出最大的校准改进,对准确性的影响最小。此外,具有元模型的分类器合奏在校准的情况下优于传统模型集合,同时需要较少的参数。与传统的事后校准方法相比,我们的方法消除了对单独的校准数据集的需求。这些发现强调了我们提出的基于元模型的分类器集合的潜力,作为一种有效的有效方法来证明模型校准,从而有助于更可靠的深度学习系统。
语言和视觉模型(LLMS/VLMS)通过产生类似人类的文本和理解图像的能力彻底改变了AI领域,但是确保其可靠性至关重要。本文旨在评估LLM(GPT4,GPT-3.5,Llama2和Palm 2)和VLMS(GPT4V和Gemini Pro Vision)通过提示估算其口头上的不确定性的能力。我们提出了新的日本不确定场景(JUS)数据集,旨在通过困难的查询和对象计数测试VLM功能,以及净校准误差(NCE)来测量错误校准的方向。结果表明,LLMS和VLM都有很高的校准误差,并且大多数时候都过高地表明不确定性估计的能力较差。此外,我们为回归任务开发了提示,并且我们表明,在产生平均/标准偏差和95%置信区间时,VLM的校准较差。
在机器人或其他物理系统上部署深层神经网络时,学到的模型应可靠地量化预测性不确定性。可靠的不确定性允许下游模块推理其行动的安全性。在这项工作中,我们解决了不确定性量化的指标。具体来说,我们专注于回归任务,并研究稀疏误差(AUSE),校准误差(CE),Spearman的等级相关性和负模样(NLL)下的区域。使用多个数据集,我们研究了这些指标在四种典型类型的不确定性下的行为,它们在测试集的大小上的稳定性以及揭示其优势和缺点。我们的结果表明,校准误差是最稳定,最容易解释的度量,但是Ause和NLL也具有各自的用例。我们不建议您评估不确定性的Spearman等级相关性,并建议用Ause代替它。
在传播预测的输入之后,贝叶斯神经网络还可以不确定。这有可能通过拒绝低信心的预测来指导训练过程,而最近的变异贝叶斯方法可以在不进行蒙特卡洛重量的情况下这样做。在这里,我们在通过动物自然栖息地中通过被动声学监测设备进行的录音应用了无样品的野生动植物呼叫检测。我们进一步提出了不确定性吸引标签的平滑性,其中平滑概率取决于无样品的预测不确定性,以减少对损失值较少贡献的数据。我们介绍了一个记录在马来西亚婆罗洲的生物声学数据集,其中包含来自30种物种的重叠呼叫。在该数据集上,我们提出的方法在接收器操作特征(Au-Roc)下的面积约为1.5分,F1的13点和预期校准误差(ECE)的溶质百分比提高了约1.5点,与所有目标类别相比,预期校准误差(ECE)的位置为19.5点。
在这项研究中,我们提出了一种基于机器学习的转移学习技术,用于通过参考监视器的共同部署进行快速传感器校准,将其保持在最低限度。此方法整合了来自少数传感器(包括目标传感器)的数据,从而降低了对参考监视器的依赖性。我们的研究表明,在最近的研究中,已经提出了一种使用元语言模型的转移学习方法,结果证明,结果比以前的方法更有效。在试验中,与最佳的原始和基线观测值相比,校准误差成功降低了32%和15%。这表明了转移学习方法的巨大潜力,从而提高了学习的有效性。这些结果突出了这种创新转移学习技术的潜力,可以使用机器学习快速和凝固地校准低成本物质传感器。
大型语言模型(LLM)提供了有关回答(QA)方案的重要价值,并在复杂的决策环境(例如生物多样性保护)中具有实际应用。然而,尽管性能进行了实质性提高,但它们仍可能产生不准确的结果。因此,将不确定性量化与预测同时纳入预测至关重要。这项研究介绍了对蒙特卡洛辍学(MCD)和预期校准误差(ECE)的应用来评估生成语言模型的不确定性的探索性分析。为此,我们分析了两种公开可用的语言模型(Falcon-7b和Distilgpt-2)。我们的发现表明,将ECE用作估计生成LLM不确定性的指标的可行性。这项研究的发现有助于一个更广泛的项目,旨在促进有关哥斯达黎加生物多样性的标准化和集成数据和服务的自由访问,以支持科学,教育和生物多样性保护的发展。
自主机器人组装的摘要最新进步已显示出令人鼓舞的结果,尤其是在应对精确插入挑战方面。但是,在不同的对象类别和任务之间实现适应性通常需要一个学习阶段,需要昂贵的现实世界数据收集。先前的研究通常假定插入的对象对机器人的末端效果的刚性附着,或者依赖于结构环境中的精确校准。我们提出了一种单发方法,用于高精度接触富含的操作装配任务,从而使机器人仅使用单个演示图像从随机呈现的方向上执行新对象的插入。我们的方法结合了一个混合框架,该框架将基于6-DOF视觉跟踪的迭代控制和阻抗控制融合在一起,从而通过实时视觉反馈促进高精度任务。重要的是,我们的方法不需要预先训练,并且证明了对摄像头姿势校准误差和物体内部姿势的干扰产生的不确定性的弹性。我们通过在现实世界中的广泛实验进行了拟议框架的效果,涵盖了各种高度精确的组装任务。
摘要随着计算机科学的最新进展,越来越需要将人类运动转换为人体研究的数字数据。骨骼运动数据包括通过关节角度或关节位置表示的每个捕获运动框架的人类姿势。三维(3D)骨骼运动数据广泛用于各种应用中,例如虚拟现实,机器人技术和动作识别。但是,由于校准误差,传感器噪声,传感器的分辨率不良以及由于衣服而引起的遮挡,它们通常是嘈杂的和不完整的。已经提出了数据驱动的模型来denoise和填充不完整的3D骨架运动数据。但是,他们忽略了关节和骨骼之间的运动学依赖性,这可以作为确定标记位置的噪声。受到定向图神经网络的启发,我们提出了一个新型模型,以填充和定位标记。此模型可以通过从长期短期记忆层中创建骨数据和时间信息来直接提取空间信息。此外,提出的模型可以通过自适应图学习关节之间的连通性。在评估中,提出的模型显示出具有不同类型的噪声水平和学习过程中数据含量不同的看不见数据的良好的完善性能。
摘要。基于光子计数检测器(PCD)的光子计算计算机断层扫描(PCCT)以尖端的CT技术脱颖而出,提供增强的空间分辨率,减少辐射剂量和先进的材料分解功能。尽管它得到了公认的广告,但挑战是由现实现象引起的,例如PCD电荷共享效应,特定于应用的集成电路(ASIC)堆积和频谱转移,并引入了实际物理效应与理想物理模型中的实际物理效应之间的差异。这种未对准会导致图像重建过程中的重大错误,该过程在材料分解中尤其。在本文中,我们介绍了一种新型的检测器物理学和ASIC模型引导的深度学习系统模型,该模型是为PCCT量身定制的。该模型擅长捕获PCCT系统的全面反应,包括检测器和ASIC重音。我们提出了实验结果,证明了该模型的实验精度和鲁棒性。关键进步包括减少校准误差,材料分解成像的提高质量以及提高定量一致性。该模型代表了在弥合PCCT的理论假设和实际复杂性之间的差距,为更精确,更可靠的医学成像铺平道路时的差距。
摘要 - 在现实世界中的代理商,例如自动驾驶的环境中的不确定性,尤其是由于感知不确定性。,尽管在不确定性下,这些算法通常不会了解其环境中当前所包含的不确定性,但强化学习专门用于自主决策。另一方面,感知本身的不确定性估计通常是在感知域中直接评估的,例如,基于摄像机图像的假阳性检测率或校准误差。它用于决定面向目标的动作的用途在很大程度上仍未被研究。在本文中,我们研究了代理人的行为如何受到不确定的看法的影响,以及如果有关此不确定性的信息,该行为如何改变。因此,我们考虑了一项代理任务,在该任务中,代理商在不与其他道路使用者发生碰撞的情况下驾驶路线会得到奖励。对于受控实验,我们通过在告知后者的同时扰动给定代理的感知来引入观察空间中的不确定性。我们的实验表明,以扰动感知建模的不可靠的观察空间会导致代理的防御驾驶行为。此外,当将有关当前不确定性的信息直接添加到观测空间时,代理会适应特定情况,并且一般而言,在同一时间占风险的同时,可以更快地完成其任务。索引术语 - 不确定性量化,增强学习,语义分割