摘要 大多数生物医学应用面临的主要问题之一是大量未标记的数据。人类专家手动分析和分类海量数据库大多是不可行的,在某些有限条件下(仍然极其耗时)只有部分工作仅针对专家可轻松识别的简单特征。关于这个方面,医学专家面临两个具有挑战性的问题:如何选择最重要的数据进行标记,以及数据集的最小大小是多少(但足以定义每种病理)以进行分类器的训练。在本章中,我们提出了一种基于可视化数据分析的新方法,以使用最少的标记数据构建有效的分类器。编码器是卷积变分自动编码器 (CVAE) 的一部分,用作 2D 可视化的数据投影。输入向量被编码到二维潜在空间中,这有助于专家直观地分析训练数据集的空间分布。
无监督的域适应性(UDA)是解决域转移问题的有效方法。特别是UDA方法试图对齐源和目标代表,以改善对目标域的概括。,UDA方法在适应过程中可以访问源数据的假设下起作用。但是,在实际情况下,由于隐私法规,数据传输限制或专有数据关注,标记的源数据通常受到限制。源 - 自由域适应(SFDA)设置旨在通过对目标域进行源训练的模型来减轻这些问题,而无需访问源数据。在本文中,我们探讨了自适应对象检测任务的SFDA设置。为此,我们提出了一种新颖的培训策略,以使源训练的对象将对象降低到目标域而没有源数据。更重要的是,我们通过利用给定目标域输入的对象关系来设计一种新颖的对比损失,以增强目标表示形式。这些对象实例关系是使用实例关系图(IRG)网络建模的,然后将其用于指导对比度代表学习。此外,我们还利用学生教师将知识从源训练的模型提高到目标域。对多个OB-JECT检测基准数据集进行了广泛的实验表明,所提出的方法能够有效地适应源训练的对象检测器对目标域,超过了最先进的域自适应检测方法。代码和模型在https://viudomain.github.io/irg-sfda-web/中提供。
摘要:事件摄像机是一种新型图像传感器。这些传感器的像素彼此独立地和彼此独立运行。传感器输出是一个可变的速率数据流,该数据流在时空上编码亮度变化的检测。这种类型的输出和传感器操作范例为计算机视觉应用构成了处理的处理,因为基于框架的方法并非本地适用。我们在基于事件的室外监视的背景下,对不同最新的基于深度学习的实例分割方法进行了首次系统评估。用于处理,我们考虑将事件输出流转换为不同维度(包括点,体素和基于框架的变体)的表示。我们介绍了一个新的数据集变体,该变体在每个输出事件的实例级别以及基于密度的预处理以生成感兴趣的区域(ROI)。实现的实例分割结果表明,基于事件的域的现有算法的适应是一种有希望的方法。
摘要 — 近年来,病理诊断通过将深度学习模型与使用全切片图像 (WSI) 的多实例学习 (MIL) 框架相结合而取得了优异的表现。然而,WSI 的千兆像素特性对高效的 MIL 提出了巨大挑战。现有研究要么不考虑实例之间的全局依赖关系,要么使用线性注意等近似值来建模对对实例交互,这不可避免地带来了性能瓶颈。为了应对这一挑战,我们提出了一个名为 MamMIL 的框架用于 WSI 分析,通过将选择性结构化状态空间模型(即 Mamba)与 MIL 相结合,能够在保持线性复杂度的同时对全局实例依赖关系进行建模。具体而言,考虑到 WSI 中组织区域的不规则性,我们将每个 WSI 表示为一个无向图。为了解决 Mamba 只能处理一维序列的问题,我们进一步提出了一种拓扑感知扫描机制来序列化 WSI 图,同时保留实例之间的拓扑关系。最后,为了进一步感知实例之间的拓扑结构并结合短程特征交互,我们提出了一种基于图神经网络的实例聚合块。实验表明,MamMIL 可以实现比最先进的框架更先进的性能。代码可以在 https://github.com/Vison307/MamMIL 访问。索引术语 — 多实例学习、状态空间模型、整个幻灯片图像
近年来,深度学习方法因其解决复杂任务的能力而变得无处不在。然而,这些模型需要庞大的数据集才能进行适当的训练和良好的泛化。这意味着需要很长的训练和微调时间,对于最复杂的模型和大型数据集,甚至需要几天的时间。在这项工作中,我们提出了一种新颖的量子实例选择 (IS) 方法,该方法可以显着减少训练数据集的大小(最多 28%),同时保持模型的有效性,从而提高(训练)速度和可扩展性。我们的解决方案具有创新性,因为它利用了一种不同的计算范式——量子退火 (QA)——一种可用于解决优化问题的特定量子计算范式。据我们所知,之前还没有尝试使用 QA 解决 IS 问题。此外,我们针对 IS 问题提出了一种新的二次无约束二元优化公式,这本身就是一项贡献。通过对多个文本分类基准进行大量实验,我们通过经验证明了我们的量子解决方案的可行性和与当前最先进的 IS 解决方案的竞争力。
尽管隐式神经表征 (INR) 近期取得了进展,但对于基于坐标的 INR 多层感知器 (MLP) 来说,学习跨数据实例的通用表征并将其推广至未见实例仍然具有挑战性。在这项工作中,我们为可推广的 INR 引入了一个简单而有效的框架,该框架使基于坐标的 MLP 能够通过仅调节早期 MLP 层中的一小组权重作为实例模式组合器来表示复杂数据实例;其余 MLP 权重学习跨实例通用表示的模式组合规则。我们的可推广 INR 框架与现有的元学习和超网络完全兼容,可用于学习预测未见实例的调节权重。大量实验表明,我们的方法在音频、图像和 3D 对象等广泛领域都实现了高性能,而消融研究验证了我们的权重调节。
单细胞转录组学可以研究细胞异质性,但是当前的无监督策略使将单个细胞与样品条件相关联的挑战。我们提出了SCMILD,这是一个基于多个实例学习的弱监督学习框架,该框架利用样本级标签来识别与条件相关的细胞亚群。SCMILD采用双分支结构来同时执行样本级分类和细胞级表示。,我们使用与CRISPR扰动细胞的对照模拟研究验证了该模型对条件相关细胞的可靠鉴定。对包括狼疮,COVID-19和溃疡性结肠炎在内的各种单细胞RNA-seq数据集进行了评估,SCMILD始终超过了最先进的模型,并确定了与原始研究的发现一致的条件特异性细胞亚群。这证明了SCMILD探索各种生物学条件及其在不同疾病环境中的适用性的细胞异质性的潜力。
摘要:家禽业在全球农业中起关键作用,家禽是蛋白质的主要来源,并为经济增长做出了重大贡献。但是,该行业面临着与重复性且苛刻的劳动密集型任务相关的挑战。自动化已成为提高运营效率并提高工作条件的关键解决方案。具体来说,机器人的操纵和对象的处理在工厂中变得无处不在。但是,存在挑战以预先识别和引导机器人处理一堆具有相似纹理和颜色的物体。本文着重于开发旨在自动化鸡的机器人解决方案的视觉系统,该机器人解决过程是一种基本的,但在家禽加工中是一种基本但身体上剧烈的活动。为了解决通用实例分割模型在识别重叠对象中的限制,开发了一种具有成本效益的双重活性激光扫描系统来生成对象上的精确深度数据。将经过良好的深度数据生成与RGB图像集成在一起,并将其发送到实例分割模型以进行单个鸡检测和识别。这种增强的方法显着改善了该模型在处理涉及重叠鸡的复杂场景中的性能。具体而言,RGB-D数据的集成将模型的平均平均精度(MAP)检测准确性提高了4.9%,并显着改善了中心偏移 - 本研究中引入的定制度量标准,以量化地面真相蒙版中心与预测的面具中心之间的距离。精确的中心检测对于开发未来的机器人控制解决方案至关重要,因为它可以确保在鸡肉重定过程中准确抓住。中心偏移量从22.09像素(7.30 mm)降低到8.09像素(2.65 mm),证明了该方法在缓解闭塞挑战和增强视觉系统的可靠性方面的有效性。
摘要。我们为开放世界实例(OWIS)提出了一种方法,该任务旨在通过从训练过程中的一组有限的带注释的对象类中概括图像中的任意未知的观察。我们的细分对象系统(SOS)明确地解决了最先进系统的概括能力和低精度,这些系统通常会生成背景检测。为此,我们基于基础模型SAM [27]生成了高质量的伪注释。我们彻底研究了各种对象先验,以引起SAM的提示,并明确将基础模型集中在观察上。最强的物体先验是通过自我监督视觉变压器的自我发项图获得的,我们用来促使SAM。最后,SAM的后处理片段用作伪注释来训练标准实例分割系统。我们的方法在可可,LVI和ADE20K数据集上显示出强大的概括能力,并且与最先进的方法相比,精度提高了高达81.6%。源代码可用:https://github.com/chwilms/sos
摘要 - 森林在我们的生态系统中起着至关重要的作用,充当碳汇,气候稳定剂,生物多样性中心和木材来源。根据其规模的本质,监视和维护森林是一项艰巨的任务。林业中的机器人技术可能有可能实现高效和可持续的森林实践。在本文中,我们解决了通过利用移动平台收集的LIDAR数据自动生产森林清单的问题。要构建库存,我们首先从点云中提取树实例。然后,我们处理每个实例以提取林业清单信息。我们的方法提供了“胸高直径”的每个树几何特征,以及一个地块中的单个树位置。我们验证了我们的结果,以实地试验期间森林人收集的手动测量结果。我们的实验显示出强大的细分和树状估计表现,这强调了自动化林业服务的潜力。结果与该域中使用的流行基线方法相比,结果表现出了出色的性能。