Deeptrees项目提供了用于培训,微调和部署深度学习模型的工具,以使用德国的数字矫正图计划(DOP)以20 cm的分辨率从德国的数字矫正图计划(DOP)中使用公共访问的图像进行诸如Tree Crown分割,树状特征检测和树种分类。这些DOP图像是根据“ Amtliches popographis-kartographissches Informationssystems”(AKTIS)指南进行标准化的,以确保其长期使用的可靠性和一致性[2]。利用深层python软件包,我们成功地绘制了萨克森州(137,293,260棵树)和萨克森 - 安哈尔特(81,449,641棵树)的218,742,901棵树,展示了该工具在森林,Urban和乡村环境中的可伸缩性(图1)。这些数据集为市政当局和机构提供了宝贵的见解,以管理街道树木,监测城市绿化和评估森林健康,从而实现更明智的决策和可持续的管理实践。
立体图像超分辨率(Sterereosr)近年来引起了人们的关注,这是由于手机,自动驾驶汽车和机器人的双重摄像头广泛范围。在这项工作中,我们根据Swinir的扩展(最初是为单个图像还原设计的,又提出了一种名为SWINFSR的新定单方法,以及Fast Fourier卷积(FFC)获得的频域知识。具体来说,为了有效地收集全球信息,我们通过使用FFC明确地不明显地局限于SWINIR中的残留SWIN变压器块(RSTBS),并使用结果域知识,并采用结果的残留Swin傅立叶型跨前块(RSFTB)进行特征提取。此外,为了有效,准确的立体视图融合,我们提供了一个新的跨意见模块,称为RCAM,该模块的竞争性能高于竞争性能,同时比最先进的交叉意见模块更少的计算成本。广泛的实验结果和消融研究证明了我们提出的SWINFSR的有效性和效率。
大规模视觉语言预训练模型的最新进展已在自然图像领域中的零样本/少样本异常检测方面取得了重大进展。然而,自然图像和医学图像之间巨大的领域差异限制了这些方法在医学异常检测中的有效性。本文介绍了一种新颖的轻量级多级自适应和比较框架,以重新利用 CLIP 模型进行医学异常检测。我们的方法将多个残差适配器集成到预训练的视觉编码器中,从而实现不同级别视觉特征的逐步增强。这种多级自适应由多级、逐像素的视觉语言特征对齐损失函数引导,将模型的重点从自然图像中的对象语义重新校准到医学图像中的异常识别。调整后的特征在各种医学数据类型中表现出更好的泛化能力,即使在模型在训练期间遇到看不见的医学模态和解剖区域的零样本场景中也是如此。我们在医学异常检测基准上进行的实验表明,我们的方法明显优于当前最先进的模型,在零样本和少样本设置下,异常分类的平均 AUC 改进分别为 6.24% 和 7.33%,异常分割的平均 AUC 改进分别为 2.03% 和 2.37%。源代码可从以下网址获取:https://github.com/MediaBrain-SJTU/MVFA-AD
根据 JDL 数据融合组过程模型,在 0、1、2 和 2+/3 级进行数据和信息融合。为了支持多传感器 IMINT 和 GMTI 融合和 3D 可视化,我们构建了阿拉巴马州莫比尔码头和周边地区的 3D 站点模型,该模型允许使用我们现有的图像挖掘工具进行搜索,并提供 COP 环境,可以在其中模拟和可视化场景。我们开发了用于模拟交通和编写单个车辆移动脚本的软件,以支持场景创建。我们探索了几个新概念来支持 2+/3 级的更高级别的信息融合。一种方法源于对动态脉冲信息网络及其同步形式的神经处理的洞察。这些网络可以以关系和学习到的关联的形式绑定数据和语义知识。我们证明了使用这些网络在移动数据集中学习动态城市场景中移动车辆之间的简单关联的可行性。第二种方法涉及从图像和/或文本数据中提取知识结构。我们开发了两种从数据集中的概念共现中发现分类法的机制。我们证明了这些方法对融合图像和文本语料库的有效性。最后一种方法利用神经启发机制从移动的跟踪实体中学习正常行为模型。这些模型随后被使用
使用扩散模型进行图像修复通常使用预条件模型(即针对绘画任务进行微调的图像条件模型)或后条件模型(即在推理时重新用于绘画任务的非条件模型)。预条件模型在推理时很快,但训练成本极高。后条件模型不需要任何训练,但在推理过程中很慢,需要多次前向和后向传递才能收敛到理想的解决方案。在这里,我们推导出一种不需要昂贵训练但推理速度很快的方法。为了解决昂贵的推理计算时间,我们在潜在空间而不是图像空间上执行前向-后向融合步骤。这是通过扩散过程中新提出的传播模块解决的。在多个领域进行的实验表明,我们的方法达到或改善了状态
近年来,文本图像联合预训练技术在各种任务中显示出令人鼓舞的结果。然而,在光学特征识别(OCR)任务中,将文本实例与图像中的相应文本区域对齐是一个挑战,因为它需要在文本和OCR文本之间有效地对齐(将图像中的文本称为ocr-文本以与自然语言中的文本区分开来),而不是对整体图像内容的全面理解。在本文中,我们提出了一种新的预训练方法,称为o cr-text d估计化m odeling(ODM),该方法根据文本提示将图像中的文本样式传输到统一样式中。使用ODM,我们在文本和OCR文本之间实现了更好的对齐方式,并启用预训练的模型以适应场景文本的复杂和多样化的样式。此外,我们为ODM设计了一种新的标签生成方法,并将其与我们提出的文本控制器模块相结合,以应对OCR任务中注释成本的挑战,并以大量未标记的数据参与预培训。在多个Pub-LIC数据集上进行的广泛实验表明,我们的方法显着地证明了性能,并且在场景文本检测和发现任务中的当前预训练方法优于当前的预训练方法。代码在ODM上可用。
扩散模型是生成时期的当前最新模型,它通过将生成过程分解为许多细粒度的排除步骤,从而综合了高质量的图像。尽管其性能良好,但扩散模型在计算上还是需要许多Neu-ral功能评估(NFES)。在这项工作中,我们提出了一种基于扩散的方法,该方法在完成前在任意时间停止时可以生成可行的图像。使用现有的预处理扩散模型,我们表明可以将生成方案重新组成为两个嵌套扩散过程,从而可以快速迭代的迭代细化。在实验和基于稳定的基于扩散的文本对图像生成的实验中,我们在定性和定量上都表明,我们的方法的相互作用质量大大超过了原始扩散模型的质量,而最后一代结果仍然可比。我们说明了嵌套扩散在多种设置中的适用性,包括用于求解逆概率,以及在整个采样过程中允许用户干预,用于快速基于文本的内容创建。1
深度学习技术的最新进展为协助病理学家从全切片病理图像(WSI)中预测患者的生存期带来了可能性。然而,大多数流行的方法仅适用于WSI中特定或随机选择的肿瘤区域中的采样斑块,这对于捕捉肿瘤与其周围微环境成分之间复杂相互作用的能力非常有限。事实上,肿瘤在异质性肿瘤微环境(TME)中得到支持和培育,详细分析TME及其与肿瘤的相关性对于深入分析癌症发展的机制具有重要意义。在本文中,我们考虑了肿瘤与其两个主要TME成分(即淋巴细胞和基质纤维化)之间的空间相互作用,并提出了一种用于人类癌症预后预测的肿瘤微环境相互作用引导图学习(TMEGL)算法。具体来说,我们首先选择不同类型的块作为节点来为每个 WSI 构建图。然后,提出了一种新颖的 TME 邻域组织引导图嵌入算法来学习可以保留其拓扑结构信息的节点表示。最后,应用门控图注意网络来捕获肿瘤与不同 TME 组件之间与生存相关的交集以进行临床结果预测。我们在来自癌症基因组图谱 (TCGA) 的三个癌症队列上测试了 TMEGL,实验结果表明 TMEGL 不仅优于现有的基于 WSI 的生存分析模型,而且对生存预测具有良好的可解释能力。
我们对射击噪声损坏的图像和删除噪声的镜头提出了新的视角。通过将图像形成视为光子在检测器网格上的顺序积累,我们表明,经过训练的网络可以预测下一个光子可能到达的位置,实际上可以解决最小均方形误差(MMSE)denoising任务。这种新观点使我们能够做出三个贡献:i。我们提出了一种新的策略,用于自我监督的denoisis,ii。我们提出了一种通过迭代采样并将少量光子添加到图像中的溶液后部采样的新方法。iii。我们通过从空画布启动此过程来得出一个完整的生成模型。我们称这种方法的生成积累(GAP)。我们在4个新的荧光显微镜数据集上进行定量和定性评估我们的方法,该数据将可供社区提供。我们发现它的表现优于其基准或在PAR上执行。