基于变压器的模型已在包括图像超级分辨率(SR)在内的低级视觉任务中取得了显着的结果。但是,在获得全球信息时,基于不重叠的窗口中依赖自我注意的早期aperach遇到了挑战。为了激活全球更多输入像素,已经提出了混合注意模型。此外,通过仅将像素的RGB损失(例如L 1)降至最低而无法捕获基本的高频降低,训练不足。本文提出了两种贡献:i)我们引入了卷积非本地稀疏注意(NLSA)块,以扩展混合变压器体系结构,以增强其接受场。ii)我们采用小波损失来训练变压器模型,以提高定量和主观性能。虽然先前已经探索过小波损耗,但在基于训练变压器的SR模型中显示了它们的力量是新颖的。我们的实验结果表明,所提出的模型在各种基准数据集中提供了状态的PSNR结果以及出色的视觉性能。
近年来的抽象背景,三维(3D)球体模型在科学研究中变得越来越流行,因为它们提供了一种与生理相关的微环境,可以模仿体内条件。与传统的二维细胞培养方法相比,它可以更好地了解3D球体测定法具有优势,因为它可以更好地了解细胞行为,药物功效和毒性。但是,使用3D球体测定法受到了用于球体图像分析的自动化和用户友好的工具的阻碍,这会对这些测定的可重复性和吞吐量产生不利影响。为解决这些问题的结果,我们开发了一种完全自动化的,基于Web的工具,称为Spheroscan,该工具使用了带有卷积神经网络(R-CNN)的名为“掩码区域”的深度学习框架进行图像检测和细分。为了开发一个可以从一系列实验条件中应用于球体图像的深度学习模型,我们使用使用Incucyte Live细胞分析系统和常规显微镜捕获的球体图像训练了该模型。使用验证和测试数据集对经过培训模型的性能评估显示出令人鼓舞的结果。结论Spheroscan允许轻松分析大量图像,并提供交互式可视化功能,以更深入地了解数据。我们的工具代表了球体图像分析的重大进步,并将促进科学研究中3D球体模型的广泛采用。可在https://github.com/funtionalurosology/spheroscan上获得有关Spheroscan的源代码和详细的Spheroscan教程。
近年来非酒精性脂肪肝疾病(NAFLD)病例的迅速增加引起了人们的重大关注。准确地识别组织的改变对NAFLD的诊断至关重要,但是该任务在病理图像分析中带来了挑战,特别是与小规模的数据集有关。最近,从完整的微调转变为改编视觉模型的提示的范式转变为小规模数据分析提供了新的视角。然而,基于任务不足提示的现有提示方法主要是为了通用图像识别而开发的,该方法在为复杂病理学图像提供指导的指示方面缺乏。在本文中,我们提出了基于定量属性的提示(QAP),这是一种专门用于肝脏病理学分析的新提示方法。QAP基于两个定量属性,即基于K功能的空间属性和基于直方图的形态学属性,旨在对组织状态进行标准评估。此外,condi-
计算机视觉的抽象工业应用有时需要检测数字图像中小组像素的非典型物体。这些对象很难单一单,因为它们很小并且随机分布。在这项工作中,我们使用新型基于ANT系统的聚类算法(ASCA)提出了一种图像分割方法。ASCA对蚂蚁的觅食行为进行建模,蚂蚁的觅食行为在搜索高数据密度区域的数据空间中移动,并在其路径上留下信息素跟踪。信息素图用于识别簇的确切数量,并使用信息素gra-denient将像素分配给这些簇。我们将ASCA应用于数字乳房X线照片中的微钙化,并将其与最先进的聚类算法进行比较,例如1D自组织图,k -meanss,模糊C-Meanss和可能的模糊模糊C-Meanss。ASCA的主要优点是,群集的数量不需要先验。实验结果表明,在检测非典型数据的小簇时,ASCA比其他算法更有效。
近年来,自主导航变得越来越流行。但是,大多数现有的方法在公路导航方面有效,并利用了主动传感器(例如LIDAR)。本文使用Passive传感器,特别是长波(LW)高光谱(HSI)的遍历性估计,重点介绍了自主越野导航。我们提出了一种方法,用于选择一部分高光谱带,该方法通过设计一个最小的传感器设计带选择模块,该模块设计一个最小的传感器,该模块设计了一个最小的传感器,该模块可以测量稀疏采样的光谱带,同时共同训练语义段网络网络,以进行遍历性估计。使用我们的LW HSI数据集在包括森林,沙漠,雪,池塘和开放式田野的各种越野场景中证明了我们方法的有效性。我们的数据集包括在各种天气条件下白天和夜间收集的图像,包括具有广泛障碍的具有挑战性的场景。使用我们的方法,我们学习了所有HSI频段中的一个小子集(2%),这些子频段可以在利用所有高光谱带时获得竞争性或更好的遍历性估计精度。仅使用5个频段,我们的方法能够实现平均类别的效果,该级别仅比使用完整的256波段HSI低1.3%,而仅比使用250频段HSI实现的效果仅比使用了0.1%,这证明了我们方法的成功。
摘要我们提出了一种新的多模式面部图像生成方法,该方法将文本提示和视觉输入(例如语义掩码或涂鸦图)转换为照片真实的面部图像。为此,我们通过使用DM中的多模式特征在预训练的GAN的潜在空间中使用多模式特征来结合一般的对抗网络(GAN)和扩散模型(DMS)的优势。我们提供了一个简单的映射和一个样式调制网络,可将两个模型链接起来,并在特征地图和注意力图中将有意义的表示形式转换为潜在代码。使用gan inversion,估计的潜在代码可用于生成2D或3D感知的面部图像。我们进一步提出了一种多步训练策略,该策略将文本和结构代表反映到生成的图像中。我们提出的网络生成了现实的2D,多视图和风格化的面部图像,这些图像与输入很好。我们通过使用预训练的2D和3D GAN来验证我们的方法,我们的结果表现优于现有方法。我们的项目页面可在https://github.com/1211SH/diffusion-driven_gan-inversion/。
近年来,文本图像联合预训练技术在各种任务中显示出令人鼓舞的结果。然而,在光学特征识别(OCR)任务中,将文本实例与图像中的相应文本区域对齐是一个挑战,因为它需要在文本和OCR文本之间有效地对齐(将图像中的文本称为ocr-文本以与自然语言中的文本区分开来),而不是对整体图像内容的全面理解。在本文中,我们提出了一种新的预训练方法,称为o cr-text d估计化m odeling(ODM),该方法根据文本提示将图像中的文本样式传输到统一样式中。使用ODM,我们在文本和OCR文本之间实现了更好的对齐方式,并启用预训练的模型以适应场景文本的复杂和多样化的样式。此外,我们为ODM设计了一种新的标签生成方法,并将其与我们提出的文本控制器模块相结合,以应对OCR任务中注释成本的挑战,并以大量未标记的数据参与预培训。在多个Pub-LIC数据集上进行的广泛实验表明,我们的方法显着地证明了性能,并且在场景文本检测和发现任务中的当前预训练方法优于当前的预训练方法。代码在ODM上可用。
本文解决了生成法定说明(CES)的挑战,涉及识别和修改最少的必要特征,以使分类器对给定图像的预测进行预测。我们提出的方法是反事实e xplanations(Time)的tept to-i mage m odels,是一种基于蒸馏的黑盒反事实技术。与以前的方法不同,此方法仅需要图像及其预测,从而忽略了分类器的结构,参数或梯度的需求。在生成反事实之前,时间将两个不同的偏见引入了文本嵌入的形式稳定扩散:与图像的结构相关联的上下文偏差和类别偏见,与目标分类器学到的类特异性特征相关。学习了这些偏见后,我们发现了使用类预测的类令牌的最佳潜在代码,并使用目标嵌入作为条件,从而产生了符合性的解释。广泛的经验研究证明,即使在黑色盒子设置中运行时,时间也可以产生可比性的解释。
分割算法的疗效经常因拓扑错误,连接中断和空隙等拓扑错误而受到损害。为了解决这一问题,我们引入了一种新颖的损失函数,即拓扑 - 意识局灶性损失(TAFL),该功能将基于基于地面真实和预测段蒙版的持久性图表之间的拓扑结构术语与拓扑结构术语结合在一起。通过实施与地面真理相同的拓扑结构,拓扑的约束可以有效地解决拓扑结构,而焦点损失可以解决阶级失衡。我们首先是从地面真理和预测的分割掩模的过滤的立方复合物中构造持久图。随后,我们利用sindhorn-knopp算法来确定两个持久图之间的最佳运输计划。最终的运输计划最小化了将质量从一个分布到另一个分布的运输成本,并在两个持久图中的点之间提供了映射。然后,我们根据该旅行计划计算沃斯堡的距离,以测量地面真相和预测的面具之间的拓扑差异。我们通过训练3D U-NET与MICCAI脑肿瘤分割(BRATS)CHALLENE验证数据集来评估我们的方法,该数据需要准确地分割3D MRI扫描,从而整合各种方式,以精确鉴定和跟踪恶性脑肿瘤。然后,我们证明,通过添加拓扑约束作为惩罚项,通过将焦点损失正规化来提高分段性能的质量。
在生成AI的快速发展的领域中,这项工作采取了初步步骤,以建立用于比较图像编辑方法的系统范围。当前,缺乏用于评估IMED编辑任务的定量指标,而新方法主要是定性评估的。我们的方法涉及三个关键组成部分:1)使用gan-Control创建大型合成数据集,该数据集可以生成地面图像,以跨不同面部身份进行一致的编辑; 2)匹配过程,将编辑的图像与相应的地面真相配对; 3)将感知距离指标应用于匹配对。我们通过用户研究和一组仿真实验评估了我们提出的框架的有效性。我们的结果表明,我们的方法可以以与人类判断相符的方式对图像编辑方法进行排名。这项研究旨在为随后的研究中的图像编辑技术建立全面的评估框架奠定基础,并就此主题进行对话。