文本对图像(T2I)生成模型最近成为一种强大的工具,可以创建照片现实的图像并引起多种应用。然而,将T2i模型的有效整合到基本图像分类任务中仍然是一个悬而未决的问题。促进图像锁骨表现的一种普遍的策略是通过使用T2I模型生成的合成图像来增强训练集。在这项研究中,我们仔细检查了当前发电和常规数据增强技术的缺点。我们的分析表明,这些方法努力产生既忠实的(就前景对象)而且针对领域概念的多样化(在背景上下文中)。为了应对这一挑战,我们引入了一种创新的类数据增强方法,称为diff-mix 1,该方法通过在类之间执行图像翻译来丰富数据集。我们的经验结果是,DIFF-MIX在信仰和多样性之间取得了更好的平衡,从而导致各种图像分类场景之间的性能显着提高,包括域名数据集的少量,常规和长尾分类。
近年来,文本图像联合预训练技术在各种任务中显示出令人鼓舞的结果。然而,在光学特征识别(OCR)任务中,将文本实例与图像中的相应文本区域对齐是一个挑战,因为它需要在文本和OCR文本之间有效地对齐(将图像中的文本称为ocr-文本以与自然语言中的文本区分开来),而不是对整体图像内容的全面理解。在本文中,我们提出了一种新的预训练方法,称为o cr-text d估计化m odeling(ODM),该方法根据文本提示将图像中的文本样式传输到统一样式中。使用ODM,我们在文本和OCR文本之间实现了更好的对齐方式,并启用预训练的模型以适应场景文本的复杂和多样化的样式。此外,我们为ODM设计了一种新的标签生成方法,并将其与我们提出的文本控制器模块相结合,以应对OCR任务中注释成本的挑战,并以大量未标记的数据参与预培训。在多个Pub-LIC数据集上进行的广泛实验表明,我们的方法显着地证明了性能,并且在场景文本检测和发现任务中的当前预训练方法优于当前的预训练方法。代码在ODM上可用。
虽然扩散模型已显着提高了图像生成的质量,但它们在这些图像中准确且相干渲染文本的能力仍然是一个重大挑战。场景文本生成的常规基于扩散的方法通常受到对中间布局输出的依赖的限制。这种依赖性通常会导致文本样式和字体的多样性限制,这是布局生成阶段的确定性质所引起的固有限制。为了应对这些挑战,本文介绍了SceneTeTgen,这是一种基于新颖的扩散模型,专门设计用于规避预定义布局阶段的需求。这样做,场景 - 文本促进了文本的更自然和多样化的代表。SceneTextGen的新颖性在于其三个关键组成部分的整体:一个字符级编码器,用于捕获详细的印刷属性,并与字符级实例分割模型和Word-
摘要我们提出了一种新的多模式面部图像生成方法,该方法将文本提示和视觉输入(例如语义掩码或涂鸦图)转换为照片真实的面部图像。为此,我们通过使用DM中的多模式特征在预训练的GAN的潜在空间中使用多模式特征来结合一般的对抗网络(GAN)和扩散模型(DMS)的优势。我们提供了一个简单的映射和一个样式调制网络,可将两个模型链接起来,并在特征地图和注意力图中将有意义的表示形式转换为潜在代码。使用gan inversion,估计的潜在代码可用于生成2D或3D感知的面部图像。我们进一步提出了一种多步训练策略,该策略将文本和结构代表反映到生成的图像中。我们提出的网络生成了现实的2D,多视图和风格化的面部图像,这些图像与输入很好。我们通过使用预训练的2D和3D GAN来验证我们的方法,我们的结果表现优于现有方法。我们的项目页面可在https://github.com/1211SH/diffusion-driven_gan-inversion/。
深度学习技术的最新进展为协助病理学家从全切片病理图像(WSI)中预测患者的生存期带来了可能性。然而,大多数流行的方法仅适用于WSI中特定或随机选择的肿瘤区域中的采样斑块,这对于捕捉肿瘤与其周围微环境成分之间复杂相互作用的能力非常有限。事实上,肿瘤在异质性肿瘤微环境(TME)中得到支持和培育,详细分析TME及其与肿瘤的相关性对于深入分析癌症发展的机制具有重要意义。在本文中,我们考虑了肿瘤与其两个主要TME成分(即淋巴细胞和基质纤维化)之间的空间相互作用,并提出了一种用于人类癌症预后预测的肿瘤微环境相互作用引导图学习(TMEGL)算法。具体来说,我们首先选择不同类型的块作为节点来为每个 WSI 构建图。然后,提出了一种新颖的 TME 邻域组织引导图嵌入算法来学习可以保留其拓扑结构信息的节点表示。最后,应用门控图注意网络来捕获肿瘤与不同 TME 组件之间与生存相关的交集以进行临床结果预测。我们在来自癌症基因组图谱 (TCGA) 的三个癌症队列上测试了 TMEGL,实验结果表明 TMEGL 不仅优于现有的基于 WSI 的生存分析模型,而且对生存预测具有良好的可解释能力。
近年来非酒精性脂肪肝疾病(NAFLD)病例的迅速增加引起了人们的重大关注。准确地识别组织的改变对NAFLD的诊断至关重要,但是该任务在病理图像分析中带来了挑战,特别是与小规模的数据集有关。最近,从完整的微调转变为改编视觉模型的提示的范式转变为小规模数据分析提供了新的视角。然而,基于任务不足提示的现有提示方法主要是为了通用图像识别而开发的,该方法在为复杂病理学图像提供指导的指示方面缺乏。在本文中,我们提出了基于定量属性的提示(QAP),这是一种专门用于肝脏病理学分析的新提示方法。QAP基于两个定量属性,即基于K功能的空间属性和基于直方图的形态学属性,旨在对组织状态进行标准评估。此外,condi-
计算机视觉的抽象工业应用有时需要检测数字图像中小组像素的非典型物体。这些对象很难单一单,因为它们很小并且随机分布。在这项工作中,我们使用新型基于ANT系统的聚类算法(ASCA)提出了一种图像分割方法。ASCA对蚂蚁的觅食行为进行建模,蚂蚁的觅食行为在搜索高数据密度区域的数据空间中移动,并在其路径上留下信息素跟踪。信息素图用于识别簇的确切数量,并使用信息素gra-denient将像素分配给这些簇。我们将ASCA应用于数字乳房X线照片中的微钙化,并将其与最先进的聚类算法进行比较,例如1D自组织图,k -meanss,模糊C-Meanss和可能的模糊模糊C-Meanss。ASCA的主要优点是,群集的数量不需要先验。实验结果表明,在检测非典型数据的小簇时,ASCA比其他算法更有效。
抽象的超分辨率(SR)是一个不当的反问题,其中具有给定低分辨率图像的可行解决方案集的大小非常大。已经提出了许多算法,以在可行的解决方案中找到一种“好”解决方案,这些解决方案在忠诚度和感知质量之间取得了平衡。不幸的是,所有已知方法都会生成伪影和幻觉,同时试图重建高频(HF)图像细节。一个有趣的问题是:模型可以学会将真实图像细节与文物区分开吗?尽管有些重点侧重于细节和影响的分化,但这是一个非常具有挑战性的问题,并且尚待找到满意的解决方案。本文表明,与RGB域或傅立叶空间损耗相比,使用小波域损失功能训练基于GAN的SR模型可以更好地学习真正的HF细节与伪像的表征。尽管以前在文献中已经使用了小波域损失,但在SR任务的背景下没有使用它们。更具体地说,我们仅在HF小波子带上而不是在RGB图像上训练鉴别器,并且发电机受到小波子带的忠诚度损失的训练,以使其对结构的规模和方向敏感。广泛的实验结果表明,我们的模型根据多种措施和视觉评估实现了更好的感知延续权权衡。