摘要。文本对图像合成是机器学习中最具挑战性和最受欢迎的任务之一,许多模型旨在提高该领域的性能。深融合生成的对抗网络(DF-GAN)是图像生成的直接但有效的模型,但它具有三个关键局限性。首先,它仅支持句子级文本描述,从而限制了其从文字级输入中提取细颗粒特征的能力。第二,可以优化残差层和块的结构以及关键参数,以提高性能。第三,现有的评估指标,例如FréchetInception距离(FID),倾向于不适当地强调无关紧要的功能,例如背景,当重点放在生成特定对象上时,这是有问题的。为了解决这些问题,我们引入了一个新的文本编码器,该编码器增强了具有处理单词级描述能力的模型,从而导致更精确和文本一致的图像生成。此外,我们优化了关键参数,并重新设计了卷积和残留网络结构,从而产生了更高质量的图像并减少了运行时间。最后,我们提出了一种量身定制的新评估理论,以评估生成图像中特定对象的质量。这些改进使增强的DF-GAN在有效地产生高质量的文本分配图像方面更有效。
本文提出了一种基于量子计算的算法来解决单图像超分辨率(SISR)问题。SISR 的一个著名经典方法依赖于成熟的逐块稀疏建模。然而,该领域的现状是深度神经网络(DNN)已表现出远超传统方法的效果。不过,量子计算有望很快在机器学习问题中变得越来越突出。因此,在本文中,我们有幸对将量子计算算法应用于 SISR 这一重要的图像增强问题进行了早期探索。在量子计算的两种范式,即通用门量子计算和绝热量子计算(AQC)中,后者已成功应用于实际的计算机视觉问题,其中量子并行性已被利用来有效地解决组合优化问题。本研究展示了如何将量子 SISR 公式化为稀疏编码优化问题,该问题使用通过 D-Wave Leap 平台访问的量子退火器进行求解。所提出的基于 AQC 的算法被证明可以实现比传统模拟更快的速度,同时保持相当的 SISR 精度 1 。
基于扩散的生成模型在合成和操纵图像具有巨大的图像方面表现出了令人鼓舞的结果,其中文本到图像模型及其后续作品在学术界和行业中都具有很大的影响。编辑真实图像时,用户通常希望对不同元素具有直观而精确的控制(即对象)组成图像,并不断地操纵它们。我们可以根据图像中的单个观察的控制级别对现有的图像编辑方法进行分类。一条工作涉及使用文本提示来操纵图像[2,15,24,27]。由于很难与文本同时描述多个对象的形状和外观,因此在对象级别上对细粒度控制的能力有限。同时,迅速的工程使操纵任务乏味且耗时。另一项工作线使用低级调理信号,例如Hu等人。[18],Patashnik等。[34],Zeng等。[58],草图[50],图像[5,47,54]编辑图像。但是,其中大多数作品要么属于迅速的工程陷阱,要么无法独立操纵多个对象。与以前的作品不同,我们的目标是独立控制组成图像的多个对象的正确条件,即对象级编辑。我们表明,我们可以在对象级编辑框架下制定各种图像编辑任务,从而实现全面的编辑功能。
扩散模型在图像生成中表现出了前所未有的ca。然而,它们从原始训练集中纳入并扩大了数据偏差(例如性别,年龄),从而限制了产生的IMEG的多样性。在本文中,我们在基于图像集的重新函数的指导下,使用增强学习(RL)提出了一种面向多样性的细调方法(RL)。具体而言,所提出的奖励函数(表示为多样性奖励),利用一组生成的信息来评估当前生成分配W.R.T.的覆盖范围。参考分布,由一组无偏见的图像表示。建立在分布差异估计的概率方法的基础上,差异奖励可以有效地用一小部分图像来测量相对分布差距。我们进一步将扩散过程作为多步决策问题(MDP),并通过最大化多样性奖励来应用策略梯度方法来微调扩散模型。在放样后选择任务上验证了奖励,其中根据多样性奖励值选择了最多样化的图像的子集。我们还展示了我们的RL微调框架的有效性,可以通过不同类型的扩散模型(包括班级条件模型和文本条件模型,例如stablediffusion)增强图像生成的多样性。
参考图像分割(RIS)的目的是通过相应的静脉语言表达式精确地分段图像中的对象,但依赖于成本密集的掩码注释。弱监督的RIS因此从图像文本对学习到像素级语义,这是用于分割细粒面罩的挑战。自然而然地提高了分割精度,是用图像分割模型SAM赋予弱监督的RI。尽管如此,我们观察到,简单地整合SAM会产生有限的收益,甚至由于不可避免的噪声而导致性能回归,而过度关注对象部分的挑战和挑战。在本文中,我们提出了一个创新的框架,即P PPT(PPT),与拟议的多源课程学习策略合并,以解决这些挑战。具体来说,PPT的核心是一个点发生器,它不仅可以利用Clip的文本图像对准能力和SAM强大的掩膜生成能力,而且还产生了负点提示,以固有,有效地解决嘈杂和过度的焦点问题。在适当的情况下,我们引入了一种以对象为中心图像的课程学习策略,以帮助PPT逐渐从更简单但精确的语义一致性中学习到更复杂的RIS。实验表明,我们的PPT在MIOU上显着胜过弱监督的技术,分别为11.34%,14.14%和6.97%,分别为6.97%。
抽象的脑肿瘤分割是对医疗保健中诊断和治疗计划很重要的重要步骤。大脑MRI图像是根据建议的方法在收集数据并准备进一步分析之前先进行预处理的。建议的研究介绍了一种新策略,该策略使用以生物启发的粒子群优化(PSO)算法来分割脑肿瘤图像。为了提高准确性和可靠性,可以调整分割模型的参数。标准措施等标准度量,例如精度,精度,灵敏度,jaccard索引,骰子系数,特异性,用于绩效评估,以衡量建议的基于PSO的分割方法的有效性。建议方法的总体准确性为98.5%。随后的绩效分析分别为骰子得分系数,Jaccard指数,精度,灵敏度和特异性的91.95%,87.01%,92.36%,90%和99.7%的结果提供了更好的结果。因此,此方法对于放射科医生来说可能是有用的工具,可以支持它们诊断大脑中的肿瘤。关键字 - 脑肿瘤,群智能,粒子群优化,磁共振图像。
深度学习技术的最新进展为协助病理学家从全切片病理图像(WSI)中预测患者的生存期带来了可能性。然而,大多数流行的方法仅适用于WSI中特定或随机选择的肿瘤区域中的采样斑块,这对于捕捉肿瘤与其周围微环境成分之间复杂相互作用的能力非常有限。事实上,肿瘤在异质性肿瘤微环境(TME)中得到支持和培育,详细分析TME及其与肿瘤的相关性对于深入分析癌症发展的机制具有重要意义。在本文中,我们考虑了肿瘤与其两个主要TME成分(即淋巴细胞和基质纤维化)之间的空间相互作用,并提出了一种用于人类癌症预后预测的肿瘤微环境相互作用引导图学习(TMEGL)算法。具体来说,我们首先选择不同类型的块作为节点来为每个 WSI 构建图。然后,提出了一种新颖的 TME 邻域组织引导图嵌入算法来学习可以保留其拓扑结构信息的节点表示。最后,应用门控图注意网络来捕获肿瘤与不同 TME 组件之间与生存相关的交集以进行临床结果预测。我们在来自癌症基因组图谱 (TCGA) 的三个癌症队列上测试了 TMEGL,实验结果表明 TMEGL 不仅优于现有的基于 WSI 的生存分析模型,而且对生存预测具有良好的可解释能力。
高光谱图像 (HSI) 分类旨在为每个像素分配一个唯一标签,以识别不同土地覆盖的类别。现有的 HSI 深度学习模型通常采用传统学习范式。作为新兴机器,量子计算机在嘈杂的中尺度量子 (NISQ) 时代受到限制。量子理论为设计深度学习模型提供了一种新的范式。受量子电路 (QC) 模型的启发,我们提出了一种受量子启发的光谱空间网络 (QSSN) 用于 HSI 特征提取。所提出的 QSSN 由相位预测模块 (PPM) 和受量子理论启发的类测量融合模块 (MFM) 组成,以动态融合光谱和空间信息。具体而言,QSSN 使用量子表示来表示 HSI 长方体,并使用 MFM 提取联合光谱空间特征。量子表示中使用了 HSI 长方体及其由 PPM 预测的相位。使用 QSSN 作为构建块,我们进一步提出了一种端到端的量子启发式光谱空间金字塔网络 (QSSPN),用于 HSI 特征提取和分类。在这个金字塔框架中,QSSPN 通过级联 QSSN 块逐步学习特征表示,并使用 softmax 分类器进行分类。这是首次尝试将量子理论引入 HSI 处理模型设计。在三个 HSI 数据集上进行了大量实验,以验证所提出的 QSSPN 框架相对于最新方法的优越性。
立体图像超分辨率(Sterereosr)近年来引起了人们的关注,这是由于手机,自动驾驶汽车和机器人的双重摄像头广泛范围。在这项工作中,我们根据Swinir的扩展(最初是为单个图像还原设计的,又提出了一种名为SWINFSR的新定单方法,以及Fast Fourier卷积(FFC)获得的频域知识。具体来说,为了有效地收集全球信息,我们通过使用FFC明确地不明显地局限于SWINIR中的残留SWIN变压器块(RSTBS),并使用结果域知识,并采用结果的残留Swin傅立叶型跨前块(RSFTB)进行特征提取。此外,为了有效,准确的立体视图融合,我们提供了一个新的跨意见模块,称为RCAM,该模块的竞争性能高于竞争性能,同时比最先进的交叉意见模块更少的计算成本。广泛的实验结果和消融研究证明了我们提出的SWINFSR的有效性和效率。