本文解决了生成法定说明(CES)的挑战,涉及识别和修改最少的必要特征,以使分类器对给定图像的预测进行预测。我们提出的方法是反事实e xplanations(Time)的tept to-i mage m odels,是一种基于蒸馏的黑盒反事实技术。与以前的方法不同,此方法仅需要图像及其预测,从而忽略了分类器的结构,参数或梯度的需求。在生成反事实之前,时间将两个不同的偏见引入了文本嵌入的形式稳定扩散:与图像的结构相关联的上下文偏差和类别偏见,与目标分类器学到的类特异性特征相关。学习了这些偏见后,我们发现了使用类预测的类令牌的最佳潜在代码,并使用目标嵌入作为条件,从而产生了符合性的解释。广泛的经验研究证明,即使在黑色盒子设置中运行时,时间也可以产生可比性的解释。
提供给文本对图像差异模型的提示的质量决定了生成的内容对用户意图的忠诚程度,通常需要“及时工程”。要通过及时的工程来利用目标图像的视觉概念,当前方法在很大程度上通过优化然后将它们映射到伪tokens来依赖嵌入反演。然而,使用这种高维矢量表示是具有挑战性的,因为它们缺乏语义和可解释性,并且只允许使用它们时模拟矢量操作。相反,这项工作着重于反转扩散模型,以直接获得可靠的语言提示。这样做的挑战在于,由此产生的优化问题从根本上是离散的,提示的空间呈较大。这使得使用标准优化技术,例如随机梯度下降,困难。为此,我们利用延迟的投影方案来访问代表模型中词汇空间的提示。此外,我们利用了扩散过程的时间段与图像中不同级别的细节相差的发现。后来的,嘈杂的,前传扩散过程的时间段对应于语义信息,因此,此范围内的迅速反转提供了代表图像语义的令牌。我们表明,我们的方法可以确定目标图像的语义可解释和有意义的提示,该提示可用于合成具有相似内容的多样化图像。我们说明了优化提示在进化图像生成和概念删除中的应用。
我们对射击噪声损坏的图像和删除噪声的镜头提出了新的视角。通过将图像形成视为光子在检测器网格上的顺序积累,我们表明,经过训练的网络可以预测下一个光子可能到达的位置,实际上可以解决最小均方形误差(MMSE)denoising任务。这种新观点使我们能够做出三个贡献:i。我们提出了一种新的策略,用于自我监督的denoisis,ii。我们提出了一种通过迭代采样并将少量光子添加到图像中的溶液后部采样的新方法。iii。我们通过从空画布启动此过程来得出一个完整的生成模型。我们称这种方法的生成积累(GAP)。我们在4个新的荧光显微镜数据集上进行定量和定性评估我们的方法,该数据将可供社区提供。我们发现它的表现优于其基准或在PAR上执行。
近年来,自主导航变得越来越流行。但是,大多数现有的方法在公路导航方面有效,并利用了主动传感器(例如LIDAR)。本文使用Passive传感器,特别是长波(LW)高光谱(HSI)的遍历性估计,重点介绍了自主越野导航。我们提出了一种方法,用于选择一部分高光谱带,该方法通过设计一个最小的传感器设计带选择模块,该模块设计一个最小的传感器,该模块设计了一个最小的传感器,该模块可以测量稀疏采样的光谱带,同时共同训练语义段网络网络,以进行遍历性估计。使用我们的LW HSI数据集在包括森林,沙漠,雪,池塘和开放式田野的各种越野场景中证明了我们方法的有效性。我们的数据集包括在各种天气条件下白天和夜间收集的图像,包括具有广泛障碍的具有挑战性的场景。使用我们的方法,我们学习了所有HSI频段中的一个小子集(2%),这些子频段可以在利用所有高光谱带时获得竞争性或更好的遍历性估计精度。仅使用5个频段,我们的方法能够实现平均类别的效果,该级别仅比使用完整的256波段HSI低1.3%,而仅比使用250频段HSI实现的效果仅比使用了0.1%,这证明了我们方法的成功。
注释歧义由于固有的数据不确定性,例如医学扫描中的界限模糊以及不同的观察者专业知识和偏好已成为训练基于深度学习的医学图像模型的主要观点。为了解决这个问题,普遍的做法是从不同专家那里收集多个注释,导致多评价医学图像分割的设置。现有的作品旨在将不同的注释合并到“地面真实”中,而在众多医疗环境中通常无法实现,或者产生不同的结果,或产生与个人专家评估者相对应的个性化结果。在这里,我们提出了一个更雄心勃勃的多评价医学图像细分的目标,即遵守多元化和个性化结果。指定,我们提出了一个名为d-persona的两个阶段框架(第一个d iversification,然后是角色lization)。在第I阶段,我们利用多个给定注释来训练一个可能性的U-NET模型,并具有约束损失,以证明预测多样性。以这种方式,在第I阶段建造了一个共同的空间,其中不同的潜在代码表示多样化的专家意见。然后,在第二阶段,我们设计了多个基于注意力的投影头,以适应来自共享潜在空间的相应专家提示,然后执行个性化的医疗图像细分。我们评估了内部鼻咽癌数据集和公共肺结核数据集(即LIDC-IDRI)的拟议模型。我们的代码将在https://github.com/ycwu1997/d-persona上发布。的实验实验表明,我们的D-Persona可以同时获得多元化和个性化的结果,从而实现了多评位者医疗图像细分的新SOTA性能。
方法:招募了总共333例肺结核(训练队列中的233例,在验证队列中为100例)。从MRI图像(CE T1W和T2W)中提取了总共2,824个放射线特征。逻辑回归(LR),幼稚的贝叶斯(NB),支持向量机(SVM),随机森林(RF)和极端梯度提升(XGBOOST)分类器用于构建预测模型,并在应用最佳预测模型后为每个患者获得了放射线学分数(RAD分数)。临床因素和RAD分数共同基于多元逻辑回归分析构建了一个nom图模型,并使用接收器操作特征曲线(AUC)下的区域评估了五个预测模型的诊断性能。
文本对图像(T2I)合成是一项艰巨的任务,该任务是对文本和图像域及其关系进行建模。最近作品实现的图像质量的实质性改进为Nuberon应用程序铺平了道路,例如语言辅助图像编辑,计算机辅助设计,基于文本的图像检索和培训数据增强。在这项工作中,我们提出了一个简单的问题:与逼真的图像一起,我们是否可以以一种不受影响的方式获得任何有用的副产品(例如前景 /背景或多类分割掩码,检测标签,检测标签),这也将使其他计算机视觉任务任务和应用受益?试图回答这个问题,我们探索了从给定文本中的逼真的图像及其相应的前景 /背景分割掩码。为了实现这一目标,我们与GAN一起实验了共进行分割的概念。具体而言,提出了一种名为“共裂”启发的GAN(COS-GAN)的新型GAN结构,该结构同时从不同的噪声矢量中同时生成两个或多个图像,并利用图像特征之间的空间关注机制来生成逼真的分段掩码,以生成生成的Im-Im-Im-Im-Im-Im-Im-Im-Im-Im-Im-Agens。这种架构的优点是两倍:1)生成的分割掩码可用于专注于前景和背景,以改善生成的图像的质量,2)分段蒙版可以用作其他任务的训练目标,例如访问本地化和分割。在CUB,Oxford-102和可可数据集上进行的广泛实验表明,Cos-Gan能够改善视觉质量,并为发电图像提供可靠的前景 /背景掩码。
抽象的超分辨率(SR)是一个不当的反问题,其中具有给定低分辨率图像的可行解决方案集的大小非常大。已经提出了许多算法,以在可行的解决方案中找到一种“好”解决方案,这些解决方案在忠诚度和感知质量之间取得了平衡。不幸的是,所有已知方法都会生成伪影和幻觉,同时试图重建高频(HF)图像细节。一个有趣的问题是:模型可以学会将真实图像细节与文物区分开吗?尽管有些重点侧重于细节和影响的分化,但这是一个非常具有挑战性的问题,并且尚待找到满意的解决方案。本文表明,与RGB域或傅立叶空间损耗相比,使用小波域损失功能训练基于GAN的SR模型可以更好地学习真正的HF细节与伪像的表征。尽管以前在文献中已经使用了小波域损失,但在SR任务的背景下没有使用它们。更具体地说,我们仅在HF小波子带上而不是在RGB图像上训练鉴别器,并且发电机受到小波子带的忠诚度损失的训练,以使其对结构的规模和方向敏感。广泛的实验结果表明,我们的模型根据多种措施和视觉评估实现了更好的感知延续权权衡。
近年来,文本图像联合预训练技术在各种任务中显示出令人鼓舞的结果。然而,在光学特征识别(OCR)任务中,将文本实例与图像中的相应文本区域对齐是一个挑战,因为它需要在文本和OCR文本之间有效地对齐(将图像中的文本称为ocr-文本以与自然语言中的文本区分开来),而不是对整体图像内容的全面理解。在本文中,我们提出了一种新的预训练方法,称为o cr-text d估计化m odeling(ODM),该方法根据文本提示将图像中的文本样式传输到统一样式中。使用ODM,我们在文本和OCR文本之间实现了更好的对齐方式,并启用预训练的模型以适应场景文本的复杂和多样化的样式。此外,我们为ODM设计了一种新的标签生成方法,并将其与我们提出的文本控制器模块相结合,以应对OCR任务中注释成本的挑战,并以大量未标记的数据参与预培训。在多个Pub-LIC数据集上进行的广泛实验表明,我们的方法显着地证明了性能,并且在场景文本检测和发现任务中的当前预训练方法优于当前的预训练方法。代码在ODM上可用。
扩散模型是生成时期的当前最新模型,它通过将生成过程分解为许多细粒度的排除步骤,从而综合了高质量的图像。尽管其性能良好,但扩散模型在计算上还是需要许多Neu-ral功能评估(NFES)。在这项工作中,我们提出了一种基于扩散的方法,该方法在完成前在任意时间停止时可以生成可行的图像。使用现有的预处理扩散模型,我们表明可以将生成方案重新组成为两个嵌套扩散过程,从而可以快速迭代的迭代细化。在实验和基于稳定的基于扩散的文本对图像生成的实验中,我们在定性和定量上都表明,我们的方法的相互作用质量大大超过了原始扩散模型的质量,而最后一代结果仍然可比。我们说明了嵌套扩散在多种设置中的适用性,包括用于求解逆概率,以及在整个采样过程中允许用户干预,用于快速基于文本的内容创建。1