生成模型的最新进展导致了模型,这些模型既可以为大多数文本输入产生现实和相关的信息。这些模型每天都用于生成数百万张图像,并具有巨大影响诸如生成艺术,数字营销和数据增强等领域。鉴于它们的影响力,重要的是要确保生成的内容反映全球的伪影和周围环境,而不是过分代表世界的某些地区。在本文中,我们使用众包研究的研究衡量了通过dall·e 2产生的普通名词(例如房屋)的地理代表,以及稳定的扩散模型,其中包括27个国家 /地区的540名参与者。为了有意地指定没有国家名称的意见,生成的图像最反映了美国之后是印度的周围,而顶级世代很少反映出所有其他国家的周围环境(平均得分少于5分中的3个)。在输入中指定国家名称的代表性增加了1。平均在5-点李克特(Dall)的李子量表上为44点。75对于稳定的扩散,许多国家的超高分数仍然很低,这突出了将来模型在地理上更具包含的需求。最后,我们研究了量化使用用户研究的产生图像的地理代表性的可行性。1
参考图像分割(RIS)的目的是通过相应的静脉语言表达式精确地分段图像中的对象,但依赖于成本密集的掩码注释。弱监督的RIS因此从图像文本对学习到像素级语义,这是用于分割细粒面罩的挑战。自然而然地提高了分割精度,是用图像分割模型SAM赋予弱监督的RI。尽管如此,我们观察到,简单地整合SAM会产生有限的收益,甚至由于不可避免的噪声而导致性能回归,而过度关注对象部分的挑战和挑战。在本文中,我们提出了一个创新的框架,即P PPT(PPT),与拟议的多源课程学习策略合并,以解决这些挑战。具体来说,PPT的核心是一个点发生器,它不仅可以利用Clip的文本图像对准能力和SAM强大的掩膜生成能力,而且还产生了负点提示,以固有,有效地解决嘈杂和过度的焦点问题。在适当的情况下,我们引入了一种以对象为中心图像的课程学习策略,以帮助PPT逐渐从更简单但精确的语义一致性中学习到更复杂的RIS。实验表明,我们的PPT在MIOU上显着胜过弱监督的技术,分别为11.34%,14.14%和6.97%,分别为6.97%。
本简报中的胸部成像人工智能 (AI) 技术是独立的软件平台,使用机器或深度学习算法来分析或解释放射图像。一些技术允许将图像从医院传输到软件平台,该平台托管在 NHS 认可的安全数据中心。该软件使用专有算法分析胸部 DICOM(医学数字成像和通信)图像。图像分析可以直接发送回医院,以便使用医院系统(例如图片存档和通信系统 (PACS))和一些使用 DICOM 和 HL7 等协议的放射信息系统进行查看。一些技术还可能允许使用 Web 界面上传和查看图像和分析。
图像字幕是一项计算机视觉任务,涉及为图像生成自然语言描述。此方法在各个领域都有许多应用,包括图像检索系统,医学和各种行业。但是,尽管图像字幕进行了重要的研究,但大多数研究都集中在高质量的图像或受控环境上,而没有探索现实世界图像字幕的挑战。现实世界的图像字幕涉及复杂而动态的环境,具有许多关注点,图像通常在质量上非常差,甚至对于人类而言,这也是一项艰巨的任务。本文评估了在不同编码机制,语言解码器和培训程序之上构建的各种模型的性能,使用新创建的现实世界数据集由使用MIT室内场景数据集构建的65多个不同场景类的800多个图像组成。该数据集使用IC3方法字幕,该方法通过汇总来自图像的唯一视图点的标准图像字幕模型所涵盖的详细信息来生成更具描述性字幕。
基于扩散的生成模型在合成和操纵图像具有巨大的图像方面表现出了令人鼓舞的结果,其中文本到图像模型及其后续作品在学术界和行业中都具有很大的影响。编辑真实图像时,用户通常希望对不同元素具有直观而精确的控制(即对象)组成图像,并不断地操纵它们。我们可以根据图像中的单个观察的控制级别对现有的图像编辑方法进行分类。一条工作涉及使用文本提示来操纵图像[2,15,24,27]。由于很难与文本同时描述多个对象的形状和外观,因此在对象级别上对细粒度控制的能力有限。同时,迅速的工程使操纵任务乏味且耗时。另一项工作线使用低级调理信号,例如Hu等人。[18],Patashnik等。[34],Zeng等。[58],草图[50],图像[5,47,54]编辑图像。但是,其中大多数作品要么属于迅速的工程陷阱,要么无法独立操纵多个对象。与以前的作品不同,我们的目标是独立控制组成图像的多个对象的正确条件,即对象级编辑。我们表明,我们可以在对象级编辑框架下制定各种图像编辑任务,从而实现全面的编辑功能。
近年来,生成模型取得了重大进展,尤其是在文本到图像合成领域。尽管取得了这些进展,但医学领域尚未充分利用大规模基础模型的功能来生成合成数据。本文介绍了一种文本条件磁共振 (MR) 成像生成框架,解决了与多模态考虑相关的复杂性。该框架包括一个预先训练的大型语言模型、一个基于扩散的提示条件图像生成架构和一个用于输入结构二进制掩码的附加去噪网络。实验结果表明,所提出的框架能够生成与医学语言文本提示一致的逼真、高分辨率和高保真的多模态 MR 图像。此外,该研究根据文本条件语句解释了生成结果的交叉注意力图。这项研究的贡献为未来文本条件医学图像生成的研究奠定了坚实的基础,并对加速医学成像研究的进步具有重要意义。
可变形图像配准是医学图像分析的基本步骤。最近,Transformer 已用于配准,其表现优于卷积神经网络 (CNN)。Transformer 可以捕获图像特征之间的长距离依赖性,这已被证明对配准有益。然而,由于自注意力的计算/内存负载高,Transformer 通常用于下采样特征分辨率,无法捕获全图像分辨率下的细粒度长距离依赖性。这限制了可变形配准,因为它需要每个图像像素之间精确的密集对应关系。没有自注意力的多层感知器 (MLP) 在计算/内存使用方面效率高,从而可以捕获全分辨率下的细粒度长距离依赖性。然而,MLP 尚未在图像配准中得到广泛探索,并且缺乏对医学配准任务至关重要的归纳偏差的考虑。在本研究中,我们提出了第一个基于相关感知 MLP 的配准网络 (CorrMLP) 用于可变形医学图像配准。我们的 CorrMLP 在新颖的粗到细配准架构中引入了关联感知多窗口 MLP 块,该架构可捕获细粒度多范围依赖性以执行关联感知粗到细配准。对七个公共医疗数据集进行的大量实验表明,我们的 CorrMLP 优于最先进的可变形配准方法。
使用扩散模型进行图像修复通常使用预条件模型(即针对绘画任务进行微调的图像条件模型)或后条件模型(即在推理时重新用于绘画任务的非条件模型)。预条件模型在推理时很快,但训练成本极高。后条件模型不需要任何训练,但在推理过程中很慢,需要多次前向和后向传递才能收敛到理想的解决方案。在这里,我们推导出一种不需要昂贵训练但推理速度很快的方法。为了解决昂贵的推理计算时间,我们在潜在空间而不是图像空间上执行前向-后向融合步骤。这是通过扩散过程中新提出的传播模块解决的。在多个领域进行的实验表明,我们的方法达到或改善了状态
摘要。文本对图像合成是机器学习中最具挑战性和最受欢迎的任务之一,许多模型旨在提高该领域的性能。深融合生成的对抗网络(DF-GAN)是图像生成的直接但有效的模型,但它具有三个关键局限性。首先,它仅支持句子级文本描述,从而限制了其从文字级输入中提取细颗粒特征的能力。第二,可以优化残差层和块的结构以及关键参数,以提高性能。第三,现有的评估指标,例如FréchetInception距离(FID),倾向于不适当地强调无关紧要的功能,例如背景,当重点放在生成特定对象上时,这是有问题的。为了解决这些问题,我们引入了一个新的文本编码器,该编码器增强了具有处理单词级描述能力的模型,从而导致更精确和文本一致的图像生成。此外,我们优化了关键参数,并重新设计了卷积和残留网络结构,从而产生了更高质量的图像并减少了运行时间。最后,我们提出了一种量身定制的新评估理论,以评估生成图像中特定对象的质量。这些改进使增强的DF-GAN在有效地产生高质量的文本分配图像方面更有效。
