本文介绍了一种创新的方法,用于生产以文本构成为指导的高质量3D肺CT图像。虽然基于扩散的生成模型在医学成像中不断使用,但当前的最新方法仅限于低分辨率输出,并且使用了放射学报告的丰富信息。放射学报告可以通过提供其他指导并对图像合成的细粒度控制来增强生成过程。尽管如此,将文本引导的生成扩展到高分辨率3D图像带来了重要的记忆和解剖学细节保护挑战。解决内存问题,我们引入了使用修改的UNET体系结构的层次结构方案。我们首先合成在文本上调节的低分辨率图像,为随后的发电机提供完整的体积数据的基础。为了确保生成的样品的解剖学合理性,我们通过与CT图像结合生成血管,气道和小叶分段掩模来提供进一步的指导。该模型展示了使用文本输入和分割任务生成综合图像的能力。比较上的结果表明,与基于GAN和扩散技术的最先进的模型相比,我们的方法表现出优越的性能,尤其是在准确保留关键的解剖学特征(例如卵线,气道和血管结构)中。这项创新引入了新颖的可能性。可以应用图像生成中的进步来增强许多下游任务。这项研究重点介绍了两个主要目标:(1)开发一种基于Textual提示和解剖学成分创建图像的方法,以及(2)在解剖学元素上生成新图像的能力。
主要关键词