在扩大大型语言模型方面的最新进展表现出令人印象深刻的能力,可以在各种自然语言任务中进行几次学习。但是,一个关键的限制是,这些语言模型从根本上缺乏视觉感知的基础 - 扩展到现实世界任务所需的关键属性,例如在视觉问题上的答案和机器人技术中。虽然先前的作品在很大程度上通过预处理或微调将图像与文本联系在一起,但由于结合了策划的大量数据集和较大的计算负担,学习对齐方式通常是昂贵的。In order to resolve these limitations, we propose a simple yet effective approach called L anguage- Q uantized A uto E ncoder (LQAE), a modification of VQ-VAE that learns to align text-image data in an unsupervised manner by leveraging pretrained language model denoisers ( e .g .bert)。我们的主要思想是通过使用验证的语言代码簿直接量化图像嵌入来编码图像作为文本令牌的序列。然后,我们将量化嵌入的蒙版版本送入BERT,以重建原始输入。这样做,LQAE学会了用相似的文本令牌表示相似的图像,从而在不使用对齐的文本图像对的情况下对齐这两种方式。我们向LQAE显示了学习文本对准图像令牌,这些图像令牌可以通过大型语言模型启用几示多式模式学习,在诸如图像分类和VQA等任务中的基线方法优于基线方法,同时需要1-10张图像 - text Pairs 1。
自动勾勒出脑磁共振图像 (MRI) 中异常的能力对计算机辅助诊断至关重要。无监督异常检测方法主要通过学习健康图像的分布并将异常组织识别为异常值来工作。在本文中,我们提出了一种切片检测方法,该方法首先在两个不同的数据集上训练一对自动编码器,一个数据集包含健康个体,另一个数据集包含正常和肿瘤组织的图像。接下来,它根据图像编码与仅对健康图像进行训练的自动编码器获得的重建编码之间的潜在空间距离对切片进行分类。我们通过对 HCP 和 BRATS-2015 数据集进行的一系列初步实验验证了我们的方法,结果表明所提出的方法能够将脑部 MRI 分为健康和不健康。