扩散模型从噪声中创建数据(Song等,2020)。他们经过训练,可以将数据的向前路径逆转到随机噪声,因此,可以使用神经网络的近似和泛化特性,可用于生成训练数据中不存在的新数据点,但遵循训练数据的分布(Sohl-Dickstein等人。,2015年; Song&Eron,2020)。这种生成建模技术已被证明非常有效地对高维,感知数据(例如图像)进行建模(Ho等人,2020)。近年来,扩散模型已成为产生具有令人印象深刻概括能力的自然语言输入的高分辨率图像和视频的事实方法(Saharia等人,2022b; Ramesh等。,2022; Rombach等。,2022; Podell等。,2023; Dai等。,2023; Esser等。,2023; Blattmann等。,2023b; Betker等。,2023; Blattmann等。,2023a; Singer等。,2022)。由于其迭代性质和相关的计算成本以及推理期间的较长采样时间,对这些模型进行更多有效训练的制剂的研究和/或更快的采样速度有所增加(Karras等人,2023;刘等。,2022)。
人类擅长识别对象之间的关系并概括抽象关系,例如在各种上下文中“常数”(例如,恒定形状或大小)。机器学习的一个关键目标是为机器提供类似的能力来实现理性推理。最近,扩散模型显示出了产生逼真的图像并捕获综合数据分布(Rombach,Blattmann,Lorenz,Lorenz,Esser,&Ommer,2022年)的无效能力。这些模型还可以模仿抽象关系的人类概括吗?是综合性的,因为它们应该限制的基本数据分布通常是未知的。这些模型的传统评估(例如fid)通常专注于图像多样性和现实主义(Heusel,Ramsauer,Unterthiner,Nessler和Hochreiter,2017年)。但是,一个重要的应用是使生成的图像符合特定的关系规则。这项研究提出了扩散模型是否可以学习和推广定义数据分布的抽象关系。我们利用Raven的渐进式矩阵(RPM)任务,这是测量抽象推理技能的良好基准(Raven,1936)。我们在RPM图像上训练扩散模型具有各种关系规则,并评估其生成遵循训练和新规则的新图像的能力。我们的发现表明,扩散模型可以推广抽象的视觉关系,从而进一步研究其在视觉及其他方面的推理。