培训生成模型,捕获数据的丰富语义并解释由此类模型编码的潜在表示,这是未/自我监督学习的非常重要的问题。在这项工作中,我们提供了一种简单的算法,该算法依赖于预先训练的生成自动编码器的潜在代码的扰动实验,以发现生成模型暗示的属性图。我们执行扰动实验,以检查给定潜在变量对属性子集的影响。鉴于此,我们表明一个人可以拟合一个有效的图形模型,该模型在被视为外源变量的潜在代码和被视为观察到的变量的属性之间建模结构方程模型。一个有趣的方面是,单个潜在变量控制着属性的多个重叠子集,与试图施加完全独立性的传统方法不同。使用在大型小分子数据集中训练的预训练的生成自动编码器,我们证明,我们算法学到的各种分子属性和潜在代码之间的图形模型可用于预测从不同分布中绘制的分子的特定特性。我们比较了对简单基线选择的各种特征子集的预测模型,以及现有的因果发现和稀疏学习/特征选择方法,以及从我们的方法中衍生的马尔可夫毛毯中的预测模型。的结果从经验上表明,依赖于我们的马尔可夫毛花属性的预测因子在转移或通过新分布中的一些样本进行微调时,尤其是在训练数据受到限制时,分布变化是可靠的。
主要关键词