合成图生成器(SGG)的主题最近由于生成建模的最新突破而引起了很多关注。但是,许多与图形尺寸相比,许多最先进的SGG并不能很好地扩展。的确,在生成过程中,通常必须考虑固定数量的节点的所有可能边,其中缩放在O(n 2)中,n是图中的节点的数量。因此,许多最新的SGG不适用于大图。在本文中,我们提出了Sangea,这是一个较大的合成图生成框架,可扩展任何SGG对大图的适用性。首先将大图拆分为社区,Sangea每个社区训练一个SGG,然后将社区图形链接在一起以创建合成的大图。我们的实验表明,就拓扑和节点特征分布而言,Sangea生成的图与原始图具有很高的相似性。此外,这些生成的图在下游任务(例如链接预测)上实现了高实用性。最后,我们对生成的图表进行了隐私评估,以表明即使它们具有出色的实用程序,它们也达到了合理的隐私分数。关键字:图生成学习; gnns,属性生成;可伸缩性;隐私
深层生成模型(DGM)是用于学习数据表示的多功能工具,同时合并了域知识,例如条件概率分布的规范。最近提出的DGMS解决了比较来自不同来源的数据集的重要任务。这样的示例是对比分析的设置,该分析的重点是描述与背景数据集相比富含目标数据集中的模式。这些模型的实际部署通常假定DGM自然推断出可解释的和模块化的潜在表示,这在实践中是一个问题。因此,现有方法通常依赖于临时正规化方案,尽管没有任何理论基础。在这里,我们通过扩展非线性独立组件分析领域的最新进展,提出了对比较DGM的可识别性理论。我们表明,尽管这些模型在一般的混合功能上缺乏可识别性,但当混合函数在零件上时,它们令人惊讶地变得可识别(例如,由Relu神经网络参数化)。我们还研究了模型错误指定的影响,并从经验上表明,当未提前知道潜在变量的数量时,以前提出的用于拟合比较DGM的正则化技术有助于识别性。最后,我们引入了一种新的方法,用于拟合比较DGM,该方法通过多目标优化改善了多个数据源的处理,并有助于使用约束优化以可解释的方式调整正规化的超参数。我们使用模拟数据以及通过单细胞RNA测序构建的细胞中的遗传扰动数据集以及最新的数据集验证了我们的理论和新方法。关键字:非线性ICA;深层生成模型;变分推断;解开;