查找采样数据的平均值是机器学习和统计学中的基本任务。然而,在数据样本是图形对象的情况下,定义平均值是一项固有的困难任务。我们提出了一种新颖的框架,通过嵌入平滑图形信号分布空间来定义图形平均值,其中可以使用 Wasserstein 度量来测量图形相似性。通过在这个嵌入空间中找到平均值,我们可以恢复一个保留结构信息的均值图。我们确定了新图平均值的存在性和唯一性,并提供了一种计算它的迭代算法。为了突出我们的框架作为机器学习实际应用的有价值工具的潜力,我们在各种任务上对其进行了评估,包括结构化对齐图的 k 均值聚类、功能性脑网络的分类以及多层图中的半监督节点分类。我们的实验结果表明,我们的方法实现了一致的性能,优于现有的基线方法,并提高了最先进方法的性能。
已经提出了神经网络表示之间的多种(DIS)相似性度量,从而导致了零散的研究景观。这些措施中的大多数属于两个类别之一。首先,诸如线性回归,规范相关分析(CCA)和形状距离之类的措施,都学习神经单位之间的明确映射,以量化相似性,同时考虑预期的不断增长。第二,诸如表示相似性分析(RSA),中心内核比对(CKA)和归一化Bures相似性(NBS)之类的措施都量化了摘要统计数据中的相似性,例如逐个刺激的内核矩阵,它们已经不一致地是预期的。在这里,我们通过观察Riemannian形状距离的余弦(从类别1)等于NB(来自类别2)来统一这两个广泛的方法的步骤。我们探讨了这种联系如何导致形状距离和NB的新解释,并将这些措施的对比与CKA进行对比,这是深度学习文献中的流行相似性度量。
我们研究了用于计算高斯分布重心的关于最优传输度量的一阶优化算法。尽管目标是测地非凸的,但黎曼 GD 经验上收敛速度很快,实际上比欧几里德 GD 和 SDP 求解器等现成方法更快。这与黎曼 GD 最著名的理论结果形成了鲜明对比,后者与维度呈指数相关。在这项工作中,我们在辅助函数上证明了新的测地凸性结果;这为黎曼 GD 迭代提供了强大的控制,最终产生了无维度的收敛速度。我们的技术还可以分析两个相关的平均概念,即熵正则化的重心和几何中位数,为这些问题的黎曼 GD 提供了第一个收敛保证。
