数据敏感度量自然出现在机器学习中,并且在一些著名方法中起着核心作用,例如 k-NN 图方法、流形学习、水平集方法、单链接聚类和基于欧氏 MST 的聚类(详情见第 5 节和附录 A)。构建合适的数据敏感度量是一个活跃的研究领域。我们考虑一个简单的数据敏感度量,它有一个底层流形结构,称为最近邻度量。该度量最早在 [CFM + 15] 中引入。它及其近似变体在过去已被多位研究人员研究过 [HDHI16、CFM + 15、SO05、BRS11、VB03]。在本文中,我们展示了如何精确计算任意维度的最近邻度量,这解决了任何基于流形的度量最重要和最具挑战性的问题之一。
最新的表示学习研究表明,层次数据将自己带入双曲线空间中的低维和高度信息的表示。但是,即使双曲线嵌入在图像识别方面也收集了,它们的优化也容易出现数值障碍。此外,与传统的Eu-Clidean特征相比,尚不清楚哪种应用将受益于双曲线的隐性偏见最大。在本文中,我们专注于原型双曲神经网络。尤其是,双曲线嵌入的趋势会在高维度收敛到庞加尔e球的边界,并且对这对几乎没有的分类具有影响。我们表明,在常见的双曲半径上获得双曲线嵌入的最佳射击效果。与先前的基准结果相反,我们证明了配备有欧几里德指标的固定radius编码器可以实现更好的性能,而与嵌入式维度无关。
分析非欧几里得数据(例如图形和树木)需要(特定)数学机械,因为与欧几里得空间相比,它们较不富裕或光滑的riemannian歧管。这些空间仍然可以利用后者的丰富结构。例如,图形空间是由置换组赋予Frobenius度量的矩阵,Billera-Holmes-Vogtmann(BHV)空间层是Eu-Clidean,而Wald空间嵌入在对称正极(SPD)矩阵的空间中。我们提出了一个Python软件包,用于分析生活在地球公制空间中的数据 - 拓扑空间,配备了度量和地球函数,其中度量是最短的大地测量长度连接两个点的长度。我们根据点,点集和使用地球公制空间理论构建的度量的包装结构描述了包装结构,并提供了三个实现示例。该软件包是作为GeomStats Python软件包的插件实现的,允许用户以理论上一致的方式访问和调整可用的几何和数据分析工具,以实现强烈非欧盟数据。代码是单位测试和记录的。关键字:测量公制空间; BHV空间;树值数据;图值数据;几何数据分析。