以不同的方式思考您的数据

了解 node2vec 的工作原理,以及它捕获了 word2vec 无法捕获的哪些信息 - 包括案例研究。

来源:Another Datum

在过去的几年中,深度学习 (DL) 已成为视觉、NLP、音频、点击流数据等许多领域应用的主要推动力。最近,研究人员开始成功地将深度学习方法应用于社交网络、推荐系统和生物学等领域的图形数据集,这些领域的数据本质上以图形方式构建。

那么图神经网络是如何工作的呢?我们为什么需要它们?

深度学习的前提

在涉及图形数据的机器学习任务中,我们通常希望以一种允许我们将其输入到某种机器学习算法中的方式来描述图中的每个节点。如果没有 DL,就必须手动提取特征,例如节点拥有的邻居数量。但这是一项艰巨的工作。

这就是 DL 的闪光点。它自动利用图的结构来提取每个节点的特征。这些特征称为嵌入。

有趣的是,即使你对节点一无所知,你仍然可以使用 DL 来提取嵌入。图的结构,即连接模式,包含有用的信息。

那么我们如何使用结构来提取信息?图中每个节点的上下文真的能帮助我们吗?

从上下文中学习

一种仅使用上下文即可提取有关实体信息的著名算法是 word2vec。word2vec 的输入是一组句子,输出是每个单词的嵌入。与文本通过围绕单词的单词描述每个单词的上下文的方式类似,图通过邻居节点描述每个节点的上下文。

word2vec

虽然在文本中单词以线性顺序出现,但在图中并非如此。相邻节点之间没有自然顺序。所以我们不能使用 word2vec... 或者我们可以吗?

像一个厉害的数学家一样进行归约

node2vec originalpaper

案例研究

Taboola 在出版商网站中显示的小部件中推荐文章:

这里 K-means Girvan-Newmanalgorithm

采用另一种方法

但为什么会发生这种情况?

要点