word2vec 到底学习什么?

word2vec 到底学习什么以及如何学习?回答这个问题相当于在一个最小但有趣的语言建模任务中理解表示学习。尽管 word2vec 是众所周知的现代语言模型的先驱,但多年来,研究人员缺乏描述其学习过程的定量和预测理论。在我们的新论文中,我们最终提供了这样一个理论。我们证明存在现实的、实用的机制,其中学习问题可以简化为未加权的最小二乘矩阵分解。我们以封闭形式求解梯度流动动力学;最终学习到的表示由 PCA 简单给出。word2vec 的学习动态。当从小初始化开始训练时,word2vec 以离散、连续的步骤进行学习。左:权重矩阵中的排名递增学习步骤,每个步骤都会减少损失。右图:潜在嵌入空间的三个时间切片,显示嵌入向量如何在每个学习步骤中扩展到维度不断增加的子空间,一直持续到模型容量饱和。在详细说明这个结果之前,让我们先提出这个问题。 word2vec 是一种众所周知的用于学习单词的密集向量表示的算法。这些嵌入向量使用对比算法进行训练;训练结束时,任意两个单词之间的语义关系通过相应嵌入之间的角度来捕获。事实上,学习到的嵌入在其

来源:BAIR
word2vec 到底学习什么以及如何学习?回答这个问题相当于在一个最小但有趣的语言建模任务中理解表示学习。尽管 word2vec 是众所周知的现代语言模型的先驱,但多年来,研究人员缺乏描述其学习过程的定量和预测理论。在我们的新论文中,我们最终提供了这样一个理论。我们证明存在现实的、实用的机制,其中学习问题可以简化为未加权的最小二乘矩阵分解。我们以封闭形式求解梯度流动动力学;最终学习到的表示由 PCA 简单给出。word2vec 的学习动态。当从小初始化开始训练时,word2vec 以离散、连续的步骤进行学习。左:权重矩阵中的排名递增学习步骤,每个步骤都会减少损失。右图:潜在嵌入空间的三个时间切片,显示嵌入向量如何在每个学习步骤中扩展到维度不断增加的子空间,一直持续到模型容量饱和。在详细说明这个结果之前,让我们先提出这个问题。 word2vec 是一种众所周知的用于学习单词的密集向量表示的算法。这些嵌入向量使用对比算法进行训练;训练结束时,任意两个单词之间的语义关系通过相应嵌入之间的角度来捕获。事实上,学习到的嵌入在其几何形状中凭经验表现出惊人的线性结构:潜在空间中的线性子空间通常编码可解释的概念,例如性别、动词时态或方言。这种所谓的线性表示假设最近引起了广泛关注,因为法学硕士也表现出这种行为,从而能够对内部表示进行语义检查并提供新颖的模型引导技术。在 word2vec 中,正是这些线性方向使学习到的嵌入能够完成类比(例如,“man : Woman :: king