测量文本的语义相似度在自然语言处理领域的各种任务中起着至关重要的作用。在本文中,我们描述了一组我们进行的实验,以评估和比较用于测量短文本语义相似度的不同方法的性能。我们对四种基于词向量的模型进行了比较:Word2Vec 的两个变体(一个基于在特定数据集上训练的 Word2Vec,另一个使用词义的嵌入对其进行扩展)、FastText 和 TF-IDF。由于这些模型提供了词向量,我们尝试了各种基于词向量计算短文本语义相似度的方法。更准确地说,对于这些模型中的每一个,我们测试了五种将词向量聚合到文本嵌入中的方法。我们通过对两种常用的相似度测量进行变体引入了三种方法。一种方法是基于质心的余弦相似度的扩展,另外两种方法是 Okapi BM25 函数的变体。我们在两个公开可用的数据集 SICK 和 Lee 上根据 Pearson 和 Spearman 相关性对所有方法进行了评估。结果表明,在大多数情况下,扩展方法的表现优于原始方法。关键词:语义相似度、短文本相似度、词嵌入、Word2Vec、FastText、TF-IDF
主要关键词