学习词向量进行情感分析:Python 再现

如何使用语义学习、星级评定和线性 SVM 分类从 IMDb 评论中构建情感感知词表示用于情感分析的学习词向量:Python 再现首先出现在《走向数据科学》上。

来源:走向数据科学

我们自动化了分析并在 GitHub 上提供了代码。

。 (2011)。

当时,我还在工程学院读最后一年。目标是重现这篇论文,挑战作者的方法,如果可能的话,将它们与其他单词表示进行比较,包括基于法学硕士的方法。

让我印象深刻的是这个方法是多么简单和优雅。在某种程度上,它让我想起了信用评分中的逻辑回归:简单、可解释,并且在正确使用的情况下仍然强大。

我非常喜欢阅读这篇论文,因此我决定分享我从中学到的东西。

我强烈建议阅读原始论文。它将帮助您了解单词表示中的关键问题,特别是在考虑到使用这些单词的特定上下文的情况下,如何从语义角度和情感极性角度分析两个单词之间的接近度。

乍一看,该模型似乎很简单:构建词汇表、学习词向量、合并情感信息并评估 IMDb 评论的结果。

但当我开始实现它时,我意识到几个细节非常重要:如何构建词汇表、如何表示文档向量、如何优化语义目标以及如何将情感信号注入到词向量中。

在本文中,我们将使用 Python 重现论文的主要思想。

我们将首先解释模型背后的直觉。然后我们将展示本文中使用的数据结构、构建词汇、实现语义组件、添加情感目标,最后使用线性 SVM 分类器评估学习到的表示。

SVM 将使我们能够测量分类准确性并将我们的结果与论文中报告的结果进行比较。

这篇论文解决了什么问题?

数据结构

数据集包含:

  • 25,000 个带标签的培训评论或文档
  • 哪里

    结论