经典NLP还能走多远?从词袋到令人毛骨悚然的作者识别堆叠

关于 Kaggle 的 Spooky 作者识别任务的端到端经典 NLP 实验:从 Vowpal Wabbit 和 TF-IDF/NB-SVM 基线到调整后的堆叠集成,对 Bag-of-Words、BM25、Word2Vec 和 FastText 进行紧凑表示调查以获取上下文。经典 NLP 能走多远? 《从词袋到怪异作者识别的堆叠》首先出现在《走向数据科学》上。

来源:走向数据科学

是测试 NLP 模型的好方法,因为它不仅关注句子所说的内容,还关注句子的书写方式。 Kaggle 的幽灵作者识别竞赛是这一挑战的精简版:给定哥特式或恐怖小说中的一个句子,模型必须预测它是由埃德加·爱伦·坡 (EAP)、玛丽·沃斯通克拉夫特·雪莱 (MWS) 还是 H. P. Lovecraft (HPL) 撰写。

乍一看,这似乎是一个典型的三类文本分类问题。但实际上,情况更为复杂。作者都写了相似的主题:恐惧、神秘、死亡、气氛和超自然。简单的关键字不足以区分它们。相反,重要的线索通常是文体上的:功能词、标点符号、字符模式、短语、句子节奏以及每个作者构建句子的方式。

这使得该项目成为探索特定问题的好方法:

当我们仔细选择表征并诚实地评估它们时,经典 NLP 能走多远?

我通过构建一系列功能越来越强大的经典模型来完成这项任务:

  • 快速 Vowpal Wabbit 单词基线,
  • 更丰富的大众车型,带有标点符号和字符 n-gram,
  • 一个经过调整的 TF-IDF 系综,
  • 使用折叠外预测的堆叠稀疏文本集合,
  • 比较稀疏特征、BM25、Word2Vec 和 FastText 的小型代表性调查。
  • 目标不仅是提高分数,还要了解哪些表示有帮助、哪些指标得到改进以及每个结果来自哪种评估设置。

    本文重点介绍该项目的方法、结果和解释。我将回顾主要的实现选择并分享关键代码片段,但我不会包含笔记本中的每一行。完整执行的笔记本(包括完整的实现和输出)可在末尾链接的 GitHub 存储库中找到。

    数据集和评估设置

    我关注三个主要指标:

    1. 纯字 Vowpal Wabbit 基线

    2. Rich VW:添加风格感知功能

    结论