使用LLMS的高级主题建模

通过利用代表模型和使用LLMS的高级主题建模的代表模型和生成AI进行深入研究,首先是朝向数据科学的。

来源:走向数据科学

本文是OpenAlex API的主题建模开源智能(OSINT)的延续。在上一篇文章中,我使用潜在的Dirichlet分配(LDA)对主题建模,所使用的数据以及传统的NLP方法进行了介绍。

请参阅上一篇文章:

本文通过利用表示代表模型,生成AI和其他高级技术来采用更高级的主题建模方法。 我们利用Bertopic将几个模型聚集在一个管道中,可视化我们的主题并探索主题模型的变化。

我们利用伯托将几个模型聚集在一起,可视化我们的主题并探索主题模型的变化。
作者的图像

伯托管道

使用传统的主题建模方法可能很困难,需要建立自己的管道来清洁数据,令牌,诱人,创建功能等。传统模型(例如LDA或LSA)在计算上也很昂贵,并且通常会产生差的结果。

伯托通过嵌入模型来利用变压器体系结构,并结合其他组件,例如缩小维度和主题表示模型,以创建高性能的主题模型。 Bertopic还提供了各种模型,以适合各种数据和用例,可视化以探索结果等等。

伯托通过嵌入模型来利用变压器体系结构,并结合其他组件,例如缩小维度和主题表示模型,以创建高性能的主题模型。

伯托的最大优势是它的模块化。 在上面看到的,管道由几种不同的模型组成:

伯托的最大优势是它的模块化。
    嵌入模型降低模型clustrustering ModelTokenizerWeighting schemerepresentation模型(可选)
  • 嵌入模型
  • 降低降低模型
  • 聚类模型
  • tokenizer
  • 加权方案
  • 表示模型(可选)
  • 嵌入模型

    )。

    降低降低模型