详细内容或原文请订阅后点击阅览
基于变压器的主题建模的伯托的实用指南
深入研究了Bertopic的6个模块,以将财务新闻转变为有见地的主题,该帖子是基于变形金刚的主题建模的实用指南,首先是迈向数据科学的。
来源:走向数据科学在自然语言处理(NLP)域中具有广泛的用例,例如文档标签,调查分析和内容组织。它属于无监督学习技术的领域,使其成为一种非常具有成本效益的技术,可减少收集人类宣传数据所需的资源。我们将深入研究Bertopic,这是一个流行的Python库,用于基于变压器的主题建模,以帮助我们更快地处理金融新闻,并揭示趋势主题如何随着时间的推移而变化。Bertopic由6个可以自定义的核心模块组成以适合不同用例。在本文中,我们将对每个模块进行研究,并探索它们如何连贯地工作以产生最终结果。
在高水平上,典型的伯托架构由:
- 嵌入:将文本转换为使用句子转换器模型捕获语义含义的矢量表示(即嵌入)。维度降低:减少高维嵌入到较低维空间中,同时保留重要的关系,同时保留包括PCA,UMAP的PCA,umap…clusters:组合相似的文档:组合的尺寸与降低的尺寸相同,将其组合在一起。算法…矢量化:形成了主题簇后,矢量化将文本转换为数值特征,可用于主题分析,包括计数矢量器,在线矢量器…C-tf-idf:计算主题群体内部和跨主题群体内部单词的重要性得分,以识别主要术语。关键字,包括基于LLM的Keybert技术…