详细内容或原文请订阅后点击阅览
用伯托
学习如何微调伯托设置,以使其更加集中,可重复和可解释的结果在Post Post-post the Tune Tune Tune您的主题建模工作流程与Bertopic首次出现在数据科学方面。
来源:走向数据科学主题建模仍然是AI和NLP工具箱中的关键工具。尽管大型语言模型(LLMS)非常好地处理文本,但从大规模数据集中提取高级主题仍然需要专门的主题建模技术。一个典型的工作流程包括四个核心步骤:嵌入,减少维度,聚类和主题表示。
今天的框架是偏执的,它通过模块化组件和直观的API简化了每个阶段。在这篇文章中,我将仔细研究您可以使用开源20新闻集团数据集的动手实验来改善聚类结果并提高聚类结果的实践调整,该实验是在创意共享署名4.0国际许可下分发的。
bertopic 开源20新闻组数据集项目概述
我们将从Bertopic文档中建议的默认设置开始,并逐步更新特定的配置,以突出其效果。在此过程中,我将解释每个模块的目的以及在自定义时如何做出明智的决定。
数据集准备
我们加载了500个新闻文件的样本。
导入随机从数据集导入import load_datasetdataset = load_dataset(“ setFit/20_newsgroups”)andart.seed(42)text_label = list = list = list(zip [dataSet [train''train''] 500)
由于数据源自随意的Usenet讨论,因此我们将清洁步骤应用于剥离标题,删除混乱并仅保留信息句子。
此预处理可确保更高质量的嵌入和更光滑的下游聚类过程。
初始伯托管道
使用Bertopic的模块化设计,我们配置了每个组件:用于嵌入的sencencetransformer,降低维度的UMAP,用于聚类的HDBSCAN以及CountDectorizer + Keybert用于主题表示。该设置仅产生一些具有嘈杂表示形式的广泛主题,强调需要进行微调以实现更连贯的结果。
UMAP