Loading...
机构名称:
¥ 1.0

摘要 - 主题建模是一种广泛使用的技术,用于从未标记的文本数据中提取隐藏的模式,从而促进了各种功能,例如文档组织,内容建议和检索。尽管传统上应用于英语文本,但主题建模最近在其他语言中获得了吸引力,包括孟加拉语,这是由于孟加拉语内容在线的日益增长的驱动而驱动。最近的研究已将某些主题建模方法应用于孟加拉语,但其在绩效方面的有效性尚未得到充分影响。本文介绍了Bert-LDA(一种混合主题建模的方法),应用于孟加拉新闻语料库,其中包括从在线孟加拉新闻门户收集的各种类别的文章。潜在的dirichlet分配(LDA)是一个概率模型,将每个文档表示为主题的混合,而Bert-LDA则利用了Bert上下文嵌入的语义丰富,结合了LDA的强大主题建模功能。通过整合两种方法的优势,我们的方法旨在提高本伽利文本主题建模的性能。实验结果表明,所提出的BERT-LDA模型始终优于各种评估指标的传统主题建模技术,从而在从孟加拉语文本数据中提取有意义的见解方面有了重大改进。

将BERT与LDA结合:改进的主题建模在孟加拉语语言中

将BERT与LDA结合:改进的主题建模在孟加拉语语言中PDF文件第1页

将BERT与LDA结合:改进的主题建模在孟加拉语语言中PDF文件第2页

将BERT与LDA结合:改进的主题建模在孟加拉语语言中PDF文件第3页

将BERT与LDA结合:改进的主题建模在孟加拉语语言中PDF文件第4页

将BERT与LDA结合:改进的主题建模在孟加拉语语言中PDF文件第5页

相关文件推荐

2025 年
¥16.0
2023 年
¥6.0
2025 年
¥2.0