Loading...
机构名称:
¥ 3.0

ORCID iDs:Pouyan Jahani Rad https://orcid.org/0009-0007-2956-2209 Mahdi Bahaghighat https://orcid.org/0000-0002-1813-8417 摘要。本研究重点是制作一个有效的文本分类器,将给定的语料库映射到特定的科学领域。我们的研究是根据 Web of Science (WOS) 的类别对不同科学领域进行分类。我们在父级和子级设计和开发了各种深度学习架构,例如卷积神经网络 (CNN)、深度神经网络 (DNN) 和循环神经网络 (RNN)。为了使我们的模型表现更好,我们有效地使用了超频调优。我们的目标是为较低级别和较小的通用模型大小构建一个精确的分层文本分类器。评估采用一种称为分层混淆矩阵的特殊度量。基于对词嵌入、文档嵌入和超频调优的广泛研究,结果表明,在父子级别上分层组合 CNN 和 DNN 可以实现更高的准确率。我们的模型得分确实不错,F1 得分为 94.29%,准确率达到 99.33%。虽然在父级使用一个 RNN,在子级使用另一个 RNN 会导致准确率降低,但有效地减小了整体模型大小。我们还使用 AoI2WoS 数据集对各种模型架构进行了全面评估。通过结合 Google 新闻词嵌入,我们在 AoI2WoS 数据集上测试了不同的 RNN-DNN 和 RNN-RNN 模型组合。RNN-DNN 模型取得了最佳效果,准确率达到 98.71%,F1 得分达到 91.87%。这些发现不仅推动了分层文本分类的发展,而且为利用科学计量学和文献计量学研究提供了强有力的工具。

针对 Web of Science 科学领域的分层文本分类 

针对 Web of Science 科学领域的分层文本分类 PDF文件第1页

针对 Web of Science 科学领域的分层文本分类 PDF文件第2页

针对 Web of Science 科学领域的分层文本分类 PDF文件第3页

针对 Web of Science 科学领域的分层文本分类 PDF文件第4页

针对 Web of Science 科学领域的分层文本分类 PDF文件第5页

相关文件推荐