我们提出了一种参数方法 SemSim p,旨在测量数字资源的语义相似度。SemSim p 基于信息内容的概念,它利用参考本体和分类推理,包含对本体概念进行加权的不同方法。具体而言,可以通过考虑可用的数字资源或给定领域的参考本体的结构来计算权重。通过进行包括统计分析和专家判断评估的实验,针对文献中提出的概念集比较方法,对 SemSim p 进行了评估。为了实现可靠的评估,我们使用了基于计算机协会数字图书馆 (ACM) 的真实大型数据集,以及源自 ACM 计算分类系统 (ACM-CCS) 的参考本体。对于每种方法,我们都考虑了两个指标。第一个涉及从 ACM Transactions on Information Systems 期刊中选出的某些专题的论文之间相似性的置信度,第二个涉及与人类判断的 Pearson 相关性。结果表明,SemSim p 的其中一种配置优于其他评估方法。在物理学领域进行的附加实验表明,总体而言,SemSim p 比其他相似性方法提供更好的结果。
主要关键词