自然语言处理是AI的不断增长的子场,具有不同应用的多种多样。常见且看似直接的应用是文档相似性,通常会实现各种NLP算法。但是,加上其不同技术的多功能性,也有缺点。不同的算法倾向于集中在一个或多个相似性的因素上,这意味着它们可以在一种类型的相似性评估中表现出色,但会与另一种相似性评估。本文研究了三种NLP技术,重点是它们自动化相似性评估的能力。他们的重点是课程内容在课程资格或课程学分之间使用之间的相似性。在此时间点,此比较是手动进行的。确定哪些因素在学分课程中很重要,已经实施了三种算法并在各种课程比较测试中运行。所选的算法和因子是TF-IDF,用于加权项重叠,n-gram,用于上下文匹配,并使用关键字提取进行主题检测。在评估其整体效果时,使用关键字提取的NER似乎是最佳选择。直到显而易见的是,它更加一致,自信地给出错误的答案。它在具有一些相似之处的课程上给出了很高的相似性分数,例如来自同一所大学,但不够相似,无法彼此学分。使用n-grams来确定相似性是在相似和不同课程上最可靠的,并且被证明是可靠的选择。tf-idf的当前词汇表现不佳。总结基于上下文的N-gram的相似性在研究课程自动信用时被证明是一个可靠且有用的因素,但在实际使用之前需要进一步的工作。
主要关键词