从软件存储库中提取的数据在软件工程研究中进行了强烈使用,以进行检查,以预测源代码中的缺陷。在我们在这一领域的研究中,通过开源项目以及工业合作伙伴的数据,我们注意到了分类问题的常规数据挖掘方法的几个缺点:(1)域专家的认可至关重要,领域专家可以提供有价值的输入,但是很难使用此反馈。(2)评估模型的质量不是计算AUC或准确性的问题。相反,有多种重要性的重要性,而难以量化权衡。此外,在我们的情况下,不能以每类级别的水平进行评估,因为它与设定盖问题共享方面。为了克服这些问题,我们采用了一种整体方法,并开发了一个规则挖掘系统,该系统简化了域专家的迭代反馈,并且可以纳入特定于领域的评估需求。系统的中心部分是一种新型的多目标,任何时间挖掘算法。该算法基于Grasp-pr meta-heuristic,但以其他几种方法的想法扩展了它。我们在工业背景下成功地应用了系统。在当前文章中,我们关注算法的描述和系统的概念。我们对可用的系统进行实现。
主要关键词