开发分类器的机器学习方法是创建一个“模型”,该模型基于从已经分类的“训练数据”中学习,通常由专家手动完成。模型构建通过识别模式或特征的过程进行,这些模式或特征是训练数据中“选定”记录的特征,而不是“未选定”记录的特征。这不是一个精确的过程,通常会构建和测试几个不同的模型来确定哪个模型能提供最准确的结果。在评估模型时,必须根据业务需求定义准确性。例如,对于此任务,正确识别有价值记录同时包括一些短暂记录的分类器将被认为优于减少短暂记录选择但丢失有价值记录的分类器。对于其他应用程序,反之亦然。
主要关键词