行业数字化正在迅速发展,数据可能性与日俱增。机器学习模型需要大量经过良好注释的数据才能获得良好的性能。要获得经过良好注释的数据,需要专家,但这很昂贵,而且注释本身可能非常耗时。机器学习模型的性能取决于数据集的大小,因为良好的性能需要大量的注释。主动学习已成为一种通过选择性注释来增加数据量的解决方案。主动学习策略可用于根据信息量或不确定性来选择数据点,而不是随机标记数据点。挑战在于确定针对机器学习模型和问题类型的组合的最有效的主动学习策略。虽然主动学习已经存在了一段时间,但基准测试策略尚未得到广泛探索。
主要关键词