Loading...
机构名称:
¥ 1.0

在本文中,我们研究了如何从大数据库中获取标记的数据点,以丰富增强监督机器学习(ML)性能的培训集。最新的解决方案是基于聚类的训练集选择(CTS)算法,该算法最初将数据点簇在数据库中,然后从集群中选择新的数据点。CTS的效率通过其频繁的目标ML模型进行了限制,并且该效率受到选择标准的限制,该标准代表了每个集群中数据点的状态,并施加了在每个迭代中仅选择一个群集的恢复。为了克服这些局限性,我们提出了一种新算法,称为CTS,具有自适应评分(IAS)的增量估计。ias采用了线路学习,通过使用新数据来实现增量模型更新,并消除了对目标模型进行充分重新培训的需求,从而提高了效率。为了提高IAS的有效性,我们引入了自适应得分估计,该评分估计是识别簇的新型选择标准,并通过平衡数据获取过程中的利用和探索之间的权衡取舍。为了进一步提高IAS的有效性,我们引入了一种新的自适应迷你批次选择方法,在每种迭代中,从多个群集中选择数据点,而不是单个群集,因此消除了仅使用一个群集而导致的潜在偏差。通过将此方法集成到IAS算法中,我们提出了一种新型算法,该算法称为IAS,具有自适应迷你批次选择(IAS-AMS)。实验结果突出了IAS-AM的卓越有效性,IAS也表现优于其他算法。在效率方面,IAS占据主导地位,而IAS-AMS的效率与现有CTS算法的效率相当。

优化数据获取以增强机器学习绩效

优化数据获取以增强机器学习绩效PDF文件第1页

优化数据获取以增强机器学习绩效PDF文件第2页

优化数据获取以增强机器学习绩效PDF文件第3页

优化数据获取以增强机器学习绩效PDF文件第4页

优化数据获取以增强机器学习绩效PDF文件第5页

相关文件推荐