详细内容或原文请订阅后点击阅览
半监督学习有助于训练更好的模型吗?
评估半监督学习如何利用未标记数据作者提供的图片 — 使用 Bing 中的 Image Creator 创建数据科学家面临的最常见挑战之一是缺乏足够的标记数据来训练可靠且准确的模型。标记数据对于监督学习任务(例如分类或回归)至关重要。但是,在许多领域,获取标记数据可能成本高昂、耗时或不切实际。另一方面,未标记数据通常很容易收集,但它们不提供任何直接输入来训练模型。我们如何利用未标记数据来改进我们的监督学习模型?这就是半监督学习发挥作用的地方。半监督学习是机器学习的一个分支,它结合标记和未标记数据来训练一个比单独使用标记数据表现更好的模型。半监督学习背后的直觉是,未标记的数据可以提供有关数据底层结构、分布和多样性的有用信息,这可以帮助模型更好地推广到新的和未见过的示例。在这篇文章中,我介绍了三种可应用于不同类型数据和任务的半监督学习方法。我还将评估它们在真实世界数据集上的表现,并将它们与仅使用标记数据的基线进行比较。什么是半监督学习?半监督学习是一种使用标记和未标记数据的机器学习
来源:走向数据科学半监督学习有助于培训更好的模型吗?
评估半监督学习如何利用未标记的数据
数据科学家面临的最常见挑战之一是缺乏足够的标记数据来训练可靠且准确的模型。标记的数据对于监督学习任务,例如分类或回归至关重要。但是,在许多域中,获得标记的数据可能是昂贵的,耗时的或不切实际的。另一方面,通常很容易收集未标记的数据,但是它们没有提供任何直接输入来培训模型。
我们如何利用未标记的数据来改善我们的监督学习模型?这是半监督学习开始的地方。半监督学习是机器学习的一个分支,它结合了标记和未标记的数据来训练比单独使用标记数据更好的模型。半监督学习背后的直觉是,未标记的数据可以提供有关数据的基础结构,分布和多样性的有用信息,这可以帮助模型更好地推广到新的和看不见的示例。
在这篇文章中,我提出了三种半监督学习方法,可以应用于不同类型的数据和任务。我还将评估他们在现实世界数据集上的性能,并将它们与仅使用标记数据的基线进行比较。
什么是半监督的学习?
使用未标记的数据训练监督学习方法的基本想法是通过监督或无监督的学习方法标记这些数据。尽管这些标签很可能不像实际标签那样准确,但是与仅在标记数据上培训此方法相比,拥有大量此数据可以提高监督学习方法的性能。
Scikit-Learn软件包提供了三种半监督的学习方法:
自我训练 标签propagation 标签传播 糖尿病预测