文字比标签更强大:使用数据编程进行无点画标签的学习

我们分析了 DP 背后的数学基础,并通过将其应用于两个现实世界的文本分类任务来展示它的强大功能。此外,我们将 DP 与传统上在数据稀疏设置中应用的点画主动和半监督学习技术进行了比较。

来源:La Biblia de la IA

🔘 论文页面:arxiv.org/abs/2108.10921

🔘 论文页面

摘要

大多数先进的监督机器学习 (ML) 模型都依赖于大量逐点标记的训练示例。手动标记大量数据可能很繁琐、昂贵且容易出错。最近,一些研究探索了使用各种弱监督来源来生成具有竞争力的最终模型分类器。在本文中,我们调查了最近关于弱监督的研究,特别是我们研究了数据编程 (DP) 框架。以一组可能有噪声的启发式方法作为输入,DP 使用启发式的概率图模型为数据集中的每个数据点分配去噪的概率标签。我们分析了 DP 背后的数学基础,并通过将其应用于两个现实世界的文本分类任务来展示它的强大功能。此外,我们将 DP 与传统上应用于数据稀疏设置的点画主动和半监督学习技术进行了比较。

作者

Chufan Gao、Mononito Goswami

喜欢这篇文章?关注此博客以了解更多信息。

喜欢这篇文章?关注此博客以了解更多信息。