详细内容或原文请订阅后点击阅览
你不需要很多标签来学习
如果无监督模型只需少量标签就可以成为强大的分类器,结果会怎样?《你不需要学习很多标签》一文首先出现在《走向数据科学》上。
来源:走向数据科学简介
通常带有一个隐含的假设:您需要大量标记数据。
同时,许多模型能够在没有任何标签的情况下发现数据中的结构。
特别是生成模型,通常在无监督训练期间将数据组织成有意义的集群。当接受图像训练时,它们可能会自然地在潜在表示中区分数字、对象或样式。
这提出了一个简单但重要的问题:
如果一个模型已经发现了没有标签的数据结构,那么实际上需要多少监督才能将其转变为分类器?
在本文中,我们使用高斯混合变分自动编码器 (GMVAE) 探讨这个问题(Dilokthanakul 等人,2016)。
数据集
我们使用 Cohen 等人引入的 EMNIST Letters 数据集。 (2017),它是原始 MNIST 数据集的扩展。
免责声明本文中提供的代码仅用于研究和重现性目的。它目前是针对 MNIST 和 EMNIST 数据集量身定制的,并非设计为通用框架。将其扩展到其他数据集需要进行调整(数据预处理、架构调整和超参数选择)。
代码和实验可在GitHub上获取:https://github.com/murex/gmvae-label-decoding
这个选择不是随意的。 EMNIST 比经典 MNIST 数据集更加模糊,这使其成为强调概率表示重要性的更好基准(图 1)。
GMVAE:无监督方式的学习结构
标准变分自动编码器 (VAE) 是一种生成模型,用于学习数据的连续潜在表示。
更准确地说,每个数据点都映射到多元正态分布,称为后验分布。
硬解码
:而
