你不需要很多标签来学习 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

你不需要很多标签来学习

2026年4月17日 15:00 33 Comments

如果无监督模型只需少量标签就可以成为强大的分类器，结果会怎样？《你不需要学习很多标签》一文首先出现在《走向数据科学》上。

来源:走向数据科学

简介

通常带有一个隐含的假设：您需要大量标记数据。

同时，许多模型能够在没有任何标签的情况下发现数据中的结构。

特别是生成模型，通常在无监督训练期间将数据组织成有意义的集群。当接受图像训练时，它们可能会自然地在潜在表示中区分数字、对象或样式。

这提出了一个简单但重要的问题：

如果一个模型已经发现了没有标签的数据结构，那么实际上需要多少监督才能将其转变为分类器？

在本文中，我们使用高斯混合变分自动编码器 (GMVAE) 探讨这个问题（Dilokthanakul 等人，2016）。

数据集

我们使用 Cohen 等人引入的 EMNIST Letters 数据集。 (2017)，它是原始 MNIST 数据集的扩展。

来源：NIST 特别数据库 19

处理者：Cohen 等人。 (2017)

大小：145 600 张图像（26 个平衡类）

所有权：美国国家标准与技术研究院 (NIST)

许可证：公共领域（美国政府工作）

免责声明本文中提供的代码仅用于研究和重现性目的。它目前是针对 MNIST 和 EMNIST 数据集量身定制的，并非设计为通用框架。将其扩展到其他数据集需要进行调整（数据预处理、架构调整和超参数选择）。

代码和实验可在GitHub上获取：https://github.com/murex/gmvae-label-decoding

这个选择不是随意的。 EMNIST 比经典 MNIST 数据集更加模糊，这使其成为强调概率表示重要性的更好基准（图 1）。

GMVAE：无监督方式的学习结构

标准变分自动编码器 (VAE) 是一种生成模型，用于学习数据的连续潜在表示。

更准确地说，每个数据点都映射到多元正态分布，称为后验分布。

硬解码

：

而

编码器引入的美国国家标准与技术研究院重要的变分定制的技术研究数据组数据学习训练期数据点随意的没有标签许可证所有权预处理其他数据研究院 NIST EMNIST Cohen 用于集群参数选择结构重要性美国表示 GMVAE 国家标准与技术研究院数据库需要美国政府 2017 国家标准 MNIST 数据集数据结构分类器监督训练模型实际上自动

你不需要很多标签来学习

简介

数据集

GMVAE：无监督方式的学习结构

硬解码

其他外部链接

Tags

XiaoMi-AI