详细内容或原文请订阅后点击阅览
想要更好的集群吗?尝试DeepType
使用深度学习帖子群集数据的更聪明的方式想要更好的群集?尝试DeepType首先出现在数据科学方面。
来源:走向数据科学,神经网络和聚类算法似乎是截然不同的。神经网络通常用于监督学习中,其目标是根据从标记的数据集中学到的模式标记新数据。相比之下,聚类通常是一个无监督的任务:我们尝试在数据中发现不访问地面真相标签的关系。
聚类事实证明,深度学习对于聚类问题非常有用。这是关键思想:假设我们使用反映我们关心的东西的损失功能训练神经网络 - 例如,我们如何对示例进行分类或分开的示例。如果网络达到低损失,我们可以推断它所学的表示(尤其是在二次层中)捕获数据中有意义的结构。换句话说,这些中间表示编码网络对任务的了解。
深度学习 表示那么,如果我们在这些表示形式上运行聚类算法(如Kmeans)会发生什么?理想情况下,我们最终得到了反映网络被捕获相同的基础结构的群集。
啊,很多!这是一张图片:
啊,很多!如图像中所示,当我们运行输入直到二到层层时,我们将获得一个具有kₘ值的向量,这大概比如果做对了所有事情的情况下,我们开始使用的输入量要低很多。由于输出层在做出预测时仅查看此矢量,因此,如果我们的预测是好的,我们可以得出结论,该向量封装了有关我们数据的一些重要信息。在这个空间中的聚类比聚类原始数据更有意义,因为我们已经过滤了实际重要的功能。
进行预测时仅查看此矢量 deepType 神经网络 我们比标签本身更关心数据点之间的关系 引入DeepType