详细内容或原文请订阅后点击阅览
为何扩展有效:归纳偏差与惨痛教训
通过一个玩具问题构建深刻见解来源:所有图片均由作者提供在过去十年中,我们见证了扩展深度学习模型的力量。在大量数据上训练的大型模型在语言建模、图像生成、玩游戏甚至蛋白质折叠方面的表现始终优于以前的方法。要了解扩展为何有效,让我们看一个玩具问题。介绍一个玩具问题我们从一个 1D 流形开始,它穿过 2D 平面并形成一个螺旋:现在我们添加一个热图,它表示对特定 2D 点进行采样的概率密度。值得注意的是,这个概率密度与流形的形状无关:让我们假设流形两侧的数据始终完全可分离(即没有噪音)。流形外部的数据点为蓝色,内部的数据点为橙色。如果我们抽取 N=1000 个点的样本,它可能看起来像这样:玩具问题:我们如何建立一个基于其 2D 坐标预测点颜色的模型?在现实世界中,我们通常无法从特征空间的所有部分均匀采样。例如,在图像分类中,很容易找到一般树木的图像,但很难找到特定树木的许多示例。因此,模型可能更难学习没有太多例子的物种之间的差异。同样,在我们的玩具问题中,空间的不同部分将变得难以预测,因为它们更难采样。所以
来源:走向数据科学在过去的十年中,我们目睹了扩展深度学习模型的力量。大型模型,经过大量数据训练,在语言建模,图像生成,玩游戏甚至蛋白质折叠方面始终优于以前的方法。要了解缩放为何有效,让我们看一个玩具问题。
引入玩具问题
我们从1D歧管开始,通过2D平面编织并形成螺旋:
现在,我们添加了一个热图,该热图代表采样特定2D点的概率密度。值得注意的是,此概率密度与流形的形状无关:
独立让我们假设歧管两侧的数据始终是完全可分开的(即没有噪声)。歧管外部的数据点是蓝色的,内部的数据点是橙色的。如果我们绘制n = 1000点的样本,则可能是这样的:
玩具问题:我们如何建立一个模型,该模型可以根据其2D坐标来预测点的颜色?
在现实世界中,我们通常无法从特征空间的所有部分均匀地采样。例如,在图像分类中,很容易找到树木的图像,但很容易找到许多特定树木的示例。结果,模型可能很难学习物种之间的差异,没有太多的例子。同样,在我们的玩具问题中,仅仅因为它们很难采样而难以预测空间的不同部分。
解决玩具问题
首先,我们构建了一个具有3层的简单神经网络,运行为1000个时代。神经网络的预测受样本细节的严重影响。结果,训练有素的模型很难仅仅因为采样稀疏而推断流形的形状:
即使知道这些点是完全可分离的,也有许多方法可以在采样点周围绘制边界。基于样本数据,为什么应该将一个边界视为优于另一个边界?
归纳先验 功能工程