机器学习中的原型梯度下降

使用随机 /批次GD的数学定理和信用交易预测,机器学习中的原型梯度下降首先是在迈向数据科学的。

来源:走向数据科学

学习

监督学习是机器学习的类别,它使用标记的数据集来训练算法以预测结果并识别模式。

与无监督的学习不同,监督的学习算法被标记为培训,以学习输入与输出之间的关系。

先决条件:线性代数

线性代数

假设我们存在一个回归问题,其中模型需要通过拿起n个输入特征(XI)来预测连续值。

回归问题

预测值定义为称为假设(H)的函数:

假设

其中:

    θi:i-th参数对应于每个输入特征(x_i),ϵ(epsilon):高斯错误(ϵ 〜n(0,σ²)))
  • θi:i-th参数,对应于每个输入功能(x_i),
  • ϵ(Epsilon):高斯错误(ϵ 〜n(0,σ²)))
  • 作为单个输入的假设会生成标量值(Hθ(x)∈R),可以表示为参数矢量(θt)的threspose的点产物(θt)和该输入的特征向量(x):

    参数矢量(θt)的转置 该输入的特征向量(x)

    批处理梯度下降

    梯度下降是一种迭代优化算法,用于查找功能的局部最小值。在每个步骤中,它朝着最陡峭下降方向相反的方向移动,以逐步降低功能的值 - 简单地继续下坡。

    梯度下降

    现在,回想一下我们有n个影响预测的参数。因此,我们需要了解对应于训练数据(XI))对函数的单个参数(θi)的特定贡献。

    单个参数

    假设我们将每个步骤的大小设置为学习率(α),并找到成本曲线(J),然后在每个步骤中扣除参数,以便:

    α

    (α:学习率,J(θ):成本函数,∂/∂θI:相对于θi的成本函数的部分导数)

    α: θ):C θi: θi

    渐变

    梯度表示成本函数的斜率。

    θ0至θn)。

    因此,参数(θ)位于(n+1)维空间中。

    (图像来源:作者)

    计算

    θ