Deep Learning

Ghostasky 收录于 Technology

2024-05-29 约 2300 字预计阅读 5 分钟

坟墓里寂静无比，埋葬你的是你所有没说出口的话

[toc]

1.深度学习基础

线性模型

示例 $y = b + wx_1$，损失是函数 $L(b, w)$ ，计算 $y$ 与 $\hat{y} $ 的差距$e$ ，计算Loss： $L = \frac{1}{N} \sum e_n$.

$e$ 有两种：

平均绝对误差（Mean Absolute Error，MAE）：$e = |\hat{y} - y|$
均方误差（Mean Squared Error，MSE）：$e = (\hat{y} - y)^2$

有一些任务中 $y$ 和 $\hat{y}$ 都是概率分布，这个时候可能会选择交叉熵（cross entropy），

根据不同的 $L$ 画出的等高图：越大越红，越小越蓝，叫做误差表面（error surface）

接下来是梯度下降（gradient descent）优化$L$：

$$ w^1 \leftarrow w^0 - \eta \left. \frac{\partial L}{\partial w} \right|_{w=w^0, b=b^0} $$

$$ b^1 \leftarrow b^0 - \eta \left. \frac{\partial L}{\partial b} \right|_{w=w^0, b=b^0} $$

全局最小值（global minima），局部最小值（local minima）。

分段线性曲线

分段线性曲线（piecewise linear curve）可以看作是一个常数，再加上一堆Hard Sigmoid 函数。Hard Sigmoid 函数的特性是当输入的值，当 $x$ 轴的值小于某一个阈值（某个定值）的时候，大于另外一个定值阈值的时候，中间有一个斜坡。

可以用 Sigmoid 函数来逼近 Hard Sigmoid： $$ y = c \cdot \frac{1}{1 + e^{-(b + wx_1)}} $$ 简化表示： $$ y = c \sigma(b + wx_1) $$ 表达整个函数时：

$$ y = b + \sum\limits_{i} c_i \sigma(b_i + w_i x_1) $$

$w_{ij}$ 代表在第 $i$ 个 Sigmoid 里面，乘给第 $j$ 个特征的权重： $$ b_1 + w_{11} x_1 + w_{12} x_2 + w_{13} x_3 $$

那么括号中的为： $$ r_1 = b_1 + w_{11} x_1 + w_{12} x_2 + w_{13} x_3 \\ r_2 = b_2 + w_{21} x_1 + w_{22} x_2 + w_{23} x_3 \\ r_3 = b_3 + w_{31} x_1 + w_{32} x_2 + w_{33} x_3 $$ 用矩阵表示：

$$ \begin{bmatrix} r_1 \\ r_2 \\ r_3 \end{bmatrix} = \begin{bmatrix} b_1 \\ b_2 \\ b_3 \end{bmatrix} + \begin{bmatrix} w_{11} & w_{12} & w_{13} \\ w_{21} & w_{22} & w_{23} \\ w_{31} & w_{32} & w_{33} \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix} $$

$$ y = b + \mathbf{c}^T \mathbf{\sigma(b + \mathbf{c}^T \mathbf{a})} $$

计算$\theta$：

首先给定$\theta$的值，即某一组 $W $, $ b $, $ c^T $, $ b $的值。记最小的$\theta$为$\theta^*$，计算每一个未知的参数对 $L$ 的微分，得到向量 $g$ :$g = \nabla L(\theta_0)$，$\nabla L$代表梯度

$$ g = \begin{bmatrix} \left. \frac{\partial L}{\partial \theta_1} \right|_{\theta=\theta_0} \\ \left. \frac{\partial L}{\partial \theta_2} \right|_{\theta=\theta_0} \\ \vdots \\ \end{bmatrix} $$ $$ \begin{bmatrix} \theta^1_1 \\ \theta^2_1 \\ \vdots \end{bmatrix} \leftarrow \begin{bmatrix} \theta^1_0 \\ \theta^2_0 \\ \vdots \end{bmatrix} - \eta \begin{bmatrix} \left. \frac{\partial L}{\partial \theta_1} \right|_{\theta=\theta_0} \\ \left. \frac{\partial L}{\partial \theta_2} \right|_{\theta=\theta_0} \\ \vdots \\ \end{bmatrix} $$

即：

$$ \theta^1 \leftarrow \theta^0 - \eta g $$

实际使用梯度下降的时候，会把 $N$ 笔数据随机分成一个一个的批量（batch），把所有的批量都看过一次，称为一个回合（epoch）。

模型变形

Hard Sigmoid不一定非得是Soft Sigmoid，还可以是两个修正线性单元（Rectified Linear Unit，ReLU）的加总。

$$ c \cdot \max(0, b + wx_1) $$

Sigmoid 或 ReLU 称为激活函数（activation function）。 $$ y = b + \sum\limits_{i} c_i \sigma(b_i + \sum\limits_jw_{ij} x_j) $$

$$ y = b + \sum\limits_{2i} c_i max(0,b_i + \sum\limits_jw_{ij} x_j) $$

$$ 训练数据： {(x^1, y^1), (x^2, y^2), \ldots, (x^N, y^N)} $$

$$ 测试数据： x^{N+1}, x^{N+2}, \ldots, x^{N+M} $$

2.深度学习基础

局部极小值与鞍点

局部极小值与鞍点：

判断临界值种类的方法

$ \theta’ $ 附近的 $ L(\theta) $ 可近似为：

$$ L(\theta) \approx L(\theta’) + (\theta - \theta’)^T g + \frac{1}{2} (\theta - \theta’)^T H (\theta - \theta’) $$

上式是泰勒级数近似，$ g_i $ 是向量 $ g $ 的第 $ i $ 个元素，就是 $ L $ 关于 $ \theta $ 的第 $ i $ 个元素的微分，即 $$ g_i = \frac{\partial L(\theta’)}{\partial \theta_i} $$

光看 $g$ 还是没有办法完整地描述 $L(\theta)$，第三项跟海森矩阵（Hessian matrix）$H$ 有关，$H$ 里面是 $L$ 的二次微分。它第 $i$ 行，第 $j$ 列的值 $H_{ij}$ 就是把 $\theta$ 的第 $i$ 个元素对 $L(\theta’)$ 作微分，再把 $\theta$ 的第 $j$ 个元素对 $\frac{\partial L(\theta’)}{\partial \theta_i}$ 作微分后的结果，即 $$ H_{ij} = \frac{\partial^2}{\partial \theta_i \partial \theta_j}L(\theta’) $$

可以根据$\frac{1}{2} (\theta - \theta’)^T H (\theta - \theta’)$来判断在 $ \theta’ $ 附近的误差表面（error surface）到底长什么样子。用向量 $ \mathbf{v} $ 来表示 $ \theta - \theta’ $，$ (\theta - \theta’)^T H (\theta - \theta’) $ 可改写为 $ v^T H v $。

有三种情况：

批量和动量

一般梯度下降：

引入动量：

自适应学习率

在训练时，Loss会来回振荡：

AdaGrad

AdaGrad（Adaptive Gradient）是典型的自适应学习率方法，其能够根据梯度大小自动调整学习率。

梯度下降更新某个参数 $\theta_{t}^{i}$ 的过程为

$$ \theta_{t+1}^{i} \leftarrow \theta_{t}^{i} - \eta g_{t}^{i} $$

$\theta_{t}^{i}$在第 $t$ 个迭代的值减掉在第 $t$ 个迭代参数 $i$ 算出来的梯度。

$$ g_{t}^{i} = \frac{\partial L}{\partial \theta^{i}} \bigg|_{\theta=\theta_t} $$

$g^t_i$ 代表在第 $t$ 个迭代，即 $\theta = \theta_{t}$ 时，参数 $\theta^{i}$ 对损失 $L$ 的微分，学习率是固定的。

现在要有一个随着参数定制化的学习率，即把原来学习率 $\eta$ 变成 $\frac \eta {\sigma^i_t}$。

其中，上标 $i$ 表示参数 $\sigma$ 与参数 $i$ 相关，不同的参数有不同的 $\sigma$；下标 $t$ 表示参数 $\sigma$ 与迭代 $t$ 相关，不同的迭代也会有不同的 $\sigma$。

参数更新过程：

$$ \theta_{1}^{i} \leftarrow \theta_{0}^{i} - \frac \eta {\sigma^i_0}g^i_0 $$ 其中 $\theta^i_0$ 是初始化参数。而 $\sigma_0^i$ 的计算过程为 $$ \sigma_0^i = \sqrt{(g^i_0)^2} = |g^i_0| $$ 第二次更新参数过程为： $$ \theta_{2}^{i} \leftarrow \theta_{1}^{i} - \frac \eta {\sigma^i_1}g^i_1 $$ 其中 $\sigma_{1i}$ 是过去所有计算出来的梯度的平方的平均再开根号，即均方根 $$ \sigma_1^i = \sqrt{\frac{1}{2}\left[\left(g^i_0)^2 + (g_1^i\right)^2\right]} $$

第$t + 1$ 次更新参数的时候： $$ \theta_{t+1}^{i} \leftarrow \theta_{t}^{i} - \frac \eta {\sigma^i_t}g^i_t $$ $$ \sigma_t^i = \sqrt{\frac{1}{t+1}\sum_{k=0}^{t} (g^i_t)^2} $$

RMSProp

同一个参数的同个方向，学习率也是需要动态调整的，于是就有了RMSprop（Root Mean Squared propagation）

第一步与Adarad一样： $$ \sigma_0^i = \sqrt{(g^i_0)^2} = |g^i_0| $$ 第二步更新过程为

$$ \theta_{2}^{i} \leftarrow \theta_{1}^{i} - \frac \eta {\sigma^i_1}g^i_1 $$

$$ \sigma_1^i = \sqrt{\alpha (\sigma_0^i)^2 + (1 - \alpha) (g^i_1)^2} $$

之后亦是如此

Adam

最常用的优化的策略或者优化器（optimizer）是Adam（Adaptive moment estimation）

Adam 可以看作 RMSprop 加上动量

学习率优化

观察下图：

通过学习率调度（learning rate scheduling）可以解决这个问题。 $$ \theta_{t+1}^{i} \leftarrow \theta_{t}^{i} - \frac {\eta_t} {\sigma^i_t} g^i_t $$ 学习率调度中最常见的策略是学习率衰减（learning rate decay），也称为学习率退火（learning rate annealing）。随着参数的不断更新，让 $\eta$ 越来越小

除了学习率下降以外，还有另外一个经典的学习率调度的方式———预热。预热的方法是让学习率先变大后变小，至于变到多大、变大的速度、变小的速度是超参数。

如果读者想要学更多有关预热的东西可参考 Adam 的进阶版———RAdam

LIU L, JIANG H, HE P, et al. On the variance of the adaptive learning rate and beyond [J]. arXiv preprint arXiv:1908.03265, 2019.