机器学习之——神经网络学习-阿里云开发者社区

机器学习之——神经网络学习

2016-05-31 2775

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 很久没更新博客了，这一次我们继续之前的机器学习的课程，这一节我们讨论机器学习里面重要的一个算法——神经网络(Nerual Network)的学习部分。神经网络的代价函数首先我们要引入一些标记，以便在后面讨论中使用：我们回想一下，在逻辑回归(Logistic Regression)问题中，我们的代价函数(Cost Function)如下：在逻辑回归中，我们只有一个输出

很久没更新博客了，这一次我们继续之前的机器学习的课程，这一节我们讨论机器学习里面重要的一个算法——神经网络(Nerual Network)的学习部分。

神经网络的代价函数

首先我们要引入一些标记，以便在后面讨论中使用：

我们回想一下，在逻辑回归(Logistic Regression)问题中，我们的代价函数(Cost Function)如下：

在逻辑回归中，我们只有一个输出变量，又称作标量(Scalar)，也只有一个因变量y，但是在神经网络中，我们可以有很多输出变量，我们的hø(x)是一个维度为K的向量，并且我们训练集中的因变量也是同样维度的一个向量，因此我们的代价函数会比逻辑回归更加复杂一些，如下所示：

这个代价函数看起来复杂很多，但是背后的思想还是一样的。我们希望能够通过代价函数来观察算法预测的结果与真实情况的误差有多大，唯一不同的是，对于每一行特征，我们都会给出K个预测，基本上我们可以利用循环，对每一行特征都预测K个不同的结果，然后再利用循环在K个预测中选择可能性最大的一个，将其与y中的实际数据进行对比。

归一化的哪一项只是排除了每一层的ø0后，每一层的ø矩阵的和。最里层的循环 j 循环所有的行(由si +1层的激活单元书决定)，循环 i 则循环所有的列，由该层(si 层)的激活单元数所决定。

反向传播算法(Backpropagation Algorithm)

之前我们在计算神经网络预测结果的时候，我们采用了一种正向传播方法，我们从第一层开始正向一层一层进行计算，直到最后一层的hø(x)。

现在，为了计算代价函数的偏导数：

我们需要采用一种反向传播算法，也就是首先计算最后一层的误差，然后再一层一层反向求出各层的误差，直到倒数第二层。

我们用一个例子来说明反向传播算法。

假设，我们的训练集只有一个实例（x(1), y(1)），我们的神经网络是一个四层的神经网络，其中：K=4，SL=4，L=4

我们从最后一层的误差开始计算，误差是激活单元的预测（）与实际值（yk）之间的误差（k=1:K）。我们用来表示误差，则：

我们利用这个误差值来计算前一层的误差：

其中g'(Z(3))是S形函数的导数，g'(Z(3))=a(3).*(1-a(3))。而则是权重导致的误差的和。

下一步是继续计算第二层的误差：

因为第一层是输入变量，不存在误差。我们有了所有的误差的表达式之后，便可以计算代价函数的偏导数了，假设λ=0，即我们不做任何归一化处理时有：

重要的是清楚地知道上面式子中上下标的含义：

如果我们考虑归一化处理，并且我们的训练集是一个特征矩阵而非向量。在上面的特殊情况中，我们需要计算每一层的误差单元来计算代价函数的偏导数。在更为一般的情况中，我们同样需要计算每一层的误差单元，但是我们需要为整个训练集计算误差单元，此时的误差单元也是一个矩阵，我们用来表示这个误差矩阵。第 l 层的第 i 个激活单元收到第 j 个参数影响而导致的误差。