单变量线性回归原理解析-阿里云开发者社区

单变量线性回归原理解析

2017-06-27 5218

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云解析 DNS，旗舰版 1个月

全局流量管理 GTM，标准版 1个月

公共DNS（含HTTPDNS解析），每月1000万次HTTP解析

简介： 给出一个房价预测的例子，x轴是房子的大小，y轴是房子的价格，图中标注了一些房子作为数据集，而这些点被称为标注数据(labeled data)，利用这样的数据来预测的方法称为：监督学习。监督学习分为两类：分类与回归，此时，作为预测房价的这个例子是监督学习中的回归例子。

Linear Regression with one Variable(单变量线性回归)

Model and Cost Function(模型和损失函数)

给出一个房价预测的例子，x轴是房子的大小，y轴是房子的价格，图中标注了一些房子作为数据集，而这些点被称为标注数据(labeled data)，利用这样的数据来预测的方法称为：监督学习。监督学习分为两类：分类与回归，此时，作为预测房价的这个例子是监督学习中的回归例子。

2.png-181.8kB

$m$ 代表是数据集的个数， $x's$ 是输入变量或者特征， $y's$ 是输出变量或者目标变量。

2.png-116.1kB

选择题1
1.png-27.5kB

整个预测的过程可以归结为如下图:

1.png-13.9kB

通过训练数据，将数据输入到算法里面，我们能得到一个关于这个模型的一个假设 $h$ ，然后利用这个假设 $h$ 我们将其他输入变量输入到该假设中就会得到我们想要的预测结果 $y$ 。那么对于单变量的线性回归我们用如下公式来表示：

$h_θ(x) = θ_0 + θ_1x$

线性模型其意思是模型是呈现线性变化的，为什么对于该房价的例子我们要采用单变量的，其原因是该模型的未知参数仅有一个 $x$ 来决定。

对于假设函数其包含两个参数， $θ_0$ 和 $θ_1$ ，那么如何来确定这两个参数来使得得出的假设函数直线更好的拟合数据集或者换句话说如何才能判断假设函数所产生的误差最小？
1.png-63.2kB
所以，给出如下定义：

$minimize{1\over2m}\sum^{m}_{i=1}(h_\theta(x^{(i)})-y^{(i)})^2$

$h_\theta(x^{(i)}) = \theta_0 + \theta_1x^{(i)}$

第一个公式是最小化预测值与真实值差的平方的值，也叫作均方误差值，是衡量误差的一种方式。第二个公式是我们的假设函数。有时我们更喜欢写成如下形式：

$J(\theta_0,\theta_1) = {1\over2m}\sum^{m}_{i=1}(h_\theta(x^{(i)})-y^{(i)})^2$

$minimizeJ(\theta_0,\theta_1)$

其中的 $J(\theta_0,\theta_1)$ 叫做代价函数(cost function),我们的目的就是最小化代价函数，使得假设函数更加接近真实数据集。为了能更好的解释代价函数我们举个例子并画出能说明其含义的图来：

2.png-136.6kB
2.png-193.8kB

左边的图在坐标系中分别画了三个的点 $(1,1)$ ， $(2,2)$ ， $(3,3)$ ，假设这就是我们的数据集，那么现在我们就要对这个数据集进行假设函数的猜测，当然，学过数学的人一眼就能看出在 $\theta_0=0$ ， $\theta_1=1$ 时，也就是假设函数 $h_\theta(x) = x$ 时是最吻合数据集的，但是假如该数据集不会这样简单，不能一眼看出它的拟合线来该怎么办呢？注意到，当假设函数越能拟合数据集时，它的代价函数就越接近 $0$ ，所以这就是采用代价函数来选择参数 $\theta_0$ ， $\theta_1$ 从而产生出更好的假设函数来拟合数据集的原因。

选择题2
1.png-45.5kB

刚刚上面的例子图片采用的二维的图像，因为图片中只包含了两个参数， $\theta_1$ 和 $J(\theta_1)$ ，如果是三个参数的图片则会映射到三维的图像上面上：

1.png-210.9kB

在这个三维图片中，图中的图片上的点距离“水平地面”的高度就是它的代价值 $J(\theta_0,\theta_1)$ ，或许我们还可以用另外一种图片来表示这个三维图：剖面图或者轮廓图。

1.png-85.4kB
1.png-82.4kB
1.png-79kB

从上到下，左边依次是不同的假设函数直线，右边依次是不同的轮廓图，这三个假设直线一个比一个更接近数据集，所以对应的轮廓图中的代价函数的点会更接近中心区域。所以运用此种图片可以更加直观的来判别假设函数的好坏。

Gradient Desent(梯度下降)

1.png-239.7kB

就像图片中画出的那样，梯度下降就是以最合适的方向来进行递减。假如自己站在一个山峰的某以高度，现在想以最快的速度去山底，所以就会问自己以我现在所在的位置我的四周360度的方向上哪一个方向上可以令我下降最快，然后不断进行迭代和执行，这样终会在某一时刻会到达山底。

3.png-239.8kB

但是又如上图所示，不可避免的当我所站的位置不一样，会下降到不同的山底，而这样的山底其实只是在我当前的视野中的山底并不是真正的山底，所以，此种方法会受限于 $color{red}{初始位置}$ 的选择。换句话说就是会陷入 $color{red}{局部最优}$

下面让我们来公式化梯度下降算法：
4.png-47.4kB
其中 $\alpha$ 叫做学习率(learning rate)， ${\partial\over\partial\theta_j}$ 叫做梯度， $color{red}{两者相乘叫做步长}$ 。

选择题3
2.png-26.3kB

那么公式化完了梯度下降的公式，让我们再来看看这个公式所包含的意义和原理：
1.png-158.3kB
上图中有两个小坐标图，先来看第一个小坐标图，注意到在图的右边有个红点，此时在它当前的位置上的导数是个 $color{red}{正数}$ ，所以对于 $\theta_1 := \theta_1 - \alpha{\partial\over\partial\theta_1}$ 中的 $\alpha{\partial\over\partial}$ 即为 $\partial$ 倍的某一个正数，所以对于更新后的 $\theta_1$ 相当于 $color{red}{减小}$ 了，所以更新后的 $\theta_1$ 会逐渐靠近图中的谷底。
而第二个小坐标图，注意到在图的左边有个红点，此时在它当前的位置上的导数是个 $color{red}{负数}$ ，所以对于 $\theta_1 := \theta_1 - \alpha{\partial\over\partial\theta_1}$ 中的 $\alpha{\partial\over\partial}$ 即为 $\partial$ 倍的某一个负数，所以对于更新后的 $\theta_1$ 相当于 $color{red}{增加}$ 了，所以更新后的 $\theta_1$ 也会逐渐靠近图中的谷底。以上就是梯度下降算法的自更新原理。