线性回归之——最小二乘法-阿里云开发者社区

一、引言

这段时间学习《机器学习》，学到第5章的“Logistic回归”，感觉相当吃力。追本溯源，从“Logistic回归”到“线性回归”，再到“最小二乘法”。最终定格到了《高等数学》（第六版·下册）第九章第10节“最小二乘法”，这才了解到最小二乘法背后的数学原理出自哪里。

“最小二乘法”是最优化问题中建立经验公式的一种实现方法。了解它的原理，对于了解“Logistic回归”和“支持向量机的学习”都很有裨益。

二、背景知识

“最小二乘法”出现的历史背景是很有意思的。（以下文字摘录维基百科）

1801年，意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后，由于谷神星运行至太阳背后，使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星，但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯也计算了谷神星的轨道。奥地利天文学家海因里希·奥尔伯斯根据高斯计算出来的轨道重新发现了谷神星。

高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中，而法国科学家勒让德于1806年独立发现“最小二乘法”，但因不为时人所知而默默无闻。两人曾为谁最早创立最小二乘法原理发生争执。

1829年，高斯提供了最小二乘法的优化效果强于其他方法的证明，见高斯-马尔可夫定理。

三、知识运用

“最小二乘法”的核心就是保证所有数据偏差的平方和最小。（“平方”的在古时侯的称谓为“二乘”）

假设我们收集到一些战舰的长度与宽度数据

	1	2	3	4	5	6	7	8	9	10
长度（m）	208	152	113	227	137	238	178	104	191	130
宽度(m)	21.6	15.5	10.4	31.0	13.0	32.4	19.0	10.4	19.0	11.8

根据这些数据我们用python画出散点图：

画散点图的代码如下：

 
        # -*- coding: utf-8 -*
       
        import 
        numpy as np 
       
        import 
        os 
       
        import 
        matplotlib.pyplot as plt 
       
        def 
        drawScatterDiagram(fileName): 
       
        #改变工作路径到数据文件存放的地方 
       
        os.chdir(
        "d:/workspace_ml"
        ) 
       
        xcord
        =
        [];ycord
        =
        [] 
       
        fr
        =
        open
        (fileName) 
       
        for 
        line 
        in 
        fr.readlines(): 
       
        lineArr
        =
        line.strip().split() 
       
        xcord.append(
        float
        (lineArr[
        1
        ]));ycord.append(
        float
        (lineArr[
        2
        ])) 
       
        plt.scatter(xcord,ycord,s
        =
        30
        ,c
        =
        'red'
        ,marker
        =
        's'
        ) 
       
        plt.show()

假如我们取前两个点（238,32.4）（152, 15.5）就可以得到两个方程

152*a+b=15.5

328*a+b=32.4

解这两个方程得 a=0.197,b=-14.48

那样的话，我们可以得到这样的拟合图：

好了，新的问题来了，这样的a,b是不是最优解呢？用专业的说法就是：a,b是不是模型的最优化参数？在回答这个问题之前，我们先解决另外一个问题：a,b满足什么条件才是最好的？答案是：保证所有数据偏差的平方和最小。至于原理，我们会在后面讲，先来看看怎么利用这个工具来计算最好的a和b。

假设所有数据的平方和为M，则

我们现在要做的就是求使得M最小的a和b。请注意这个方程中，我们已知yⁱ和xⁱ

那其实这个方程就是一个以（a,b）为自变量，M为因变量的二元函数。

回想一下高数中怎么对一元函数就极值。我们用的是导数这个工具。那么在二元函数中，

我们依然用导数。只不过这里的导数有了新的名字“偏导数”。偏导数就是把两个变量中的一个视为常数来求导。

通过对M来求偏导数，我们得到一个方程组

这两个方程中x_i和y_i都是知道的。

很容易就求得a和b了。由于采用的是维基百科的数据，我这里就直接用答案来画出拟合图像：

代码如下：

 
        # -*- coding: utf-8 -*importnumpy as npimportosimportmatplotlib.pyplot as pltdefdrawScatterDiagram(fileName):#改变工作路径到数据文件存放的地方os.chdir("d:/workspace_ml")xcord=[];ycord=[]fr=open(fileName)forline infr.readlines():lineArr=line.strip().split()xcord.append(float(lineArr[1]));ycord.append(float(lineArr[2]))plt.scatter(xcord,ycord,s=30,c='red',marker='s')#a=0.1965;b=-14.486a=0.1612;b=-8.6394x=np.arange(90.0,250.0,0.1)y=a*x+bplt.plot(x,y)plt.show()

 
        # -*- coding: utf-8 -*
       
        import 
        numpy as np 
       
        import 
        os 
       
        import 
        matplotlib.pyplot as plt 
       
        def 
        drawScatterDiagram(fileName): 
       
        #改变工作路径到数据文件存放的地方 
       
        os.chdir(
        "d:/workspace_ml"
        ) 
       
        xcord
        =
        [];ycord
        =
        [] 
       
        fr
        =
        open
        (fileName) 
       
        for 
        line 
        in 
        fr.readlines(): 
       
        lineArr
        =
        line.strip().split() 
       
        xcord.append(
        float
        (lineArr[
        1
        ]));ycord.append(
        float
        (lineArr[
        2
        ])) 
       
        plt.scatter(xcord,ycord,s
        =
        30
        ,c
        =
        'red'
        ,marker
        =
        's'
        ) 
       
        #a=0.1965;b=-14.486 
       
        a
        =
        0.1612
        ;b
        =
        -
        8.6394 
       
        x
        =
        np.arange(
        90.0
        ,
        250.0
        ,
        0.1
        ) 
       
        y
        =
        a
        *
        x
        +
        b 
       
        plt.plot(x,y) 
       
        plt.show()