机器学习实战之Logistic回归-阿里云开发者社区

机器学习实战之Logistic回归

2018-06-14 1031

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 写在前面Logistic回归涉及到高等数学，线性代数，概率论，优化问题。本文尽量以最简单易懂的叙述方式，以少讲公式原理，多讲形象化案例为原则，给读者讲懂Logistic回归。

写在前面

Logistic回归涉及到高等数学，线性代数，概率论，优化问题。本文尽量以最简单易懂的叙述方式，以少讲公式原理，多讲形象化案例为原则，给读者讲懂Logistic回归。如对数学公式过敏，引发不适，后果自负。

Logistic回归原理与推导

Logistic回归中虽然有回归的字样，但该算法是一个分类算法，如图所示，有两类数据（红点和绿点）分布如下，如果需要对两类数据进行分类，我们可以通过一条直线进行划分（w0 * x0 + w1 * x1+w2 * x2）。当新的样本（x1,x2）需要预测时，带入直线函数中，函数值大于0，则为绿色样本（正样本），否则为红样本（负样本）。
推广到高维空间中，我们需要得到一个超平面（在二维是直线，在三维是平面，在n维是n-1的超平面）切分我们的样本数据，实际上也就是求该超平面的W参数，这很类似于回归，所以取名为Logistic回归。

img_a39bbd3e15c897177f2dce287c6071be.jpe

img_ebd206425d5d79e3cc3ea20c2b6a6cf0.jpe

sigmoid函数

当然，我们不直接使用z函数，我们需要把z值转换到区间[0-1]之间，转换的z值就是判断新样本属于正样本的概率大小。
我们使用sigmoid函数完成这个转换过程，公式如下。通过观察sigmoid函数图，如图所示，当z值大于0时，σ值大于0.5，当z值小于0时，σ值小于于0.5。利用sigmoid函数，使得Logistic回归本质上是一个基于条件概率的判别模型。

img_02d9397ea0f96b17cd5f04df936e7103.jpe

目标函数

其实，我们现在就是求W，如何求W呢，我们先看下图，我们都能看出第二个图的直线切分的最好，换句话说，能让这些样本点离直线越远越好，这样对于新样本的到来，也具有很好的划分，那如何用公式表示并计算这个目标函数呢？

我们把sigmoid公式应用到z函数中：

img_69ed6f960f072211c79911c9c21630fc.jpe

通过条件概率可推出下面公式，对公式进行整合为一个，见下。

img_e5409cd904ddc841cfc1dbafb5056f5a.jpe

img_1c60a163861b5784fad6e6085a2d95a1.jpe

假定样本与样本之间相互独立，那么整个样本集生成的概率即为所有样本生成概率的乘积：

img_cc8f6a43f6e0da962b0249ce2b2eabfc.jpe

这个公式过于复杂，不太容易求导，这里通过log转换：

img_546e24954437e3298c1e410b0df6d92b.jpe

这时就需要这个目标函数的值最大，以此求出θ。

梯度上升法

在介绍梯度上升法之前，我们看一个中学知识：求下面函数在x等于多少时，取最大值。

函数图：

解：求f(x)的导数：2x，令其为0，求得x=0时，取最大值为0。但在函数复杂时，求出导数也很难计算函数的极值，这时就需要使用梯度上升法，通过迭代，一步步逼近极值，公式如下，我们顺着导数的方向（梯度）一步步逼近。

img_1e3555c04d9b3f1cec2a0defda6e2892.jpe

利用梯度算法计算该函数的x值：

def f(x_old):
         return -2*x_old
    
def cal():
     x_old  = 0
     x_new = -6
     eps = 0.01
     presision = 0.00001
     while abs(x_new-x_old)>presision:
        x_old=x_new
        x_new=x_old+eps*f(x_old)
     return x_new

-0.0004892181072978443

目标函数求解

这里，我们对函数求偏导，得到迭代公式如下：

Logistic回归实践

数据情况

读入数据，并绘图显示：

def loadDataSet():
    dataMat = [];labelMat = []
    fr = open('数据/Logistic/TestSet.txt')
    for line in fr.readlines():
        lineArr = line.strip().split()
        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])
        labelMat.append(int(lineArr[2]))
    return dataMat, labelMat

训练算法

利用梯度迭代公式，计算W：

def sigmoid(inX):
    return 1.0/(1 + np.exp(-inX))

def gradAscent(dataMatIn, labelMatIn):
    dataMatrix = np.mat(dataMatIn)
    labelMat = np.mat(labelMatIn).transpose()
    m,n = np.shape(dataMatrix)
    alpha = 0.001
    maxCycles = 500
    weights = np.ones((n,1))
    for k in range(maxCycles):
        h = sigmoid(dataMatrix * weights)
        error = labelMat - h
        weights = weights + alpha * dataMatrix.transpose() * error
    return weights

通过计算的weights绘图，查看分类结果：

16.png

算法优缺点

优点：易于理解和计算
缺点：精度不高

写在最后

最近在运营自己的原创公众号，以后文章会在公众号首发，希望各位读者多多关注支持。
万水千山总是情，点波关注行不行。