01 回归算法 - 简介

简介: 今天开始将进入机器学习的回归算法部分,首先介绍一下回归部分涉及到的知识点。一、大纲1、线性回归预测连续值的方法。2、Logistic回归名曰回归,实际上是处理分类的方法。

今天开始将进入机器学习的回归算法部分,首先介绍一下回归部分涉及到的知识点。

一、大纲
1、线性回归

预测连续值的方法。

2、Logistic回归

名曰回归,实际上是处理分类的方法。即处理离散值,是一个二分类的算法。

3、Softmax回归

基于Logistic回归的一种衍生。Logistic回归只能解决二分类的问题,Softmax回归可以解决多分类的问题。

4、梯度下降

梯度下降法是高等数学中的知识点,解决的问题是:对于任意一个目标函数,观测当函数取得极值点时,对应的自变量是多少。
在机器学习中的运用场景是:解决代价函数取得极小值点时,参数θ的取值。

5、Lasso回归

特征抽取、特征选择。

二、什么是回归算法

回归算法是一种有监督的算法。(有预测目标)

回归算法是一种用来构建自变量和应变量之间关系的算法,在机器学习中,应变量是目标值,自变量是特征。回归算法最后得到的是一组特征前的系数,使模型能够尽可能拟合造物主公式。

三、一维到N维

1、一维模型

现在拥有一组房屋面积及其对应房价的数据( x1 =100,房子100平方米。)我们要预测面积和价格的映射关系,构建如下模型:
h(x) = θ0 + θ1x1

h(x) 为房价,x1 为房屋面积,根据大量的数据求出θ0和θ1的值,于是能够构建出一条直线。

如果此时将测试集中的数据投入到模型中,如果模型构建的比较好,可以看到测试集中所有(面积,价格)的点会均匀分布在直线的上下两侧,而且离的直线距离不会太远 (说明方差较小) 。如果测试集中的数据大量分布在直线的上方,或离直线的距离普遍较远,那么说明模型质量不高,需要重新训练。

img_d7a6c5c7e583a2eba7273d8a4b4f10cf.png

2、二维模型

在面积的基础上,增加房间数量这一变量( x1 =100,房子100平方米。x2=3,有三个房间。)

h(x) 为房价,根据大量的数据求出 θ0、 θ1、 θ2的值,于是能够构建出一个平面。我们要预测面积、房间个数和房价的映射关系,构建如下模型:
h(x) = θ0 + θ1x1 + θ2x2

从Y轴向下俯视该平面,可以获得该平面在x1、 x2两坐标轴上的投影。同样,由(x1、 x2)点衍生到平面上后,对应的Y轴值即是对应的房价值y或记作h(x) 。

img_c3ffee75659b84df74e3aef5889c6969.png

3、n维模型
如果有1个特征,我们得到了一条直线模型。
如果有2个特征,我们得到了一个平面。
如果有2个以上的特征呢?
2个特征形成的平面,结合目标值构成了一个三维的图像,对于更高维度的思维结构人类是无法想象出来的。
对于两个以上特征形成的n维模型,我们称之为超平面(Hyperplane)
模型:
h(x) = θ0 + θ1x1 + θ2x2 + … + θnxn
h(x) = Σ θixi( i=0~n )
h(x) = θTX = [θ123,…,θn] * [x1,x2,x3,…,xn]T 即θ矩阵的转置,乘以X的矩阵。
PS:之前提到过,所有特征默认都是列向量,所以上面这个向量的乘法和转置符号的位置没有写错。

4、总结
线性回归的表现形式为:h(x) = θTX
最终要求计算出 θ的值,并选择最优的θ值构成算法公式。

我的博客即将入驻“云栖社区”,诚邀技术同仁一同入驻。

相关文章
|
2月前
|
存储 算法 安全
【加密算法】AES对称加密算法简介
【加密算法】AES对称加密算法简介
|
2月前
|
机器学习/深度学习 算法 安全
【加密算法】RSA非对称加密算法简介
【加密算法】RSA非对称加密算法简介
|
6月前
|
监控 算法 安全
二进制转十进制算法简介及其在监控软件中的应用
在上网行为管理软件中,匈牙利算法主要应用于解决资源分配的问题。上网行为管理软件可能存在多个用户同时访问同一文件或打印机的情况,为了确保资源的公平共享,需要对资源进行分配
181 2
|
7月前
|
算法
文档管理软件中的冰桶算法简介与应用探讨
冰桶算法在文档管理软件中的作用主要是用于控制用户的访问频率和流量,以保证网络的稳定性和安全性。具体来说,它可以通过限制用户的访问速度、设置访问时间段、限制访问次数等方式,来防止用户对网络资源的过度消耗和滥用,从而提高网络的可用性和效率。
118 0
|
4月前
|
缓存 算法 Java
Linux内核新特性年终大盘点-安卓杀后台现象减少的背后功臣MGLRU算法简介
MGLRU是一种新型内存管理算法,它的出现是为了弥补传统LRU(Least Recently Used)和LFU(Least Frequently Used)算法在缓存替换选择上的不足,LRU和LFU的共同缺点就是在做内存页面替换时,只考虑内存页面在最近一段时间内被访问的次数和最后一次的访问时间,但是一个页面的最近访问次数少或者最近一次的访问时间较早,可能仅仅是因为这个内存页面新近才被创建,属于刚刚完成初始化的年代代页面,它的频繁访问往往会出现在初始化之后的一段时间里,那么这时候就把这种年轻代的页面迁移出去
|
11天前
|
算法
|
4月前
|
机器学习/深度学习 数据采集 人工智能
机器学习简介及Hello World级别算法KNN
机器学习简介及Hello World级别算法KNN
|
4月前
|
机器学习/深度学习 算法 Python
蒙特卡洛法的简介以及实战应用(python实现 基于同策略首次访问蒙特卡洛算法 附源码)
蒙特卡洛法的简介以及实战应用(python实现 基于同策略首次访问蒙特卡洛算法 附源码)
55 0
|
4月前
|
算法
数值分析算法(简介)
数值分析算法(简介)
|
9月前
|
算法 数据安全/隐私保护
DH加密算法使用简介
RSA与DH算法的区别,Curve25519椭圆曲线算法的验签逻辑
147 0

热门文章

最新文章