单变量线性回归原理解析

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 给出一个房价预测的例子,x轴是房子的大小,y轴是房子的价格,图中标注了一些房子作为数据集,而这些点被称为标注数据(labeled data),利用这样的数据来预测的方法称为:监督学习。监督学习分为两类:分类与回归,此时,作为预测房价的这个例子是监督学习中的回归例子。

Linear Regression with one Variable(单变量线性回归)


Model and Cost Function(模型和损失函数)

给出一个房价预测的例子,x轴是房子的大小,y轴是房子的价格,图中标注了一些房子作为数据集,而这些点被称为标注数据(labeled data),利用这样的数据来预测的方法称为:监督学习。监督学习分为两类:分类与回归,此时,作为预测房价的这个例子是监督学习中的回归例子。

2.png-181.8kB


m代表是数据集的个数,xs是输入变量或者特征,ys是输出变量或者目标变量。

2.png-116.1kB


选择题1
1.png-27.5kB


整个预测的过程可以归结为如下图:

1.png-13.9kB

通过训练数据,将数据输入到算法里面,我们能得到一个关于这个模型的一个假设h,然后利用这个假设h我们将其他输入变量输入到该假设中就会得到我们想要的预测结果y。那么对于单变量的线性回归我们用如下公式来表示:

hθ(x)=θ0+θ1x

线性模型其意思是模型是呈现线性变化的,为什么对于该房价的例子我们要采用单变量的,其原因是该模型的未知参数仅有一个x来决定。


对于假设函数其包含两个参数,θ0θ1,那么如何来确定这两个参数来使得得出的假设函数直线更好的拟合数据集或者换句话说如何才能判断假设函数所产生的误差最小?
1.png-63.2kB
所以,给出如下定义:

minimize12mmi=1(hθ(x(i))y(i))2

hθ(x(i))=θ0+θ1x(i)

第一个公式是最小化预测值与真实值差的平方的值,也叫作均方误差值,是衡量误差的一种方式。第二个公式是我们的假设函数。有时我们更喜欢写成如下形式:

J(θ0,θ1)=12mmi=1(hθ(x(i))y(i))2

minimizeJ(θ0,θ1)


其中的J(θ0,θ1)叫做代价函数(cost function),我们的目的就是最小化代价函数,使得假设函数更加接近真实数据集。为了能更好的解释代价函数我们举个例子并画出能说明其含义的图来:

2.png-136.6kB
2.png-193.8kB

左边的图在坐标系中分别画了三个的点(1,1)(2,2)(3,3),假设这就是我们的数据集,那么现在我们就要对这个数据集进行假设函数的猜测,当然,学过数学的人一眼就能看出在θ0=0θ1=1时,也就是假设函数hθ(x)=x时是最吻合数据集的,但是假如该数据集不会这样简单,不能一眼看出它的拟合线来该怎么办呢?注意到,当假设函数越能拟合数据集时,它的代价函数就越接近0,所以这就是采用代价函数来选择参数θ0θ1从而产生出更好的假设函数来拟合数据集的原因。


选择题2
1.png-45.5kB


刚刚上面的例子图片采用的二维的图像,因为图片中只包含了两个参数,θ1J(θ1),如果是三个参数的图片则会映射到三维的图像上面上:

1.png-210.9kB


在这个三维图片中,图中的图片上的点距离“水平地面”的高度就是它的代价值J(θ0,θ1),或许我们还可以用另外一种图片来表示这个三维图:剖面图或者轮廓图。

1.png-85.4kB
1.png-82.4kB
1.png-79kB

从上到下,左边依次是不同的假设函数直线,右边依次是不同的轮廓图,这三个假设直线一个比一个更接近数据集,所以对应的轮廓图中的代价函数的点会更接近中心区域。所以运用此种图片可以更加直观的来判别假设函数的好坏。


Gradient Desent(梯度下降)

1.png-239.7kB

就像图片中画出的那样,梯度下降就是以最合适的方向来进行递减。假如自己站在一个山峰的某以高度,现在想以最快的速度去山底,所以就会问自己以我现在所在的位置我的四周360度的方向上哪一个方向上可以令我下降最快,然后不断进行迭代和执行,这样终会在某一时刻会到达山底。

3.png-239.8kB

但是又如上图所示,不可避免的当我所站的位置不一样,会下降到不同的山底,而这样的山底其实只是在我当前的视野中的山底并不是真正的山底,所以,此种方法会受限于colorred的选择。换句话说就是会陷入colorred


下面让我们来公式化梯度下降算法:
4.png-47.4kB
其中α叫做学习率(learning rate),θj叫做梯度,colorred


选择题3
2.png-26.3kB


那么公式化完了梯度下降的公式,让我们再来看看这个公式所包含的意义和原理:
1.png-158.3kB
上图中有两个小坐标图,先来看第一个小坐标图,注意到在图的右边有个红点,此时在它当前的位置上的导数是个colorred,所以对于θ1:=θ1αθ1中的α即为倍的某一个正数,所以对于更新后的θ1相当于colorred了,所以更新后的θ1会逐渐靠近图中的谷底。
而第二个小坐标图,注意到在图的左边有个红点,此时在它当前的位置上的导数是个colorred,所以对于θ1:=θ1αθ1中的α即为倍的某一个负数,所以对于更新后的θ1相当于colorred了,所以更新后的θ1也会逐渐靠近图中的谷底。以上就是梯度下降算法的自更新原理。


对于参数α也有选取上的一些注意事项,如果选取的太小则会导致到达最终点的时间过慢,太大的话会导致在最终点附近发生来回震荡(overshoot):
2.png-156.4kB


选择题4
1.png-83.1kB
解析

  • 可以看出当前所在的点已经陷入局部最优了,所以此时的θ不会改变并且会停止迭代。

还有一点是需要注意的,colorred。因为当趋于最优点时其导数会趋于0,所以导致步长越来越小,故只要确定了合适的学习率α就不必担心步长的大小问题了:
1.png-165.5kB


小节测试

小节测试题1
1.png-62.7kB


小节测试题2
2.png-36.1kB


小节测试题3
3.png-8.7kB


小节测试题4
4.png-65.3kB
解析

  • 选项三,α选择过小是有坏处的,会导致函数收敛速度过慢。
  • 选项四,存在局部最优点的函数在进行梯度下降时会因为初始点的选择(θ0,θ1)的不同导致最终收敛结束后的结果不同。

小节测试题5
5_2.png-44.7kB
解析

  • 选项三,J(θ0,θ1)=0并不能说明迭代至了局部最优点了,只能说明假设函数与数据集完全拟合了。

目录
打赏
0
0
0
1
29
分享
相关文章
解析:HTTPS通过SSL/TLS证书加密的原理与逻辑
HTTPS通过SSL/TLS证书加密,结合对称与非对称加密及数字证书验证实现安全通信。首先,服务器发送含公钥的数字证书,客户端验证其合法性后生成随机数并用公钥加密发送给服务器,双方据此生成相同的对称密钥。后续通信使用对称加密确保高效性和安全性。同时,数字证书验证服务器身份,防止中间人攻击;哈希算法和数字签名确保数据完整性,防止篡改。整个流程保障了身份认证、数据加密和完整性保护。
HashMap深度解析:从原理到实战
HashMap,作为Java集合框架中的一个核心组件,以其高效的键值对存储和检索机制,在软件开发中扮演着举足轻重的角色。作为一名资深的AI工程师,深入理解HashMap的原理、历史、业务场景以及实战应用,对于提升数据处理和算法实现的效率至关重要。本文将通过手绘结构图、流程图,结合Java代码示例,全方位解析HashMap,帮助读者从理论到实践全面掌握这一关键技术。
136 14
深入解析云计算中的微服务架构:原理、优势与实践
深入解析云计算中的微服务架构:原理、优势与实践
194 3
深入解析图神经网络注意力机制:数学原理与可视化实现
本文深入解析了图神经网络(GNNs)中自注意力机制的内部运作原理,通过可视化和数学推导揭示其工作机制。文章采用“位置-转移图”概念框架,并使用NumPy实现代码示例,逐步拆解自注意力层的计算过程。文中详细展示了从节点特征矩阵、邻接矩阵到生成注意力权重的具体步骤,并通过四个类(GAL1至GAL4)模拟了整个计算流程。最终,结合实际PyTorch Geometric库中的代码,对比分析了核心逻辑,为理解GNN自注意力机制提供了清晰的学习路径。
213 7
深入解析图神经网络注意力机制:数学原理与可视化实现
深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构
Tiktokenizer 是一款现代分词工具,旨在高效、智能地将文本转换为机器可处理的离散单元(token)。它不仅超越了传统的空格分割和正则表达式匹配方法,还结合了上下文感知能力,适应复杂语言结构。Tiktokenizer 的核心特性包括自适应 token 分割、高效编码能力和出色的可扩展性,使其适用于从聊天机器人到大规模文本分析等多种应用场景。通过模块化设计,Tiktokenizer 确保了代码的可重用性和维护性,并在分词精度、处理效率和灵活性方面表现出色。此外,它支持多语言处理、表情符号识别和领域特定文本处理,能够应对各种复杂的文本输入需求。
92 6
深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构
反向寻车系统怎么做?基本原理与系统组成解析
本文通过反向寻车系统的核心组成部分与技术分析,阐述反向寻车系统的工作原理,适用于适用于商场停车场、医院停车场及火车站停车场等。如需获取智慧停车场反向寻车技术方案前往文章最下方获取,如有项目合作及技术交流欢迎私信作者。
58 2
解析静态代理IP改善游戏体验的原理
静态代理IP通过提高网络稳定性和降低延迟,优化游戏体验。具体表现在加快游戏网络速度、实时玩家数据分析、优化游戏设计、简化更新流程、维护网络稳定性、提高连接可靠性、支持地区特性及提升访问速度等方面,确保更流畅、高效的游戏体验。
87 22
解析静态代理IP改善游戏体验的原理
「ximagine」业余爱好者的非专业显示器测试流程规范,同时也是本账号输出内容的数据来源!如何测试显示器?荒岛整理总结出多种测试方法和注意事项,以及粗浅的原理解析!
本期内容为「ximagine」频道《显示器测试流程》的规范及标准,我们主要使用Calman、DisplayCAL、i1Profiler等软件及CA410、Spyder X、i1Pro 2等设备,是我们目前制作内容数据的重要来源,我们深知所做的仍是比较表面的活儿,和工程师、科研人员相比有着不小的差距,测试并不复杂,但是相当繁琐,收集整理测试无不花费大量时间精力,内容不完善或者有错误的地方,希望大佬指出我们好改进!
144 16
「ximagine」业余爱好者的非专业显示器测试流程规范,同时也是本账号输出内容的数据来源!如何测试显示器?荒岛整理总结出多种测试方法和注意事项,以及粗浅的原理解析!
详细介绍SpringBoot启动流程及配置类解析原理
通过对 Spring Boot 启动流程及配置类解析原理的深入分析,我们可以看到 Spring Boot 在启动时的灵活性和可扩展性。理解这些机制不仅有助于开发者更好地使用 Spring Boot 进行应用开发,还能够在面对问题时,迅速定位和解决问题。希望本文能为您在 Spring Boot 开发过程中提供有效的指导和帮助。
112 12
解锁鸿蒙装饰器:应用、原理与优势全解析
ArkTS提供了多维度的状态管理机制。在UI开发框架中,与UI相关联的数据可以在组件内使用,也可以在不同组件层级间传递,比如父子组件之间、爷孙组件之间,还可以在应用全局范围内传递或跨设备传递。
62 2

推荐镜像

更多
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等