≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(二)

简介: <p style="margin-top:0px; margin-bottom:0.7em; padding-top:0px; padding-bottom:0px; color:rgb(102,102,102); font-family:verdana; font-size:14px; line-height:24.00006103515625px"> 继续一周一次的课堂笔记 <spa

继续一周一次的课堂笔记 :D 昨天去晚了站着听讲,感觉好好啊,注意各种集中。想想整个教室里面就是我和老师是站着的,自豪感油然而生。

第二次课讲的东西依旧比较简单,是这本书第二章的前半部分。作为一个好久之前已经预习过的孩子,我表示万分的得意(最小二乘法难道不是三四年前就学过的?话说以后我再面人的时候,就让他推导最小二乘估计量,嘻嘻...考验一下基本功)。

------------原谅我的废话,笔记开始------------

简单预测方法:最小二乘法(以下沿用计量经济学的习惯,简称OLS)

OLS实在是太普遍了,我就不赘述细节了。OLS的思想就是,基于已有的样本信息,找出一条直线,让预测值与真实值之间的残差平方和最小,即n(yy^)2最小。其中,y为真实的样本观测值(已有样本),而y^是OLS的预测值。用图来讲的话,X为一维向量的时候,就是用一条直线来最好的拟合各个样本点。

这里就很明显了,首先OLS假设是一条直线。那么就是一个参数模型,即我们需要假设一个未知的参数β,构成一个线性方程y=βx,然后再去估计β的值。然后呢,直线会有很多条,所以我们要找到一个目标——比如这里,就是最小化残差平方和RSS。换言之,我们寻找的就是最优的向量β^使得RSS最小。

解这个最优化问题很简单,我就不重复了。最后解得的最优估计量为:

β^=(XX)1XY

这里写成矩阵形式,比较简单。X为一维向量的时候,可以改写成形式,我个人不大喜欢,就不展开了。

简单预测方法:K近邻(k nearest neighbor)

K近邻的思想就更简单了。不就是想预测某个点x对应的y么?那么就把它的邻居都找来,平均一下好了。不是有句话叫做什么“一个人的收入就大概是他的圈子收入的平均值么?”

所以 y^=mean(yi|xiNk(x)),这里Nk(x)表示点x的K近邻。至于这个近邻怎么定义嘛,嘻嘻,很简单啊,欧几里德距离就可以嘛~

评语:吴老师对于这两个算法的直观评价是,OLS呢就是勤奋的学生,预测前先做足功课,预测的时候只要知道X,噼里啪啦一下子y就估计出来了。然而knn则是一个临时抱佛脚的学生,预测的时候开始找自己的k近邻,然后把它们平均一下就好了。哈哈,大意如此,大家可以体会一下这种精神。我个人感觉呢,OLS属于以不变应万变的,而knn则是见机行事的。

统计决策理论(Statistical Decision Theory)

说了这么多,这个模型好不好到底怎么判读呢?凡事总得有个标准呢。这一系列的标准或者说准则,就是统计决策理论了。

首先呢,大致我们需要对X,Y有个分布上的描述:用P(X,Y)记作向量(X,Y)的联合分布,然后p(X,Y)为其对应的密度函数。之后为了估计Y,我们会有很多很多模型,即各种f(X),而这些f(X)组成的函数空间记为F

然后我们定义一个损失函数,比如在均方误差意义下,L(Y,f(X)=(Yf(X))2,这样就有了一个选择的标准——使得损失函数的期望最小:EPE(f)=E(Yf(X))2=[yf(x)]2P(dx,dy)。接下来就是,到底在F空间里面,哪一个f最符合这个标准呢?

首先自然是把联合分布变为条件分布。这个idea显而易见——我们总是知道X的(原谅我吧,全中文确实比较难写,偶尔穿插英文一下 ^_^)。所以conditional on X,我们就有了

EPE(f)=[yf(x)]2P(dx,dy)=x{y[yf(x)]2p(y|x)dy}p(x)dx

去解最小化问题,最终我们得到的就是在每个点X上, f(X)=E(y|X=x)。通俗的讲就是,对于每个点预测,把和它X向量取值一样的样本点都找出来,然后取他们的平均值就可以了。很直观的不是么?这里也有点最大似然的想法呢——比如预测一个男孩的身高,最保险的就是把和它同龄的其他男孩的身高平均一下,不是么?

但是说来简单啊,很多时候P(X,Y)都是未知的,根本无法计算嘛。所以只能近似:

  • 回忆一下knn,就是放松了两点:1) xk取的是x的近邻,而不一定是x; 2)用样本平均数代替了期望
  • 而OLS呢,也是最后在E(β)=E[(XX)1XY]这里,用样本平均代替了期望。

近似嘛,自然有好的近似和不好的近似。很显然的,当样本比较大、尤其是比较密集的时候,x的邻居应该都离x很近,所以这个误差可以减小;此外,当样本很大的时候,根据大数定律,平均数收敛于期望。所以,这两种算法应该说,都在大样本下会有更好的效果。

模型选择、训练误差与测试误差、过拟合

这里讲的比较简单。模型选择就是F的选择,即选择哪一类函数空间F,然后再其中找/估计最优的f(X)。很显然,如果只有若干个有限的样本,我们总能把各个样本用直线或者曲线依次连起来,这样的话就有无数个f可以作为此问题的解。显然这不是我们想要的——这样的称为“不设定问题”,即可能无解、可能多个解、还可能因为一点点X的变化导致整个解的解答变化。因此我们需要先设定一个解的类别。

训练误差:预测模型估计值与训练数据集之间的误差。RSS就是一个典型的训练误差组成的残差平方和。

测试误差:用训练集以外的测试数据集带来的误差,显然我们更关心的是测试误差——训练总能训练的很好,让损失函数期望最小,然而测试集则不一定这样。一般说来,测试误差>训练误差。

过拟合:选择一个很复杂的f,使得训练误差很小,而实际的测试误差不一定小。最极端的就是刚才说的,把训练集的点一个个依次连起来...训练误差肯定是0是不是?

我们关心的自然是怎么降低测试误差。显然这东西会跟训练误差有关,但是它还跟f的复杂度有关。最最棘手的就是,f的复杂度是一个难以衡量的问题。早期的研究有用自由度来衡量这个复杂度的,但是也不是那么的靠谱...后面的有人鼓捣出来PAC(使得近似正确的概率最大——吴老师原话),还有一个VC来衡量复杂度——但几乎实践中无法计算,没几个计算出来的。嗯,水很深哇。

相关文章
|
3月前
|
机器学习/深度学习 算法 固态存储
【论文泛读】 Deep Learning 论文合集
【论文泛读】 Deep Learning 论文合集
|
8月前
|
机器学习/深度学习 自然语言处理 监控
Lecture 1:强化学习简介
Lecture 1:强化学习简介
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
第一周:深度学习引言(Introduction to Deep Learning)
在cousera的这一系列也叫做专项课程中,在第一门课中(神经网络和深度学习),你将学习神经网络的基础,你将学习神经网络和深度学习,这门课将持续四周,专项课程中的每门课将持续2至4周。
70 0
|
机器学习/深度学习 算法 数据挖掘
周志华《Machine Learning》学习笔记(1)--绪论
机器学习是目前信息技术中最激动人心的方向之一,其应用已经深入到生活的各个层面且与普通人的日常生活密切相关。
101 0
周志华《Machine Learning》学习笔记(1)--绪论
|
机器学习/深度学习 Web App开发 人工智能
全球名校AI课程库(7)| Berkeley伯克利 · 深度神经网络设计、可视化与理解课程『Deep Learning: Designing, Visualizing and Understand』
课程以深度学习的典型方法、模型设计、可视化与模型理解为主题,讲解了自然语言处理、计算机视觉、强化学习等领域的AI模型全域知识。
2165 1
全球名校AI课程库(7)| Berkeley伯克利 · 深度神经网络设计、可视化与理解课程『Deep Learning: Designing, Visualizing and Understand』
|
机器学习/深度学习 人工智能 自然语言处理
全球名校AI课程库(20)| Stanford斯坦福 · 图机器学习课程『Machine Learning with Graphs』
课程对于graph方向的数据挖掘、机器学习(神经网络)有全面的知识覆盖。如果想学习非结构化的图数据上的各类算法,这是最权威的课程之一。
2257 1
全球名校AI课程库(20)| Stanford斯坦福 · 图机器学习课程『Machine Learning with Graphs』
|
机器学习/深度学习 资源调度 并行计算
李宏毅2021春季机器学习课程视频笔记1:Introduction, Colab & PyTorch Tutorials, HW1
李宏毅2021春季机器学习课程视频笔记1:Introduction, Colab & PyTorch Tutorials, HW1
李宏毅2021春季机器学习课程视频笔记1:Introduction, Colab & PyTorch Tutorials, HW1
|
机器学习/深度学习 人工智能 搜索推荐
cs224w(图机器学习)2021冬季课程学习笔记1 Introduction; Machine Learning for Graphs
cs224w(图机器学习)2021冬季课程学习笔记1 Introduction; Machine Learning for Graphs
cs224w(图机器学习)2021冬季课程学习笔记1 Introduction; Machine Learning for Graphs
|
机器学习/深度学习 人工智能 自然语言处理
吴恩达《Machine Learning》精炼笔记 11:推荐系统
吴恩达《Machine Learning》精炼笔记 11:推荐系统
169 0
吴恩达《Machine Learning》精炼笔记 11:推荐系统
|
机器学习/深度学习 算法
吴恩达《Machine Learning》精炼笔记 6:关于机器学习的建议
吴恩达《Machine Learning》精炼笔记 6:关于机器学习的建议
147 0
吴恩达《Machine Learning》精炼笔记 6:关于机器学习的建议