应用统计学与R语言实现笔记(番外篇一)——判别分析更正

简介: 最近经历了很多事情,一言难尽。终究还是要回来更新博客的。新的一年先把旧的问题解决了再来开始新篇章。在年前有两位小伙伴指出了我在判别分析一章中的一些问题。主要针对这篇做些拓展和讨论。

最近经历了很多事情,一言难尽。终究还是要回来更新博客的。新的一年先把旧的问题解决了再来开始新篇章。在年前有两位小伙伴指出了我在判别分析一章中的一些问题。主要针对这篇做些拓展和讨论。

应用统计学与R语言实现学习笔记(十一)——判别分析

1 两位细心的读者

这里要感谢两位非常细心的读者,第一位是Accelerator。

第二位是位来自UESTC的大三本科小鲜肉。

这两位细心的读者对博客中的一些公式提出了一些问题。对此,作为作者表示非常衷心的感谢。也说声抱歉,由于家里和学习上的事情,一直耽搁着没有好好修改。接下来主要针对这些部分来谈谈。

2 主要问题及解决

1 Accelerator的问题。

关于这个下标确实是我这边的问题,出现了错误,目前已订正。

2 来自UESTC大三小鲜肉的问题

这位小鲜肉非常仔细阅读了博客,并且提出了如下的几个问题。

1.这两张图是一个问题,主要是两总体协方差相等情况下的推导过程。

2.这张图是关于W的下标问题。

3.单位向量与投影的问题。

由于这位童鞋问题较多且细致,故针对此一一回答。

第一个部分的推导问题,事实上这位童鞋的理解并没有问题,代换也是没有问题的,他的理解没有错,而我这边主要有个地方写的不对,就是关于总体的协方差与样本估计的协方差符号搞混了。其他的只是符号选用的不同,实质是一样的。为了确保大家这部分不会有其他问题,我在这里重新整理和推导一下。

  • $\Sigma_1=\Sigma_2=\Sigma$
    定义:

$$ \begin{aligned} d^2(x,G_1)-d^2(x,G_2) & =(x-\mu_1)'\Sigma^{-1}(x-\mu_1)-(x-\mu_2)'\Sigma^{-1}(x-\mu_2) \\ &=-2[x-(\mu_1+\mu_2)/2]'\Sigma^{-1}(\mu_1-\mu_2) \end{aligned} $$

令:$ \bar\mu=(\mu_1+\mu_2)/2, \alpha=\Sigma^{-1}(\mu_1-\mu_2) $,
所以$ W(x)=(x-\bar\mu)'\alpha=\alpha'(x-\bar\mu) $
判别规则:

如果W(x)>0,d(x,$G_1$) < d(x,$G_2$)则$x\in G_1$
如果W(x)<0,d(x,$G_,1$) > d(x,$G_2$)则$x\in G_2$
如果W(x)=0,d(x,$G_1$) = d(x,$G_2$)则待判。

称W(x)为判别函数(discriminant function),α为判别系数。
当$\mu_1,\mu_2,\Sigma$未知时,可通过样本来估计。
$ x_1^{(i)},\cdots,x_{n_i}^{(i)} $为来自$G_i$的样本(i=1,2)。
根据样本估计总体,有如下公式:

$$ \hat\mu^{(i)}=\frac{1}{n_i}\sum_{k=1}^{n_2}x_k^{(i)}=\bar x^{(i)},\hat \Sigma=\frac{1}{n_1+n_2-2}(S_1+S_2), $$

$$ S_i=\sum_{t=1}^{n_i}(x_t^{(i)}-\bar x^{(i)})(x_t^{(i)}-\bar x^{(i)})',\bar x=\frac{1}{2}(\bar x^{(1)}+\bar x^{(2)}) $$

因此最后的判别函数为$W(x)=(x-\bar x)'\hat \Sigma^{-1}(\bar x^{(1)}-\bar x^{(2)})$
实质上由于$\hat \mu^{(i)}=\frac{1}{n_i}\sum_{k=1}^{n_2}x_k^{(i)}=\bar x^{(i)}$,也就是 $\hat\mu^{(i)}=\bar x^{(i)}$,所以上面那位童鞋把x全部换成$\mu$也是没有什么问题,当然不换按原来的写法也不能说错。

第二个部分的问题确实是下标少了个ij,这里需要订正。

第三个部分的问题笔者查阅了何晓群《多元统计分析》的原文,发现原文也没有加上单位向量描述,但我也感觉应该是单位向量才会有那个结果,也参考了周志华《机器学习》西瓜书里的描述,不过感觉反而有点晕。但是感觉略有争议,我目前这个没修改,维持原文。后续可能还会有新的更正。

3 后记

本份笔记主要来源于笔者上的一门选修课《应用统计学》,笔记内容基于任课老师的ppt和我的部分感悟整理而得。参考书籍主要是贾俊平的《统计学》和何晓群的《多元统计分析》(本篇修正的内容主要在这本书上),有兴趣的同学可以自行翻阅原文。

这份笔记在Github也受到一部分人的star,我不知道究竟有多少人会读到这本书,如果有幸能为大家在学习统计学和R语言上增加一些帮助,我很荣幸。而这次番外篇我更想说的是我当时做这么一个开源的电子书和仓库也是希望有更多的人来帮助让这份笔记更友好,虽然我曾打趣地说修改意见坚决不改,其实也是开个玩笑,希望大家能够一起让这份笔记越来越好。

目录
相关文章
|
1天前
|
移动开发 数据可视化
R语言两层2^k析因试验设计(因子设计)分析工厂产量数据和Lenth方法检验显著性可视化|数据分享(二)
R语言两层2^k析因试验设计(因子设计)分析工厂产量数据和Lenth方法检验显著性可视化|数据分享(二)
|
1天前
|
自然语言处理 算法 数据挖掘
【视频】文本挖掘:主题模型(LDA)及R语言实现分析游记数据
【视频】文本挖掘:主题模型(LDA)及R语言实现分析游记数据
|
2天前
|
数据挖掘 算法
灰色关联分析(Grey Relation Analysis,GRA)中国经济社会发展指标
灰色关联分析(Grey Relation Analysis,GRA)中国经济社会发展指标
17 0
灰色关联分析(Grey Relation Analysis,GRA)中国经济社会发展指标
|
2天前
|
数据挖掘
R语言预测期货波动率的实现:ARCH与HAR-RV与GARCH,ARFIMA模型比较
R语言预测期货波动率的实现:ARCH与HAR-RV与GARCH,ARFIMA模型比较
14 0
R语言预测期货波动率的实现:ARCH与HAR-RV与GARCH,ARFIMA模型比较
|
2天前
|
存储 资源调度 数据可视化
R语言STAN贝叶斯线性回归模型分析气候变化影响北半球海冰范围和可视化检查模型收敛性
R语言STAN贝叶斯线性回归模型分析气候变化影响北半球海冰范围和可视化检查模型收敛性
27 7
|
2天前
|
数据可视化 数据挖掘
R语言中的生存分析Survival analysis晚期肺癌患者4例
R语言中的生存分析Survival analysis晚期肺癌患者4例
67 7
|
2天前
|
数据挖掘 C语言
R语言极值理论 EVT、POT超阈值、GARCH 模型分析股票指数VaR、条件CVaR:多元化投资组合预测风险测度分析
R语言极值理论 EVT、POT超阈值、GARCH 模型分析股票指数VaR、条件CVaR:多元化投资组合预测风险测度分析
39 6
|
2天前
R语言估计多元标记的潜过程混合效应模型(lcmm)分析心理测试的认知过程
R语言估计多元标记的潜过程混合效应模型(lcmm)分析心理测试的认知过程
18 0
|
2天前
|
算法 Linux Python
R语言BUGS序列蒙特卡罗SMC、马尔可夫转换随机波动率SV模型、粒子滤波、Metropolis Hasting采样时间序列分析
R语言BUGS序列蒙特卡罗SMC、马尔可夫转换随机波动率SV模型、粒子滤波、Metropolis Hasting采样时间序列分析
33 8
|
2天前
|
前端开发 数据建模 计算机视觉
R语言主成分回归(PCR)、 多元线性回归特征降维分析光谱数据和汽车油耗、性能数据
R语言主成分回归(PCR)、 多元线性回归特征降维分析光谱数据和汽车油耗、性能数据
29 8