《大数据分析原理与实践》一一-阿里云开发者社区

《大数据分析原理与实践》一一

2017-07-03 2378

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章计算机《大数据分析原理与实践》一书中的第3章，第3.3节,作者：王宏志更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.3　相关分析

相关关系是一种非确定性的关系，例如，以X和Y分别表示一个人的身高和体重，或分别表示每公顷施肥量与每公顷小麦产量，则X与Y显然有关系，而又没有确切到可由其中的一个去精确地决定另一个的程度，这就是相关关系。在一些问题中，不仅经常需要考察两个变量之间的相关程度，而且还经常需要考察多个变量与多个变量之间即两组变量之间的相关关系。典型相关分析就是研究两组变量之间相关程度的一种多元统计分析方法。
典型相关分析是研究两组变量之间相关关系的一种统计分析方法。为了研究两组变量X1，X2，…，Xp和Y1，Y2，…，Yq之间的相关关系，采用类似于主成分分析（将在9.2节中介绍）的方法，在两组变量中，分别选取若干有代表性的变量组成有代表性的综合指数，通过研究这两组变量之间的相关关系，来代替这两组变量之间的相关关系，这些综合指数称为典型变量。
其基本思想是，首先在每组变量中找到变量的线性组合，使得两组线性组合之间具有最大的相关系数。然后选取和最初挑选的这对线性组合不相关的线性组合，使其配对，并选取相关系数最大的一对，如此继续下去，直到两组变量之间的相关性被提取完毕为止。被选取的线性组合配对称为典型变量，它们的相关系数称为典型相关系数。典型相关系数度量了这两组变量之间联系的强度。
我们用一个例子说明相关分析。为了研究家庭特征与家庭消费之间的关系，调查了70个家庭的下面两组变量之间的关系，见表3-6～表3-10。

两个反映消费的指标与第一对典型变量中U1的相关系数分别为0.9866和0.8872，可以看出U1可以作为消费特性的指标，第一对典型变量中V1与y2之间的相关系数为0.9822，可见典型变量V1主要代表了家庭收入，U1和V1的相关系数为0.6879，这就说明家庭的消费与一个家庭的收入之间关系是很密切的；第二对典型变量中U2和x2的相关系数为0.4614，可以看出U2可以作为文化消费特性的指标，第二对典型变量中V2与y1和y3之间的相关系数分别为0.8464和0.3013，可见典型变量V2主要代表了家庭成员的年龄特征和教育程度，U2和V2的相关系数是0.1869，说明文化程度与年龄和受教育程度之间的相关性。

基于阿里云的相关分析
下面我们用一个例子来说明如何基于阿里云平台进行相关分析。
Center for World University Rankings组织对全世界大部分大学进行了排名，其排名根据教育质量、教师质量、毕业生就业情况、出版刊物数量等一系列指标进行评分。我们获取该数据集并对其中的特征进行相关分析，从而了解每个特征之间的关系。前10条数据以及部分特征如表3-10所示。

我们想要计算出数值型特征之间的相关关系，首先进行数据导入。新建项目，自定义表名cwurdata，在“添加字段页面”添加相应的字段及字段类型（一旦表建成，字段名及字段类型不可变。此后的字段信息设置均参考此处），如图3-17所示。
建表成功后，在阿里云大数据开发平台“数据开发”层级下，单击“更多功能”按钮，选择“导入本地数据”（注意：本地数据中字段值内不能含有分隔符，阿里云平台无法智能识别）如图3-18所示。

图3-17　添加字段及字段类型

图3-18　本地数据导入
若本地数据文件中的字段与表中字段不匹配，需手动进行字段匹配，如图3-19所示。
最后提示导入成功。
其分析组件布局如图3-20所示。其中，在相关系数矩阵组件中选择想要进行相关系数计算的列。设置完毕后，运行组件。运行成功后，在相关系数矩阵组件上右击，选择“查看数据”得到相关系数矩阵，如图3-21所示。
从结果数据可以看出，学校得分与教师质量最为相关，教育质量与教师质量最为相关，毕业生就业情况与教育质量最为相关，影响力与出版刊物数量最为相关。

图3-20　组件布局

图3-21　相关系数矩阵
小结
关联分析模型用于描述多个变量之间的关联，这是大数据分析的一种重要模型，本章主要探讨了回归分析、关联规则分析和相关分析这三类关联分析。3.1节介绍了回归分析模型，即描述一个或多个变量与其余变量的依赖关系，包括其基本定义和数学模型，并介绍了回归分析的基本计算方法和模型检验，紧接着介绍了回归模型的拓展，包括多项式回归、GBDT回归和XGBOOST回归，并且简要介绍了“回归大家族”，让读者对于整个回归问题有了全面的了解。3.2节讲述了关联规则分析模型，即查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。3.3节讨论了相关关系这种非确定性的关系，介绍了应用典型变量的典型相关分析问题，并介绍了阿里云的相关分析组件和相关实例。
习题

从20个样本中得到的有关回归结果是：SSR=60，SSE=40。要检验x与y之间的线性关系是否显著，即检验假设H0?∶?β1= 0。
（1）线性关系检验的统计量F值是多少？

（2）给定显著性水平a=0.05，Fa是多少？
（3）是拒绝原假设还是不拒绝原假设？
（4）假定x与y之间是负相关，计算相关系数r。
（5）检验x与y之间的线性关系是否显著？

研究某一化学反应过程中温度x （℃）对产品成品率y （%）的影响，现测得若干数据（见表3-11）：
表3-11　题2用表

设对于给定的x、y为正态变量，且方差与x无关。
（1）试求线性回归方程；
（2）检验线性回归的合理性（取α = 0.05）；
（3）若回归效果显著，试求x=135处y的置信度为0.95的预测区间。

某种水泥凝固时释放的热量y（cal/g）与3种化学成分x1、x2、x3（%）有关。现将观测的13组数据列于表3-12：
表3-12　题3用表

试求y对x1、x2、x3的线性回归方程并作出检验（取α=0.05）。

一种合金在某种添加剂的不同浓度x （%）下其延伸系数y会有变化，为了研究这种关系，现进行16次试验，测得数据如下（见表3-13）：
表3-13　题4用表

（1）作出散点图。
（2）以=a0+a1x+a2x2为回归方程，确定其系数a0、a1、a2。

随机干扰项与残差项是否为一回事？若不是，写出二者的区别与联系。
为什么用R2评价拟合优度，而不用残差平方和作为评价的标准？
（实现）从UCI数据集（https://archive.ics.uci.edu/ml/）中选取数据集，简单实现GDBT算法。
图3-22为购物篮事务：
（1）计算{饼干}，{啤酒，尿布}，{啤酒，尿布，饼干}的支持度。

（2）使用1）的计算结果，计算关联规则{啤酒，尿布}-> {饼干}，{饼干}->{啤酒，尿布}的置信度。置信度是对称的度量吗？
（3）找出一对项a和b，使得规则{a}->{b}与{b}->{a}具有相同的置信度。

表3-14汇总了超市的事务数据。其中，cola表示包含可乐的事务，cola表示不包含可乐的事务，hamburgers表示包含汉堡包的事务，hamburgers表示不包含汉堡包的事务。

（1）假设挖掘出来关联规则{hambuger}->{cola}。给定最小支持度阈值是25%，最小置信度阈值为50%，该关联规则是强规则吗？
（2）根据给定的数据，买cola独立于买hamburger吗？如果不是，二者之间存在何种相关关系？

检查5位同学的学习时间与学习分数（见表3-15）：

学习时间与学习分数是否相关？若相关，求出其相关系数。

对140名学生进行了阅读速度x1、阅读能力x2、运算速度y1和运算能力y2的4种测验，所得成绩的相关系数矩阵为
R=

试对阅读本领与运算本领之间进行典型相关分析。

《大数据分析原理与实践》一一

3.3　相关分析

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《大数据分析原理与实践》一一

3.3 相关分析

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

3.3　相关分析