基于Spark的机器学习实践 (六) - 基础统计模块

  1. 云栖社区>
  2. Java技术进阶>
  3. 博客>
  4. 正文

基于Spark的机器学习实践 (六) - 基础统计模块

javaedge 2019-04-12 19:05:55 浏览534
展开阅读全文

0 相关源码

1 基础统计模块及常用统计学知识介绍

◆ Spark 的基础统计模块即MLlib组件中的Basic Statistics部分

◆ Basic Statistics主要包括Correlation 与Hypothesis testing等

◆ 其大多被封装在orq.apache spark.mllib.stat._ 中

1.1 基础统计学知识

1.1.1 常用的统计学知识

◆ 描述性统计
平均数,方差,众数,中位数...

◆ 相关性度量
spark 提供了皮尔逊和斯皮尔曼相关系数,反映变量间相关关系密切程度

◆ 假设检验
根据一定假设条件,由样本推断总体的一种统计学方法,spark提供了皮尔森卡方检测

2 实战统计汇总

◆ 实战的数据来源是北京市历年降水量数据

◆ 学习使用spark对数据进描述性统计

◆ 在进行机器学习模型的训练前,可以了解数据集的

网友评论

登录后评论
0/500
评论
javaedge
+ 关注
所属云栖号: Java技术进阶