DC学院学习笔记(十四):总体、采样及Error Bar

简介: 总体、采样及Error Bar的一些知识

相关概念

1.采样相关概念

  • 总体:研究对象的全体
  • 样本:从总体中的随机抽样
  • 采样偏差:是由于抽样过程中没有达到足够随机而产生 、

抽样的方式会严重影响样本的随机性,从而影响对总体的预测,抽样的方法有多种,可以使用一定的方法来减小采样误差,然而采样误差是无法避免的。

2.误差:不确定性的某种表示

  • 标准差:使用标准差画error bar;用于表征数据分散程度

    • 总体标准差:image
    • 样本标准差:image
  • Bootstrap置信区间:用总体统计量的估计区间画error bar;用于表征数据的波动范围

    • 可重复采样:抽取的个体仍可参加下次采样,常用于估计总体统计量的置信区间
    • 如何使用Bootstrap计算置信区间(Quantile算法):用重采样的采样方法,计算统计量并排序,取相应的分位数,作为置信区间的边界

    推荐阅读:如果你有兴趣,可以阅读《An Introduction to the Bootstrap》这本书了解更多关于Bootstrap的知识和其他计算置信区间的方法

    • seaborn画图参数区别:1)使用标准差绘制error bar:ci=’sd’ 2)使用Bootstrap置信区间画error bar:ci & n_boot

代码如下:

import pandas
iris = pandas.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data')
iris.columns=['sepal_length','sepal_width','petal_length','petal_width','species']
import seaborn
%matplotlib inline
seaborn.barplot(x='species',y='petal_length',data=iris,ci='sd')

output_2_1

seaborn.barplot(x='species',y='petal_length',data=iris,ci=90,n_boot=1000)

output_3_1

Error Bar:黑线即为Error Bar,在每一列上的Error Bar 表征:在给定的置信区间下,统计量的范围会在黑线内波动

目录
相关文章
|
Web App开发 数据采集 JavaScript
|
数据采集 Python
|
数据采集 XML 数据格式
|
数据采集 Python 机器人
|
Web App开发 数据采集 移动开发
|
Web App开发 数据采集 缓存
DC学院爬虫学习笔记(一):什么是爬虫?
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本
2734 0
|
数据挖掘 数据可视化 定位技术
|
机器学习/深度学习 TensorFlow 算法框架/工具
DC学院学习笔记(二十三):进阶机器学习技术概览
高阶的机器学习算法:深度学习,强化学习及迁移学习简单了解
2219 0
|
数据挖掘 Python
|
机器学习/深度学习 Python
DC学院学习笔记(二十一):用特征选择方法优化模型(二)
用特征选择方法优化模型:随机森林和L1正则化Lasso
2234 0