备案控制台

开发者社区

开发者社区大数据文章正文

Python3数据分析——（2）Pandas快速入门基础

2018-04-14 1874

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Pandas基础Pandas的名称来自于面板数据（panel data）和Python数据分析（data analysis）。

Pandas基础

Pandas 的名称来自于面板数据（panel data）和 Python数据分析（data analysis）。

Pandas是一个强大的分析结构化数据的工具集，基于NumPy构建，提供了高级数据结构和数据操作工具，它是使Python成为强大而高效的数据分析环境的重要因素之一。

Pandas特点：

1.一个强大的分析和操作大型结构化数据集所需的工具集

2.基础是NumPy，提供了高性能矩阵的运算

3.提供了大量能够快速便捷地处理数据的函数和方法

4.应用于数据挖掘，数据分析

5.提供数据清洗功能

Pandas的数据结构：

import pandas as pd

Pandas有两个最主要也是最重要的数据结构： Series 和 DataFrame

Pandas中使用频率较低的一种数据结构： Panel（Pandas 决定在未来的版本中将 Panel 移除，转而使用 MultiIndex DataFrame 来表示多维数据结构）

Pandas的对齐运算：

是数据清洗的重要过程，可以按索引对齐进行运算，如果没对齐的位置则补 NaN ，最后也可以填充 NaN

一、Series数据结构（一维数据）

1、简要介绍：

（1） Series是一种类似于一维数组的对象，由一组数据（各种NumPy数据类型）以及一组与之对应的索引（数据标签）组成。

（2） 类似一维数组的对象，由数据和索引组成（索引(index)在左，数据(values)在右，索引是自动创建的）

（3） Series 是 Pandas 中最基本的一维数据形式。其可以储存整数、浮点数、字符串等形式的数据。Series 的新建方法如下： s = pandas.Series(data, index=index) ；其中，data 可以是字典、numpy 里的 ndarray 对象等。index 是数据索引，索引是 pandas 数据结构中的一大特性，它主要的功能是帮助我们更快速地定位数据。

2、通过字典（dict）构建Series

数据值是 10, 20, 30，索引为 a, b, c 。

我们也可以直接通过 index= 参数来设置新的索引，如下

pandas 会自动匹配人为设定的索引值和字典转换过来的索引值。而当索引无对应值时，会显示为 NaN 缺失值。

3、通过ndarray构建Series

ndarray 是著名数值计算包 numpy 中的多维数组。我们也可以将 ndarray 直接转换为 Series。

（1）指定了 index 的值

（2）非人为指定索引值时，Pandas 会默认从 0 开始设置索引值。

（3）从一维数据 Series 中返回某一个值时，可以直接通过索引完成

（4）对Series 直接进行运算

（5）Series的对齐运算

注意：填充未对齐的数据进行运算

使用add, sub, div, mul的同时，通过fill_value指定填充值，未对齐的数据将和填充值做运算

示例代码：print(s1)

print(s2)

s1.add(s2, fill_value = -1)

二、DataFrame数据结构（二维数据）

1、简要介绍

（1） DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同类型的值。DataFrame既有行索引也有列索引，它可以被看做是由Series组成的字典（共用同一个索引），数据是以二维结构存放的。

（2） 特点：类似多维数组/表格数据 (如，excel, R中的data.frame)；每列数据可以是不同的类型；索引包括列索引和行索引

（3） DataFrame 可以用于储存多种类型的输入：

一维数组、列表、字典或者 Series 字典。
二维 numpy.ndarray。
结构化的 ndarray。
一个 Series。
另一个 DataFrame。

2、通过字典（dict）构建DataFrame

（1）通过Series的字典构建DataFrame

行索引为 a, b, c, d ，而列索引为 one, two

（2）通过ndarray或list的字典构建DataFrame

3、通过带字典的列表构建DataFrame

4、DataFrame.from_ 方法

pandas的 DataFrame 下面还有 4 个以 from_ 开头的方法，这也可以用来创建 Dataframe。

5、DataFrame中列的选择、删除和添加

在 一维数据结构Series 中，我们用 df['标签'] 来选择行。在二维数据 DataFrame 中， df['标签'] 表示选择列。

6、DataFrame的对齐运算

三、Panel数据结构（三维数据）

1、简要介绍

（1） Panel是Pandas中使用频率较低的一种数据结构，但它是三维数据的重要容器。

（2） Panel data又称面板数据，它是计量经济学中派生出来的一个概念。在计量经济学中，数据大致可分为三类：截面数据，时间序列数据，面板数据。而面板数据即是截面数据与时间序列数据综合起来的一种数据类型。

简单来讲，截面数据指在某一时间点收集的不同对象的数据。而时间序列数据是指同一对象在不同时间点所对应的数据集合。

这里引用一个城市和 GDP 关系的示例来解释上面的三个概念：

截面数据：

例如城市：北京、上海、重庆、天津在某一年的 GDP 分别为10、11、9、8（单位亿元）。

时间序列数据:

例如：2000、2001、2002、2003、2004 各年的北京市 GDP 分别为8、9、10、11、12（单位亿元）。

面板数据：

2000、2001、2002、2003、2004 各年中国所有直辖市的 GDP 分别为（单位亿元）：北京市分别为 8、9、10、11、12；上海市分别为 9、10、11、12、13；天津市分别为 5、6、7、8、9；重庆市分别为 7、8、9、10、11。

（3） Panel 构成

在 Pandas 中，Panel 主要由三个要素构成：

items: 每个项目（item）对应于内部包含的 DataFrame。
major_axis: 每个 DataFrame 的索引（行）。
minor_axis: 每个 DataFrame 的索引列。

简言之，在 Pandas 中，一个 Panel由多个 DataFrame 组成。

2、生成一个Panel

可以看到，wp 由 2 个项目、5个主要轴和4个次要轴组成。其中，主要轴由2000-01-01 到2000-01-05这5天组成的时间序列，次轴从A到D。

3、由于 Panel 在 Pandas 中的使用频率远低于 Series 和 DataFrame，所以 Pandas 决定在未来的版本中将 Panel 移除，转而使用 MultiIndex DataFrame 来表示多维数据结构。

补充 ：Pandas统计计算和描述

#描述和汇总的方法

count 非Nan数量

describe 针对个列汇总统计

min和max 最大最小值

argmin、argmax 计算最大值或最小值对应的索引位置

quantile 计算样本的分位数（0-1）

mean 均值

median 中位数

mad 平均绝对离差

var 样本方差

std 样本的标准差

skew 样本值的偏度

kurt 样本值的峰度

cumsum 样本值的累计和

注：

Pandas官网： http://pandas.pydata.org/

Pandas官方文档： http://pandas.pydata.org/pandas-docs/stable/api.html

Pandas详细学习教程： https://www.yiibai.com/pandas/python_pandas_date_functionality.html

文章标签：

Python

索引

数据挖掘

容器

数据采集

关键词：

Python Pandas

Python数据分析

数据分析pandas

Pandas数据分析

Python数据分析pandas

飞天小橘子

目录

相关文章

东方睿赢

|

3天前

|

Python

使用Python pandas的sort_values()方法可按一个或多个列对DataFrame排序

使用Python pandas的sort_values()方法可按一个或多个列对DataFrame排序。示例代码展示了如何按'Name'和'Age'列排序 DataFrame。先按'Name'排序，再按'Age'排序。sort_values()的by参数接受列名列表，ascending参数控制排序顺序（默认升序），inplace参数决定是否直接修改原DataFrame。

东方睿赢

10 1 1

东方睿赢

|

3天前

|

NoSQL Serverless Python

在Python的Pandas中，可以通过直接赋值或使用apply函数在DataFrame添加新列。

在Python的Pandas中，可以通过直接赋值或使用apply函数在DataFrame添加新列。方法一是直接赋值，如`df['C'] = 0`，创建新列C并初始化为0。方法二是应用函数，例如定义`add_column`函数计算A列和B列之和，然后使用`df.apply(add_column, axis=1)`，使C列存储每行A、B列的和。

东方睿赢

18 0 0

桃李春风一杯酒

|

5天前

|

机器学习/深度学习数据采集 SQL

【Python机器学习专栏】使用Pandas处理机器学习数据集

【4月更文挑战第30天】本文介绍了如何使用Python的Pandas库处理机器学习数据集，涵盖数据读取、概览、清洗、转换、切分和保存等步骤。通过Pandas，可以从CSV等格式加载数据，进行缺失值、异常值处理，数据类型转换，如归一化、类别编码，并实现训练集与测试集的划分。此外，还展示了如何保存处理后的数据，强调了Pandas在数据预处理中的重要性。

桃李春风一杯酒

12 0 0

东方睿赢

|

5天前

|

Serverless Python

使用Python的pandas和matplotlib库绘制移动平均线（MA）示例

使用Python的pandas和matplotlib库绘制移动平均线（MA）示例：加载CSV数据，计算5日、10日和20日MA，然后在K线图上绘制。通过`rolling()`计算平均值，`plot()`函数展示图表，`legend()`添加图例。可利用matplotlib参数自定义样式。查阅matplotlib文档以获取更多定制选项。

东方睿赢

15 1 1

叫个什么名字

|

5天前

|

数据采集 SQL 数据挖掘

Python数据分析中的Pandas库应用指南

在数据科学和分析领域，Python语言已经成为了一种非常流行的工具。本文将介绍Python中的Pandas库，该库提供了强大的数据结构和数据分析工具，使得数据处理变得更加简单高效。通过详细的示例和应用指南，读者将了解到如何使用Pandas库进行数据加载、清洗、转换和分析，从而提升数据处理的效率和准确性。

叫个什么名字

20 0 0

景天科技苑

|

6天前

|

开发框架网络协议前端开发

Python高性能web框架--Fastapi快速入门

Python高性能web框架--Fastapi快速入门

景天科技苑

13 1 1

景天科技苑

|

6天前

|

数据可视化数据挖掘 C++

数据分析综合案例讲解，一文搞懂Numpy，pandas，matplotlib，seaborn技巧方法

数据分析综合案例讲解，一文搞懂Numpy，pandas，matplotlib，seaborn技巧方法

景天科技苑

15 2 2

小白学大数据

|

6天前

|

数据采集 Web App开发数据可视化

Python爬虫技术与数据可视化：Numpy、pandas、Matplotlib的黄金组合

Python爬虫技术与数据可视化：Numpy、pandas、Matplotlib的黄金组合

小白学大数据

16 0 0

景天科技苑

|

6天前

|

算法数据挖掘数据处理

数据分析Pandas之Series，快速上手

数据分析Pandas之Series，快速上手

景天科技苑

6 0 0

皮牙子抓饭

|

6天前

|

机器学习/深度学习人工智能算法

快速入门Python机器学习：使用Scikit-Learn实现预测模型

【4月更文挑战第28天】

皮牙子抓饭

5 0 0

热门文章

最新文章

阿里云 MaxCompute MaxFrame 开启免费邀测，统一 Python 开发生态

使用Python实现DBSCAN聚类算法

Python与NoSQL数据库（MongoDB、Redis等）面试问答

流畅的 Python 第二版（GPT 重译）（一）(1)

流畅的 Python 第二版（GPT 重译）（十一）(1)

Python速成篇（基础语法）上

流畅的 Python 第二版（GPT 重译）（九）(2)

流畅的 Python 第二版（GPT 重译）（十二）(1)

基于Apriori关联规则的电影推荐系统（附python代码）

开发语言详解（python、java、Go(Golong)。。。。）

Python数据分析（五）—— 一文搞懂Python时间序列

Python数据分析（二）—— Pandas快速入门

Python数据分析（一）—— Numpy快速入门

从零到精通：学习这些R语言必学包成为数据分析高手！

探索性数据分析

利用Python进行数据分析的基本步骤与技巧

数据分析实战-Python实现博客评论数据的情感分析

Arm 发布 Neoverse 新品：数据分析性能提升 196%，奠定未来计算及 AI 的基石

python数据分析——在面对各种问题时，因如何做分析的分类汇总

python数据分析——时间序列

相关课程

更多

实时数据分析：使用Flink实时发现最热Github项目

日志服务 SLS 可观测数据分析平台介绍

Quick BI在业务数据分析中的实战应用

Python 数据分析库 Pandas 快速入门

深入理解数据分析

场景实践-通过阿里云数据分析工具实现共享单车骑行分析

相关电子书

更多

Python第四讲——使用IPython/Jupyter Notebook与日志服务玩转超大规模数据分析与可视化

互联网下半场的角逐，玩转轻资产的大数据服务—图（关系网络）数据分析与阿里应用

如何使用大数据计算服务 MaxCompute进行数据分析

相关实验场景

更多

用Python画圣诞树

使用Python完成RDS数据开发及分析

倚天大数据电商数据分析快速实践

AnalyticDB MySQL游戏行业数据分析实践

Github实时数据分析与可视化

云端Python及基本操作

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考