Python之数据规整化：清理、转换、合并、重塑-阿里云开发者社区

Python之数据规整化：清理、转换、合并、重塑

2016-01-07 1942

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python之数据规整化：清理、转换、合并、重塑1. 合并数据集pandas.merge可根据一个或者多个不同DataFrame中的行连接起来。pandas.concat可以沿着一条轴将多个对象堆叠到一起。实例方法combine_first可以将重复数据编接在一起，用一个对象中的值填充另一个对象中的缺失值。2. 数据风格的DataFrame合并操作

Python之数据规整化：清理、转换、合并、重塑

1. 合并数据集

pandas.merge可根据一个或者多个不同DataFrame中的行连接起来。
pandas.concat可以沿着一条轴将多个对象堆叠到一起。
实例方法combine_first可以将重复数据编接在一起，用一个对象中的值填充另一个对象中的缺失值。

2. 数据风格的DataFrame合并操作

2.1 数据集的合并（merge）或连接（jion）运算时通过一个或多个键将行链接起来的。如果没有指定，merge就会将重叠列的列名当做键，最好显示指定一下。
pd.merge(df1,df2,on='key')
2.2 默认情况下，merge做的是"inner"连接，结果中的键是交集。其他方式有“left”、“right”、“outer”。外连接求取的是键的并集，组合了左连接和右连接。
2.3 都对的的连接是行的笛卡尔积。
2.4 merge的suffixes选项，用于指定附加到左右两个DataFrame对象的重叠列名上的字符串。

3. 索引上的合并

DataFrame有merge和join索引合并。

4. 重塑和轴向旋转

有许多用于重新排列表格型数据的基础运算。这些函数也称作重塑（reshape）或轴向旋转（pivot）运算。
4.1 重塑层次化索引
层次化索引为DataFrame数据的重排任务提供了良好的一致性方式。主要两种功能：
    stack：将数据的列“旋转”为行。
    unstack：将数据的行“旋转”为列。

5. 数据转换

5.1 利用函数或映射进行数据转换
Series的map方法可以接受一个函数或含有映射关系的字典型对象。
5.2 替换值
replace可以由一个带替换值组成的列表以及一个替换值
data.replace([-999,-1000],np.nan)
5.3 重命名轴索引
轴标签也可通函数或映射进行转换，从而得到一个新对象轴还可以被就地修改，而无需新建一个数据结构。
5.4 离散化和面元划分
为了便于分析，连续数据常常被分散化或拆分成“面元”（bin）。
pandas的cut函数
5.5 检测和过滤异常值
异常值的过滤或变换运算很大程度上其实就是数组的运算。

6. 字符串操作

6.1 字符串对象方法
split以逗号分割的字符串可以拆分成数段。
字符串“：：”的jion方法以冒号分隔符的形式连接起来。
6.2 正则表达式
描述一个或多个空白符的regex是\s+
创建可重用的regex对象：
regex = re.complie('\s+')
regex.split(text)
6.3 pandas中矢量化的字符串函数
实现矢量化的元素获取操作：要么使用str.get，要么使用str属性上使用索引。

Python之数据规整化：清理、转换、合并、重塑

Python之数据规整化：清理、转换、合并、重塑

1. 合并数据集

2. 数据风格的DataFrame合并操作

3. 索引上的合并

4. 重塑和轴向旋转

5. 数据转换

6. 字符串操作

热门文章

最新文章

相关课程

相关电子书

相关实验场景