《Python Cookbook（第3版）中文版》——6.13　数据汇总和统计-阿里云开发者社区

《Python Cookbook（第3版）中文版》——6.13　数据汇总和统计

2017-05-02 1913

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自异步社区《Python Cookbook（第3版）中文版》一书中的第6章，第6.13节，作者[美]David Beazley , Brian K.Jones，陈舸译，更多章节内容可以访问云栖社区“异步社区”公众号查看。

6.13　数据汇总和统计

6.13.1　问题

我们需要在大型数据库中查询数据并由此生成汇总或者其他形式的统计数据。

6.13.2　解决方案

对于任何涉及统计、时间序列以及其他相关技术的数据分析问题，都应该使用Pandas库（http://pandas.pydata.org）。

为了小试牛刀，下面这个例子使用Pandas来分析芝加哥的老鼠和啮齿动物数据库（https:// data.cityofchicago.org/Service-Requests/311-Service-Requests-Rodent-Baiting/97t6-zrhs）。在写作本书时，这个CSV文件中有大约74 000条数据：

>>> import pandas
>>> # Read a CSV file, skipping last line
>>> rats = pandas.read_csv('rats.csv', skip_footer=1)
>>> rats
<class 'pandas.core.frame.DataFrame'>
Int64Index: 74055 entries, 0 to 74054
Data columns:
Creation Date                 74055 non-null values
Status                     74055 non-null values
Completion Date                 72154 non-null values
Service Request Number         74055 non-null values
Type of Service Request         74055 non-null values
Number of Premises Baited         65804 non-null values
Number of Premises with Garbage    65600 non-null values
Number of Premises with Rats     65752 non-null values
Current Activity             66041 non-null values
Most Recent Action             66023 non-null values
Street Address                 74055 non-null values
ZIP Code                     73584 non-null values
X Coordinate                 74043 non-null values
Y Coordinate                 74043 non-null values
Ward                         74044 non-null values
Police District                 74044 non-null values
Community Area                 74044 non-null values
Latitude                     74043 non-null values
Longitude                     74043 non-null values
Location                     74043 non-null values
dtypes: float64(11), object(9)
>>> # Investigate range of values for a certain field
>>> rats['Current Activity'].unique()
array([nan, Dispatch Crew, Request Sanitation Inspector], dtype=object)
>>> # Filter the data
>>> crew_dispatched = rats[rats['Current Activity'] == 'Dispatch Crew']
>>> len(crew_dispatched)
65676
>>>
>>> # Find 10 most rat-infested ZIP codes in Chicago
>>> crew_dispatched['ZIP Code'].value_counts()[:10]
60647         3837
60618         3530
60614         3284
60629         3251
60636         2801
60657         2465
60641         2238
60609         2206
60651         2152
60632         2071
>>>
>>> # Group by completion date
>>> dates = crew_dispatched.groupby('Completion Date')
<pandas.core.groupby.DataFrameGroupBy object at 0x10d0a2a10>
>>> len(dates)
472
>>>
>>> # Determine counts on each day
>>> date_counts = dates.size()
>>> date_counts[0:10]
Completion Date
01/03/2011               4
01/03/2012             125
01/04/2011              54
01/04/2012              38
01/05/2011              78
01/05/2012             100
01/06/2011             100
01/06/2012              58
01/07/2011               1
01/09/2012              12
>>>

>>> # Sort the counts
>>> date_counts.sort()
>>> date_counts[-10:]
Completion Date
10/12/2012             313
10/21/2011             314
09/20/2011             316
10/26/2011             319
02/22/2011             325
10/26/2012             333
03/17/2011             336
10/13/2011             378
10/14/2011             391
10/07/2011             457
>>>

你没看错，2011年10月7号对于老鼠来说的确是非常忙碌的一天。

6.13.3　讨论

Pandas是一个庞大的库，它还有更多的功能，但我们无法在此一一描述。但是，如果需要分析大型的数据集、将数据归组、执行统计分析或者其他类似的任务，那么Pandas绝对值得一试。

《Python Cookbook（第3版）中文版》——6.13　数据汇总和统计

6.13　数据汇总和统计

6.13.1　问题

6.13.2　解决方案

6.13.3　讨论

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《Python Cookbook（第3版）中文版》——6.13 数据汇总和统计

6.13 数据汇总和统计

6.13.1 问题

6.13.2 解决方案

6.13.3 讨论

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《Python Cookbook（第3版）中文版》——6.13　数据汇总和统计

6.13　数据汇总和统计

6.13.1　问题

6.13.2　解决方案

6.13.3　讨论