Python之pandas数据加载、存储-阿里云开发者社区

Python之pandas数据加载、存储

2016-01-06 1932

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python之pandas数据加载、存储0. 输入与输出大致可分为三类:0.1 读取文本文件和其他更好效的磁盘存储格式2.2 使用数据库中的数据0.3 利用Web API操作网络资源1. 读取文本文件和其他更好效的磁盘存储格式pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。1.1 pandas中的解析函数： re

Python之pandas数据加载、存储

0. 输入与输出大致可分为三类:

0.1 读取文本文件和其他更好效的磁盘存储格式
2.2 使用数据库中的数据
0.3 利用Web API操作网络资源

1. 读取文本文件和其他更好效的磁盘存储格式

pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。
1.1 pandas中的解析函数：

    read_csv        从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为逗号
    read_table      从文件、URL、文件型对象中加载带分隔符的数据。默认分隔符为制表符（"\t"）
    read_clipboard  读取剪贴板中的数据，可以看做read_table的剪贴板版。在将网页转换为表格时很有用

    其中，read_csv、read_table使用较多。

1.2 逐块读取文本文件
    读取几行nrows
    逐块读取chunksize(行数)
1.3 将数据写到文本格式
    利用DataFrame的to_csv

2. 使用数据库中的数据

2.1 使用关系型数据库中的数据，可以使用Python SQL驱动器（PyODBC、psycopg2、MySQLdb、pymssql等）
2.2 使用非关系型数据库中的数据，如MongoDB，用其官方驱动器pymongo通过默认端口进行连接。

3. 利用Web API操作网络资源

3.1 应用lxml.html处理HTML
    步骤：
    1）利用urllib2将URL打开，然后由lxml解析得到数据流
    2）得到URL和链接文本
        使用文档根节点的findall方法以及一个XPath，以及个对象的get方法（针对URL）和text_content方法（针对显示文本）
    3）通过反复试验从文档中找到正确表格
    4）将所有步骤结合起来，将数据转换为一个DataFrame
3.2 应用lxml.objectify处理XML
    1）使用lxml.objetify解析文件
    2）通过getroot得到XML文件的根节点
3.3 使用网站通过JSOM及其他格式提供数据的公共的API
    使用requests包访问这些API

Python之pandas数据加载、存储

Python之pandas数据加载、存储

0. 输入与输出大致可分为三类:

1. 读取文本文件和其他更好效的磁盘存储格式

2. 使用数据库中的数据

3. 利用Web API操作网络资源

热门文章

最新文章

相关课程

相关电子书

相关实验场景