开发者社区数据库文章正文

使用python的pandas读取数据库中数据，初始化到dataframe的速度过慢问题解决思路

2018-07-08 6775

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

原生方法

100万数据，在oracle数据库中，使用最方便的pandas自带的read_sql方法

import pandas as pd
import sqlalchemy as sql
db_engine=sql.create_engine('oracle://test01:test01@test001db')
db_df1=pd.read_sql('select * from my_table1',db_engine)

代码是方便了，不过用了快10分钟，dataframe才初始化完成

通过JDBC查询的方式

import pandas as pd
import sqlalchemy as sql
db_engine=sql.create_engine('oracle://test01:test01@test001db')
conn=ora_engine.raw_connection()
cursor=conn.cursor()
queryset=cursor.execute('select * from my_table1')
columns=[for i[0] in queryset.description]
jdbc_data=queryset.fetchall()
db_df1=pd.DataFrame(jdbc_data,columns=["A1","B2","C3"])

db_df1.columns=columns
db_df1.append(df_data)

多几行代码，不过2分钟就完成了dataframe的初始化动作，看来pandas自身的方式是需要优化的，不应该官方的方式对比常规方式有好几倍的性能差异的。

文章标签：

Python

数据库

关系型数据库

SQL

Oracle

Java

数据库连接

关键词：

Python数据

数据库数据

Python Pandas

Python pandas数据

Pandas python

阿姆斯特芬

众所周知

25天前

缓存 NoSQL 关系型数据库

在Python Web开发过程中：数据库与缓存，MySQL和NoSQL数据库的主要差异是什么？

MySQL是关系型DB，依赖预定义的表格结构，适合结构化数据和复杂查询，但扩展性有限。NoSQL提供灵活的非结构化数据存储（如JSON），无统一查询语言，但能横向扩展，适用于大规模、高并发场景。选择取决于应用需求和扩展策略。

众所周知

114 1 1

使者大牙

29天前

BI 数据处理索引

Pandas基本操作：Series和DataFrame（Python）

使者大牙

100 1 1

众所周知

1天前

数据处理 Python

如何使用Python的Pandas库进行数据排序和排名

【4月更文挑战第22天】Pandas Python库提供数据排序和排名功能。使用`sort_values()`按列进行升序或降序排序，如`df.sort_values(by='A', ascending=False)`。`rank()`函数用于计算排名，如`df['A'].rank(ascending=False)`。多列操作可传入列名列表，如`df.sort_values(by=['A', 'B'], ascending=[True, False])`和分别对'A'、'B'列排名。

众所周知

10 2 2

东方睿赢

2天前

Python

如何使用Python的Pandas库进行数据缺失值处理？

Pandas在Python中提供多种处理缺失值的方法：1) 使用`isnull()`检查；2) `dropna()`删除含缺失值的行或列；3) `fillna()`用常数、前后值填充；4) `interpolate()`进行插值填充。根据需求选择合适的方法处理数据缺失。

东方睿赢

28 9 9

龙大吉

2天前

索引 Python

如何在Python中使用Pandas库进行季节性调整？

在Python中使用Pandas和Statsmodels进行季节性调整的步骤包括：导入pandas和seasonal_decompose模块，准备时间序列DataFrame，调用`seasonal_decompose()`函数分解数据为趋势、季节性和残差，可选地绘制图表分析，以及根据需求去除季节性影响（如将原始数据减去季节性成分）。这是对时间序列数据进行季节性分析的基础流程。

龙大吉

18 2 2

长梦

4天前

NoSQL MongoDB Redis

Python与NoSQL数据库（MongoDB、Redis等）面试问答

【4月更文挑战第16天】本文探讨了Python与NoSQL数据库（如MongoDB、Redis）在面试中的常见问题，包括连接与操作数据库、错误处理、高级特性和缓存策略。重点介绍了使用`pymongo`和`redis`库进行CRUD操作、异常捕获以及数据一致性管理。通过理解这些问题、易错点及避免策略，并结合代码示例，开发者能在面试中展现其技术实力和实践经验。

长梦

31 8 8

长梦

4天前

SQL 关系型数据库 MySQL

Python与MySQL数据库交互：面试实战

【4月更文挑战第16天】本文介绍了Python与MySQL交互的面试重点，包括使用`mysql-connector-python`或`pymysql`连接数据库、执行SQL查询、异常处理、防止SQL注入、事务管理和ORM框架。易错点包括忘记关闭连接、忽视异常处理、硬编码SQL、忽略事务及过度依赖低效查询。通过理解这些问题和提供策略，可提升面试表现。

长梦

25 6 6

龙大吉

4天前

索引 Python

如何使用Python的Pandas库进行数据透视表（pivot table）操作？

使用Pandas在Python中创建数据透视表的步骤包括：安装Pandas库，导入它，创建或读取数据（如DataFrame），使用`pd.pivot_table()`指定数据框、行索引、列索引和值，计算聚合函数（如平均分），并可打印或保存结果到文件。这允许对数据进行高效汇总和分析。

龙大吉

10 2 2

小Lee

5天前

数据采集 SQL 数据可视化

Python数据分析工具Pandas

【4月更文挑战第14天】Pandas是Python的数据分析库，提供Series和DataFrame数据结构，用于高效处理标记数据。它支持从多种数据源加载数据，包括CSV、Excel和SQL。功能包括数据清洗（处理缺失值、异常值）、数据操作（切片、过滤、分组）、时间序列分析及与Matplotlib等库集成进行数据可视化。其高性能底层基于NumPy，适合大型数据集处理。通过加载数据、清洗、分析和可视化，Pandas简化了数据分析流程。广泛的学习资源使其成为数据分析初学者的理想选择。

小Lee

10 1 1

1941623231718325

10天前

SQL 关系型数据库数据库

Python中SQLite数据库操作详解：利用sqlite3模块

【4月更文挑战第13天】在Python编程中，SQLite数据库是一个轻量级的关系型数据库管理系统，它包含在一个单一的文件内，不需要一个单独的服务器进程或操作系统级别的配置。由于其简单易用和高效性，SQLite经常作为应用程序的本地数据库解决方案。Python的内置sqlite3模块提供了与SQLite数据库交互的接口，使得在Python中操作SQLite数据库变得非常容易。

1941623231718325

19 5 6

使用python的pandas读取数据库中数据，初始化到dataframe的速度过慢问题解决思路

原生方法

通过JDBC查询的方式

热门文章

最新文章

相关课程

相关电子书

相关实验场景