3行代码给你的python提速4倍!

简介:

Python绝对是处理数据或者把重复任务自动化的绝佳编程语言。要抓取网页日志?或者要调整一百万张图片?总有对应的Python库让你轻松完成任务。


然而,Python的运营速度一直饱受诟病。默认状态下,Python程序使用单个CPU的单个进程。如果你的电脑是最近十年生产的,多数情况下会有4个及以上CPU核。也就是说,当你在等程序运行结束的时候,你的计算机有75%或者更多的计算资源都是空置的!


让我们来看看如何通过并行运算充分利用计算资源。多亏有Python的concurrent.futures模块,仅需3行代码就可以让一个普通程序并行运行。

 

一般情况下的Python运行


比如说我们有一个文件夹,里面全是图片文件,我们想给每一张图片创建缩略图。


下面的短程序中我们使用Python自带的glob 函数获取一个包含文件夹中所有图片文件的列表,并用Pillow图片处理库获取每张图片的128像素缩略图。


640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


这个程序遵循很常见的数据处理模式:


  • 从您想处理的一系列文件(或其他数据)开始。

  • 编写一个处理一个数据的辅助函数。

  • 用for循环调动辅助函数,一个一个的去处理数据。


让我们用1000张图片来测试这个程序,看看运行时间是多少:


640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


程序运行时间8.9秒,但是计算机的运算资源占用了多少呢?


让我们再跑一次程序,同时查看活动监视器:


640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


计算机有75%空置,这是为什么呢?


问题在于我的计算机有4个CPU核,但是Python只用了其中一个核。即便我的程序把那个CPU核完全占满,但是其他3个CPU核什么也没干。我们需要想办法把整个程序的工作量分成4份然后平行运行。所幸Python可以做到这一点!

 

让我们来试试并行运算

 

下面是实现并行运算的一个方法:


  • 把Jpeg图片文件列表分成4个部分。

  • 同时跑四个Python解释器。

  • 让四个解释器分别处理一部分图片文件。

  • 汇总四个解释器的结果得到最终结果。


四个Python程序分别在4个CPU上运行,跟之前在1个CPU运行相比大概可以达到4倍的速度,对不对?


好消息是Python可以帮我们解决并行运算麻烦的部分。我们仅需要告诉 Python我们想要运行什么函数以及我们希望工作分成多少份,其他部分留给Python。我们只需要修改三行代码:


首先,我们需要导入concurrent.futures库。这个库是Python自带的:


640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


然后,我们需要告诉 Python另外启动4个Python实例。我们通过创建Process Pool来传达指令:


640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


默认设置下,上面的代码会给计算机的每一个CPU创建一个Python进程,所以如果您的计算机有4个CPU,就会开启4个Python进程。


最后一步是让Process Pool 用这4个进程在数据列表中执行我们的辅助函数。我们可以把我们之前的for循环替代为:


640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


新代码是调用executor.map()函数 


640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


executor.map() 函数调用时需要输入辅助函数和待处理的数据列表。这个函数帮我们完成所有麻烦的工作,把列表分成几个小列表,把小列表分配给每个子进程,运行子进程,以及汇总结果。干得漂亮!


我们也可以得到每次调用辅助函数的结果。executor.map()函数以输入数据顺序返回结果。 Python的zip()函数可以一步获取原始文件名以及相应结果。


下面是经过三步改动之后的程序:


640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


让我们试着运行一下,看看有没有缩短运行时间:


640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1


 2.274秒程序就运行完了!这便是原来版本的4倍加速。运行时间缩短的原因正是我们这次用4个CPU代替了1个CPU。


但是如果您仔细看看,您会看到“用户(User)”时间大概是接近9秒,如果程序2秒就运行结束了,为什么客户时间会是9秒?这似乎…有哪里不对?


其实这是因为”用户”时间是所有CPU时间的总和。我们和上次一样,用9秒的总CPU。


注意:启用Python进程以及给子进程分配数据都会占用时间,因此您不一定能靠这个方法大幅提高速度。如果您处理的数据量很大,这里有一篇“设置chunksize参数的技巧”文章可能可以帮助您:https://docs.python.org/3/library/concurrent.futures.html#concurrent.futures.Executor.map。

 

这种方法总能帮我的程序提速吗?


当你有一列数据,并且每个数据都可以独立处理的时候,使用Process Pools是一个好方法。这有一些适合使用并行处理的例子:


  • 从一系列单独的网页服务器日志里抓取数据。

  • 从一堆XML,CSV和JSON文件中解析数据。

  • 对大量图片数据做预处理,建立机器学习数据集。


但Process Pools不是万能的。使用Process Pool需要在独立的Python处理过程中将数据来回传递。如果你正在使用的数据不能在处理过程中有效的被传递,这种方法就行不通。你处理的数据必须是Python知道怎么搞定的类型(https://docs.python.org/3 /library/pickle.html#what-can-be-pickled-and-unpickled)


同时,数据不会按照一个预想的顺序被处理。如果你需要前一步的处理结果来进行下一步骤,这种方法也行不通。


那GIL怎么办?


你可能听说过Python有一个全局解释器锁(Global Interpreter Lock,),缩写为GIL。这意味着即使你的程序是多层的,每一层也只有一个Python命令能被执行。GIL确保任何时候都只有一个Python线程执行。 GIL最大的问题就是Python的多线程程序并不能利用多核CPU的优势。


但Process Pools能解决这个问题!因为我们在运行单独的Python实例,每个实例都有自己的GIL。这样你就有了真正的并行处理的Python代码!


不要害怕并行处理!


有了concurrent.futures库,Python可以让你简简单单地修改脚本,却能立刻调用你电脑上所有CPU内核开足马力地运行。不要害怕尝试。一旦你会用了,它就像写一个for循环那样简单,但会让整个程序快很多。


原文发布时间为:2017-08-25

本文作者:Adam Geitgey

本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU”微信公众号

相关文章
|
4天前
|
并行计算 C语言 开发者
优化Python代码的五大技巧
Python作为一种流行的编程语言,在各种应用场景中广泛使用。然而,随着项目规模的增长和需求的变化,Python代码的性能和可维护性也成为了关键问题。本文将介绍优化Python代码的五大技巧,帮助开发者提升代码效率和质量。
|
14天前
|
监控 Python
Python中的装饰器:提升代码灵活性与可读性
在Python编程中,装饰器是一种强大的工具,能够提升代码的灵活性和可读性。本文将介绍装饰器的基本概念、使用方法以及实际应用场景,帮助读者更好地理解和利用这一功能。
|
16天前
|
人工智能 数据可视化 数据挖掘
【python】Python航空公司客户价值数据分析(代码+论文)【独一无二】
【python】Python航空公司客户价值数据分析(代码+论文)【独一无二】
|
21天前
|
数据采集 JSON 数据可视化
【python】python懂车帝数据可视化(代码+报告)
【python】python懂车帝数据可视化(代码+报告)
|
21天前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
15天前
|
缓存 监控 算法
优化Python代码性能的10个技巧
提高Python代码性能是每个开发者都需要关注的重要问题。本文将介绍10个实用的技巧,帮助你优化Python代码,提升程序的运行效率和性能表现。无论是避免内存泄漏、减少函数调用次数,还是使用适当的数据结构,都能在不同场景下发挥作用,使你的Python应用更加高效稳定。
|
1天前
|
人工智能 Python
【Python实用技能】建议收藏:自动化实现网页内容转PDF并保存的方法探索(含代码,亲测可用)
【Python实用技能】建议收藏:自动化实现网页内容转PDF并保存的方法探索(含代码,亲测可用)
7 0
|
1天前
|
数据安全/隐私保护 Python
Python中的装饰器:提升代码可读性和灵活性
Python中的装饰器是一种强大的编程工具,能够提升代码的可读性和灵活性。本文将深入探讨装饰器的原理和用法,以及如何利用装饰器来简化代码、实现日志记录、权限控制等功能,从而让你的Python代码更加优雅和高效。
|
7天前
|
数据安全/隐私保护 Python
Python中的装饰器:提升代码可读性与灵活性
Python中的装饰器是一种强大的工具,可以在不改变函数原有逻辑的情况下,为函数添加额外的功能。本文将介绍装饰器的基本概念和用法,并通过实例演示如何利用装饰器提升代码的可读性和灵活性,使代码更加简洁、易于维护。
|
7天前
|
BI 开发者 数据格式
Python代码填充数据到word模板中
【4月更文挑战第16天】