如何用云端 GPU 为你的 Python 深度学习加速？

2018-06-21 1781

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 负荷下午，我用 Python 深度学习框架 Keras 训练了一个包含3层神经网络的回归模型，预测波士顿地区房价。这是来自于 “Deep Learning with Python” 书上的一个例子。

负荷

下午，我用 Python 深度学习框架 Keras 训练了一个包含3层神经网络的回归模型，预测波士顿地区房价。

img_72e01b0bf66d01bdf45ff5cd48b595a7.jpe

这是来自于 “Deep Learning with Python” 书上的一个例子。

img_874ab54c2deeee132d307762a5f23f94.jpe

运行的时候，代码有两个大循环。

第一个把数据跑100遍（epochs），第二个把数据跑500遍。

我的笔记本电脑算起来很吃力，风扇一直在响。

大热天的，看着好可怜。

用笔记本电脑进行机器学习，还是不大合适的。

我要是有一块 GPU 就好了……

此时，突发奇想。

我虽然没有带 nVidia GPU 的设备，不过谁说非要在本地机器运行代码了？

早已是云时代了啊！

能否用云端 GPU 跑机器学习代码，让我的笔记本少花些力气呢？

偶遇

有这个想法，是因为最近在 Youtube 上面，我看到了 Siraj Raval 的一段新视频。

img_f32fe3264341b63f08c7a1e23bdcab52.jpe

这段视频里，他推荐了云端 GPU 提供平台 FloydHub。

img_188a0c3e25a03f545455db598310a626.jpe

我曾经试过 AWS GPU 产品。

那是在一门深度学习网课上。

授课老师跟 AWS 合作，为全体学生免费提供若干小时的 AWS 计算能力，以便大家顺利完成练习和作业。

我记得那么清楚，是因为光如何配置 AWS ，他就专门录了数十分钟的视频。

AWS 虽然已经够简单，但是对于新手来说，还是有些门槛。

img_c2ec94e140819ac09254e11907e7b448.jpe

FloydHub 这个网站，刚好能解决用户痛点。

首先它能够包裹 AWS ，把一切复杂的选择都过滤掉。

其次它内置了几乎全部主流深度学习框架，自带电池，开箱即用；

img_4081a4d7e6f94cf6a0b835054935d5e7.jpe

另外，它提供了丰富而简明的文档，用户可以快速上手。

正如它的主页宣称的：

Focus on what matters. Let FloydHub handle the grunt work.

翻译过来就是：

关注你想做的事儿。脏活累活，扔给 FloydHub 吧。

凡是设计给懒人用的东西，我都喜欢。

我于是立即注册了账户，并且做了邮件验证。

img_2a72d48d3fed25e764ff41457e7e3348.jpe

之后，我免费获得了2个小时的 GPU 时间，可以自由尝试运行机器学习任务。

img_6f6c76651c8efb94a1ed08b6650bc299.jpe

为了能把珍贵的 GPU 运算时间花在刀刃上，我认真地阅读了快速上手教程。

img_fee2795f466e4eb3ed13c1e84be0e5e0.jpe

几分钟后，我确信自己学会了使用方法。

尝试

首先，我到 FloydHub 的个人控制面板上，新建了一个任务，起名叫做 “try-keras-boston-house-regression”。

然后，我在本地的 Jupyter Notebook 里，把代码导出为 Python 脚本文件，如下图所示。

我新建了一个目录，把脚本文件拷贝了进来。

img_b93532288172649b6d055e07b1942908.jpe

这个 Python 脚本，我仅仅在最后加了3行代码：

import pickle

with open('data.pickle', 'wb') as f:
    pickle.dump([all_scores, all_mae_histories], f)

加入这几行代码，是因为我们需要记录运行中的一些数据（即 all_scores 和 all_mae_histories）。

然后，进入终端，利用 cd 命令，进入到这个文件夹。

执行：

pip install floyd-cli

这样，本地的 FloydHub 命令行工具就安装好了。

执行下面命令登录进去：

floyd login

系统会提示你，输入 FloydHub 上的账号信息。

输入正确后，执行：

floyd init try-keras-boston-house-regression

注意这个名称，必须和刚才在控制面板新建的任务名称一致。

配置都完成了，下面直接运行就可以了。

输入：

floyd run --gpu --env tensorflow-1.8 "python 03-house-price.py"

这句话的意思是：

使用 GPU 计算；
运行环境选用 Tensorflow 1.8 版本，及对应的 Keras （2.1.6）。

如果你希望使用其他深度学习框架或版本，可以参考这个链接。

img_67711fa866b92fc93a2c656c70be6288.jpe

FloydHub 对我们的命令，是这样回应的：

img_14b0ed4a58ee568bec45bf76ab00ecb9.jpe

操作结束？

对，就这么简单。

你的任务，已在云端运行了。

结果

然后，我就忙自己的事儿去了。

喝茶，看书，还扫了几眼微信订阅号。

虽然是按时计费，但你不用因为怕多算钱，就死死盯住云端运行过程。

一旦任务结束，它自己会退出运行，不会多扣你一分钟珍贵的 GPU 运行时间。

等我回到电脑前面，发现任务已完成。

img_5932744ce53b1cf3411ba540dcf220e9.jpe

整个儿过程中，GPU 内存着实够忙碌的（占用率一直超过90%）。

不过 GPU 好像很清闲的样子，一直在百分之十几晃悠。

看来，我们的神经网络，层数还是太少了，结构不够复杂。

GPU 跑起来，很不过瘾。

往下翻页，看看输出的结果。

img_3d8d25cf53ddb84d23119e1bb7a56144.jpe

程序的输出，包括 GPU 资源创建、调用的一些记录，这里都有。

打开 Files 标签页，咱们看看结果。

img_4593f2f801f4b6976bbc36f0447e551d.jpe

之前追加3行代码，生成的 pickle 记录文件，就在这里了。

看来，FloydHub 确实帮我们完成了繁复的计算过程。

我的笔记本电脑，一直凉凉快快，等着摘取胜利果实。

选择下载，把这个 pickle 文件下载到本地。跟我们的 Jupyter Notebook 放在一个目录下。

回到 Jupyter Lab 运行界面。

新开一个 ipynb 文件。

我们输入以下代码，查看运行记录是否符合我们的需要。

import pickle
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

with open('data.pickle', 'rb') as f:
    [all_scores, all_mae_histories] = pickle.load(f)

num_epochs = 500
average_mae_history = [
    np.mean([x[i] for x in all_mae_histories]) for i in range(num_epochs)
]

plt.plot(range(1, len(average_mae_history) + 1), average_mae_history)
plt.xlabel('Epochs')
plt.ylabel('Validation MAE')
plt.show()

这些代码，只是为了绘图，本身没有任何复杂运算。

这是运行结果：