在阿里云EMR上使用Intel Analytics Zoo进行深度学习

简介: Analytics Zoo是由Intel开源,基于Apache Spark和Inte BigDL的大数据分析和AI平台,方便用户开发基于大数据、端到端的深度学习应用。本文简单介绍了如何在Aliyun EMR使用Analytics Zoo来进行深度学习。

简介

Analytics Zoo是由Intel开源,基于Apache Spark和Inte BigDL的大数据分析和AI平台,方便用户开发基于大数据、端到端的深度学习应用。

系统要求

  • JDK 8
  • Spark 集群(推荐使用EMR支持的Spark 2.x)
  • python-2.7(python 3.5,3.6也支持), pip

安装Analytics Zoo

Analytics Zoo 最新的release版本是0.2.0

Scala安装

下载pre-build版本

可以从github,analytics主页下载到pre-build版本

通过script build

安装Apache Maven,设置Maven环境

export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"

如果使用ECS机器进行编译,推荐修改Maven仓库mirror

<mirror>
    <id>nexus-aliyun</id>
    <mirrorOf>central</mirrorOf>
    <name>Nexus aliyun</name>
    <url>http://maven.aliyun.com/nexus/content/groups/public</url>
</mirror>

下载Analytics Zoo release版本,解压后在目录下运行

bash make-dist.sh

build结束后,在dist目录中包含了所有的运行环境。将dist目录放到EMR软件栈运行时统一目录。

cp -r dist/ /usr/lib/analytics_zoo

python 安装

Analytics Zoo支持pip安装和非pip安装,pip安装会安装pyspark,bigdl等,由于EMR集群已经安装了pyspark,通过pip安装有可能引起冲突,所以采用非pip安装。

非Pip安装

首先要运行

bash make-dist.sh

进入pyzoo目录,安装analytcis zoo

python setup.py install

设置环境变量

在scala安装结束后将dist目录放到了EMR软件栈统一目录,然后设置环境变量。编辑/etc/profile.d/analytics_zoo.sh,加入

export ANALYTICS_ZOO_HOME=/usr/lib/analytics_zoo
export PATH=$ANALYTICS_ZOO_HOME/bin:$PATH

EMR已经设置了SPARK_HOME,所以无需再次设置。

使用Analytics Zoo

使用Spark来训练和测试深度学习模型

使用Analytics Zoo来做文本分类,代码和说明在github。根据说明下载必须的数据。提交命令:

spark-submit --master yarn \
--deploy-mode cluster --driver-memory 8g \
--executor-memory 20g --class com.intel.analytics.zoo.examples.textclassification.TextClassification \
/usr/lib/analytics_zoo/lib/analytics-zoo-bigdl_0.6.0-spark_2.1.0-0.2.0-jar-with-dependencies.jar --baseDir /news

通过ssh proxy来查看spark运行详情页面。
1
同时查看日志,能够看到每个epoch的accuracy信息等。

INFO optim.DistriOptimizer$: [Epoch 2 9600/15107][Iteration 194][Wall Clock 193.266637037s] Trained 128 records in 0.958591653 seconds. Throughput is 133.52922 records/second. Loss is 0.74216986.
INFO optim.DistriOptimizer$: [Epoch 2 9728/15107][Iteration 195][Wall Clock 194.224064816s] Trained 128 records in 0.957427779 seconds. Throughput is 133.69154 records/second. Loss is 0.51025534.
INFO optim.DistriOptimizer$: [Epoch 2 9856/15107][Iteration 196][Wall Clock 195.189488678s] Trained 128 records in 0.965423862 seconds. Throughput is 132.58424 records/second. Loss is 0.553785.
INFO optim.DistriOptimizer$: [Epoch 2 9984/15107][Iteration 197][Wall Clock 196.164318688s] Trained 128 records in 0.97483001 seconds. Throughput is 131.30495 records/second. Loss is 0.5517549.

在Analytics Zoo中使用pyspark和Jupyter来进行深度学习训练

安装jupyter

pip install jupyter

使用下面命令启动。

jupyter-with-zoo.sh

使用Analytics Zoo,采用内置的Wide And Deep 模型来进行推荐,相关内容可参考github
首先导入数据
2
然后定义模型和优化器
3
进行训练
4
查看训练结果
5
6

相关文章
|
5月前
|
关系型数据库 MySQL BI
用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓实战分享
本文从用友畅捷通公司介绍及业务背景;数据仓库技术选型、实际案例及未来规划等方面,分享了用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓的实战经验。
607 0
用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓实战分享
|
9月前
|
存储 SQL 分布式计算
阿里云全托管flink-vvp平台hudi connector实践(基于emr集群oss-hdfs存储)
阿里云全托管flink-vvp平台hudi sink connector实践,本文数据湖hudi基于阿里云E-MapReduce产品,以云对象存储oss-hdfs作为存储
|
12月前
|
SQL 存储 监控
水滴筹基于阿里云 EMR StarRocks 实战分享
水滴筹大数据部门的数据开发工程师韩园园老师为大家分享水滴筹基于阿里云EMR StarRocks的实战经验。
5799 3
水滴筹基于阿里云 EMR StarRocks 实战分享
|
2月前
|
分布式计算 运维 大数据
阿里云 EMR Serverless Spark 版免费邀测中
阿里云 EMR Serverless Spark 版,以 Spark Native Engine 为基础,旨在提供一个全托管、一站式的数据开发平台。诚邀您参与 EMR Serverless Spark 版免费测试,体验 100% 兼容 Spark 的 Serverless 服务:https://survey.aliyun.com/apps/zhiliao/iscizrF54
405 0
阿里云 EMR Serverless Spark 版免费邀测中
|
4月前
|
机器学习/深度学习 人工智能 分布式计算
阿里云PAI:一站式AI研发平台,引领深度学习潮流
阿里云PAI:一站式AI研发平台,引领深度学习潮流 随着人工智能的飞速发展,深度学习框架已经成为AI研发的核心工具。然而,选择合适的深度学习框架并不容易,需要考虑的因素包括计算性能、易用性、支持的算法组件等多种因素。今天,我们就来介绍一款一站式AI研发平台——阿里云PAI,看看它如何解决这些痛点。
177 1
|
4月前
|
存储 分布式计算 Apache
阿里云 EMR 基于 Paimon 和 Hudi 构建 Streaming Lakehouse
Apache Paimon 和 Apache Hudi 作为数据湖存储格式,有着高吞吐的写入和低延迟的查询性能,是构建数据湖的常用组件。本文在阿里云EMR上,针对数据实时入湖场景,对 Paimon 和 Hudi 的性能进行比对,并分别以 Paimon 和 Hudi 作为统一存储搭建准实时数仓。
64631 1
阿里云 EMR 基于 Paimon 和 Hudi 构建 Streaming Lakehouse
|
5月前
|
分布式计算 关系型数据库 MySQL
阿里云ADB MySQL X Intel联合推出训练营,参营完成任务即可获100元话费卡!
AnalyticDB MySQL和Intel联合推出基于ADB Spark的训练营,ADB新用户参营完成任务即可获得价值100元的话费卡权益包!下图可扫码参加,也可直接点击链接前往 https://edu.aliyun.com/trainingcamp/355118
阿里云ADB MySQL X Intel联合推出训练营,参营完成任务即可获100元话费卡!
|
9月前
|
存储 分布式计算 大数据
CommunityOverCode Asia 精彩回顾|阿里云开源大数据 EMR 技术实践分享
阿里云开源大数据 EMR 在 CommunityOverCode Asia 的精彩分享。
562 0
|
9月前
|
机器学习/深度学习 弹性计算
阿里云最新产品手册——云基础产品与基础设施——计算——云服务器ECS——应用场景——深度学习
阿里云最新产品手册——云基础产品与基础设施——计算——云服务器ECS——应用场景——深度学习自制脑图
277 1
|
12月前
|
机器学习/深度学习 弹性计算 并行计算
深度学习:在阿里云上搭建notebook深度学习开发环境
随着AIGC浪潮席卷,再次迎来深度学习热潮。《动手学深度学习 PyTorch版》这本书,注重实战演练,通过手动运行、编写源码可很好的加深对深度学习理论的理解,该书在B站等网站上还有李沐录制的讲解视频,降低了学习门槛,值得推荐。 在阿里云上搭建notebook开发环境过程中踩过一些坑,此文可避免读者重复踩坑。