在阿里云Kubernetes容器服务上打造TensorFlow实验室

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 利用Jupyter开发TensorFLow也是许多数据科学家的首选,但是如何能够快速从零搭建一套这样的环境,并且配置GPU的使用,同时支持最新的TensorFLow版本, 对于数据科学家来说既是复杂的,同时也是浪费精力的。

简介

TensorFLow是深度学习和机器学习最流行的开源框架,它最初是由Google研究团队开发的并致力于解决深度神经网络的机器学习研究,从2015年开源到现在得到了广泛的应用。特别是Tensorboard这一利器,对于数据科学家有效的工作也是非常有效的利器。

Jupyter notebook是强大的数据分析工具,它能够帮助快速开发并且实现机器学习代码的共享,是数据科学团队用来做数据实验和组内合作的利器,也是机器学习初学者入门这一个领域的好起点。

利用Jupyter开发TensorFLow也是许多数据科学家的首选,但是如何能够快速从零搭建一套这样的环境,并且配置GPU的使用,同时支持最新的TensorFLow版本, 对于数据科学家来说既是复杂的,同时也是浪费精力的。在阿里云的Kubernetes集群上,您可以通过简单的按钮提交创建一套完整的TensorFlow实验环境,包括Jupyter Notebook开发模型,利用Tensorboard调整模型。

tf.jpg

准备Kubernetes环境

阿里云容器服务Kubernetes 1.9.3目前已经上线,但是购买按量付费的GPU计算型服务器需要申请ECS工单开通。具体创建过程,可以参考创建Kubernetes集群

体验通过应用目录部署TensorFlow实验室

通过Helm部署MPI的应用,本文以openmpi为例,向您展示如何快速在容器服务上运行MPI应用。实际上如果需要换成其他MPI实现只需要替换镜像即可。

2.1 可以通过应用目录,点击ack-tensorflow-dev

dev_1.jpg

2.2 点击参数, 就可以通过修改参数配置点击部署

dev_2.jpg

这里的密码是tensorflow, 您也可以改成您自己设定的密码

也可以登录到Kubernetes master运行以下命令

$ helm install --name tensorflow incubator/ack-tensorflow
AI 代码解读

2.3 运行结束后可以登录到控制台,查看tensorflow应用启动的状态

dev_3.jpg

登录使用TensorFlow实验环境

  1. 首先通过ssh登录Kubernetes集群,查看tensorflow应用列表
$ helm list
NAME          REVISION    UPDATED                     STATUS      CHART                       NAMESPACE
tensorflow    1           Thu Apr 12 07:54:59 2018    DEPLOYED    ack-tensorflow-dev-0.1.0    default
AI 代码解读

2. 利用helm status检查应用配置

$ helm status tensorflow
LAST DEPLOYED: Thu Apr 12 07:54:59 2018
NAMESPACE: default
STATUS: DEPLOYED

RESOURCES:
==> v1/Service
NAME                           TYPE          CLUSTER-IP   EXTERNAL-IP     PORT(S)                      AGE
tensorflow-ack-tensorflow-dev  LoadBalancer  172.19.2.39  10.0.0.1  6006:32483/TCP,80:32431/TCP  13m

==> v1beta2/Deployment
NAME                           DESIRED  CURRENT  UP-TO-DATE  AVAILABLE  AGE
tensorflow-ack-tensorflow-dev  1        1        1           1          13m


NOTES:
1. Get the application URL by running these commands:
     NOTE: It may take a few minutes for the LoadBalancer IP to be available.
           You can watch the status of by running 'kubectl get svc -w tensorflow-ack-tensorflow-dev'
  export SERVICE_IP=$(kubectl get svc --namespace default tensorflow-ack-tensorflow-dev -o jsonpath='{.status.loadBalancer.ingress[0].ip}')
  echo http://$SERVICE_IP:
AI 代码解读

这里可以看到外部SLB的ip是10.0.0.1, Jupyter Notebook的端口为80, Tensorboard为6006。

3. 通过Jupyter访问端点登录,本示例中Jupyter的访问地址是http://10.0.0.1, 输入前面设定的密码点击登录, 在本示例中我们设定的是tensorflow

jupyter-1.jpg

4. 点击Terminal按钮

jupyter-2.jpg

5. 在Terminal内执行nvidia-smi, 可以看到GPU的配置

jupyter-3.jpg

6. 通过git命令下载tensorflow样例代码,

$ git clone https://code.aliyun.com/kubernetes/Tensorflow-Examples.git
AI 代码解读

jupyter-4.jpg

7. 回到主页您就能看到Tensorflow-Examples已经下载到了您的工作目录

jupyter-5.jpg

8. 进入到 http://10.0.0.1/notebooks/Tensorflow-Examples/notebooks/4_Utils/tensorboard_basic.ipynb, 运行程序

jupyter-6.jpg

注意:如果您需要用Tensorboard观测训练效果请将日志记录到/output/training_logs下。

9. 以下为训练结果输出

jupyter-7.jpg

10. 这时您可以登录Tensorboard查看训练效果, 本示例中Tensorboard的地址为http://10.0.0.1:6006 。 这里您可以看到模型的定义和训练的收敛趋势。

tensorboard-1.jpg

tensorboard-2.jpg

总结

我们可以利用阿里云Kubernetes容器服务,轻松的搭建在云端搭建TensorFlow的环境,运行深度学习的实验室,并且利用TensorBoard追踪训练效果。欢迎大家使用阿里云上的GPU容器服务,在使用GPU高效计算的能力同时,比较简单和快速的开始模型开发工作。

相关实践学习
巧用云服务器ECS制作节日贺卡
本场景带您体验如何在一台CentOS 7操作系统的ECS实例上,通过搭建web服务器,上传源码到web容器,制作节日贺卡网页。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
必嘫
+关注
目录
打赏
0
0
0
0
78493
分享
相关文章
容器数据保护:基于容器服务 Kubernetes 版(ACK)备份中心实现K8s存储卷一键备份与恢复
阿里云ACK备份中心提供一站式容器化业务灾备及迁移方案,减少数据丢失风险,确保业务稳定运行。
阿里云ACK One:注册集群支持ACS算力——云原生时代的计算新引擎
阿里云ACK One:注册集群支持ACS算力——云原生时代的计算新引擎
37 10
基于阿里云Serverless Kubernetes(ASK)的无服务器架构设计与实践
无服务器架构(Serverless Architecture)在云原生技术中备受关注,开发者只需专注于业务逻辑,无需管理服务器。阿里云Serverless Kubernetes(ASK)是基于Kubernetes的托管服务,提供极致弹性和按需付费能力。本文深入探讨如何使用ASK设计和实现无服务器架构,涵盖事件驱动、自动扩展、无状态设计、监控与日志及成本优化等方面,并通过图片处理服务案例展示具体实践,帮助构建高效可靠的无服务器应用。
ACK 容器监控存储全面更新:让您的应用运行更稳定、更透明
ACK 容器监控存储全面更新:让您的应用运行更稳定、更透明
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%
ACK 容器监控存储全面更新:让您的应用运行更稳定、更透明
ACK 容器监控存储全面更新:让您的应用运行更稳定、更透明
部署DeepSeek但IDC GPU不足,阿里云ACK Edge虚拟节点来帮忙
部署DeepSeek但IDC GPU不足,阿里云ACK Edge虚拟节点来帮忙
基于阿里云容器服务(ACK)的微服务架构设计与实践
本文介绍如何利用阿里云容器服务Kubernetes版(ACK)构建高可用、可扩展的微服务架构。通过电商平台案例,展示基于Java(Spring Boot)、Docker、Nacos等技术的开发、容器化、部署流程,涵盖服务注册、API网关、监控日志及性能优化实践,帮助企业实现云原生转型。
K8s集群实战:使用kubeadm和kuboard部署Kubernetes集群
总之,使用kubeadm和kuboard部署K8s集群就像回归童年一样,简单又有趣。不要忘记,技术是为人服务的,用K8s集群操控云端资源,我们不过是想在复杂的世界找寻简单。尽管部署过程可能遇到困难,但朝着简化复杂的目标,我们就能找到意义和乐趣。希望你也能利用这些工具,找到你的乐趣,满足你的需求。
60 33
集群部署:使用Rancher部署Kubernetes集群。
以上就是使用 Rancher 部署 Kubernetes 集群的流程。使用 Rancher 和 Kubernetes,开发者可以受益于灵活性和可扩展性,允许他们在多种环境中运行多种应用,同时利用自动化工具使工作负载更加高效。
53 19

相关产品

  • 容器计算服务
  • 容器服务Kubernetes版