容器服务Docker&Kubernetes + 关注
手机版

像Google一样构建机器学习系统3 - 利用MPIJob运行ResNet101

从上篇文章中,我们可以看到如何通过Kubeflow Pipeline运行单节点任务机器学习工作流,在本文中,我们会介绍如何使用Pipeline运行分布式MPI任务,该MPI任务运行模型ResNet101的测试。

python 分布式 docker 容器 Image pipeline google github 数组 工作流

像Google一样构建机器学习系统2 - 开发你的机器学习工作流

按照上篇文章搭建了一套Kubeflow Pipelines之后,我们一起小试牛刀,用一个真实的案例,学习如何开发一套基于Kubeflow Pipelines的机器学习工作流。 准备工作 机器学习工作流是一个任务驱动的流程,同时也是数据驱...

python 机器学习 code 容器 Image aliyun pipeline google 分布式存储 Commit curl kubernetes 工作流 Kubeflow

像Google一样构建机器学习系统 - 在阿里云上搭建Kubeflow Pipelines

谈到机器学习工作流平台,Google的工程经验非常丰富,它的TensorFlow Extended机器学习平台支撑了Google的搜索,翻译,视频等核心业务;更重要的是其对机器学习领域工程效率问题的理解深刻,

机器学习 集群 容器 云盘 控制台 google GPU github kubernetes 工作流 Kubeflow

开源工具GPU Sharing:支持Kubernetes集群细粒度

问题背景 全球主要的容器集群服务厂商的Kubernetes服务都提供了Nvidia GPU容器调度能力,但是通常都是将一个GPU卡分配给一个容器。这可以实现比较好的隔离性,确保使用GPU的应用不会被其他应用影响;对于深度学习模型训练的场景...

集群 Annotation plugin GPU github kubernetes

在阿里云Kubernetes上使用ENI进行分布式机器学习训练

当云原生技术拥抱高性能计算领域的时候,一个重要的问题是如何在确保性能不受损失的前提下,更加灵活和安全进行运算。容器服务推出支持Terway网络支持弹性网卡,帮助用户保证安全隔离的前提下,享受着和主机网络一样的高性能。

分布式 性能 配置 集群 容器 aliyun github

开源工具Arena,数据科学家再也不用为Kubernetes犯难啦!

为什么要用Kubernetes去难为数据科学家呢?

深度学习 分布式 监控 集群 容器 解决方案 GPU 数据管理

Kubeflow实战系列:利用TensorFlow Serving进行模型预测

本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用`TensorFlow Serving`加载训练模型并且进行模型预测。

分布式 aliyun Registry 分布式存储 variables

Kubeflow实战系列:利用TFJob导出分布式TensorFlow模型

本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用`TfJob`导出分布式模型训练模型。

分布式 runtime aliyun variables metadata input

Kubeflow实战系列:阿里云上小试TFJob

`tf-operator`是Kubeflow的第一个CRD实现,解决的是TensorFlow模型训练的问题,它提供了广泛的灵活性和可配置,可以与阿里云上的NAS,OSS无缝集成,并且提供了简单的UI查看训练的历史记录。

配置 集群 metadata TensorFlow kubernetes Kubeflow

Kubeflow实战系列:阿里云上使用JupyterHub

介绍 本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用Jupyter Hub。 背景介绍 时间过得真快,李世乭和AlphaGo的人机对弈已经是两年前的事情。在过去的两年中,人工智能开始从学术界向工业界转型,基...

容器 云平台 Registry github

2017上海云栖TechDay-15分钟在云上玩转TensorFlow

本文为您介绍了2017年上海云栖TechDay-利用深度学习解决方案创建一个TensorFlow开发环境,运行一个MNIST程序,并且利用Tensorboard的可视化功能观测训练效果。

深度学习 阿里云 HTTPS 日志 http 集群 容器 aliyun 解决方案 开发环境

利用TFRecord和HDFS准备TensorFlow训练数据

本文将介绍如何将数据转化为TFRecord格式,并且将生成TFRecord文件保存到HDFS中, 这里我们直接使用的是阿里云EMR(E-MapReduce)的HDFS服务。

深度学习 大数据 阿里云 阿里云容器服务 hdfs HTTPS http 配置 安全组 集群 容器 aliyun 解决方案 EMR TensoFlow

打造深度学习的云端实验室

本系列将利用阿里云容器服务的机器学习解决方案,帮助您了解和掌握TensorFlow,MxNet等深度学习库,开启您的深度学习之旅。

深度学习 阿里云 阿里云容器服务 机器学习 HTTPS 日志 http 集群 容器 aliyun 解决方案 开发环境 TensorFlow

快速在阿里云上构建机器学习应用

3月28日云栖大会开源专场,阿里云技术专家必嘫给大家带来了“在阿里云上构建机器学习应用”的演讲。本文主要从深度学习应用发展历史开始谈起,进而介绍了如何结合阿里云容器服务的机器学习解决方案快速打造一套深度学习应用的案例。

深度学习 算法 阿里云 机器学习 http 容器服务 容器 负载均衡 解决方案 github

在阿里云上两分钟玩转AlextNet

本文是该系列中的第六篇文章, 将为您介绍如何在弹性GPU和阿里云容器服务上快速部署和使用AlexNet。

深度学习 分布式 阿里云 服务器 OSS 阿里云容器服务 性能 HTTPS http 配置 镜像 集群 TensorFlow HPC 弹性GPU服务

在阿里云HPC和容器服务上,像梵高一样作画

利用阿里云HPC和容器服务,轻松创造梵高风格的图片

深度学习 监控 docker 阿里云 阿里云容器服务 配置 镜像 容器 高性能计算 GPU

利用Docker和阿里云容器服务轻松搭建TensorFlow Serving集群

本文是系列中的第二篇文章,将带您快速了解Tensorflow Serving的原理和使用,并利用阿里云容器服务轻松在云端搭建TensorFlow Serving集群。

docker 阿里云容器服务 容器服务 容器 TensorFlow

基于Docker的Tensorflow实验环境

利用Docker和阿里云容器服务轻松在本地和云端搭建Tensorflow的学习环境

docker 阿里云容器服务 机器学习 容器服务 TensorFlow

1
GO