容器服务Docker&Kubernetes + 关注
手机版

像Google一样构建机器学习系统3 - 利用MPIJob运行ResNet101

从上篇文章中,我们可以看到如何通过Kubeflow Pipeline运行单节点任务机器学习工作流,在本文中,我们会介绍如何使用Pipeline运行分布式MPI任务,该MPI任务运行模型ResNet101的测试。

python 分布式 docker 容器 Image pipeline google github 数组 工作流

像Google一样构建机器学习系统2 - 开发你的机器学习工作流

按照上篇文章搭建了一套Kubeflow Pipelines之后,我们一起小试牛刀,用一个真实的案例,学习如何开发一套基于Kubeflow Pipelines的机器学习工作流。 准备工作 机器学习工作流是一个任务驱动的流程,同时也是数据驱...

python 机器学习 code 容器 Image aliyun pipeline google 分布式存储 Commit curl kubernetes 工作流 Kubeflow

像Google一样构建机器学习系统 - 在阿里云上搭建Kubeflow Pipelines

谈到机器学习工作流平台,Google的工程经验非常丰富,它的TensorFlow Extended机器学习平台支撑了Google的搜索,翻译,视频等核心业务;更重要的是其对机器学习领域工程效率问题的理解深刻,

机器学习 集群 容器 云盘 控制台 google GPU github kubernetes 工作流 Kubeflow

开源工具GPU Sharing:支持Kubernetes集群细粒度

问题背景 全球主要的容器集群服务厂商的Kubernetes服务都提供了Nvidia GPU容器调度能力,但是通常都是将一个GPU卡分配给一个容器。这可以实现比较好的隔离性,确保使用GPU的应用不会被其他应用影响;对于深度学习模型训练的场景...

集群 Annotation plugin GPU github kubernetes

在Kubernetes上使用RDMA

### RDMA RDMA(全称RemoteDirect Memory Access) 它为了解决网络传输中服务器端数据处理的延迟而产生。 它的原理是将待传输的数据从一台计算机的内存,直接传输到另一台计算机的内存,整个传输过程无需操...

docker ECS 阿里技术协会 集群 容器 Image cdn 控制台 metadata plugin 协议栈 kubernetes

在阿里云Kubernetes上使用ENI进行分布式机器学习训练

当云原生技术拥抱高性能计算领域的时候,一个重要的问题是如何在确保性能不受损失的前提下,更加灵活和安全进行运算。容器服务推出支持Terway网络支持弹性网卡,帮助用户保证安全隔离的前提下,享受着和主机网络一样的高性能。

分布式 性能 配置 集群 容器 aliyun github

开源工具Arena,数据科学家再也不用为Kubernetes犯难啦!

为什么要用Kubernetes去难为数据科学家呢?

深度学习 分布式 监控 集群 容器 解决方案 GPU 数据管理

Kubeflow实战系列:利用TensorFlow Serving进行模型预测

本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用`TensorFlow Serving`加载训练模型并且进行模型预测。

分布式 aliyun Registry 分布式存储 variables

Kubeflow实战系列:利用TFJob导出分布式TensorFlow模型

本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用`TfJob`导出分布式模型训练模型。

分布式 runtime aliyun variables metadata input

Kubeflow实战系列:阿里云上小试TFJob

`tf-operator`是Kubeflow的第一个CRD实现,解决的是TensorFlow模型训练的问题,它提供了广泛的灵活性和可配置,可以与阿里云上的NAS,OSS无缝集成,并且提供了简单的UI查看训练的历史记录。

配置 集群 metadata TensorFlow kubernetes Kubeflow

Kubeflow实战系列:阿里云上使用JupyterHub

介绍 本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用Jupyter Hub。 背景介绍 时间过得真快,李世乭和AlphaGo的人机对弈已经是两年前的事情。在过去的两年中,人工智能开始从学术界向工业界转型,基...

容器 云平台 Registry github

2017上海云栖TechDay-15分钟在云上玩转TensorFlow

本文为您介绍了2017年上海云栖TechDay-利用深度学习解决方案创建一个TensorFlow开发环境,运行一个MNIST程序,并且利用Tensorboard的可视化功能观测训练效果。

深度学习 阿里云 HTTPS 日志 http 集群 容器 aliyun 解决方案 开发环境

利用TFRecord和HDFS准备TensorFlow训练数据

本文将介绍如何将数据转化为TFRecord格式,并且将生成TFRecord文件保存到HDFS中, 这里我们直接使用的是阿里云EMR(E-MapReduce)的HDFS服务。

深度学习 大数据 阿里云 阿里云容器服务 hdfs HTTPS http 配置 安全组 集群 容器 aliyun 解决方案 EMR TensoFlow

打造深度学习的云端实验室

本系列将利用阿里云容器服务的机器学习解决方案,帮助您了解和掌握TensorFlow,MxNet等深度学习库,开启您的深度学习之旅。

深度学习 阿里云 阿里云容器服务 机器学习 HTTPS 日志 http 集群 容器 aliyun 解决方案 开发环境 TensorFlow

快速在阿里云上构建机器学习应用

3月28日云栖大会开源专场,阿里云技术专家必嘫给大家带来了“在阿里云上构建机器学习应用”的演讲。本文主要从深度学习应用发展历史开始谈起,进而介绍了如何结合阿里云容器服务的机器学习解决方案快速打造一套深度学习应用的案例。

深度学习 算法 阿里云 机器学习 http 容器服务 容器 负载均衡 解决方案 github

在阿里云上两分钟玩转AlextNet

本文是该系列中的第六篇文章, 将为您介绍如何在弹性GPU和阿里云容器服务上快速部署和使用AlexNet。

深度学习 分布式 阿里云 服务器 OSS 阿里云容器服务 性能 HTTPS http 配置 镜像 集群 TensorFlow HPC 弹性GPU服务

在阿里云HPC和容器服务上,像梵高一样作画

利用阿里云HPC和容器服务,轻松创造梵高风格的图片

深度学习 监控 docker 阿里云 阿里云容器服务 配置 镜像 容器 高性能计算 GPU

利用Docker和阿里云容器服务轻松搭建TensorFlow Serving集群

本文是系列中的第二篇文章,将带您快速了解Tensorflow Serving的原理和使用,并利用阿里云容器服务轻松在云端搭建TensorFlow Serving集群。

docker 阿里云容器服务 容器服务 容器 TensorFlow

基于Docker的Tensorflow实验环境

利用Docker和阿里云容器服务轻松在本地和云端搭建Tensorflow的学习环境

docker 阿里云容器服务 机器学习 容器服务 TensorFlow

1
GO
更多>
容器 docker 集群 kubernetes 配置 容器服务 Image aliyun 镜像 云栖社区 阿里云 微服务 HTTPS metadata 架构 控制台 service 存储 阿里云容器服务 nginx k8s 安全 监控 负载均衡 分布式 github serverless Registry 高可用 日志 解决方案 阿里技术协会 云盘 测试 linux 插件 Istio Server 深度学习 Cloud jenkins devOps 弹性伸缩 服务器 http windows node slb 域名 服务网格 ECS html Knative servicemesh 主机 基础设施 分布式系统与计算 源码 ACK 函数 OSS spring GPU API Create 云平台 plugin cluster 数据库 持续集成 性能 公共云 NAS 云原生 WordPress mysql google VPC java 云栖大会 type dockerCon16 CSI 持续交付 Access 磁盘 脚本 volume LOG swarm dockerCon 安全组 加密 用户体验 springcloud Flexvolume TensorFlow Bash 钉钉 string container 操作系统 ingress hub network 分布式系统 curl redis etcd 日志分析 数据卷 tomcat pipeline index 对象存储OSS python CICD 开发环境 同步 Annotation 云服务 电商 飞天 工作流 test 区块链 path 浏览器 request code 按量付费 数据存储与数据库 数据盘 native 机器学习 RAM centos 阿里巴巴 数据存储 大数据 kernel web federation-v2 shell pods StatefulSet Helm Json DNS gitlab Commit 模块 Elasticsearch influxdb 公共云 git Cache 分布式存储 飞天专有云敏捷版 logging 扩容 云数据库Redis版 update 性能优化 runtime 弹性扩展 互联网 对象存储 cmd 弹性计算 CPU Logtail snat 沙箱