必嘫 + 关注
阿里云技术专家

必嘫 发表了文章:

像Google一样构建机器学习系统3 - 利用MPIJob运行ResNet101

发布时间:2019-05-17 11:35:32 浏览:7513 回帖 :0

从上篇文章中,我们可以看到如何通过Kubeflow Pipeline运行单节点任务机器学习工作流,在本文中,我们会介绍如何使用Pipeline运行分布式MPI任务,该MPI任务运行模型ResNet10...

python 分布式 docker 容器 Image pipeline google github 数组 工作流

必嘫 发表了文章:

像Google一样构建机器学习系统2 - 开发你的机器学习工作流

发布时间:2019-04-28 07:55:56 浏览:1951 回帖 :0

按照上篇文章搭建了一套Kubeflow Pipelines之后,我们一起小试牛刀,用一个真实的案例,学习如何开发一套基于Kubeflow Pipelines的机器学习工作流。 准备工作 机器学习工...

python 机器学习 code 容器 Image aliyun pipeline google 分布式存储 Commit curl kubernetes 工作流 Kubeflow

必嘫 发表了文章:

像Google一样构建机器学习系统 - 在阿里云上搭建Kubeflow Pipelines

发布时间:2019-04-26 13:06:43 浏览:1947 回帖 :0

谈到机器学习工作流平台,Google的工程经验非常丰富,它的TensorFlow Extended机器学习平台支撑了Google的搜索,翻译,视频等核心业务;更重要的是其对机器学习领域工程效率问题的理...

机器学习 集群 容器 云盘 控制台 google GPU github kubernetes 工作流 Kubeflow

必嘫 发表了文章:

开源工具GPU Sharing:支持Kubernetes集群细粒度

发布时间:2019-02-18 17:18:12 浏览:5591 回帖 :0

问题背景 全球主要的容器集群服务厂商的Kubernetes服务都提供了Nvidia GPU容器调度能力,但是通常都是将一个GPU卡分配给一个容器。这可以实现比较好的隔离性,确保使用GPU的应用不会被...

集群 Annotation plugin GPU github kubernetes

必嘫 评论了文章:

Kubeflow实战系列:阿里云上使用JupyterHub

发布时间:2018-06-08 07:19:15 浏览:9554 回帖 :6

介绍 本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用Jupyter Hub。 背景介绍 时间过得真快,李世乭和AlphaGo的人机对弈已经是两年前的事情。在过去的两年...

容器 云平台 Registry github

“kubeflow已经有比较大的更新,建议您参考一下:https://yq.aliyun.com/articles/686672 部署最新版本。”

必嘫 发表了文章:

新Kubeflow,新征程 (一):简化部署体验

发布时间:2019-01-13 12:26:05 浏览:4116 回帖 :2

时光飞逝,Kubeflow这个基于Kubernetes的云原生机器学习平台方案已经诞生了1年多的时间,人们审视它的眼光不再是好奇和宽容。人们已经开始审视,思考甚至挑战Kubeflow的价值, 而Kub...

配置 容器

必嘫 发表了文章:

在阿里云Kubernetes上使用ENI进行分布式机器学习训练

发布时间:2018-11-02 18:06:01 浏览:1964 回帖 :1

当云原生技术拥抱高性能计算领域的时候,一个重要的问题是如何在确保性能不受损失的前提下,更加灵活和安全进行运算。容器服务推出支持Terway网络支持弹性网卡,帮助用户保证安全隔离的前提下,享受着和主机网...

分布式 性能 配置 集群 容器 aliyun github

必嘫 发表了文章:

Arena - 打开KubeFlow的正确姿势

发布时间:2018-08-03 11:10:00 浏览:5647 回帖 :0

Arena的目标就是让数据科学家简单的释放KubeFlow的洪荒之力,像桌面机上训练一样简单,同时又拥有了集群级别调度和管理的掌控性。为了能够更好的在社区内共享和合作,我们已经在github上开源了自...

深度学习 分布式 监控 开源 GPU github kubernetes

必嘫 发表了文章:

Kubeflow实战系列:利用TensorFlow Serving进行模型预测

发布时间:2018-06-23 22:38:18 浏览:6070 回帖 :0

本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用`TensorFlow Serving`加载训练模型并且进行模型预测。

分布式 aliyun Registry 分布式存储 variables

必嘫 发表了文章:

Kubeflow实战系列:利用TFJob导出分布式TensorFlow模型

发布时间:2018-06-23 21:13:24 浏览:4242 回帖 :0

本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用`TfJob`导出分布式模型训练模型。

分布式 runtime aliyun variables metadata input

必嘫 评论了文章:

Kubeflow实战系列:阿里云上小试TFJob

发布时间:2018-06-13 07:38:12 浏览:6063 回帖 :3

`tf-operator`是Kubeflow的第一个CRD实现,解决的是TensorFlow模型训练的问题,它提供了广泛的灵活性和可配置,可以与阿里云上的NAS,OSS无缝集成,并且提供了简单的UI查...

配置 集群 metadata TensorFlow kubernetes Kubeflow

“ambassador请使用阿里云的docker镜像, 具体参考https://yq.aliyun.com/articles/600601?spm=a2c4e.11153940.blogcont6017...查看全部>

必嘫 发表了文章:

Kubeflow实战系列: 利用TFJob运行分布式TensorFlow

发布时间:2018-06-14 08:13:46 浏览:7775 回帖 :0

TensorFlow作为现在最为流行的深度学习代码库,在数据科学家中间非常流行,特别是可以明显加速训练效率的分布式训练更是杀手级的特性。但是如何真正部署和运行大规模的分布式模型训练,却成了新的挑战。

分布式 events cluster 集群 Server metadata TensorFlow kubernetes

必嘫 发表了文章:

Kubeflow实战系列:阿里云上小试TFJob

发布时间:2018-06-13 07:38:12 浏览:6063 回帖 :3

`tf-operator`是Kubeflow的第一个CRD实现,解决的是TensorFlow模型训练的问题,它提供了广泛的灵活性和可配置,可以与阿里云上的NAS,OSS无缝集成,并且提供了简单的UI查...

配置 集群 metadata TensorFlow kubernetes Kubeflow

必嘫 发表了文章:

Kubeflow实战系列:阿里云上使用JupyterHub

发布时间:2018-06-08 07:19:15 浏览:9554 回帖 :6

介绍 本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用Jupyter Hub。 背景介绍 时间过得真快,李世乭和AlphaGo的人机对弈已经是两年前的事情。在过去的两年...

容器 云平台 Registry github

必嘫 发表了文章:

在阿里云Kubernetes容器服务上打造TensorFlow实验室

发布时间:2018-04-20 10:27:42 浏览:3890 回帖 :0

利用Jupyter开发TensorFLow也是许多数据科学家的首选,但是如何能够快速从零搭建一套这样的环境,并且配置GPU的使用,同时支持最新的TensorFLow版本, 对于数据科学家来说既是复杂的...

深度学习 配置 集群 容器服务 容器

必嘫 发表了文章:

阿里云Kubernetes 1.9上利用Helm运行TensorFlow 分布式模型训练

发布时间:2018-03-22 08:38:32 浏览:2489 回帖 :1

TensorFlow和Kubernetes分别作为深度学习和容器编排领域的领航者,二者的强强联合可以真正释放分布式训练的洪荒之力。而阿里云的Helm解决方案降低了部署的难度,降低了这把`屠龙刀`的使用...

深度学习 分布式 配置 集群 容器服务 Image Registry

必嘫 发表了文章:

阿里云Kubernetes 1.9上利用Helm玩转TensorFlow模型预测

发布时间:2018-03-19 18:47:58 浏览:6310 回帖 :0

TensorFlow Serving是Google开源的机器学习模型预测系统,能够简化并加速从模型到生产应用的过程。 它实际上也是一个在线服务,我们需要考虑它的部署时刻的安装配置,运行时刻的负载均衡...

深度学习 配置 容器 存储

必嘫 发表了文章:

尝鲜阿里云容器服务Kubernetes 1.9,拥抱GPU新姿势

发布时间:2018-03-05 15:49:07 浏览:3389 回帖 :0

尝鲜阿里云容器服务Kubernetes 1.9.3, 拥抱Nvidia GPU的新姿势 自从1.8版本开始,Kubernetes已经明确表示要通过统一的设备插件方式支持像Nvidia PU,Infi...

配置 集群 容器 负载均衡 aliyun 插件 metadata GPU

必嘫 发表了文章:

Kubernetes的Device Plugin机制源码解析(1)

发布时间:2018-03-02 00:28:26 浏览:2108 回帖 :0

Kubernetes 1.8 引入的Device Plugin机制,通过扩展的方式实现支持GPU、FPGA、高性能 NIC、InfiniBand等各种设备的集成。而Device Manager正是Ku...

源码 配置 Server string plugin

必嘫 发表了文章:

Kubernetes的Device Plugin设计解读

发布时间:2018-02-27 15:59:37 浏览:4712 回帖 :0

Kubernetes的生态地位已经确立,可扩展性将是其发力的主战场。异构计算作为非常重要的新战场,Kubernetes非常重视。而异构计算需要强大的计算力和高性能网络,需要提供一种统一的方式与GPU、...

容器服务 容器 API 插件 plugin GPU github kubernetes

2
阿里云技术专家,在应用性能监控和软件交付方面有丰富的实践经验,目前专注于容器服务,微服务以及机器学习等领域。

感兴趣or擅长的领域:

暂无
更多>
xianlubird
xianlubird
文章:17丨 粉丝:41943丨 话题:0
元毅
元毅
文章:17丨 粉丝:17668丨 话题:0
清侠
清侠
文章:6丨 粉丝:40丨 话题:0
csome
csome
文章:19丨 粉丝:41949丨 话题:0
昀龙
昀龙
文章:6丨 粉丝:133丨 话题:0
wsxiaozhang
wsxiaozhang
文章:1丨 粉丝:1丨 话题:0
更多>
游客y5vz7bqyg3dlm
游客y5vz7bqyg3dlm
文章:0丨 粉丝:0丨 话题:0
游客wccsritydmr2w
游客wccsritydmr2w
文章:0丨 粉丝:0丨 话题:0
游客2vfl4oym5zrcy
游客2vfl4oym5zrcy
文章:0丨 粉丝:0丨 话题:0
游客vkuknmysvkiok
游客vkuknmysvkiok
文章:0丨 粉丝:0丨 话题:0
游客fyoviksc77a6e
游客fyoviksc77a6e
文章:0丨 粉丝:0丨 话题:0
游客mai5xgysq36v6
游客mai5xgysq36v6
文章:0丨 粉丝:0丨 话题:0