必嘫 + 关注
阿里云技术专家

必嘫 发表了文章:

开源工具GPU Sharing:支持Kubernetes集群细粒度

发布时间:2019-02-18 17:18:12 浏览:3228 回帖 :0

问题背景 全球主要的容器集群服务厂商的Kubernetes服务都提供了Nvidia GPU容器调度能力,但是通常都是将一个GPU卡分配给一个容器。这可以实现比较好的隔离性,确保使用GPU的应用不会被...

集群 Annotation plugin GPU github kubernetes

必嘫 评论了文章:

Kubeflow实战系列:阿里云上使用JupyterHub

发布时间:2018-06-08 07:19:15 浏览:5968 回帖 :6

介绍 本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用Jupyter Hub。 背景介绍 时间过得真快,李世乭和AlphaGo的人机对弈已经是两年前的事情。在过去的两年...

容器 云平台 Registry github

“kubeflow已经有比较大的更新,建议您参考一下:https://yq.aliyun.com/articles/686672 部署最新版本。”

必嘫 发表了文章:

新Kubeflow,新征程 (一):简化部署体验

发布时间:2019-01-13 12:26:05 浏览:1469 回帖 :0

时光飞逝,Kubeflow这个基于Kubernetes的云原生机器学习平台方案已经诞生了1年多的时间,人们审视它的眼光不再是好奇和宽容。人们已经开始审视,思考甚至挑战Kubeflow的价值, 而Kub...

配置 容器

必嘫 发表了文章:

在阿里云Kubernetes上使用ENI进行分布式机器学习训练

发布时间:2018-11-02 18:06:01 浏览:1046 回帖 :1

当云原生技术拥抱高性能计算领域的时候,一个重要的问题是如何在确保性能不受损失的前提下,更加灵活和安全进行运算。容器服务推出支持Terway网络支持弹性网卡,帮助用户保证安全隔离的前提下,享受着和主机网...

分布式 性能 配置 集群 容器 aliyun github

必嘫 发表了文章:

Arena - 打开KubeFlow的正确姿势

发布时间:2018-08-03 11:10:00 浏览:4134 回帖 :0

Arena的目标就是让数据科学家简单的释放KubeFlow的洪荒之力,像桌面机上训练一样简单,同时又拥有了集群级别调度和管理的掌控性。为了能够更好的在社区内共享和合作,我们已经在github上开源了自...

深度学习 分布式 监控 开源 GPU github kubernetes

必嘫 发表了文章:

Kubeflow实战系列:利用TensorFlow Serving进行模型预测

发布时间:2018-06-23 22:38:18 浏览:4018 回帖 :0

本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用`TensorFlow Serving`加载训练模型并且进行模型预测。

分布式 aliyun Registry 分布式存储 variables

必嘫 发表了文章:

Kubeflow实战系列:利用TFJob导出分布式TensorFlow模型

发布时间:2018-06-23 21:13:24 浏览:2708 回帖 :0

本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用`TfJob`导出分布式模型训练模型。

分布式 runtime aliyun variables metadata input

必嘫 评论了文章:

Kubeflow实战系列:阿里云上小试TFJob

发布时间:2018-06-13 07:38:12 浏览:4112 回帖 :3

`tf-operator`是Kubeflow的第一个CRD实现,解决的是TensorFlow模型训练的问题,它提供了广泛的灵活性和可配置,可以与阿里云上的NAS,OSS无缝集成,并且提供了简单的UI查...

配置 集群 metadata TensorFlow kubernetes Kubeflow

“ambassador请使用阿里云的docker镜像, 具体参考https://yq.aliyun.com/articles/600601?spm=a2c4e.11153940.blogcont6017...查看全部>

必嘫 发表了文章:

Kubeflow实战系列: 利用TFJob运行分布式TensorFlow

发布时间:2018-06-14 08:13:46 浏览:5393 回帖 :0

TensorFlow作为现在最为流行的深度学习代码库,在数据科学家中间非常流行,特别是可以明显加速训练效率的分布式训练更是杀手级的特性。但是如何真正部署和运行大规模的分布式模型训练,却成了新的挑战。

分布式 events cluster 集群 Server metadata TensorFlow kubernetes

必嘫 发表了文章:

Kubeflow实战系列:阿里云上小试TFJob

发布时间:2018-06-13 07:38:12 浏览:4112 回帖 :3

`tf-operator`是Kubeflow的第一个CRD实现,解决的是TensorFlow模型训练的问题,它提供了广泛的灵活性和可配置,可以与阿里云上的NAS,OSS无缝集成,并且提供了简单的UI查...

配置 集群 metadata TensorFlow kubernetes Kubeflow

必嘫 发表了文章:

Kubeflow实战系列:阿里云上使用JupyterHub

发布时间:2018-06-08 07:19:15 浏览:5968 回帖 :6

介绍 本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用Jupyter Hub。 背景介绍 时间过得真快,李世乭和AlphaGo的人机对弈已经是两年前的事情。在过去的两年...

容器 云平台 Registry github

必嘫 发表了文章:

在阿里云Kubernetes容器服务上打造TensorFlow实验室

发布时间:2018-04-20 10:27:42 浏览:3228 回帖 :0

利用Jupyter开发TensorFLow也是许多数据科学家的首选,但是如何能够快速从零搭建一套这样的环境,并且配置GPU的使用,同时支持最新的TensorFLow版本, 对于数据科学家来说既是复杂的...

深度学习 配置 集群 容器服务 容器

必嘫 发表了文章:

阿里云Kubernetes 1.9上利用Helm运行TensorFlow 分布式模型训练

发布时间:2018-03-22 08:38:32 浏览:2009 回帖 :1

TensorFlow和Kubernetes分别作为深度学习和容器编排领域的领航者,二者的强强联合可以真正释放分布式训练的洪荒之力。而阿里云的Helm解决方案降低了部署的难度,降低了这把`屠龙刀`的使用...

深度学习 分布式 配置 集群 容器服务 Image Registry

必嘫 发表了文章:

阿里云Kubernetes 1.9上利用Helm玩转TensorFlow模型预测

发布时间:2018-03-19 18:47:58 浏览:5663 回帖 :0

TensorFlow Serving是Google开源的机器学习模型预测系统,能够简化并加速从模型到生产应用的过程。 它实际上也是一个在线服务,我们需要考虑它的部署时刻的安装配置,运行时刻的负载均衡...

深度学习 配置 容器 存储

必嘫 发表了文章:

尝鲜阿里云容器服务Kubernetes 1.9,拥抱GPU新姿势

发布时间:2018-03-05 15:49:07 浏览:2806 回帖 :0

尝鲜阿里云容器服务Kubernetes 1.9.3, 拥抱Nvidia GPU的新姿势 自从1.8版本开始,Kubernetes已经明确表示要通过统一的设备插件方式支持像Nvidia PU,Infi...

配置 集群 容器 负载均衡 aliyun 插件 metadata GPU

必嘫 发表了文章:

Kubernetes的Device Plugin机制源码解析(1)

发布时间:2018-03-02 00:28:26 浏览:1707 回帖 :0

Kubernetes 1.8 引入的Device Plugin机制,通过扩展的方式实现支持GPU、FPGA、高性能 NIC、InfiniBand等各种设备的集成。而Device Manager正是Ku...

源码 配置 Server string plugin

必嘫 发表了文章:

Kubernetes的Device Plugin设计解读

发布时间:2018-02-27 15:59:37 浏览:3306 回帖 :0

Kubernetes的生态地位已经确立,可扩展性将是其发力的主战场。异构计算作为非常重要的新战场,Kubernetes非常重视。而异构计算需要强大的计算力和高性能网络,需要提供一种统一的方式与GPU、...

容器服务 容器 API 插件 plugin GPU github kubernetes

必嘫 发表了文章:

阿里云上kubernetes的备份和恢复

发布时间:2018-01-07 19:38:34 浏览:3046 回帖 :1

kubernetes的备份和恢复 Kubernetes集群的运行状态都保存在ETCD中,为了确保您生产环境的稳定性。建议您定期备份。下面为您介绍如何对阿里云容器服务Kubernetes进行备份和恢复...

集群 容器服务 容器 DB etcd service awk kubernetes

必嘫 发表了文章:

利用GPU性能指标进行弹性伸缩

发布时间:2017-09-28 22:35:32 浏览:2543 回帖 :0

随着人工智能大潮的风起云涌, 视频识别,语音识别,图像识别,自然语言翻译,AI画匠等基于GPU的在线预测也在遍地开花。而弹性伸缩对于人工智能服务来说尤为重要,一方面是业务压力峰值时巨大的计算力需求;另...

监控 阿里云 性能 HTTPS http 配置 集群 容器 弹性伸缩 aliyun GPU

必嘫 发表了文章:

在阿里云上轻松部署Kubernetes GPU集群,遇见TensorFlow

发布时间:2017-09-12 13:58:47 浏览:4981 回帖 :0

Kubernetes在版本1.6后正式加入了Nvidia GPU的调度功能,支持在Kubernetes上运行运行和管理基于GPU的应用。而在2017年9月12日,阿里云发布了新的异构计算类型GN5,基...

云栖社区 深度学习 阿里云 HTTPS ECS http 配置 集群 工单 容器服务 容器 按量付费 GPU TensorFlow kubernetes

2
阿里云技术专家,在应用性能监控和软件交付方面有丰富的实践经验,目前专注于容器服务,微服务以及机器学习等领域。

感兴趣or擅长的领域:

暂无
更多>
xianlubird
xianlubird
文章:16丨 粉丝:14632丨 话题:0
真我风采1
真我风采1
文章:1丨 粉丝:5丨 话题:0
清侠
清侠
文章:6丨 粉丝:37丨 话题:0
csome
csome
文章:20丨 粉丝:14642丨 话题:0
昀龙
昀龙
文章:6丨 粉丝:110丨 话题:0
wsxiaozhang
wsxiaozhang
文章:1丨 粉丝:1丨 话题:0
更多>
游客vk6bz3woijjvy
游客vk6bz3woijjvy
文章:0丨 粉丝:0丨 话题:0
游客wvihyz7hif5zs
游客wvihyz7hif5zs
文章:0丨 粉丝:0丨 话题:0
游客lpxdfflitbvqi
游客lpxdfflitbvqi
文章:0丨 粉丝:0丨 话题:0
游客2ez2emz6cqhba
游客2ez2emz6cqhba
文章:0丨 粉丝:0丨 话题:0
游客zv5bfgxsjuzpc
游客zv5bfgxsjuzpc
文章:0丨 粉丝:0丨 话题:0
游客gjskg7wepdx3m
游客gjskg7wepdx3m
文章:0丨 粉丝:0丨 话题:0