必嘫 + 关注
阿里云技术专家

必嘫 发表了文章:

从监控到隔离,阿里云容器服务提升您的GPU资源使用体验

发布时间:2020-04-30 07:45:09 浏览:1039 回帖 :0

通过使用阿里云容器服务的GPU支持,可以提升GPU资源管理的可见性,了解到需要多少的GPU资源可以支撑图像识别,语音识别,在线翻译等业务,如何能用最少的成本满足业务需求;而可以在无需修改现有GPU程序...

监控 集群 容器 Image 控制台 aliyun metadata GPU

必嘫 发表了文章:

Alluxio深度学习实战-1:体验在HDFS上运行PyTorch框架

发布时间:2020-04-24 06:50:34 浏览:1278 回帖 :0

在HDFS上运行PyTorch程序本来需要用户修改PyTorch的适配器代码进行完成的工作,通过Alluxio,我们简化了适配工作,能够快速开展模型的开发和训练。而通过Kubernetes平台,这件事...

深度学习 hdfs hadoop 镜像 Registry type

必嘫 发表了文章:

阿里云容器服务团队实践——Alluxio优化数倍提升云上Kubernetes深度学习训练性能

发布时间:2020-04-15 10:11:05 浏览:2144 回帖 :0

近些年,以深度学习为代表的人工智能技术取得了飞速的发展,正落地应用于各行各业。越来越多的用户在云上构建人工智能训练平台,利用云平台的弹性计算能力满足高速增长的AI业务模型训练方面的需求,然而这种“本地...

分布式 大数据 架构 性能优化 性能 线程 高并发 配置 容器 Image 存储 FUSE AI kubernetes

必嘫 发表了文章:

体验托管Prometheus监控阿里云容器服务Kubernetes的GPU资源

发布时间:2020-04-08 11:40:58 浏览:583 回帖 :0

通过ARMS管理Kubernetes集群GPU性能指标 在阿里云容器服务中使用GPU资源运行进行AI模型训练和预测时,经常需要了解应用负载的GPU的使用情况,比如每块显存使用情况、GPU利用率,GP...

高可用 集群 容器 控制台 aliyun test metadata GPU

必嘫 发表了文章:

妙到毫巅,在阿里云容器服务中体验RAPIDS加速数据科学

发布时间:2019-12-02 08:54:13 浏览:1876 回帖 :0

在阿里云容器服务中体验RAPIDS加速数据科学 摘要 算法、数据和算力称为人工智能的三大要素,如果没有算力的支撑,人工智能难以落地。而Nvidia GPU的强劲算力是AI模型训练加速的首选,但是它...

云栖社区 深度学习 集群 容器 aliyun knn 索引 GPU Bash

必嘫 发表了文章:

像Google一样构建机器学习系统3 - 利用MPIJob运行ResNet101

发布时间:2019-05-17 11:35:32 浏览:12025 回帖 :0

从上篇文章中,我们可以看到如何通过Kubeflow Pipeline运行单节点任务机器学习工作流,在本文中,我们会介绍如何使用Pipeline运行分布式MPI任务,该MPI任务运行模型ResNet10...

python 分布式 docker 容器 Image pipeline google github 数组 工作流

必嘫 发表了文章:

像Google一样构建机器学习系统2 - 开发你的机器学习工作流

发布时间:2019-04-28 07:55:56 浏览:5228 回帖 :0

按照上篇文章搭建了一套Kubeflow Pipelines之后,我们一起小试牛刀,用一个真实的案例,学习如何开发一套基于Kubeflow Pipelines的机器学习工作流。 准备工作 机器学习工...

python 机器学习 code 容器 Image aliyun pipeline google 分布式存储 Commit curl kubernetes 工作流 Kubeflow

必嘫 发表了文章:

像Google一样构建机器学习系统 - 在阿里云上搭建Kubeflow Pipelines

发布时间:2019-04-26 13:06:43 浏览:3845 回帖 :1

谈到机器学习工作流平台,Google的工程经验非常丰富,它的TensorFlow Extended机器学习平台支撑了Google的搜索,翻译,视频等核心业务;更重要的是其对机器学习领域工程效率问题的理...

机器学习 集群 容器 云盘 控制台 google GPU github kubernetes 工作流 Kubeflow

必嘫 发表了文章:

开源工具GPU Sharing:支持Kubernetes集群细粒度

发布时间:2019-02-18 17:18:12 浏览:9957 回帖 :2

问题背景 全球主要的容器集群服务厂商的Kubernetes服务都提供了Nvidia GPU容器调度能力,但是通常都是将一个GPU卡分配给一个容器。这可以实现比较好的隔离性,确保使用GPU的应用不会被...

集群 Annotation plugin GPU github kubernetes

必嘫 评论了文章:

Kubeflow实战系列:阿里云上使用JupyterHub

发布时间:2018-06-08 07:19:15 浏览:14816 回帖 :7

介绍 本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用Jupyter Hub。 背景介绍 时间过得真快,李世乭和AlphaGo的人机对弈已经是两年前的事情。在过去的两年...

容器 云平台 Registry github

“kubeflow已经有比较大的更新,建议您参考一下:https://yq.aliyun.com/articles/686672 部署最新版本。”

必嘫 发表了文章:

新Kubeflow,新征程 (一):简化部署体验

发布时间:2019-01-13 12:26:05 浏览:7233 回帖 :5

时光飞逝,Kubeflow这个基于Kubernetes的云原生机器学习平台方案已经诞生了1年多的时间,人们审视它的眼光不再是好奇和宽容。人们已经开始审视,思考甚至挑战Kubeflow的价值, 而Kub...

配置 容器

必嘫 发表了文章:

在阿里云Kubernetes上使用ENI进行分布式机器学习训练

发布时间:2018-11-02 18:06:01 浏览:3131 回帖 :1

当云原生技术拥抱高性能计算领域的时候,一个重要的问题是如何在确保性能不受损失的前提下,更加灵活和安全进行运算。容器服务推出支持Terway网络支持弹性网卡,帮助用户保证安全隔离的前提下,享受着和主机网...

分布式 性能 配置 集群 容器 aliyun github

必嘫 发表了文章:

Arena - 打开KubeFlow的正确姿势

发布时间:2018-08-03 11:10:00 浏览:7850 回帖 :0

Arena的目标就是让数据科学家简单的释放KubeFlow的洪荒之力,像桌面机上训练一样简单,同时又拥有了集群级别调度和管理的掌控性。为了能够更好的在社区内共享和合作,我们已经在github上开源了自...

深度学习 分布式 监控 开源 GPU github kubernetes

必嘫 发表了文章:

Kubeflow实战系列:利用TensorFlow Serving进行模型预测

发布时间:2018-06-23 22:38:18 浏览:9194 回帖 :0

本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用`TensorFlow Serving`加载训练模型并且进行模型预测。

分布式 aliyun Registry 分布式存储 variables

必嘫 发表了文章:

Kubeflow实战系列:利用TFJob导出分布式TensorFlow模型

发布时间:2018-06-23 21:13:24 浏览:6264 回帖 :0

本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用`TfJob`导出分布式模型训练模型。

分布式 runtime aliyun variables metadata input

必嘫 评论了文章:

Kubeflow实战系列:阿里云上小试TFJob

发布时间:2018-06-13 07:38:12 浏览:9209 回帖 :3

`tf-operator`是Kubeflow的第一个CRD实现,解决的是TensorFlow模型训练的问题,它提供了广泛的灵活性和可配置,可以与阿里云上的NAS,OSS无缝集成,并且提供了简单的UI查...

配置 集群 metadata TensorFlow kubernetes Kubeflow

“ambassador请使用阿里云的docker镜像, 具体参考https://yq.aliyun.com/articles/600601?spm=a2c4e.11153940.blogcont6017...查看全部>

必嘫 发表了文章:

Kubeflow实战系列: 利用TFJob运行分布式TensorFlow

发布时间:2018-06-14 08:13:46 浏览:11477 回帖 :1

TensorFlow作为现在最为流行的深度学习代码库,在数据科学家中间非常流行,特别是可以明显加速训练效率的分布式训练更是杀手级的特性。但是如何真正部署和运行大规模的分布式模型训练,却成了新的挑战。

分布式 events cluster 集群 Server metadata TensorFlow kubernetes

必嘫 发表了文章:

Kubeflow实战系列:阿里云上小试TFJob

发布时间:2018-06-13 07:38:12 浏览:9209 回帖 :3

`tf-operator`是Kubeflow的第一个CRD实现,解决的是TensorFlow模型训练的问题,它提供了广泛的灵活性和可配置,可以与阿里云上的NAS,OSS无缝集成,并且提供了简单的UI查...

配置 集群 metadata TensorFlow kubernetes Kubeflow

必嘫 发表了文章:

Kubeflow实战系列:阿里云上使用JupyterHub

发布时间:2018-06-08 07:19:15 浏览:14816 回帖 :7

介绍 本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用Jupyter Hub。 背景介绍 时间过得真快,李世乭和AlphaGo的人机对弈已经是两年前的事情。在过去的两年...

容器 云平台 Registry github

必嘫 发表了文章:

在阿里云Kubernetes容器服务上打造TensorFlow实验室

发布时间:2018-04-20 10:27:42 浏览:5204 回帖 :0

利用Jupyter开发TensorFLow也是许多数据科学家的首选,但是如何能够快速从零搭建一套这样的环境,并且配置GPU的使用,同时支持最新的TensorFLow版本, 对于数据科学家来说既是复杂的...

深度学习 配置 集群 容器服务 容器

3
阿里云技术专家,在应用性能监控和软件交付方面有丰富的实践经验,目前专注于容器服务,微服务以及机器学习等领域。

感兴趣or擅长的领域:

暂无
更多>
志敏
志敏
文章:13丨 粉丝:73404丨 话题:0
xianlubird
xianlubird
文章:18丨 粉丝:73402丨 话题:0
元毅
元毅
文章:33丨 粉丝:49141丨 话题:0
清侠
清侠
文章:6丨 粉丝:42丨 话题:0
csome
csome
文章:23丨 粉丝:73401丨 话题:0
昀龙
昀龙
文章:0丨 粉丝:164丨 话题:0
更多>
游客f3ayu3brdj25s
游客f3ayu3brdj25s
文章:0丨 粉丝:0丨 话题:0
游客kru7tux42swte
游客kru7tux42swte
文章:0丨 粉丝:0丨 话题:0
游客pcr4qoju7hrms
游客pcr4qoju7hrms
文章:0丨 粉丝:0丨 话题:0
游客aszovw35zf2ya
游客aszovw35zf2ya
文章:0丨 粉丝:0丨 话题:0
游客kgtnjxwu2kzhw
游客kgtnjxwu2kzhw
文章:0丨 粉丝:0丨 话题:0
游客x6tvv6jgqzm56
游客x6tvv6jgqzm56
文章:0丨 粉丝:0丨 话题:0