容器服务Docker&Kubernetes + 关注
手机版

Kubeflow实战系列:阿里云上小试TFJob

`tf-operator`是Kubeflow的第一个CRD实现,解决的是TensorFlow模型训练的问题,它提供了广泛的灵活性和可配置,可以与阿里云上的NAS,OSS无缝集成,并且提供了简单的UI查看训练的历史记录。

配置 集群 metadata TensorFlow kubernetes Kubeflow

Kubeflow实战系列: 利用TFJob运行分布式TensorFlow

TensorFlow作为现在最为流行的深度学习代码库,在数据科学家中间非常流行,特别是可以明显加速训练效率的分布式训练更是杀手级的特性。但是如何真正部署和运行大规模的分布式模型训练,却成了新的挑战。

分布式 events cluster 集群 Server metadata TensorFlow kubernetes

在阿里云上轻松部署Kubernetes GPU集群,遇见TensorFlow

Kubernetes在版本1.6后正式加入了Nvidia GPU的调度功能,支持在Kubernetes上运行运行和管理基于GPU的应用。而在2017年9月12日,阿里云发布了新的异构计算类型GN5,基于P100 nvidia GPU, 提供...

云栖社区 深度学习 阿里云 HTTPS ECS http 配置 集群 工单 容器服务 容器 按量付费 GPU TensorFlow kubernetes

GPU资源的监控和报警,支撑高效深度学习的利器

本文将介绍如何利用阿里云容器服务的机器学习解决方案在几分钟内轻松设置GPU资源使用率,显存使用率和温度的报警机制,达到对于一些GPU潜在问题的先知先觉,避免不必要损失的目的。

深度学习 监控 阿里云 阿里云容器服务 HTTPS http 配置 镜像 集群 容器 钉钉 aliyun 解决方案 GPU TensorFlow

打造深度学习的云端实验室

本系列将利用阿里云容器服务的机器学习解决方案,帮助您了解和掌握TensorFlow,MxNet等深度学习库,开启您的深度学习之旅。

深度学习 阿里云 阿里云容器服务 机器学习 HTTPS 日志 http 集群 容器 aliyun 解决方案 开发环境 TensorFlow

在阿里云上两分钟玩转AlextNet

本文是该系列中的第六篇文章, 将为您介绍如何在弹性GPU和阿里云容器服务上快速部署和使用AlexNet。

深度学习 分布式 阿里云 服务器 OSS 阿里云容器服务 性能 HTTPS http 配置 镜像 集群 TensorFlow HPC 弹性GPU服务

利用Docker和阿里云容器服务轻松搭建TensorFlow Serving集群

本文是系列中的第二篇文章,将带您快速了解Tensorflow Serving的原理和使用,并利用阿里云容器服务轻松在云端搭建TensorFlow Serving集群。

docker 阿里云容器服务 容器服务 容器 TensorFlow

1
GO