萧元 + 关注
Hello

基于Kubernetes的云上机器学习—GPU弹性扩缩容

发布时间:2019-04-22 10:12:57 浏览:3414 评论 :0

### 前言 在深度学习中,要使用大量GPU进行计算。 而GPU往往价格不菲,随着模型变得越复杂,数据量积累,进行深度学习计算需要耗费极大的经济和时间成本。 ### 解决方案 阿里云容器服务提供的深度学习解决方案,基于Kubernetes为核心,支持cluster-autoscaler 进行节点弹性扩缩容。

深度学习 阿里技术协会 配置 集群 容器 Image GPU kubernetes

Nvidia GPU如何在Kubernetes 里工作

发布时间:2019-03-07 16:40:15 浏览:2270 评论 :0

# Nvidia GPU如何在Kubernetes 里工作 本文介绍Nvidia GPU设备如何在Kubernetes中管理调度。 整个工作流程分为以下两个方面: * 如何在容器中使用GPU * Kubernetes 如何调度GPU ### 如何在容器中使用GPU 想要在容器中的应用可以操作GPU, 需要实两个目标 1.

阿里技术协会 容器 plugin type GPU github kubernetes

Kubernetes 调度器实现初探

发布时间:2019-01-31 15:16:41 浏览:3567 评论 :0

### Kubernetes 调度器 Kubernetes 是一个基于容器的分布式调度器,实现了自己的调度模块。在Kubernetes集群中,调度器作为一个独立模块通过pod运行。从几个方面介绍Kubernetes调度器。

阿里技术协会 index github

构建Tensorflow RDMA的Docker镜像

发布时间:2019-01-29 12:05:57 浏览:3193 评论 :0

RDMA是一个远程通讯技术,它通过Kernel bypass等方式降低数据传输中的延迟和CPU消耗。 在分布式训练中,由于多个Worker之间或者Worker和Paramater Server 之间需要大量传输模型变量。当GPU到达一定数量后,受制于网络带宽以及TCP协议的延迟,通讯往往会成为计算性能的瓶颈,而在分布式训练中使用RDMA技术能够非常明显地提高训练速度。 #### Tenso

深度学习 分布式 docker ubuntu 阿里技术协会 镜像 容器 source

Kubeflow Pipeline — 基于Kubernetes 的机器学习工作流

发布时间:2019-01-02 10:48:27 浏览:6658 评论 :1

#### 介绍 Pipeline是Kubeflow社区最近开源的一个端到端工作流项目,帮助我们来管理,部署端到端的机器学习工作流。Kubeflow 是一个谷歌的开源项目,它将机器学习的代码像构建应用一样打包,使其他人也能够重复使用。 kubeflow/pipeline 提供了一个工作流方案,将这些机器学习中的应用代码按照流水线的方式编排,形成可重复的工作流。并提供平台,帮助编排,部署,管

mysql 阿里技术协会 模块 容器 Image 同步 pipeline Workflow kubernetes 工作流

在Kubernetes上使用RDMA

发布时间:2018-11-05 16:16:16 浏览:5352 评论 :0

### RDMA RDMA(全称RemoteDirect Memory Access) 它为了解决网络传输中服务器端数据处理的延迟而产生。 它的原理是将待传输的数据从一台计算机的内存,直接传输到另一台计算机的内存,整个传输过程无需操作系统和协议栈的介入。

docker ECS 阿里技术协会 集群 容器 Image cdn 控制台 metadata plugin 协议栈 kubernetes

阿里云容器服务Kubernetes 基于GPU指标自动伸缩

发布时间:2018-10-19 10:51:00 浏览:3472 评论 :0

### 基于GPU的指标扩缩容 在深度学习训练中,训练完成的模型,通过Serving服务提供模型服务。本文介绍如何构建弹性自动伸缩的Serving服务。 Kubernetes 支持HPA模块进行容器伸缩,默认支持CPU和内存等指标。

监控 docker 阿里技术协会 配置 容器 metadata GPU Bash kubernetes

基于阿里云容器服务监控 Kubernetes集群GPU指标

发布时间:2018-10-08 04:25:57 浏览:15851 评论 :10

### 简介 当您在阿里云容器服务中使用GPU ECS主机构建Kubernetes集群进行AI训练时,经常需要知道每个Pod使用的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,本文介绍如何快速在阿里云上构建基于Prometheus + Grafana的GPU监控方案。

阿里云容器服务Kubernetes实现应用自动部署

发布时间:2018-08-22 16:25:15 浏览:5784 评论 :4

## 前言 CICD是研发效率提升必不可少的一环, 要提高迭代效率,就要减少开发到部署中等待和人工操作的时间与步骤。 通过容器以及周边产品集成,我们更能将代码开发完成到部署时间极大缩短, 并将一切手工操作自动化。

阿里技术协会 镜像 集群 容器 Image 控制台 aliyun kubernetes

如何设置 Kubernetes 资源限制

发布时间:2018-07-10 13:08:38 浏览:10187 评论 :0

Kubernetes 作为当下最流行的的容器集群管理平台,需要统筹集群整体的资源使用情况,将合适的资源分配给pod容器使用,既要保证充分利用资源,提高资源利用率,又要保证重要容器在运行周期内能够分配到足够的资源稳定运行。

阿里技术协会 容器 Image request OOM CPU metadata kubernetes

在容器中使用AliSQL

发布时间:2016-10-31 11:25:14 浏览:6734 评论 :1

### AliSQL容器 #### ALISQL AliSQL是基于MySQL官方版本的一个分支,由阿里云数据库团队维护,目前也应用于阿里巴巴集团业务以及阿里云数据库服务。该版本在社区版的基础上做了大量的性能与功能的优化改进。尤其适合电商、云计算以及金融等行业环境。

docker 阿里云 mysql 阿里技术协会 http WordPress 数据库 镜像 电商 容器 kernel tokudb Registry ATA 数据库与存储

记一次在webx中velocity新建自定义指令的过程

发布时间:2016-08-15 09:41:11 浏览:4025 评论 :0

### 记一次在webx中velocity新建自定义指令的过程 ![screenshot](http://img2.tbcdn.cn/L1/461/1/b59c6597d3f90168126d63ebc63f967ef1dc348f) webx和velocity就不介绍了。 都很熟悉。本文是记录在webx中增加唉velocity自定义指令的方法。 起因是在velocity渲染模板的时候

java 阿里技术协会

Redis源码学习——BIO

发布时间:2016-08-01 14:00:01 浏览:7334 评论 :0

## Redis源码学习之BIO BIO顾名思义,background IO,是redis中运行的后台IO。 网上千篇一律的说法是redis是单线程单进程。 实际上redis运行过程中并不是严格单进程单线程应用。 Redis中的多进程: 在写入备份(RDB,AOF)的时候,会fork出子进程进行备份文件的写入。 Redis中的多线程: 1. AOF的

数据存储与数据库 阿里技术协会 云数据库Redis版

Redis源码学习——基础数据结构之SDS

发布时间:2016-07-13 15:12:57 浏览:3661 评论 :0

###Redis数据结构-SDS Redis是一个开源(BSD许可),内存存储的数据结构服务器,可用作数据库,高速缓存和消息队列代理。 首先介绍下Redis的基础数据结构 —— SDS Redis没有使用传统C语言的字符串(字符数组)表示。而是自己构建了一种名为sds(Simple Dymamic String)的抽象类型,作为redis的默认字符类型。 SDS用于保存数据库中的

数据存储与数据库 阿里技术协会