容器服务Docker&Kubernetes + 关注
手机版

妙到毫巅,在阿里云容器服务中体验RAPIDS加速数据科学

在阿里云容器服务中体验RAPIDS加速数据科学 摘要 算法、数据和算力称为人工智能的三大要素,如果没有算力的支撑,人工智能难以落地。而Nvidia GPU的强劲算力是AI模型训练加速的首选,但是它的价格也确实不菲。

云栖社区 深度学习 集群 容器 aliyun knn 索引 GPU Bash

像Google一样构建机器学习系统3 - 利用MPIJob运行ResNet101

从上篇文章中,我们可以看到如何通过Kubeflow Pipeline运行单节点任务机器学习工作流,在本文中,我们会介绍如何使用Pipeline运行分布式MPI任务,该MPI任务运行模型ResNet101的测试。

python 分布式 docker 容器 Image pipeline google github 数组 工作流

像Google一样构建机器学习系统2 - 开发你的机器学习工作流

按照上篇文章搭建了一套Kubeflow Pipelines之后,我们一起小试牛刀,用一个真实的案例,学习如何开发一套基于Kubeflow Pipelines的机器学习工作流。 准备工作 机器学习工作流是一个任务驱动的流程,同时也是数据驱...

python 机器学习 code 容器 Image aliyun pipeline google 分布式存储 Commit curl kubernetes 工作流 Kubeflow

像Google一样构建机器学习系统 - 在阿里云上搭建Kubeflow Pipelines

谈到机器学习工作流平台,Google的工程经验非常丰富,它的TensorFlow Extended机器学习平台支撑了Google的搜索,翻译,视频等核心业务;更重要的是其对机器学习领域工程效率问题的理解深刻,

机器学习 集群 容器 云盘 控制台 google GPU github kubernetes 工作流 Kubeflow

开源工具GPU Sharing:支持Kubernetes集群细粒度

问题背景 全球主要的容器集群服务厂商的Kubernetes服务都提供了Nvidia GPU容器调度能力,但是通常都是将一个GPU卡分配给一个容器。这可以实现比较好的隔离性,确保使用GPU的应用不会被其他应用影响;对于深度学习模型训练的场景...

集群 Annotation plugin GPU github kubernetes

在Kubernetes上使用RDMA

### RDMA RDMA(全称RemoteDirect Memory Access) 它为了解决网络传输中服务器端数据处理的延迟而产生。 它的原理是将待传输的数据从一台计算机的内存,直接传输到另一台计算机的内存,整个传输过程无需操...

docker ECS 阿里技术协会 集群 容器 Image cdn 控制台 metadata plugin 协议栈 kubernetes

在阿里云Kubernetes上使用ENI进行分布式机器学习训练

当云原生技术拥抱高性能计算领域的时候,一个重要的问题是如何在确保性能不受损失的前提下,更加灵活和安全进行运算。容器服务推出支持Terway网络支持弹性网卡,帮助用户保证安全隔离的前提下,享受着和主机网络一样的高性能。

分布式 性能 配置 集群 容器 aliyun github

开源工具Arena,数据科学家再也不用为Kubernetes犯难啦!

为什么要用Kubernetes去难为数据科学家呢?

深度学习 分布式 监控 集群 容器 解决方案 GPU 数据管理

Kubeflow实战系列:利用TensorFlow Serving进行模型预测

本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用`TensorFlow Serving`加载训练模型并且进行模型预测。

分布式 aliyun Registry 分布式存储 variables

Kubeflow实战系列:利用TFJob导出分布式TensorFlow模型

本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用`TfJob`导出分布式模型训练模型。

分布式 runtime aliyun variables metadata input

Kubeflow实战系列:阿里云上小试TFJob

`tf-operator`是Kubeflow的第一个CRD实现,解决的是TensorFlow模型训练的问题,它提供了广泛的灵活性和可配置,可以与阿里云上的NAS,OSS无缝集成,并且提供了简单的UI查看训练的历史记录。

配置 集群 metadata TensorFlow kubernetes Kubeflow

Kubeflow实战系列:阿里云上使用JupyterHub

介绍 本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用Jupyter Hub。 背景介绍 时间过得真快,李世乭和AlphaGo的人机对弈已经是两年前的事情。在过去的两年中,人工智能开始从学术界向工业界转型,基...

容器 云平台 Registry github

2017上海云栖TechDay-15分钟在云上玩转TensorFlow

本文为您介绍了2017年上海云栖TechDay-利用深度学习解决方案创建一个TensorFlow开发环境,运行一个MNIST程序,并且利用Tensorboard的可视化功能观测训练效果。

深度学习 阿里云 HTTPS 日志 http 集群 容器 aliyun 解决方案 开发环境

利用TFRecord和HDFS准备TensorFlow训练数据

本文将介绍如何将数据转化为TFRecord格式,并且将生成TFRecord文件保存到HDFS中, 这里我们直接使用的是阿里云EMR(E-MapReduce)的HDFS服务。

深度学习 大数据 阿里云 阿里云容器服务 hdfs HTTPS http 配置 安全组 集群 容器 aliyun 解决方案 EMR TensoFlow

打造深度学习的云端实验室

本系列将利用阿里云容器服务的机器学习解决方案,帮助您了解和掌握TensorFlow,MxNet等深度学习库,开启您的深度学习之旅。

深度学习 阿里云 阿里云容器服务 机器学习 HTTPS 日志 http 集群 容器 aliyun 解决方案 开发环境 TensorFlow

快速在阿里云上构建机器学习应用

3月28日云栖大会开源专场,阿里云技术专家必嘫给大家带来了“在阿里云上构建机器学习应用”的演讲。本文主要从深度学习应用发展历史开始谈起,进而介绍了如何结合阿里云容器服务的机器学习解决方案快速打造一套深度学习应用的案例。

深度学习 算法 阿里云 机器学习 http 容器服务 容器 负载均衡 解决方案 github

在阿里云上两分钟玩转AlextNet

本文是该系列中的第六篇文章, 将为您介绍如何在弹性GPU和阿里云容器服务上快速部署和使用AlexNet。

深度学习 分布式 阿里云 服务器 OSS 阿里云容器服务 性能 HTTPS http 配置 镜像 集群 TensorFlow HPC 弹性GPU服务

在阿里云HPC和容器服务上,像梵高一样作画

利用阿里云HPC和容器服务,轻松创造梵高风格的图片

深度学习 监控 docker 阿里云 阿里云容器服务 配置 镜像 容器 高性能计算 GPU

利用Docker和阿里云容器服务轻松搭建TensorFlow Serving集群

本文是系列中的第二篇文章,将带您快速了解Tensorflow Serving的原理和使用,并利用阿里云容器服务轻松在云端搭建TensorFlow Serving集群。

docker 阿里云容器服务 容器服务 容器 TensorFlow

2
GO
更多>
容器 docker 集群 kubernetes 配置 容器服务 Image aliyun 镜像 云栖社区 阿里云 metadata 微服务 控制台 HTTPS 架构 service 存储 nginx 阿里云容器服务 安全 k8s 监控 serverless github Registry 负载均衡 分布式 高可用 插件 云盘 测试 解决方案 日志 阿里技术协会 linux Istio Server 深度学习 Cloud jenkins 弹性伸缩 devOps html ACK 服务器 http windows ECS node slb Knative 服务网格 域名 servicemesh 主机 基础设施 分布式系统与计算 函数 源码 性能 API GPU OSS spring NAS CSI plugin cluster 云平台 Create 数据库 持续集成 type 云原生 WordPress mysql google VPC 公共云 java Access 云栖大会 脚本 dockerCon16 持续交付 磁盘 Bash 钉钉 volume Flexvolume LOG string swarm dockerCon 安全组 加密 用户体验 数据卷 ingress springcloud TensorFlow 同步 container 操作系统 hub network 分布式系统 curl 数据存储 工作流 redis etcd 浏览器 tomcat code pipeline index 数据盘 对象存储OSS python RAM 开发环境 Annotation 云服务 电商 kernel web test shell path 纳管集群 request 按量付费 数据存储与数据库 native 机器学习 Cache CICD centos 阿里巴巴 扩容 大数据 性能优化 飞天 federation-v2 pods 区块链 StatefulSet Helm Json CPU DNS 日志分析 gitlab 沙箱 Commit containerd 模块 Elasticsearch influxdb 公共云 数据中心 分布式存储 飞天专有云敏捷版 云数据库Redis版 update 弹性扩展 互联网 对象存储 cmd 弹性计算 Logtail snat