阿里云弹性GPU服务架构和案例分析

本文涉及的产品
函数计算FC,每月15万CU 3个月
简介: 阿里云异构计算产品研发高级专家龙欣在2017年12月7日云栖大会苏州峰会上做了题为《阿里云异构计算平台——加速AI智能创新》的主题演讲。当今人工智能的发展迅速,阿里异构平台很好的应对了这一发展趋势。其中异构计算平台在布局和设计上的思考、阿里云的弹性GPU服务架构以及案例分析以及阿里云的FPGA云计算架构及场景使用等内容都是首次对外详细剖析,很有价值。

阿里云异构计算产品研发高级专家龙欣在2017年12月7日云栖大会苏州峰会上做了题为《阿里云异构计算平台——加速AI智能创新》的主题演讲。当今人工智能的发展迅速,阿里异构平台很好的应对了这一发展趋势。其中异构计算平台在布局和设计上的思考、阿里云的弹性GPU服务架构以及案例分析以及阿里云的FPGA云计算架构及场景使用等内容都是首次对外详细剖析,很有价值。
以下为精彩视频内容整理:

AI智能爆发关键因素分析

2015年出现的残差resnet网络,使得网络的参数和深度,产生了翻天覆地的变化,也使算法更加智能化。到2020年的时候商业上积累的数据将会是4.4个ZB,相当于现在的数据要翻10倍,这为大数据的发展积累了大量的学习材料。后摩尔时代的算力(异构计算)也增长迅速。数据,算法以及高速并行计算系统,这三者在一起产生化学反应,使得人工智能和深度学习在日常生活中的渗透。阿里云的异构平台主要是在异构计算方面构建了一个平台,并在企业做发展和推广。

阿里云的方案?

异构计算主要是指使用不同的计算单元组成系统的计算方式,常见的计算单元类型包括CPU、GPU、FPGA、ASIC等。因为GPU、FPGA和ASIC能满足人工智能对计算能力的要求,所以目前人工智能芯片格局的是:GPU,FPGA,ASIC三分天下。
人工智能的发展有两个业务阶段:第一个阶段是训练阶段,就是在后台去准备自己的业务模型;第二个阶段是推理服务,这是真正变现的阶段。这两个阶段对计算力、模型以及平台的要求是有很大区别。训练服务是计算密集型,只在垂直上扩展,使用离线服务,关注吞吐量,主要针对高精度浮点数据。推理服务是服务密集型,在水平上扩展,使用在线服务,对延迟要求比较高,主要是针对整型快速计算。
阿里云全新一代异构计算加速引擎是一个面向多场景的异构计算加速平台,它的使用涉及三个领域:
(1) 图形图像:影视渲染、3D设计、视频转码;
(2) 机器学习:人脸识别、视频识别、车辆识别、自动驾驶、机器翻译等;
(3) 科学计算:气象预测、油藏模拟、基因工程、计算金融。
为了能支持这么多的应用场景,异构平台使用了非常强健的基础设施,包括第二代的Apsara vSwitch网络,英伟达最新的v100服务器以及xilins最新的VU9 FPGA芯片以及第三代的分布式存储技术。
阿里异构平台在全球也做了布局。如果企业想在海外部署自己的业务 ,可以在该平台上把自己公司的环境快速搬迁到海外,完成部署,而且搬迁的速度是以天为计的,能节省时间,帮助企业快速把业务扩展起来。
在市场中,阿里云异构平台具有很强大的核心竞争力。因为它提供了高可靠的基础设施、企业级异构产品以及全面的安全防护;提供面向高性能计算、AI训练以及高速图形离线渲染;提供丰富的场景化产品、多种虚拟化技术以及强大生态支撑;提供巨大的资源池,支援全球部署业务以及灵活购买方式。

阿里云弹性GPU服务架构和案例分析

阿里云推出的竞价实例能进一步降低企业使用GPU的成本。当企业的业务足够健壮灵活,能按时释放和申请,通过一个灵活的模式去竞价,可以达到1.8折的折扣,获得使用廉价资源的机会。
目前阿里云异构计算与NVIDIA深度学习研究院实现DLI平台与内容实现全球合作。而且阿里云的人工智能初创企业扶持计算-风池计划,是给人工智能初创企业提出一个定向扶持计划,为了帮助企业更好的发展。
1

这个异构平台是与阿里云所有生态模块全打通的,这是它的核心竞争力。通过各种组件的组合,使得它具备扶持一个行业的能力,帮助企业在云上搭建一套业务系统。
GPU作为一种计算芯片,它的优势非常明显,具有实时高速、并行计算、浮点计算能力强的特点。阿里云弹性GPU服务(EGS)就是将阿里云的弹性计算和GPU高速的并行异构的加速器组合在一起。EGS具备GPU所有的加速的能力,兼具阿里云弹性计算的特点,可适用于深度学习、视频转码、图形渲染、科学计算等场景。
EGS有两种计算实例:可视化计算实例和高性能计算实例。可视化计算实例有一种:GA1共享GPU,它能提供更细粒度的GPU实例,降低使用门槛和成本,而且能为可视化计算提供很好的性能保证。高性能计算实例有四种:GN4独享GPU,提供通用计算实例;GN5独享GPU,具有深度学习和高性能计算的强大算力;GN5i独享GPU,是专为深度学习推理现在服务定制的实例;GN6独享GPU,是专门为深度学习训练定制的实例。
下面介绍两个典型的EGS应用:
(1) 弹性GPU实例加速阿里云图像识别服务
TIM_20171213172635

这个实例把训练和推理放在阿里云的EGS服务之上,同时利用网络互通的能力以及离线训练和在线训练去完成在线图像识别的服务。
(2) 弹性GPU实例加速阿里云视频转码服务
3

在这个实例中异构平台只处理在线服务,企业把离线训练放在自己的模型中心,在线服务部署在阿里云上。像实时语音翻译,对时延有很强的的要求。当用户说完的时候,响应的时延不能超过几个毫秒,否则会出现卡顿的情况。这时候对时延要求高,对计算力要求低。
4

从图中可以看出以太网络随着包的增加,是一个指数的提升,而阿里云的基于升龙服务器的超级计算集群能保证在很大的传输数据字节的情况下,会减少时延的情况,提供非常低的时延,并且依然保持线性的伸缩。这个计算机集群还能实现扩容和性能的线性提升。
异构平台还提供了一些增值服务,包括弹性机器学习、专门针对广告推荐的XDL框架、还有EHPC平台,都是为了帮助平台上的一些创业公司或者是刚刚进入这个领域的公司,能迅速把自己的模型部署在异构平台的硬件底层之上,而不用去关心这些平台的运维。这能节约这些公司的运维成本,缩短上云时间以及减少上云的准备。

FPGA云计算结构和场景分析

FPGA与GPU相比,它的编程门槛更高,但是GPU的算法是固定的,对于非标准的数据来说,GPU就不那么适用了。随着数据精度的一路往下降,GPU就显得跟不上了。这时候FPGA加速器就应运而生,因为它的算法不固定,而且最低可以处理一个比特的数据。所以FPGA的硬件可编程和硬件加速能力就得到了越来越多云厂商的青睐和部署。
阿里云也在部署了自己的FPGA服务器——FPGA as A SERVICE(FaaS),它有三个设计目标:
(1) 引入FPGA作为弹性计算产品输出。实现FPGA硬件的平台化和系统化,实现FPGA应逻辑的统一接口,并且符合云安全运行环境。
(2) 在云上打造整套FPGA开发环境。实现统一的云上开发平台以及安全的IP部署渠道。
(3) 建立FPGA IP生态和市场。与第三方合作,开发云上的FPGA IP;与集团合作,把FPGA加速业务通过云产品输出。
FaaS包括三个组件:硬件基础设施,包括FPGA云服务器,硬件加速开发,部署平台(Intel、Xilinx);云上配套开发环境,包括厂商配套软件(Quartus、Vivado),第三方EDA软件(仿真、模拟);FPGA IP开发生态,包括金融计算、基因计算、压缩加解密、硬件仿真设计、深度学习(预测/训练)等。这样FaaS能提供全面加速平台,在FPGA的IP开发、部署和发布的各个环节提供高度的兼容性和一致性,并且通过FPGA IP市场配置和扩大FPGA生态。
TIM_20171213172823

上面是FaaS的FPGA IP的分发流程。FPGA IP的开发等同于芯片开发,一个最核心的部分就是如何保护它的IP。IP的分发要保证不能让对手、消费者拿到企业的源代码。阿里云做了硬件的隔离,使用户只有使用加速能力的权利,而不能拿到企业的核心加速库。
异构平台的FPGA云上开发环境能保证企业在线上和线下有一致的体验,保证合企业和IP开发者能快速的上云,把库快速推出,在云或者FPGA市场上输出给用户。
现在有很多的FPGA镜像市场加入到了阿里云中,包括硬件仿真、金融算法、基因、深度学习、压缩和加解密等,这丰富了FaaS的使用场景。
下面介绍两个FaaS的典型应用场景:
(1) 时序数据库(HiTSDB)
目前在大数据领域中,超过一半的物联网(IoT)设备监控系统,企业能源管理系统(EMS),生产安全监控系统,电力检测系统等行业使用时序数据。阿里云HiTSDB是一种高性能,低成本,稳定可靠的在线时序数据库服务。利用FaaS高并行度的优势,提升HiTSDB的数据处理能力。目前它的单路数据吞吐性能是单核CPU的30倍以上。
(2) 数据压缩(GZIP)
GZIP是一种文件压缩标准,其核心的算法是Huffman编码和LZ77,能大幅度的减少文件本身大小和占用的存储空间,已经成为当今Internet上普遍使用的数据压缩格式。阿里云FaaS平台支持OpenCL以及RTL两种开发流程,在同样压缩比的情况下,其吞吐能力较CPU有10倍的提升。

以上由云栖社区小组younger123整理,毛鹤校审,郭雪梅编辑。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
28天前
|
弹性计算 运维 安全
阿里云资深架构师经验分享——DevSecOps最佳实践
本文将分享阿里云在DevSecOps中设计环节的实践经验,希望能够让大家理解阿里云是如何保障产品安全水位,并希望这些经验能够帮助到正在尝试落地DevSecOps解决方案的企业。
509 167
阿里云资深架构师经验分享——DevSecOps最佳实践
|
9天前
|
弹性计算 负载均衡 网络协议
阿里云SLB深度解析:从流量分发到架构优化的技术实践
本文深入探讨了阿里云负载均衡服务(SLB)的核心技术与应用场景,从流量分配到架构创新全面解析其价值。SLB不仅是简单的流量分发工具,更是支撑高并发、保障系统稳定性的智能中枢。文章涵盖四层与七层负载均衡原理、弹性伸缩引擎、智能DNS解析等核心技术,并结合电商大促、微服务灰度发布等实战场景提供实施指南。同时,针对性能调优与安全防护,分享连接复用优化、DDoS防御及零信任架构集成的实践经验,助力企业构建面向未来的弹性架构。
145 76
|
10天前
|
Cloud Native Serverless 流计算
云原生时代的应用架构演进:从微服务到 Serverless 的阿里云实践
云原生技术正重塑企业数字化转型路径。阿里云作为亚太领先云服务商,提供完整云原生产品矩阵:容器服务ACK优化启动速度与镜像分发效率;MSE微服务引擎保障高可用性;ASM服务网格降低资源消耗;函数计算FC突破冷启动瓶颈;SAE重新定义PaaS边界;PolarDB数据库实现存储计算分离;DataWorks简化数据湖构建;Flink实时计算助力风控系统。这些技术已在多行业落地,推动效率提升与商业模式创新,助力企业在数字化浪潮中占据先机。
76 12
|
22天前
|
存储 弹性计算 运维
阿里云通用算力型U1实例怎么样?u1实例技术架构、场景适配与优惠价格参考
阿里云服务器ECS 通用算力型u1实例2核4G,5M固定带宽,80G ESSD Entry盘,企业用户专享优惠价格199元1年,很多用户关心这个款云服务器怎么样?阿里云通用算力型U1实例自推出以来,凭借独特的"均衡算力+智能调度"设计理念,在IaaS市场开辟出差异化的竞争赛道。本文将通过技术架构解析、典型场景适配分析、全生命周期成本测算三个维度,全面解构这款热门云服务器实例的核心价值,以供参考和选择。
|
1月前
|
运维 安全 弹性计算
基于阿里云的开源应用智能管理架构设计与工程实践
本文以Websoft9技术方案为例,探讨企业级应用管理的范式。通过解析开源应用管理面临的部署复杂性、运维低效性和知识碎片化三大挑战,提出基于阿里云的三层架构:智能应用管理门户、核心功能层和基础设施层。文章详细阐述了应用编排标准化(IaC实践)、智能运维体系构建及知识资产数字化的技术实现路径,并结合金融与制造行业的案例,展示解决方案的实际效果。最后提供开发者资源与工具链支持,助力企业高效管理应用。
115 1
|
23天前
|
前端开发 JavaScript API
体育赛事即时比分 分析页面的开发技术架构与实现细节
本文基于“体育即时比分系统”开发经验总结,分享技术实现细节。系统通过后端(ThinkPHP)、前端(Vue.js)、移动端(Android/iOS)协同工作,解决实时比分更新、赔率同步及赛事分析展示等问题。前端采用 Vue.js 结合 WebSocket 实现数据推送,提升用户体验;后端提供 API 支持比赛数据调用;移动端分别使用 Java 和 Objective-C 实现跨平台功能。代码示例涵盖比赛分析页面、API 接口及移动端数据加载逻辑,为同类项目开发提供参考。
|
2月前
|
存储 机器学习/深度学习 人工智能
2025年阿里云GPU服务器租用价格、选型策略与应用场景详解
随着AI与高性能计算需求的增长,阿里云提供了多种GPU实例,如NVIDIA V100、A10、T4等,适配不同场景。2025年重点实例中,V100实例GN6v单月3830元起,适合大规模训练;A10实例GN7i单月3213.99元起,适用于混合负载。计费模式有按量付费和包年包月,后者成本更低。针对AI训练、图形渲染及轻量级推理等场景,推荐不同配置以优化成本和性能。阿里云还提供抢占式实例、ESSD云盘等资源优化策略,支持eRDMA网络加速和倚天ARM架构,助力企业在2025年实现智能计算的效率与成本最优平衡。 (该简介为原文内容的高度概括,符合要求的字符限制。)
|
2月前
|
边缘计算 调度 对象存储
部署DeepSeek但IDC GPU不足,阿里云ACK Edge虚拟节点来帮忙
介绍如何使用ACK Edge与虚拟节点满足DeepSeek部署的弹性需求。
|
2月前
|
人工智能 云计算 数据中心
阿里云当选UALink联盟董事会成员,推进新一代GPU互连技术!
阿里云当选UALink联盟董事会成员,推进新一代GPU互连技术!
89 2

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等