阿里云异构计算平台——加速AI深度学习创新

简介: 云栖TechDay第36期,阿里云高级产品专家霁荣带来“阿里云异构计算平台——加速AI深度学习创新”的演讲。本文主要从深度学习催生强大计算力需求开始谈起,包括GPU的适用场景,进而引出了弹性GPU服务——EGS(Elastic GPU Service),重点讲解了EGS的优势、EGS监控以及EGS产品家族,最后对EGS支撑AI智能创新进行了总结。

云栖TechDay第36期,阿里云高级产品专家霁荣带来“阿里云异构计算平台——加速AI深度学习创新”的演讲。本文主要从深度学习催生强大计算力需求开始谈起,包括GPU的适用场景,进而引出了弹性GPU服务——EGS(Elastic GPU Service),重点讲解了EGS的优势、EGS监控以及EGS产品家族,最后对EGS支撑AI智能创新进行了总结。以下是精彩内容整理:

 

基于大数据的深度学习催生强大计算力需求

怎样加速AI深度学习支撑,帮助大家搭建模型,支撑大家业务运营等等。

b930e711ea7211ac44d8412b7a200f5a7a23cf79

如图,深度学习出来之后,过去很多人做机器学习是用小数据做,到了大数据时代,我们有了更多的数据样本,再加上我们的计算力,使得深度学习成为可能。所以说计算能力是深度学习应用的基础,深度神经网络模型复杂,神经元可达百万级别,每层具有亿级参数空间,且训练数据多,需要的计算量巨大,周期也是非常长的。计算能力对于深度学习的撑与推动作是不可替代的,计算能力越强,同样时间内积累的经验就越多、模型训练迭代速度也越快。

GPU具有好的并行计算能力

9964b9724057e27289c676758e3019d4129f4153

提到计算力,过去大家都在用CPU,深度学习最开始也是用CPU,但是CPU是面向控制流的,尤其是X86,是复杂指令机,它更多的片上神经元里面是一些控制逻辑和一些缓存,这样会更好适合日常桌面等IT办公,面向产品的,所以它是典型的SISD就是单指令流、单数据流,主要是串行,并行程度也不高,在过去几十年是OK的,但是真正到了超算,到了深度学习,我们就会发觉,CPU的计算力越来越是瓶颈。而GPU从一开始设定的时候,目标非常单一,它当时是做图形渲染,在设计的时候就把很多控制逻辑包括缓存等等都去掉,因为很多数据进来是大规模并行的,它是SIMD单指令流、多数据流,这时候它是完全并行来计算的,所以它可以达到几千个处理核,而传统的CPU现在可能最多几十个处理核,所以GPU在深度学习时代就很受欢迎了。

GPU用的领域及业务场景

GPU 的特点:实时高速、并行计算、浮点计算能力强.

878d2820e85a7907d2a6f6078f68c71bbc424bdb

GPU可以做3D渲染,视频电解码,这是GPU的老本行,计算效率非常高,现在仍然在大量的使用。继而就是GPU尤其以CUDA为代表,并行计算框架大大降低了编程模型和门槛之后迅速普及起来,它在高性能计算包括AI的深度学习上,得到了非常广泛的应用。但是在使用GPU的时候,因为GPU价格比较贵,而CPU已经非常普及,所以GPU使用起来,使用关心的问题有很多,比如:

首先会看一下是做渲染的任务还是做深度学习的任务,是做可视化计算还是深度学习,另外会考虑到底怎么来建设它,这会涉及到一些性价比对比等问题,哪有可用的GPU资源?我们会从这些角度考虑来设计我们的产品和场景。

当你真正用起来的时候,你会发现GPU还挺好用,对业务加速确实有效果,但是业务量上来了,就需要扩容,这时候又涉及到底怎么扩,做业务可能会有数据存放,比如大家在做深度学习的时候有非常海量的数据,可能几百个T,甚至已经达到了PB级别,怎么存储呢?可能有多个节点之间的交互,有的节点需要做视频抽帧,有的节点专门来做GPU计算,那么就会涉及到网络之间的交互,节点和节点之间会有网络交互,包括节点和存储之间都有网络交互,这时候该怎么办呢?

再进而你的业务发展壮大了,原来可能就在上海提供服务,现在要在美国提供服务,要在东南亚提供服务,如何多地域线上服务?最后还有GPU的工作怎么样,因为GPU现在功耗比较大,发热也是比较高的,所以经常会出现工作不正常,这个时候 GPU监控是非常必要的。

 

弹性GPU服务(Elastic GPU ServiceEGS

c80580fbbba821d1ffc98d67eb925f663f132984

在线下使用GPU的时候会有那么多考量的因素,所以我们在云上提供服务的时候,也不是简单的把它搬上来,里面还有很多工作要做。阿里云现在推出了弹性GPU的服务,它是和阿里云所有其他服务是打通的,包括我们的云盘、负载额均衡等等,完全是天然一体化的,所以在使用的时候和使用别的ECS云主机并没有太大的使用差异。面对的场景就是我们现在客户比较关注的,EGS是基于GPU应用的计算服务,适用于深度学习、视频解码、图形渲染、科学计算等应用场景,具有实时高速,并行计算跟浮点计算能力强等特点。

EGS优势

0411d14275fd897371942b3516c3ca6b3bc6db6a

EGS具有系列化规格族,可以根据AI深度学习计算力的要求,按需选择合适的规格,分钟级即可完成实例的创建;根据运算力需求进行GPU实例Scale-out水平扩容或Scale-up垂直变配。

我们并不是简单的把GPU从线下搬到线上。搬上来之后,我们有很多的优势:

第一个优势是弹性。大家在使用GPU的时候,以深度学习为例,当你累计到一段时间或者说你的模型升级,训练数据增加很多的时候,你会发现计算量的需求会突增。在云上很容易注意,然后当你用完可以选择释放。这是弹性和线下最大的好处,我们应对临时的需求增加爆增是非常有好处的,。

在线更加是这样,当你的模型训练好,把它放在线上提供服务给大家,包括图象识别服务或者语音服务等等,或者说你现在不是提供这种服务,可能提供的是一个图象的APP,里面使用了深度学习来完成这里面一些业务逻辑,随着访问量爆增的时候,在线的服务能力也需要动态伸缩。

使用线上的弹性云EGS服务,规格比较多。客户在使用单卡、两卡、四卡、八卡的都有这样需求,入门级客户可能使用单卡就够了,对于一些业务量比较大或者是研发能力比较强的,需要多卡,这个时候我们可以根据你的规格来选择,并且整个创建过程也是非常快的,分钟级就可以完成。水平扩容线下也可以买,但是我们可以随时变配,这都是在线下使用过程中,随着业务的增长要具备的一种弹性能力。

49be8f2f2e67583afa39febfae4d848d3aff588c

第二个优势是极致性能与安全。实现GPUDirect支持,GPU卡之间点对点通信,可以让GPU之间在无需CPU干预下,直接通过PCIe的总线进行高带宽低时延的互联通信,极大地提升了AI深度学习训练中模型参数交换效率;弹性GPU多租户安全隔离 ,通过Hypervsior的授权和管理,在隔离的安全性和允许多块GPU灵活配置互相高速通信。

06a90d7e77d55540255f6b49a262f369f87f1297

第三个优势是与阿里云生态深度整合。企业用户除了GPU之外,阿里云有OSS对象存储,它有着非常低的价格,具备非常海量的存储能力,我们还有NAS文件存储,可以把要训练的样本照片,或者文本资料传到这两个上面来。当你的容量需求量没有那么大的时候,放在我们云盘上面也OK的,当你需要几百T或者更大,而且成本要求更低,完全可以放在NAS或者OSS上面,这样可以天然打通你的训练数据存储和我们之间的问题。我们还提供EMR,因为现在都是大数据,海量的数据在训练之前都要做一些预处理,这些预处理可以定一些EMR的任务来帮你完成,然后把数据先处理最后传到这边来处理。处理之后模型就好好的训练出来,达到业务的要求,接下来就会考虑业务上线,上线之后会有一些前端等跟EGS相配合,另外会和我们弹性伸缩、负载均衡等相配合,以及我们刚才提到的监控等等。不管你是一个小规模业务还是大规模,你可以利用阿里云上众多的服务组件和能力来完成一个以深度学习为核心或者以差异化竞争为核心点的关键技术,包装支撑了整个业务的服务平台,我们也支持容器的方式来交付,使得整个方式更加便捷。

第四个优势是成本节约。 EGS实例支持灵活的使用方式:

用户可以按年支付以获得最高的使用折扣;

月付费降低用户的计算资源使用一次性投入成本,并且具有相对较低的单位小时使用价格;

小时的付费使用户以最低的单次使用成本来应对临时性的短期使用需求。

弹性GPU服务监控

c6472488cc2fbfa7b027a2c09d0f400e126734f5

715c4fc76e5eada7a1d18f2c23c77076e54d4007

我们还会对GPU做一个监控,会知道整个GPU的使用率、内存、温度等等,而且温度可以使用告警,你可以预先做一些保护性措施,从你的业务层面联动起来,基本就是免运维直接使用。

8b86c1c1e101958bf09d67bc944912c446c4d5c5

总结下来看,使用这种GPU云服务器自建,因为很多客户都在考虑自建,我们可以分级创建,而且我们可以变配,就是实例里面可以改变你的配置;在性能方面我们用的是专业级的GPU卡。而且我们会有一些多卡的支持,包括安全防护以及部署,部署对企业用户来讲是非常重要的。很多的客户现在整个业务都是布在阿里云上,所以他在布GPU的时候,首先会首先考虑部署在阿里云上。

EGS产品家族

4bd0118421898bee606be4eee009acc7d24e1d6c

上面就是作为异购计算平台来讲,因为整个深度学习也好,科学计算也好,它实际上是分层的,有些人是做业务,有些人是做算法,还需要有一些人出来做平台加速的,而我现在说的产品就是定位在最底层做平台加速的,我们目标是提供一个高性价比、非常好用的GPU云组机给大家,让大家把自己的算法及业务部署在云组机里面,更好的支撑业务的发展。

那么,当前我们提供什么样的能力呢?具体来讲,整个阿里云EGS弹性GPU服务现在包含两大类,从我们的业务场景出发,一类是可视化计算,另外一类是通用性计算。

可视化计算有共享型和独享型。通用计算已经上线了GN4 GN5

GA1–可视化计算型

fa41df9c86c91ba5be75f372cd35b6b3a68be284fa41df9c86c91ba5be75f372cd35b6b3a68be284

对于可视化计算,我们对它的定位或者我们看到客户在线上使用它的时候主要在做一些图形渲染,就是跟图形交互的可视化相关的一些事情,在我们规格组上,我们会看到,我们过去没有这个规格,就是说我们可以做到0.5GPU卡,现在做了一个共享GPU实例。很多厂商在云上面提供GPU的时候是提供了以GPU为单位做分割,但对于在训练场景下,因为你是计算密集型的,计算能力是越高越好,你不会把它进行分割,但是你在进行可视化尤其是远程桌面场景下,它其实计算能力是足够的,大家关心的是成本,是性价比,所以我们就做了这个共享GPU实例,我们可以把一个物理GPU卡变成多个,通过虚拟化技术,我们可以保证性能损失可以忽略不计,而且我们基于硬件的辅助虚拟化,底层的隔离线也非常好。

所以,最小的规格我们可以从0.5个卡,从技术来说我们可以做到更小的力度,但是你会发现更小力度之后,别的能力可能会很弱,可能在使用起来实际意义不大,所以我们把当前规格定在此,到现在最大我们是4个卡的支持,我们会配一些本地的SSD,保证整个端到端的性能取得最佳。

GN4 – Nvidia Tesla M40用计算加速型

ca7903319fb91d649df99712029d325566667545

GN4实例规格族是企业级异构计算ECS,提供了高性价比深度学习和视频处理能力M40因为整个能力不突出但是也够用,很多场景底下,包括我们实际售卖中,发现很多客户也在用它做训练,更多的是拿它来做一些推理,我们不否认很多客户在线下用消费级的卡来做训练,但是在线上提供服务的时候,就必须要考虑选择一个云平台。很多客户跟我们反馈说,我现在是GPU密集型的,我的CPU做的事情非常少,高CPU是用不完的。用不完就是一种浪费,因此,我们用自己平台的能力把它进一步的切小,也就是说当你在一块卡的时候,给你三种CPU memory的选择,使得多种选择之后就极大降低你的使用成本。我们两卡的机型也是一样的,过去我们只有固定一种,现在我们通过技术实现把它整个CPU memory降下来,使得你的整体拥有成本更低,更灵活。

GN5 –Nvidia Tesla P100用计算加速型

82dc8dd251df9daa022343123cd32fe66723d5f2

GN5实例规格族是企业级异构计算ECS,提供了超高性能深度学习和视频处理能力。

重点跟大家推荐当前使用的Tesla P100,也是国内共有云厂商里第一家推出P100的商家。P100现在市面上可以买到最好的卡,我们可以最大支持8卡。在我们云上可以用到单机8卡,而且可以以一种按量的方式。如果线下会受限于你的环境,买8卡的服务器还是比较贵的,但是在线上你可以按量买。它的整个计算能力是非常高的, GN5这一代的实力相比基于GN4能力,单精度浮点能力提升了5倍。

 

弹性GPU服务支撑AI智能创新

feb8a55855eb1f55f02b523abbeee0ea83ff18c3

介绍完产品本身的规格能力之后,最后回到这张图上来。GN4 M40两卡和GN5 P1008卡的能力都是够用的,最重要取决于本身计算力的需求。在多媒体条件里面,用的比较多的是视频编解码和渲染,根据大家业务的要求都可以选择。EGS会负责完成底下从硬件到虚拟化到操作系统实例这一层,然后在这之上阿里云会提供容器的服务,再往上我们会做一些扩展深度学习的框架能力,这些可以开源直接部署在我们容器里面的服务,阿里云也在做一些相应的框架,包括人脸识别等等。

阿里云的整个模型训练和线上的推理都是在弹性GPU之上,那么当你从训练的时候来看,过去是CPU后来用自建的GPU,主要遇到问题还是弹性、资源问题等等,现在都是放在我们共有云的GPU服务之上,包括对外提供服务。因为对外提供服务一定是在共有云之上,他们开发模型训练包括整理线上的服务都在这个上面,这是深度学习场景;第二个场景就是阿里云还有自己的视频编解码服务,这里面也用到了弹性GPU

我们作为异购计算重要组成部分,我们可以使得业务使用方更加关注本身的模型和算法,还有你提供业务本身逻辑之上,而底下的东西完全由我们来完成。我们提供这样的服务之中还会有别的考量,包括现在基于GPU做一些性能方面的优化,包括可靠性、网络能力的提升。

 

 

 

 

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
11月前
|
人工智能 运维 安全
英伟达发布AI Enterprise 5.0,帮助企业加速生成式AI开发
英伟达发布AI Enterprise 5.0,这是一个云端原生平台,加速生成式AI的开发与部署。该平台提供优化的数据科学流程,支持生成式AI,强调性能、安全性和灵活性。核心特性包括NVIDIA NIM和CUDA-X微服务的性能优化,严格的安全监测,多环境运行能力,及企业级支持与服务。API目录提供多种预训练模型,促进跨领域的应用创新。然而,平台可能对小企业有高技术门槛和成本挑战,且可能存在与现有系统兼容性问题。
205 1
英伟达发布AI Enterprise 5.0,帮助企业加速生成式AI开发
|
人工智能 文字识别 监控
将人工智能融入多媒体 助力视频产业加速——阿里云视频AI全能力解读
结合人工智能视频理解流程和用户的需求场景,我们将视频AI的功能分成四个大部分,视频智能审核、视频内容理解、视频智能编辑、视频版权保护。其中视频审核功能包括视频鉴黄、暴恐涉政识别、广告二维码识别、无意义直播识别等,利用识别能力将网络上没营养和不健康的视频内容进行排查和处理;视频理解功能包括视频分类、标签,人物识别、语音识别,同时也包括对视频中的文字进行识别(OCR);视频编辑层面可以实现视频首图、视频摘要、视频highlight的生成,同时支持新闻拆条;关于视频版权,支持视频相似性、同源视频检索和音视频指纹等功能。
17420 0
将人工智能融入多媒体 助力视频产业加速——阿里云视频AI全能力解读
|
4月前
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建
|
4月前
|
存储 人工智能 安全
AI时代,存力 or 算力 哪个更重要
本文探讨了AI技术发展中算力与存力的重要性。算力指计算能力,对处理大数据和实时计算至关重要;存力则是数据存储能力,确保数据安全可靠,支持后续分析。两者相辅相成,共同推动AI技术的快速发展,缺一不可。
|
5月前
|
机器学习/深度学习 人工智能 芯片
【AI系统】超异构计算
本文探讨了计算机架构发展的黄金十年,重点介绍了异构计算和超异构计算的概念及其在AI芯片发展中的应用。文章首先回顾了AI芯片发展的三个阶段,随后详细阐述了异构计算的优势和应用场景,如性能飞跃、灵活定制、降低成本和降低功耗。接着,文章分析了超异构计算的出现背景、基本特征及其面临的挑战,包括软件层的复杂性和硬件定义软件与软件定义硬件之间的权衡。最后,展望了超异构计算的未来,强调了跨平台统一计算架构的重要性,以及构建开放生态系统的必要性。
223 5
|
5月前
|
人工智能 atlas 开发工具
【AI系统】昇腾 AI 架构介绍
昇腾计算产业基于华为昇腾系列处理器,涵盖硬件、基础软件、应用使能等,构建全栈AI计算基础设施。华为通过开放硬件、开源软件,支持多框架,推动AI技术在端、边、云的广泛应用,促进AI产业生态繁荣。
342 1
|
6月前
|
人工智能 自然语言处理 算法
AI 系统的出现与算力发展
AI系统的崛起得益于大数据积累、强大算力与先进算法的共同驱动。大数据为AI提供了丰富学习材料,促进算法优化与应用创新;算法进步则提升了图像识别和自然语言处理等领域的性能,扩展了AI的应用范围。此外,GPU、TPU等专用芯片大幅加快了模型训练速度,通过硬件创新进一步增强了AI系统的效能。未来,算法与硬件的协同优化将推动AI技术迈向更高智能水平。
214 1
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
AI人工智能大模型的架构演进
随着深度学习的发展,AI大模型(Large Language Models, LLMs)在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进,包括从Transformer的提出到GPT、BERT、T5等模型的历史演变,并探讨这些模型的技术细节及其在现代人工智能中的核心作用。
374 8
|
11月前
|
机器学习/深度学习 人工智能 PyTorch
【Hello AI】神龙AI加速引擎AIACC-加速深度学习应用
神龙AI加速引擎AIACC是基于阿里云IaaS资源推出的AI加速引擎,用于优化基于AI主流计算框架搭建的模型,使用AIACC可加速深度学习应用,能显著提升模型的训练和推理性能。
|
存储 人工智能 自然语言处理
云存储,为 AI 创新提速
面向 AI 时代的云存储,必须要服务于数据全生命周期,贯穿 AI 业务全流程,在数据准备、模型训练与部署、应用与内容生成、内容分发与协作每一个关键环节,提供稳定、安全、高性能、低成本的存储能力。
8469 2
云存储,为 AI 创新提速