低延迟高性能AliFPGA亮相HotChips30

简介: 衡量一个处理器在目标场景的计算能力,需综合评估特定延迟下所能达到的吞吐FPS(Frame per Second)能力,这才是机器学习处理器选型时需要考虑的“场景内真实计算性能”。因此,对于机器学习处理器来说,同时达到计算的低延迟和高吞吐(FPS)显得极为重要。

image.png

在线业务的机器学习开发人员在面对市场上眼花缭乱的各类机器学习处理器时如何选择?相信第一因素是计算力。然而,计算力往往是和计算延迟成反比的,仅仅考虑峰值计算力,会遇到延迟性能不达标的尴尬;仅仅考虑延迟指标时,处理器往往在低延迟下又不能发挥出足够的计算力。

衡量一个处理器在目标场景的计算能力,需综合评估特定延迟下所能达到的吞吐FPS(Frame per Second)能力,这才是机器学习处理器选型时需要考虑的“场景内真实计算性能”。因此,对于机器学习处理器来说,同时达到计算的低延迟和高吞吐(FPS)显得极为重要。

近日,阿里巴巴首次在HotChips30大会上亮相,展示了在超低延迟-高吞吐机器学习处理器方面的研究成果,与来自各大顶级互联网以及芯片公司的专家进行了交流。

image.png

HotChips是每年八月在美国举办的顶级处理器和集成电路技术研讨会,今年是第30届,除了Intel、AMD、Samsung、IBM、 NVIDIA等传统芯片巨头,Google、 Microsoft等互联网公司以及MIT、University of Toronto等高校也分享了各自的新技术和新产品。

**阿里巴巴通过“软硬件一体化设计”、“网络模型低精度化和稀疏化”、 “FPGA处理器架构优化”等一系列技术手段,基于FPGA设计了超低延迟高吞吐的高效机器学习处理器,以Resnet18的网络模型为例,单张图片计算时间仅为0.174 ms,同时吞吐可达到5747 FPS,达到“实时人工智能”的效果,带来更好的用户体验。
**

GPU、ASIC和FPGA是当前数据中心常用的机器学习加速方案。GPU在延迟敏感的场景下需要使用小Batch Size以减少计算延迟,然而吞吐也会显著的降低,做不到兼顾低延迟和高吞吐;ASIC开发周期长,在网络模型发展日新月异的现状下,对新算子的支持有滞后性;而FPGA具有硬件可编程性和定制化开发的特性,可在保留灵活性的同时达到低延迟高吞吐。

阿里巴巴针对FPGA架构和算法进行了软硬件优化,实现了高效高精度的机器学习处理器。

阿里巴巴设计的FPGA机器学习处理器架构针对模块进行了深度优化:指令模块实现了高效的调度,卷积计算效率可达90%以上,处于行业领先水平;计算处理模块支持低精度数据类型,大幅提升计算力;参数模块采用CSR压缩技术,大幅减少稀疏化时DDR的访问带宽。模块间相互配合,使得处理器实现了超高的性能。

image.png

(FPGA架构图)

在算法上,阿里巴巴提出了针对低精度的创新训练策略(相关论文号1707.09870),通过常规训练、稀疏化( Pruning)、权重量化( Weight Quantization) 和特征图量化(Feature Map Quantization)4个步骤获得优化的模型和参数。在此训练策略下,Resnet18网络模型达到了极佳的精度效果。

image.png

(Resnet18 ImageNet1K分类精度)

 阿里巴巴FPGA机器学习处理器通过架构和算法优化,实测运行Resnet18网络的计算延迟仅为0.174 ms,而吞吐能力高达5747 FPS。同样场景下,数据中心主流GPU的最低延迟为1.29ms,此时吞吐仅为769 FPS;在接近峰值FPS时,延迟为29.98 ms。

image.png

(性能对比图)

实际应用中,除了对延迟和吞吐有高要求外,业务使用的模型种类多样且更迭频繁,所以要求处理器支持敏捷开发。而传统的重开发FPGA方式,升级周期通常需要数月。

阿里巴巴将FPGA机器学习处理器设计成专用领域指令处理器架构,模型变动时编译器通过生成并加载新模型相应的指令即可完成网络模型的更换,模型升级周期时间从数月变为在线实时升级。

image.png

(软硬件计算流程图)

阿里巴巴技术团队使用FPGA实现了超低延迟机器学习处理器。在研发过程当中,不是简单的将模型的计算卸载到FPGA上来,而是通过FPGA架构、算法和指令编译器三个层面的协同优化,在性能、模型精度和灵活可用性各方面都取得了极好的效果。

作为一家技术驱动的互联网公司,阿里巴巴不断致力于基础设施技术积累和前沿科技突破,为全球消费者带来更好的用户体验。

目录
相关文章
|
存储 人工智能 分布式计算
2021云栖大会丨阿里云发布第四代神龙架构,提供业界首个大规模弹性RDMA加速能力
10月20日,2021年杭州云栖大会上,阿里云发布第四代神龙架构,升级至全新的eRMDA网络架构,是业界首个大规模弹性RDMA加速能力。
2021云栖大会丨阿里云发布第四代神龙架构,提供业界首个大规模弹性RDMA加速能力
EMQ
|
弹性计算 负载均衡 监控
EMQX+阿里云飞天洛神云网络 NLB:MQTT 消息亿级并发、千万级吞吐性能达成
近日,EMQ与阿里云旗下飞天洛神云网络展开合作,与NLB产品合作构建了新一代支持「亿级并发、千万级吞吐」的物联网消息服务系统。
EMQ
343 0
EMQX+阿里云飞天洛神云网络 NLB:MQTT 消息亿级并发、千万级吞吐性能达成
|
边缘计算 人工智能 运维
满足数据处理超高要求,阿里云物联网高性能边缘计算3.0发布
边缘计算3.0框架以低成本、高性能、稳定可靠的能力,协同企业打造多品类智能化产品。
564 0
满足数据处理超高要求,阿里云物联网高性能边缘计算3.0发布
EMQ
|
消息中间件 存储 负载均衡
车联网平台百万级消息吞吐架构设计
本文将主要介绍如何针对百万级消息吞吐这一需求进行新一代车联网平台架构设计。
EMQ
388 0
车联网平台百万级消息吞吐架构设计
|
消息中间件 缓存 负载均衡
抗住百万高并发的 6 个关键技术!
高并发(High Concurrency)是互联网分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计保证系统能够同时并行处理很多请求。 高并发相关常用的一些指标有响应时间(Response Time),吞吐量(Throughput),每秒查询率QPS(Query Per Second),每秒事务处理量TPS(Transaction Per Second),并发用户数等。 响应时间:系统对请求做出响应的时间。
531 0
抗住百万高并发的 6 个关键技术!
|
存储 缓存 运维
高性能帐务数据库Maxwell:自主可控、超低延时
支付宝最重要、最基础的系统工作是记账,记账的准确性、及时性和吞吐直接影响着用户的支付体验和资金安全。账务数据库作为账务数据存储和处理底盘,在很大程度上决定了整个账务系统所能实现的性能(如吞吐、延迟、抖动毛刺等),是整个支付业务的基石。这个问题在客户基数大场景复杂的支付宝尤为突出。 Maxwell账务数据库是一款软硬件高度优化的账务系统,产品核心完全由C语言及汇编完成,完全自主开发,无第三方库依赖,极致可控。 本文以蚂蚁热点账务问题为例,分享在面临这些问题所进行探索的成果:Maxwell高性能账务数据库,以及落地情况。
856 0
高性能帐务数据库Maxwell:自主可控、超低延时
|
机器学习/深度学习 人工智能 运维
业界最高密度 阿里云发布新一代浸没式液冷GPU服务器集群解决方案
10月20日,2021杭州云栖大会,阿里云携手英伟达,宣布将为客户提供搭载英伟达A100 GPU的新一代浸没式液冷服务器集群解决方案。作为全球领先的云服务提供商和数字经济的新基础设施,阿里云为英伟达异构算力服务领域丰富了新的解决方案,将为不同需求用户提供更丰富、更具性价比的GPU服务器集群解决方案。
业界最高密度 阿里云发布新一代浸没式液冷GPU服务器集群解决方案
|
编解码 缓存 人工智能
从成本到体验,阿里云超低延时直播技术背后的技术演进之路
“今年在疫情的影响下,许多线下活动都不得不搬到了线上、搬到了云上。云上卖货、云上上课、云上篮球、云上招聘、甚至云上火锅等。这些云上活动背后实际上就是直播技术。 直播是一个历史悠久的技术。今天常用的 RTMP 直播协议已经诞生 20 多年。这 20 多年来直播技术是怎样演进的?今天直播有什么新趋势?今天直播最关键的核心技术点是什么?”
从成本到体验,阿里云超低延时直播技术背后的技术演进之路
|
人工智能 自然语言处理 供应链
双11背后通信技术解读:大促场景下云通信高可用、稳定性实战
为了帮助用户更好地了解和使用云通信的产品,秒懂云通信系统课程还在继续中。12月21日的秒懂云通信,阿里云高级技术专家卢彬彬分享了《安全可靠 稳如泰山+揭秘双11背后阿里云通信黑科技》,带你了解电商大促场景下云通信是如何赋能全链路高效连接,确保系统的高可用、稳定性的最佳实战。
3060 0
双11背后通信技术解读:大促场景下云通信高可用、稳定性实战
|
人工智能 运维 物联网
超低时延 | 带你读《5G承载关键技术与规划设计》之七
通过对 5G 承载需求特性进行综合分析,提出和明确了 5G 承载关键性能、承载组网及功能等需求。相对于 4G 网络,5G 承载呈现出明显的差异化需求。在关键性能方面,本节介绍了在超低时延和高精度同步等需求非常突出;在组网及功能方面,呈现“多层级承载网络、灵活化连接调度、层次化网络切片、智能化协同管控、4G/5G 混合承载以及低成本高速组网”等需求。
超低时延   | 带你读《5G承载关键技术与规划设计》之七