备案控制台

开发者社区雷锋网文章正文

如何用FPGA加速卷积神经网络(CNN)？

2017-10-24 2315

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 过早地执着于fpga的技术细节(用hdl还是hls，用啥芯片，用啥接口)容易只见树木不见森林。现在software define network/flash/xxx，已然大势所趋。之前开组会时跟同志们聊过，算法是纲，纲举目张；软件是妈，软件是爹，软件比基金委都亲。

以下主要引用自西安邮电大学李涛老师关于连接智能和符号智能的报告，以及fpl2016上ASU的 Yufei Ma的文章和slide，推荐大家去读下原文。

Scalable and Modularized RTL Compilation of Convolutional Neural Network onto FPGA

地址：http://fpl2016.org/slides/S5b_1.pdf

我做过一些计算加速的工作，个人感觉要入手先要想好几个问题: 要加速的是什么应用，应用的瓶颈是什么，再针对这个瓶颈，参考前人工作选择合适的方案。

过早地执着于fpga的技术细节(用hdl还是hls，用啥芯片，用啥接口)容易只见树木不见森林。现在software define network/flash/xxx，已然大势所趋。之前开组会时跟同志们聊过，算法是纲，纲举目张；软件是妈，软件是爹，软件比基金委都亲。所以推荐先把cnn的算法看一下，拿一些开源代码跑一下经典的例子(lenet, alexnet, etc)看好输入输出，摸清算法。

如何用FPGA加速卷积神经网络(CNN)？

比如以下是一个lenet的cpp和opencl的实现：

nachiket/papaa-opencl

地址：https://github.com/nachiket/papaa-opencl

以下图片源自Yufei Ma的Slide。

如何用FPGA加速卷积神经网络(CNN)？

可以看到cnn算法主要由conv ，pooling，norm等几个部分组成。工作时将image跟weight灌进去，最终得到预测结果。

接下来拿profiler(比如perf)去分析下软件算法，找找热点和性能瓶颈。在cnn里面主要耗时的就是conv二维卷积了。性能瓶颈也主要在于卷积时需要大量乘加运算，参与计算的大量weight参数会带来的很多访存请求。

接下来考察下前人的工作和当前的灌水热点。按理说这种大量的乘加运算用dsp应该不错，但是在cnn中大家并不需要这么大的位宽，有时候8位就够了。dsp动辄32/64位的乘加器实在是浪费。于是乎大家就开始减位宽，多堆几个运算单元。面对大量的访存请求，大家就开始设计各种tricky的缓存了。

以下是大家的一些灌水方向：

如何用FPGA加速卷积神经网络(CNN)？

如何用FPGA加速卷积神经网络(CNN)？

于是就有了以下各路硬件设计：

如何用FPGA加速卷积神经网络(CNN)？

如何用FPGA加速卷积神经网络(CNN)？

有人照着dsp风格去设计加速器：

如何用FPGA加速卷积神经网络(CNN)？

ceva也出了一系列面向CNN的IP：

如何用FPGA加速卷积神经网络(CNN)？

如何用FPGA加速卷积神经网络(CNN)？

有人用了脉动阵列或者Dataflow的风格：

如何用FPGA加速卷积神经网络(CNN)？

有人设计了专用的芯片比如计算所的Cambricon：

如何用FPGA加速卷积神经网络(CNN)？

还有的就是你提到的fpga。

所有的事情到了硬件层面实际上能用的手段也就有限了。不外乎堆资源和切流水两招。再不然就是做一些bit level的小技巧，比如乘法器变查表之类的，这些技巧在很多二十年前的dsp教材里面都描述得很细致了，拿来用就好。比如这本书亲测有效。

VLSI Digital Signal Processing System--Design and Implementation by Keshab

典型的fpga实现可以参考Yufei Ma的文章，不论是conv，还是pooling，依葫芦画瓢设计data path，切好流水，再想好状态机加上控制信号。这些就看大家撸rtl的基本功了。

比如Conv模块如下图，主要拿一堆乘法器以及加法器树搭好data path，切好流水，接着加上控制信号。

如何用FPGA加速卷积神经网络(CNN)？

Pooling也是大同小异：

如何用FPGA加速卷积神经网络(CNN)？

还有Norm：

如何用FPGA加速卷积神经网络(CNN)？

最后把这些模块通过router连接，外面再套一层控制模块，封成ip就好了。

如何用FPGA加速卷积神经网络(CNN)？

剩下的就是集成进你的系统(microblaze, nios还是arm，配好dma，写好灌数据的驱动，这些就是各有各的道儿了)。推荐动手码rtl前先写好文档，约定好端口，寄存器和软件api，否则边写边改容易乱。

整体来说，cnn这种应用流水线控制相对cpu简单，没有写cpu的那一堆hazard让人烦心，也不用写汇编器啥的。太大的cnn放在fpga里挺费劲，做出创新很难，但是fpga上写个能用的lenet这种级别的cnn还是挺容易的。最后还可以依照惯例跟cpu比性能，跟gpu比功耗。

本文作者：Non

本文转自雷锋网禁止二次转载，原文链接

文章标签：

FPGA云服务器

算法

机器学习/深度学习

异构计算

关键词：

网络cnn

卷积神经网络

卷积神经网络cnn

卷积网络cnn

卷积CNN

玄学酱

目录

相关文章

Echo_Wish

|

5天前

|

机器学习/深度学习 PyTorch 算法框架/工具

使用Python实现卷积神经网络（CNN）

使用Python实现卷积神经网络（CNN）的博客教程

Echo_Wish

30 1 1

Deephub

|

10天前

|

机器学习/深度学习并行计算测试技术

BiTCN：基于卷积网络的多元时间序列预测

该文探讨了时间序列预测中模型架构的选择，指出尽管MLP和Transformer模型常见，但CNN在预测领域的应用较少。BiTCN是一种利用两个时间卷积网络来编码历史和未来协变量的模型，提出于《Parameter-efficient deep probabilistic forecasting》(2023年3月)。它包含多个由扩张卷积、GELU激活函数、dropout和全连接层组成的临时块，有效地处理序列数据。实验表明，BiTCN在具有外生特征的预测任务中表现优于N-HiTS和PatchTST。BiTCN的效率和性能展示了CNN在时间序列预测中的潜力。

Deephub

21 1 1

爱吃糖的范同学

|

11天前

|

机器学习/深度学习人工智能算法

【AI 初识】什么是卷积神经网络（CNN）？

【5月更文挑战第2天】【AI 初识】什么是卷积神经网络（CNN）？

爱吃糖的范同学

55 11 11

1941623231718325

|

12天前

|

机器学习/深度学习自然语言处理搜索推荐

深度学习中的卷积神经网络（CNN）详解

【5月更文挑战第2天】

1941623231718325

28 3 3

桃李春风一杯酒

|

15天前

|

监控安全 Linux

【专栏】Linux中六个常用的网络命令：ping、traceroute、netstat、nmap、ifconfig和ip

【4月更文挑战第28天】本文介绍了Linux中六个常用的网络命令：ping、traceroute、netstat、nmap、ifconfig和ip，以及它们在测试网络连通性、追踪路由、查看网络状态、安全扫描和接口配置等场景的应用。通过学习和运用这些命令，系统管理员和网络爱好者能更有效地诊断和管理网络问题，确保网络稳定运行。

桃李春风一杯酒

26 0 0

热爱嵌入式的小佳同学

|

2天前

|

网络协议 Linux 网络架构

Linux网络编程网络基础知识

Linux网络编程网络基础知识

热爱嵌入式的小佳同学

7 0 0

Linux网络编程网络基础知识

然然学长

|

5天前

|

域名解析网络协议 Linux

linux网络配置详解

linux网络配置详解

然然学长

14 0 0

Yawesh

|

6天前

|

网络协议 Java Linux

【探索Linux】P.29（网络编程套接字 —— 简单的TCP网络程序模拟实现）

【探索Linux】P.29（网络编程套接字 —— 简单的TCP网络程序模拟实现）

Yawesh

12 0 0

Yawesh

|

6天前

|

存储网络协议算法

【探索Linux】P.28（网络编程套接字 —— 简单的UDP网络程序模拟实现）

【探索Linux】P.28（网络编程套接字 —— 简单的UDP网络程序模拟实现）

Yawesh

14 0 0

Yawesh

|

6天前

|

网络协议算法 Linux

【探索Linux】P.27（网络编程套接字 —— UDP协议介绍 | TCP协议介绍 | UDP 和 TCP 的异同）

【探索Linux】P.27（网络编程套接字 —— UDP协议介绍 | TCP协议介绍 | UDP 和 TCP 的异同）

Yawesh

14 0 0

雷锋网

热门文章

最新文章

Transformer：Attention机制、前馈神经网络、编码器与解码器

一文带你了解神经网络是如何学习预测的

网络技术基础（14）——ACL访问控制列表

P2P网络下分布式文件共享场景的测试

Kafka【基础知识 01】消息队列介绍+Kafka架构及核心概念（图片来源于网络）

网络技术基础（15）——DHCP简介与配置

网络安全产品之认识防病毒软件

基于yolov2深度学习网络的视频手部检测算法matlab仿真

网络安全产品之认识漏洞扫描设备

基于深度学习的网络异常检测与自动化响应系统设计与实现

ELAN：用于图像超分辨率的高效远程注意力网络

构建未来：AI驱动的自适应网络安全防御系统

m基于深度学习网络的手势识别系统matlab仿真,包含GUI界面

基于yolov2深度学习网络的视频手部检测算法matlab仿真

Linux 常用命令汇总（五）：网络操作命令

网络技术基础（16）——DHCP中继

网络技术基础（15）——DHCP简介与配置

网络技术基础（14）——ACL访问控制列表

P2P网络下分布式文件共享场景的测试

【spring（六）】WebSocket网络传输协议

相关课程

更多

云计算工程师解析与实战-网络专家篇（体验版）

云网络白皮书-阿里云网络系列课

企业上云攻略-阿里云网络产品应用系列教程

Linux网络进阶 - TCP/IP协议及OSI七层模型

网络管理者必知-2分钟了解新出台的《网络安全法》

神经网络概览及算法详解

相关电子书

更多

基于英特尔®FPGA的数据分析可重构加速

FPGA 在数据中心的应用

阿里巴巴基础设施--FPGA加速解决方案

相关实验场景

更多

如何快速训练大模型

使用函数计算部署通义千问大模型实现AI对话

基于阿里云E-HPC和OpenFoam进行流体仿真实验

通过GPU云服务器进行LLaMA-7b指令微调

免费撸A10显卡！在PAI-DSW里用FaceChain训练专属形象照

云原生AI套件：一键训练大模型及部署GPU共享推理服务

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）