可靠低耗易获得的AI芯片-阿里云开发者社区

可靠低耗易获得的AI芯片

2017-12-29 1610

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 2017年12月20日深鉴科技CTO单羿在云栖大会北京峰会现场分享了题为《嵌入云端的智能芯片》的演讲，讲述了随着人工智能的兴起，深度学习算法的能力为人所知，对计算能力也提出了更高的要求。深鉴科技力图打造基于FPGA（一种可编程的硬件芯片，现场可编程门阵列，Field－Programmable Gate Array）的云端到边缘的深度学习处理能力，使得深度学习的计算、人工智能的引擎变得更加强大。

以下为精彩视频内容整理：

深度学习

深度学习是机器学习中一种基于对数据进行表征学习的方法。简单的说它是端到端的技术，互联网时代有PC平台来承载深度学习的能力，移动互联网时代有手机承载它的能力，在AI时代，它的形态可以多种多样，比如智能音箱，无人机等。在AI背后有云端强大的大脑，前端有各种各样的设备。

4ffb53b1163e8ab3c3f75d3812a5ac70c0744cf1

人工智能是目的，是结果；深度学习是方法，是工具。深度学习算法的2个关键因素是算法数据和算力（计算能力）。而计算能力中的训练需要利用大量数据中心服务器的能力训练模型，使其得到收敛，进而获得精准的模型。模型部署在服务器上，给用户提供服务时需要一个高效、低耗、易获得的处理平台，这个平台载体可能是芯片、FPGA、GPU、CPU。深度学习可以承载图像识别、人脸识别、图片分类、娱乐类的图片渲染和美化、辅助驾驶或者无人驾驶等应用。众所周知无人驾驶硬件成本很高，一部分是传感器，另一部分是GPU cluster，只有当它低成本时才是生活中易获取的辅助驾驶能力。在安防领域，中国可能有上亿颗摄像头来维护我们的平安城市，然而监控采集的高清图片高昂的运算成本无论在摄像头端还是云端都是无法接受的。

摩尔定律和架构创新

当处理器设计的更通用，可获得更高的灵活性，但效率低；当处理器设计的更专用，效率得到提升，但灵活性有损失。深度学习可以把很多应用套在算法框架下实现，算法本身是灵活的，设计专用硬件来完成一类算法灵活性也得以保证了。根据摩尔定律，单纯依赖单核到多核、提高频率已经很难保证性能的进一步提升。在摩尔定律不断减缓甚至会停止的情况下，架构创新会对计算能力增长起到更大的作用。深鉴科技做定制计算，针对应用领域分析其计算特征，以此优化去除算法冗余使得效率更佳。

专用体系结构优化

深鉴科技致力于打造软硬件同时优化的深度学习计算更高效的高性能处理平台。集中力量打造神经网络压缩编译工具链、深度学习处理器 DPU 设计、FPGA 开发与系统优化等技术能力，使用户更易获得其计算能力，工程师、程序员操作更便捷，一键部署。在工具上还有独特的技术，比如模型压缩技术，把软和硬结合在一起来做。先在软件上做压缩，然后在硬件上针对压缩的神经网络做一个专用体系结构的优化。

此外，深鉴科技CTO单羿还分享了两个其产品在不同应用场景的表现，分别是深度学习之LSTM和在安防领域的应用。

1.深度学习之LSTM

LSTM适合时序序列，变长序列，尤其适合自然语言处理。而这其中存在大量矩阵和向量之间的乘法运算，成为运算的一个瓶颈。首先考虑算法本身是否冗余，实验结果在某公开数据集上一个100%稠密的模型得到的错误率在12左右。通过自动化软件模型压缩工具把运算量降低，准确率几乎保持不变。这主要利用了硬件的并行处理能力，众所周知CPU是串行处理的方式，需要去取指令，做译码，做计算，再把数据写回。而特定的硬件处理器好处就是可以让大量并行运算同时发挥其计算能力，使性能得到提升。通过深鉴科技的加速延时上能获得比英伟达P4的GPU好两倍的左右的效果，与CPU相比加速的倍数约在两个数量级以上。这代表着在未来深鉴科技与阿里云合作后，大规模的云计算对成本和功耗非常敏感的情况下，深鉴科技的方案会帮助阿里云明显降低功耗、减少客户的响应时间和节约服务器运营成本。

2. CNN for Video Surveillance