《中国人工智能学会通讯》——2.17 面向深度学习的计算机系统结构

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第2章,第2.17节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

2.17 面向深度学习的计算机系统结构

深度学习[1-2]采用多层神经元网络,在包括图像识别[2] 、自然语言处理 [3]以及语音识别[4]等多个领域都表现出了巨大潜力,引发了产业界和学术界的广泛关注。人们发现,通过使用更多的训练数据和更大的模型规模(更多的参数),能够显著提高最终的识别效果。例如 Google 大脑计划使用的神经元网络有超过 10 亿个参数[5] 。

因此,如何能够快速地训练大规模深度学习神经元网络成为一个重要的问题。更大的模型规模会带来的问题是需要更多内存和更长的训练时间。当单个机器或加速器(如显卡)无法存放整个模型时,如果不能有效地进行模型划分,则无法有效支持大规模模型。分布式深度学习方法,既解决了模型大于单机(卡)时的可行性问题,又可以通过并行计算加快训练速度,是解决大规模深度学习神经元网络的有效方法[5] 。

另一方面,计算机体系结构正处于快速发展中,现有的深度学习系统,使用了包括通用处理器、以GPU 为代表的加速器、分布式多机系统以及神经网络处理器等多种体系结构。要构造高性能的大规模深度学习系统,需要综合考虑处理硬件的处理能力、内存容量、通信能力、功耗以及软件的可编程性、灵活性和性能等因素。

本文将首先对深度学习算法的计算与访存特征进行简单分析,然后介绍如何用商用系统构建深度学习系统,最后介绍深度学习专用体系结构。

相关文章
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习算法:探索人工智能的前沿
深度学习算法:探索人工智能的前沿
|
1月前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能与图像识别:基于深度学习的卷积神经网络
人工智能与图像识别:基于深度学习的卷积神经网络
34 0
|
8天前
|
机器学习/深度学习 算法 PyTorch
fast.ai 深度学习笔记(三)(3)
fast.ai 深度学习笔记(三)(3)
24 0
|
8天前
|
机器学习/深度学习 PyTorch 算法框架/工具
fast.ai 深度学习笔记(三)(1)
fast.ai 深度学习笔记(三)(1)
24 0
|
8天前
|
机器学习/深度学习 固态存储 Python
fast.ai 深度学习笔记(四)(2)
fast.ai 深度学习笔记(四)
44 3
fast.ai 深度学习笔记(四)(2)
|
8天前
|
机器学习/深度学习 算法框架/工具 PyTorch
fast.ai 深度学习笔记(五)(4)
fast.ai 深度学习笔记(五)
63 3
fast.ai 深度学习笔记(五)(4)
|
机器学习/深度学习 自然语言处理 Web App开发
fast.ai 深度学习笔记(五)(3)
fast.ai 深度学习笔记(五)
109 2
fast.ai 深度学习笔记(五)(3)
|
8天前
|
机器学习/深度学习 API 调度
fast.ai 深度学习笔记(六)(3)
fast.ai 深度学习笔记(六)
77 6
fast.ai 深度学习笔记(六)(3)
|
机器学习/深度学习 计算机视觉 存储
fast.ai 深度学习笔记(七)(4)
fast.ai 深度学习笔记(七)
81 8
fast.ai 深度学习笔记(七)(4)
|
8天前
|
机器学习/深度学习 自然语言处理 搜索推荐
fast.ai 深度学习笔记(二)(3)
fast.ai 深度学习笔记(二)
84 2
fast.ai 深度学习笔记(二)(3)