CUDA实践指南(八)

简介:

优化CUDA应用程序:
在每轮应用程序并行化完成后,开发人员可以转向优化实施以提高性能。 由于可以考虑许多可能的优化,对应用程序的需求有充分的了解可以帮助尽可能平滑地实现流程。 但是,与APOD整体一样,程序优化是一个迭代过程(找出优化的机会,应用和测试优化,验证实现的加速并重复),这意味着程序员不需要花费大量 在看到很好的加速之前记住大部分可能的优化策略。 相反,策略可以在学习时逐步应用。
优化可以应用于各个层面,从重叠的数据传输和计算一直到精细调整浮点运算序列。 可用的分析工具对于指导此过程非常有用,因为它们可以帮助为开发人员的优化工作提供次佳的操作方法。
性能指标:
在尝试优化CUDA代码时,需要知道如何准确衡量性能并了解带宽在性能测量中的作用。 本章讨论如何使用CPU定时器和CUDA事件正确测量性能。 然后探讨带宽如何影响性能指标以及如何减轻它带来的一些挑战。
Timing:
CUDA调用和内核执行可以使用CPU或GPU定时器来定时。
用CPU计时器:
任何CPU计时器都可以用来测量CUDA调用或内核执行所用的时间。 各种CPU时序方法的细节超出了本文档的范围,但开发人员应始终注意其定时调用提供的分辨率。
在使用CPU定时器时,记住许多CUDA API函数是异步的,这一点很重要。 也就是说,他们在完成工作之前将控制权返回给调用CPU线程。 所有内核启动都是异步的,因为内存复制函数的名称上带有Async后缀。 因此,要准确测量某个特定调用或CUDA调用序列的运行时间,需要在启动和停止CPU计时器之前立即调用cudaDeviceSynchronize()来同步CPU线程与GPU。 cudaDeviceSynchronize()阻塞调用CPU线程,直到线程先前发出的所有CUDA调用都完成为止。
尽管也可以使CPU线程与GPU上的特定流或事件同步,但这些同步功能不适用于除默认流以外的流中的计时代码。 cudaStreamSynchronize()阻塞CPU线程,直到先前发送到给定流中的所有CUDA调用都完成为止。 cudaEventSynchronize()阻塞,直到GPU记录特定流中的给定事件。 由于驱动程序可能会交错执行来自其他非默认流的CUDA调用,因此其他流中的调用可能会包含在该时序中。
由于默认流0在设备上表现出序列化行为(默认流中的操作只有在任何流中的所有前面的调用都完成之后才能开始;并且任何流中的后续操作都不能开始,直到完成为止) 这些功能可以在默认流中可靠地用于定时。
CPU到GPU同步点意味着GPU处理流水线中存在停顿,因此应谨慎使用,以尽量减少其对性能的影响。
用GPU计时器:
CUDA事件API提供创建和销毁事件,记录事件(通过时间戳)以及将时间戳差异转换为浮点值(以毫秒为单位)的调用。 如何使用CUDA事件计时代码说明了它们的使用。

cudaEvent_t start, stop;
float time;
cudaEventCreate(&start);
cudaEventCreate(&stop);
cudaEventRecord( start, 0 );
kernel<<<grid,threads>>> ( d_odata, d_idata, size_x, size_y,
NUM_REPS);
cudaEventRecord( stop, 0 );
cudaEventSynchronize( stop );
cudaEventElapsedTime( &time, start, stop );
cudaEventDestroy( start );
cudaEventDestroy( stop );

这里使用cudaEventRecord()将开始和停止事件放入默认流,即流0中。设备将在事件到达流中时记录该事件的时间戳。 cudaEventElapsedTime()函数返回记录开始和停止事件之间的时间间隔。 该值以毫秒为单位表示并具有大约半微秒的分辨率。 与本清单中的其他调用一样,它们的具体操作,参数和返回值在CUDA工具包参考手册中进行了描述。 请注意,时序是在GPU时钟上测量的,因此时序分辨率与操作系统无关。

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
目录
相关文章
|
并行计算 异构计算 存储
|
存储 并行计算 内存技术
|
并行计算 算法 测试技术
|
并行计算 程序员 异构计算
|
并行计算 异构计算 程序员
|
并行计算 大数据 机器学习/深度学习
|
并行计算 Linux
|
并行计算 异构计算