CUDA学习(一百零一)

简介:

在6.x之前的体系结构上使用多GPU程序管理内存:
在具有计算能力低于6.x的设备的系统上,托管分配可通过GPU的对等功能自动在系统中可见。
在Linux上,只要程序主动使用的所有GPU都具有对等支持,就可以在GPU内存中分配托管内存。 如果应用程序在任何时候开始使用与任何其他已经管理分配的GPU都没有对等支持的GPU,那么驱动程序会将所有托管分配迁移到系统内存。
在Windows上,如果对等映射不可用(例如,在不同体系结构的GPU之间),那么系统将自动回退到使用零拷贝内存,而不管这两个GPU是否被程序实际使用。 如果实际上只使用一个GPU,则必须在启动程序之前设置CUDA_VISIBLE_DEVICES环境变量。 这限制了哪些GPU可见,并允许在GPU内存中分配托管内存。
或者,在Windows上,用户还可以将CUDA_MANAGED_FORCE_DEVICE_ALLOC设置为非零值,以强制驱动程序始终将设备内存用于物理存储。 当此环境变量设置为非零值时,该进程中用于支持托管内存的所有设备必须彼此对等兼容。 如果使用支持托管内存的设备,并且与该进程中以前使用的任何其他托管内存支持设备不是对等兼容,即使:: cudaDeviceReset具有该错误:: cudaErrorInvalidDevice,也会返回 在这些设备上被调用。 这些环境变量在附录CUDA环境变量中进行了描述。 请注意,从CUDA 8.0开始,CUDA_MANAGED_FORCE_DEVICE_ALLOC对Linux操作系统没有影响。
使用带管理内存的fork():
统一内存系统不允许在进程之间共享托管内存指针。 它不会正确管理通过fork()操作重复的内存句柄。 如果子或父访问fork()后的受管数据,结果将是未定义的。
然而,fork()一个子进程是安全的,然后通过一个exec()调用立即退出,因为子进程会抛出内存句柄,父进程再次成为唯一的所有者。 家长离开并离开孩子进入手柄并不安全。
性能调整:
为了实现统一内存的良好性能,必须满足以下目标:

  • 应避免出现故障:尽管可重播故障对于实现更简单的编程模型至关重要,但它们可能严重损害应用程序的性能。 故障处理可能需要几十微秒,因为它可能涉及TLB无效,数据迁移和页表更新。 一直以来,应用程序某些部分的执行都将停止,因此可能会影响整体性能。
  • 数据应该在访问处理器本地:如前所述,当数据放置在访问处理器的本地时,内存访问延迟和带宽显着更好。 因此,应适当迁移数据以利用更低的延迟和更高的带宽。
  • 应该防止内存抖动(thrashing ):如果数据经常被多个处理器访问,并且必须不断迁移以实现数据局部性,那么迁移的开销可能会超过局部性的好处。 尽可能防止内存抖动(thrashing )。 如果无法防止,必须适当检测并解决。

为了达到与不使用统一内存一样的性能,应用程序必须引导统一内存驱动程序子系统避免上述缺陷。 值得注意的是,统一内存驱动程序子系统可以检测通用数据访问模式,并自动实现其中一些目标,而无需应用程序参与。 但是当数据访问模式不明显时,来自应用程序的明确指导是至关重要的。 CUDA 8.0引入了有用的API来为运行时提供内存使用提示(cudaMemAdvise())和显式预取(cudaMemPrefetchAsync())。 这些工具允许与显式内存拷贝和固定API相同的功能,而无需恢复显式GPU内存分配的限制。

timg

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
目录
相关文章
|
并行计算 编译器 缓存
|
并行计算 API 异构计算
|
存储 并行计算 程序员
|
并行计算 前端开发
|
并行计算 算法 测试技术
|
并行计算 异构计算 存储
|
存储 并行计算 内存技术
|
并行计算 异构计算 程序员