浅谈GPU虚拟化技术（四）- GPU分片虚拟化-阿里云开发者社区

作者：郑晓，龙欣，弹性计算异构计算项目组

让各位久等了，阿里小二这就开始上新菜：“GPU分片虚拟化”。

对于“分片”的理解，相信大家已经不陌生了。此处的分片从两个维度上来定义：其一，是对GPU在时间片段上的划分，与CPU的进程调度类似，一个物理GPU的计算engine在几个vGPU之间共享，而调度时间片一般都在1ms-10ms左右，其二，是对GPU资源的划分，主要是指对GPU显存的划分，以NVIDIA为例，一个物理GPU带有16GB的显存，那么按照16个vGPU来划分，每个vGPU得到1GB的显存。由于安全隔离的要求，每个vGPU独享分配给它的显存，不会与其他vGPU共享。

技术上讲GPU分片虚拟化，就是指基于VFIO mediated passthrough framework的GPU虚拟化方案。该方案由NVIDIA提出，并联合Intel一起提交到了Linux kernel 4.10代码库，该方案的kernel部分代码简称mdev模块。随后Redhat Enterprise，centos最新的发行版花了不少力气又backporting到了3.10.x kernel。所以如果目前采用最新的Redhat 发行版（企业版或者centos7.x）等都已经自带mdev模块。而如果采用ubuntu17.x 以后版本的话，不但自带mdev功能，连Intel GPU驱动（i915）也已经更新到支持vGPU。无需任何代码编译就可以直接体验vGPU虚拟机功能。

那么什么叫mediated passthrough呢？它与pass through的区别是什么呢？一句话解释：把会影响性能的访问直接passthrough给虚拟机，把性能无关，功能性的MMIO访问做拦截并在mdev模块内做模拟。太过细节的东西详见后续篇章。

GPU分片虚拟化框架

GPU分片虚拟化的方案被NVIDIA与Intel两家GPU厂家所采用。NVIDIA GRID vGPU系列与Intel的GVT-g（XenGT or KVMGT）。

当然光有内核的支持还不够，需要加上qemu v2.0 以后版本，加上Intel或者NVIDIA自带的GPU mdev驱动（也就是对GPU MMIO访问的模拟），那么GPU分片虚拟化的整个路径就全了。而GPU厂家的mdev驱动是否开源取决于自己。按照一贯的作风，Intel开源了其绝大部分代码，包括最新的基于mdev的GPU热迁移技术，而NVIDIA也保持其一贯作风：不公开。

GPU分片虚拟化看起来整个框架就如下图一样（以KVMGT作为例子）：

（图片来源：https://01.org/sites/default/files/documentation/an_introduction_to_intel_GVT-g_for_external.pdf）

可以从上图看到vGPU的模拟是通过kvmGT（Intel）或者NVIDIA-vgpu-vfio（NVIDIA）来完成。该模块只模拟对MMIO的访问，也就是功能性，不影响性能的GPU寄存器。而对GPU aperture和GPU graphic memory则通过VFIO的passthrough方式直接映射到VM内部。

值得注意的是一般Passthrough的方式都依赖IOMMU来完成GPA到HPA的地址转换，而GPU的分片虚拟化完全不依赖IOMMU，也就是说其vGPU的cmd提交（内含GPA地址）并不能直接运行于GPU硬件之上，至少需要有一个GPA到HPA的翻译过程。该过程可以通过host端的cmd扫描来修复（KVMGT），NVIDIA GRID vGPU每一个context有其内部page table，会通过修改page table来实现。

由于NVIDIA GRID vGPU代码闭源，我们将着重介绍Intel的GVT-g方案。

Intel GVT-g的介绍

说起GVT-g我大概可以讲上三天三夜。当然大伙这儿也未必想听。捡简洁的说起：

Kernel 与 mdev驱动源码：

https://github.com/intel/GVT-linux

qemu：

https://github.com/intel/IGVTg-qemu

setup文档：

https://github.com/intel/GVT-linux/wiki/GVTg_Setup_Guide

我们可以在任何一个带集成显卡Intel SKL/BDW的机器上运行GVT-g虚拟化的方案。GVT-g的GPU虚拟化方案也被用到了嵌入式，车载系统等领域（ARCN hypervisor）。

干货来了J 对于想了解GPU的运作，以及软硬件规范的，Intel其实已经开源了其大部分标准。

https://01.org/linuxgraphics/documentation/hardware-specification-prms

截个屏，对于想了解GPU内部部分设计与运行机制的人来说，光看看这个列表就会莫名的兴奋。

GVT-g由于是基于Intel的集成显卡，所以对运行环境的硬件要求非常低。任何Intel的带GPU的ATOM，Mobile Core或者Xeon E3等等CPU都能支持vGPU虚拟化（HSW，BDW，SKL系列CPU）。

又同时GVT-g完全免费，用户不需要花费额外的费用来支持vGPU的应用。

也正是这些优点，使得GVT-g可以被广泛的运用到任何对终端有虚拟化与显示要求的场景。比如XenClient，比如ARCN等等。

GVT-g的优点之一在于对其本地显示的良好支持。

GVT-g在内部虚拟了一个类似display pipeline的组件，来接管GPU display port上连接的显示器。所以vGPU内部framebuffer的信息可以被GVT-g快速的显示在物理GPU连接的显示器上。其显示FPS可以到达惊人的60FPS。完全达到了物理显示器的效果。更为强悍的是，vGPU通过对这些port和EDID的模拟可以在虚拟机内部支持多屏显示，其显示效果达到了完全与物理机状态下难分难解的地步。

其framebuffer的传输路径可谓九曲十八弯…但效果还不错。60fps妥妥的。

内嵌一段视频，来描述两个VM是如何共享同一个物理显示器，并能做到流畅切换：

https://01.org/sites/default/files/downloads/iGVT-g/iGVT-g-demokvmgt.zip

GVT-g的Media transcoding能力

Intel GPU对media decoding/encoding的硬件支持是其一大特色。GVT-g在vGPU虚拟化的过程中也加入了对media decoding/encoding的支持。其虚拟化后的vGPU的编解码吞吐能力可以达到惊人的99%物理GPU的吞吐量（HSW GPU 2014年）。仗着当年vGPU media transcoding 99%物理性能的优势，GVT-g团队在当年深圳举行的IDF上提出了Intel GVT-g对media cloud的未来设想。并在2015的巴塞罗那世界移动大会上联合华为做了一个GVT-g对Media Cloud的展台。其架构设想如下图（图中绿色方块为Media Cloud的发力点，截图来自GVTg官网）

https://01.org/sites/default/files/documentation/intel_graphics_virtualization_for_media_cloud.pdf

随后由于Intel GPU软硬件设计人员在下一代GPU中的设计没有全面考虑分片虚拟化场景，在一定程度上破坏了GVT-g在media transcoding上面的优势。目前在BDW和SKL上面的vGPU编解码效率已经不尽人意，失去了其优势。

不得不感叹一下，曾梦想仗剑走天涯….如今已凉凉

GVT-g技术的渲染能力

直接从Intel GVT的官网抠数据（https://01.org/sites/default/files/documentation/an_introduction_to_intel_GVT-g_for_external.pdf）

vGPU基本上对于Graphic rendering的能力是物理GPU的80%以上，一般在90%左右，回忆一下我们在第三章中介绍的AMD的SRIOV类型GPU虚拟化下vGPU的渲染能力可以达到97%左右。同时本身Intel GPU物理渲染能力与AMD/NVIDIA的同时代GPU比较也远远处于下风。所以对于强调大计算力的3D渲染场景的vGPU应用，Intel GPU的应用比较受限。

从技术的角度来看，GVT-g对于vGPU的性能损耗主要开销在于对其中断相关MMIO的模拟。比如对于AMD的SRIOV方案，其VM中对vGPU的MMIO访问完全没有虚拟化开销，不会有trap发生。即便不采用SRIOV方案，一般来说，硬件设计很多时候会考虑到对虚拟化的要求，并做出有利于虚拟化框架的改动。类似这种中断相关对性能敏感的MMIO是需要特殊设计以减少在虚拟化下的损耗。而像Intel GPU这样完全不考虑虚拟化开销的硬件设计，使得GVT-g在软件层面无论如何优化都无法达到潜在对手的高度。为什么说是潜在对手呢？因为对于NVIDIA来说，GVT-g与Intel GPU根本就算不上是一个对手。

GVT-g的GPGPU能力

GVT-g vGPU只做到了可以运行OpenCL，而对performance等并没有做任何优化。Intel GPU硬件在computing和深度学习方面本就不是强项。

GVT-g的Live Migration

GVT-g的vGPU在软件层次做到了极致。其早在2015年末就开始了对vGPU的热迁移支持。并在2016年对外公布。而GRID vGPU只在最近才有消息透露其在Citrix的某些产品上支持vGPU的热迁移，并只支持部分GPU型号。而AMD的SRIOV方案至今没有热迁移方面的公开消息。

vGPU的热迁移细节太过技术化，此处不多做介绍，但是当年第一个支持vGPU的VM渲染实时迁移的效果还是让人印象深刻的。其视频是基于KVM的vGPU迁移过程。

从视频截图中可以看出，其所有迁移过程在小于1秒的时间内完成并显示在新机器上了。（Demo的实际整体迁移时间为300ms左右）

https://www.youtube.com/watch?v=y2SkU5JODIY

GVT-g的调度

实话说GVT-g的调度并没有AMD SRIOV vGPU做的好。其调度粒度虽然是在1ms时间片的维度上做调度和vGPU切换。但是由于GPU软硬件对preempt功能的支持尚未完备，实际调度往往需要等当前vGPU的任务结束才能开始。在渲染大帧的情况下vGPU调度信息一般的统计显示，其基本上在5-10ms左右的间隔做vGPU切换。回忆一下AMD的SRIOV是严格6ms一次。而NVIDIA的GRID vGPU有多种调度策略，由于闭源，没有更多的信息可以拿到其调度信息。有心得读者可以在虚拟机下通过rebuild NVIDIA Guest Linux驱动研究一下。

GVT-g得局限性

当然悲催的是，也正是由于GVT-g是基于Intel的集成显卡，即便是免费附加增值服务，GVT-g在数据中心也很少被采用。第一本身的GPU性能无法与AMD/NVIDIA同类产品竞争，第二数据中心追求的是高密度运用，集成显卡无论如何都无法做到一机多卡的情况，在机房机架，寸土寸金的地方，大家都会考虑成本。Intel也作过一些尝试，把几个Xeon E3的CPU做到一块PCIE板卡上面增加其计算密度，然而其功耗和售价都无法与其他对手竞争。同时这种设计也使得软件系统复杂难维护。

NVIDIA GRID vGPU的介绍

闭源系统，没什么好介绍的。值得一提的是NVIDIA GRID vGPU是正式商用的方案。其技术在VMWare，XenServer，Redhat等大厂已经久经考验。

GRID vGPU在VDI上的运用

GRID vGPU在VDI的运用要早于GVT-g和AMD的SRIOV。早期GRID已经与VMWare合作堆出了一些列remote display的方案。GRID vGPU擅长remote display，GVT-g擅长local display，各有优点。

GRID vGPU渲染能力

对比GVT-g，GRID vGPU在图形渲染方面的虚拟化损耗非常小几乎与AMD SRIOV的类似，可以达到其passthrough状态下的99%左右。而GVT-g却在90%左右。

GRID vGPU通用计算能力

虽然没有多少人会在一个分片GPU虚拟化的VM内部作深度学习计算，但GRID vGPU的计算性能也已经可以达到其passthrough状态下的80%以上。其目前vGPU 1：1分片（一个物理GPU只分一个vGPU）情况下，各项性能指标几乎已经与passthrough GPU的方案不相上下。完全可以取代GPU passthrough的方案。但对多vGPU的支持，目前GRID vGPU无法支持。这是其对比GPU passthrough方案最大的弊端。NVIDIA显然不会坐视不理，GRID vGPU将来一定会考虑多vGPU的场景并支持P2P。GRID vGPU另外一个对比passthrough GPU的好处就是可以在Host端对vGPU关键性能指标的监控。还记得我们在本系列第二章介绍GPU passthrough方案的时候提到的：GPU passthrough方法的固有缺点吗？GPU passthrough情况下host端对vGPU无法进行有效监控，而这在GRID vGPU的场景下完全不成问题。

GRID vGPU分片虚拟化的方案相对GPU passthrough来说部署比较困难，由于闭源，其并不像Intel GVT-g一样一切开源并整合到kernel代码库中，一般厂商需要使用该技术还得作不同程度的kernel适配和调试。发布周期至少半年以上。

各个GPU虚拟化方案的一些实现细节异同

Mediated passthrough (mdev)

我们再次来回顾一下什么叫mediated passthrough。首先应该查看kernel document:

https://github.com/torvalds/linux/blob/master/Documentation/vfio-mediated-device.txt

之前已经提到Mediated是指对MMIO 访问的拦截和emulation，对DMA transfer的提交作GFN到PFN的地址转换。

NVIDIA在2016年的KVM forum上面已经很详细的介绍了这些细节。

http://www.linux-kvm.org/images/5/59/02x03-Neo_Jia_and_Kirti_Wankhede-vGPU_on_KVM-A_VFIO_based_Framework.pdf

GPU command的提交方式

三个GPU虚拟化的方案在GPU command（batch buffer）的提交方式上是由本质区别的。GVT-g与GRID vGPU作为分片虚拟化的代表，其任何vGPU的cmd提交都会被拦截到host端作emulation。并通过host的处理以后由host代替vGPU提交到物理GPU。AMD SRIOV方案其本质上也是一种GPU分片虚拟化，并且其与mdev的区别就是分片方式是：通过SRIOV的标准还是通过mdev软件方式实施，而对SRIOV vGPU的emulation则在Host端的GPU硬件，Firmware，GIM驱动共同完成。

而GPU passthrough方式下，vGPU的cmd直接由虚拟机内部提交。无需再绕道Host端。由此 passthrough下，无法对虚拟机内部vGPU的运作做出监控。

简单点讲：GVT-g与GRID vGPU的提交方式为一类，SRIOV与GPU passthrough方式为另一类。

IOMMU

分片虚拟化不需要IOMMU硬件的支持。其只需要VFIO模块添加type1 IOMMU的驱动，来通知host将要进行的DMA传输的GFN，VA等信息，并在Host端的mdev设备驱动层完成GFN到PFN的翻译处理。可以理解为软件层面上的IOMMU操作。

而AMD SRIOV与GPU passthrough方式下，IOMMU是必备组件。尤其IOMMU硬件完成GFN到PFN的地址转换。

简而言之，GVT-g，GRID vGPU是一伙，SRIOV，GPU passthrough是一伙。

至此，“浅谈GPU虚拟化技术“系列文章完结。谢谢大家拜读。尽情等待未来“深入GPU虚拟化技术“系列….哈

浅谈GPU虚拟化技术（四）- GPU分片虚拟化

GPU分片虚拟化框架

Intel GVT-g的介绍

GVT-g的优点之一在于对其本地显示的良好支持。

GVT-g的Media transcoding能力

GVT-g技术的渲染能力

GVT-g的GPGPU能力

GVT-g的Live Migration

GVT-g的调度

GVT-g得局限性

NVIDIA GRID vGPU的介绍

GRID vGPU在VDI上的运用

GRID vGPU渲染能力

GRID vGPU通用计算能力

各个GPU虚拟化方案的一些实现细节异同

Mediated passthrough (mdev)

GPU command的提交方式

IOMMU

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

浅谈GPU虚拟化技术（四）- GPU分片虚拟化

GPU分片虚拟化框架

Intel GVT-g的介绍

GVT-g的优点之一在于对其本地显示的良好支持。

GVT-g的Media transcoding能力

GVT-g技术的渲染能力

GVT-g的GPGPU能力

GVT-g的Live Migration

GVT-g的调度

GVT-g得局限性

NVIDIA GRID vGPU的介绍

GRID vGPU在VDI上的运用

GRID vGPU渲染能力

GRID vGPU通用计算能力

各个GPU虚拟化方案的一些实现细节异同

Mediated passthrough (mdev)

GPU command的提交方式

IOMMU

热门文章

最新文章

相关课程

相关电子书

相关实验场景