详细解读Vega织女星GPU架构，AMD的翻身神器？

时间：2017-01-09 17:21:25

关键字： AMD GPU NVIDIA vega

手机看文章

扫描二维码
随时随地手机看文章

[导读]万年老二AMD在本次CES上也没有闲着，除了拿出了代号Zen的Ryzen桌面处理器展示机之外，还出乎意料的公布了下一代图形处理器的不少架构细节。从AMD透露的资料看，代号Vega织女星的GPU图形处理芯片完全重新设计了架构，准备和NVIDIA Pascal GP10x甚至是下一代Volta正面对决。

万年老二AMD在本次CES上也没有闲着，除了拿出了代号Zen的Ryzen桌面处理器展示机之外，还出乎意料的公布了下一代图形处理器的不少架构细节。从AMD透露的资料看，代号Vega织女星的GPU图形处理芯片完全重新设计了架构，准备和NVIDIA Pascal GP10x甚至是下一代Volta正面对决。

从消失的格陵兰(Greenland)开始

早在 2014 年年末时，AMD 已经开始在一些内部会议中透露代号名为 Greenland 的新 GPU 微架构，根据当时寥寥数字的介绍，这个 Greenland 采用 14 纳米制程，设计散热功耗是 250 瓦级别，双精度性能耗电比是当时的 Hawaii (Radeon R9 290 系列)两倍以上。

随着时间的推移，人们发现这个神秘的 Greenland 并未如期而至，在 2015 年，AMD 卖的依然是 28 纳米制程的重命名 GPU，相较之下，NVIDIA 则是推出了虽然依然是 28 纳米但是在效率更好、基于 Maxwell 微架构的中端 GPU GM204，它被用于 GeForce GTX 960 这片显卡上，针对的是 1000 到 2000 元人民币市场。凭借 Maxwell 良好的性能耗电优势和整体强劲的营销能力，NVIDIA 已经将 AMD 的 GPU 产品线逼到死角。

AMD 在 2015 年年末和 2016 年年中分别推出了基于 HBM1 的 Fiji 和 GDDR5 的 Polaris 微架构 GPU，它们的内部其实都是属于上一代的 Tango 就采用的 GCN 1.2 图形内核，只是 Fiji 方面采用了 HBM1 有高内存带宽、小体积的卖点，但是并未完全摆脱性能耗电一般的问题。

所幸的是，AMD 在 GCN 1.x 引入的 ACE 异步计算引擎在进入 DX12 世代后开始显现威力，在 DX12 和 Vulkans 游戏中，Polaris 挽回了不少颜面，这也是 AMD 得以在 16 年份额开始回升的重要因素。

当前，AMD GPU 存在的问题其实大家都很清楚，这里列举几个常见同时也是我们认为比较致命的问题：

性能耗电比较低：基于14纳米制程 Polaris GPU并没有完全体现出制程进步带来的功耗降低优势。除去格罗方德(GF)14纳米制程本身问题外，Polaris微架构效率同样不尽人意。

部分指标存在明显短板：基于 Polaris 的 RX480，像素填充率是 35.8GPixl/s，而 NVIDIA 基于 Pascal 的 GTX 1060 是 72.3GPix/s，像素填充率这个指标涉及到多样本输出性能，MSAA 等效果的性能都和像素填充率相关。由于理论性能存在巨大差异，直接导致了Polaris在实际测试项目中存在明显性能短板。

缺乏可以和 NVIDIA 抗衡的高端产品：高端产品能显著提升市场的话语权，消费者看性能测试图表的时候，是很难无视排名第一的产品，谁是第一，谁就是最强，选择强者在任何情况下都是最简单最可靠的选择。真指望每个消费者都根据媒体的引导来分析 DX12 之类的优势吗?

没有什么事情是时间解决不了的，如果有，就花两倍时间。去年从 AMD 分离出来由前苹果首席视觉设计师拉加·库德里(Raja Koduri)领导的RTG(Radeon Technologies Group)部门已完全掌控 GPU 的发展战略，在经历了 Fiji、和 Polaris 的回血后，RTG 在本届 CES 上首次公布了代号 Vega GPU 的下一代微架构部分资料，我们得以藉此对让人期待的Vega GPU GPU管中规豹。

全面改进的织女星存储架构

AMD 的 Fiji 是全球首个采用 HBM(高带宽)显存的 GPU，在 2015 年发布时HBM的确很震撼——在一枚 GPU 芯片上，GPU 的管芯(Die)和 HBM 内存的管芯都焊在同一基片上，显卡的 PCB 上没有内存芯片，只有供电电路和输出接口器件，可以轻松放进 ITX 的机箱里，这可是当时的高端显卡。彻底颠覆了传统旗舰卡动辄超长超大的定论。

上一代AMD Radeon R9 GPU与HBM显存

不过 Fiji 搭配的 HBM 显存是第一代 HBM，存在难以克服的容量问题。所以即便是旗舰定位的Radeon Fury X也不过是4GiB显存容量。而在同一时期，AMD 自己的 R9 390 系列都已做到了 8GiB。在游戏中高分辨率、高特效设置的时候，游戏所需显存会轻易超过 4GiB ，所以搭配HBM显存的Fiji其实是有些尴尬的，它定位高端，但是在一定程度上来说，Fiji 就是中端和高端之间的先锋产品。

AMD Vega GPU与HBM2显存

而这次的 Vega GPU 则采用了 HBM2，容量上可以做到 8GiB、16GiB 等多种规格，不仅涵盖了游戏领域，甚至连对存储容量有较高要求的高性能计算也不在话下，不会再在容量上受人诟病。

和上代产品相比，Vega GPU还几乎完全重新设计了显存控制器。AMD 将 Vega GPU 上的 HBM2 称作 HBC(高带宽缓存)，将Vega GPU GPU的显存控制逻辑称作 HBCC(高带宽高速缓存控制器)，而不是显存控制器这样的传统称谓。这样的命名在一定程度上是因为 Vega GPU 允许在显卡 PCB 上放置 SSD、网络存储等多种形式的基片外存储部件，而且这些存储部件的访问对用户(开发人员)来说是可以像显存一样直接存取的，HBM2 扮演的就是作为 GPU 和外部存储单元的大容量高速缓存。

HBM2 的带宽是 HBM1 的两倍，达到 256GiB/s，根据配置的不同，Vega GPU 可以实现 256GiB/s 或者 512GiB/s 的超高带宽。

Vega GPU 不仅有更快更大的 HBM2，它的 HBCC 还提供了高达 512 TiB 的寻址能力，这样的寻址能力当然不会只用于 HBM 上，在去年 Siggraph 上 AMD 公布的 RADEON PRO SSG 其实就是基于 Vega GPU 的专业显卡，该卡的最大特点就是集成了 1TiB 的 NAND 闪存，可以藉此将海量的数据全部存放到显卡上，不再受限于系统总线和存储一致性(存储一致性就是指各层次存储器中存放的数据确保为最新修改的)的性能约束，AMD 这次就用一块 Vega GPU 显卡进行了数据规模达数 TiB 的豪华卧室场景的成品级真实渲染。

更灵活的几何体渲染

目前的 RADEON GPU 在前端还保留了固定功能单元实现的几何处理硬件，不过 AMD 表示他们已经注意到了越来越多的开发人员使用计算着色器来进行几何处理。

上面两张图都是 PC 游戏《杀出重围：人类分裂》中巨像之城(Golem City)的场景图，下面的则是它的线框图。按照 AMD 的说法，上面这个场景有 2.2 亿个多边形，但是最终输出的画面其实只有 0.02 亿个多边形需要着色处理，明确哪些多边形需要被渲染将能够显著降低渲染负荷。

AMD 为此在 Vega GPU 的几何流水线上引入了名为 Primitive Shader(图元着色器)的全新工位，开发人员可以透过图元着色器，实现高效的几何着色处理。AMD 认为这个新着色器可以让无效图元以极高的比值被舍弃掉，最终将会彻底替换掉现有的固定几何处理功能单元。

为了实现更高效的几何处理性能，AMD 引入了名为 Intelligent Workgroup Dostributor 的工作组分发器，可以支持更多的着色器引擎(NVIDIA 对应的层级单元被称作 GPC，AMD 目前的 GCN 架构最多只有 4 个着色器引擎)，实现更灵活的载荷分配。

按照 AMD 的说法，Vega GPU 现在可以在四个几何引擎的情况下每个周期处理多达 11 个多边形，达到两倍于现有产品的几何处理能力。

更快的GPU微架构

为了实现在某些负载中的计算需求，AMD 在 Vega GPU 中首次引入 packed(紧缩)数学操作支持。例如深度学习，并不需要 GPU 所提供的32 位浮点或者说单精度运算。

在之前的 Fiji 和 Polaris 中，AMD 的单精度(FP32，32 位浮点)性能和半精度(FP16，16 位浮点)是相同速率的，16 位处理的时候，可以有两倍于 32 位的寄存器，不过 NVIDIA 那边的 GP100(Tesla 100 采用的 GPU)还实现了两倍 32 位性能比率的 16 位计算性能。

AMD 在 Vega GPU 上引入了名为 NCU(下一代计算单元)的微架构，这里 NCU 是对应 GCN 中的 CU 而言的，全新的 NCU 支持紧缩(packed)数学处理，每个 NCU 拥有 64 个 ALU，在采用紧缩数学操作指令的时候，可以支持每个周期 512 个 8 位计算，或者 256 个 16 位计算，又或者是 128 个 32 位计算。

AMD 强调 Vega GPU 在提升单线程性能方面上下了不少功夫，包括更高的频率以及更高的 IPC，前者目前还绝对保密，而后者或者说 IPC 方面，AMD 表示 Vega GPU 具备更大的指令缓存，确保指令流可以运行得更持续，尤其是三操作的指令。

AMD 还在 Vega GPU 上对像素着色处理流程进行了大幅度的改进，引入了 AMD 称之为渲染流分仓光栅器(draw-streaming binning rasterizer，简称 DSBR)的下一代像素引擎。

这个 DSBR 实际上类似于 PowerVR 的块元式渲染技术，能让 GPU 更高效地处理像素着色，尤其是具有高度复杂性(意味着大量无效渲染)深度缓存的像素。DSBR 对重叠的图元只拾取、渲染一次，从而显著节省耗电并提升性能，尤其适合于延后式着色操作。

DSBR 会按照 AMD 称之为高速缓存感知化的方式来调度，它先在一个高速缓冲中对一个场景中给定的“对象包”进行尽可能多的处理，然后 GPU 才会清空掉这个高速缓存并拾取其余的数据。DSBR 可以让 GPU 在无需考虑重叠的前后关系的情况下，在复杂的重叠几何体里抓出哪些像素无需渲染，节省掉在最终场景中非可视的像素渲染处理，从而提升性能。

为了让 DSBR 更有效运作，AMD 还对 Vega GPU 的二级高速缓存进行了重大的改进——在以往的 AMD GPU 中，纹理和像素的内存存取是非一致性操作，如果是执行渲染至纹理操作的话，需要先写到内存后，再读到纹理缓存里，增加了大量数据搬动的次数，而且这样的非一致性增加了大量的同步处理和驱动层级的编程挑战。

现在，Vega GPU 的后端单元可以直接访问片上的二级高速缓存，这样的变化可以让更多的数据访问动作在片上的二级高速缓存上实现，减少了清空缓存然后在需要的时候又从显存中读回的处理，同样有助于延后式渲染技术的性能提升。

按照 AMD 的说法，DSBR 只是 Vega GPU 的光栅化处理途径之一，是高度动态以及基于状态变换的，GPU 未必一直采用 DSBR 来处理所有的光栅操作，之所以这样讲，可能是因为 AMD 觉得片上的 DSBR 缓存未必总能放进所需的数据。

AMD Vega GPU会上演惊天大逆转吗?

AMD 目前对 Vega GPU 所公开的资料其实相当之少。毫无疑问，我们依然有大量不明确的细节，例如 L2 Cache 的大小、ROP 的数量、具体的频率以及功耗等指标。根据上月AMD正式发布的Radeon Instinct MI25 能实现 25TFLOPS 的 FP16 性能来推断，Vega GPU 的顶配版至少有 4096 个流处理器，频率可能是 1.5GHz 左右。

AMD 在一个演示房间中用一片早期版的 8GB 显存(内存类型不明) Vega GPU 显卡进行了 Doom 2016 Argemt D’Nur 关卡的演示，在 4K 分辨率 Ultra 画面设置下实现了 60 到 70 fps 的性能，在大型爆炸的时候，帧时间为 24.8ms(相当于 40 fps)，这个性能被认为是 GTX 1070 至 GTX 1080 之间。

为了保持 ISA 命名的一贯性，AMD 可能还是会把 Vega GPU 归为 GCN 架构，就好像 NVIDIA 现在依然把 G80 以来的 GPU 都称作是 CUDA 架构，所不同的是，Vega GPU 和之前的 GCN 已经有了很大的区别，尤其是 NCU 部分，很可能已经和以前的 GCN 1.X 有明显改进(相信到正式发布的时候会公开)，基于这些改进的 Vega GPU 实体卡如果顺利的话将会在今年上半年就能让消费者购买到。

最后来个应该比较靠谱的预言：Vega GPU 未必能让 AMD 重新称霸，但是一定可以增强市场的竞争，让玩家有更多选择。

『本文转载自网络,版权归原作者所有,如有侵权请联系删除』