深度分析：AI 芯片时代为何必然来临——从TPU开始聊聊

时间：2018-10-09 18:34:02

关键字： ai芯片 tpu 专用处理器

手机看文章

扫描二维码
随时随地手机看文章

[导读]对替代性 TPU 设计的评估和 FPU 类似，TPU 协同处理器比较容易评估，因此我们为六个应用创建了一个性能模型。模型模拟的结果和硬件实际性能的平均差距小于 10%。我们使用性能模型评估了另一款假想

对替代性 TPU 设计的评估

和 FPU 类似，TPU 协同处理器比较容易评估，因此我们为六个应用创建了一个性能模型。模型模拟的结果和硬件实际性能的平均差距小于 10%。

我们使用性能模型评估了另一款假想的 TPU 芯片，记为 TPU'（使用同样的半导体技术再多花 15 个月我们就能设计出这款芯片）。更激进的逻辑合成和模块设计可以把时钟频率再提高 50%；为 GDDR5 内存设计接口电路（就像 K80 那样）可以将权重读取的内存带宽提高四倍，将 roofline 从斜到平的拐点从 1350 降到 250。

单独将时钟频率提高到 1,050 MHz 而不改善内存的话，性能提升非常有限。如果我们把时钟频率保持在 700MHz，但改用 GDDR5 作为内存，则加权平均值飞跃至 3.9倍。同时做这两种措施其实并不会改变性能，因此假设的 TPU' 只具备更快的内存就够了。

将 DDR3 权重内存替换成与 K80 相同 GDDR5 内存需要将内存通道的数量翻一倍，即 4 个通道。这一改进会需要将芯片面积扩大约 10%。GDDR5 还需要将 TPU 系统的功率预算从 861W 提高到 900W 左右，因为每台服务器都有四个 TPU。

从图4可看出，TPU'的总体每硅片性能／功耗是 Haswell 的 86 倍，K80 的 41 倍。其 incremental 指标是 Haswell 的 196 倍，K80 的 68 倍。

讨论

这部分按照 Hennessy 和 Patterson 的谬误-陷阱-反驳格式来展开：

谬误：数据中心的 DNN 推断应用将吞吐量和响应时间处于同等重要的地位。我们惊讶于谷歌 TPU 开发者对响应时间有这么高的要求，2014 年有人透露说的是：对于 TPU 来说，批量大小应该足够大，以到达 TPU 的计算性能峰值，对延迟的要求不用那么苛刻。一个起到推动作用的应用是离线图像处理，谷歌开发者的直觉是，如果交互式服务也需要 TPU，则大部分服务需要累积足够大的批量然后才交给 TPU 计算。即使 2014 年谷歌关注响应时间（LSTM1）的应用开发者称，2014 年的限制是 10ms，而真正向 TPU 移植时 10ms 将被减少至 7ms。很多此类服务对 TPU 的意料之外的要求，以及它们对快速响应时间的影响和偏好，改变了这个等式。应用编写者通常会选择降低延迟，而不是累积更大的批量。幸运的是，TPU 具备一个简单、可重复的执行模型，来满足交互式服务的低响应时间以及高峰值吞吐量要求，即便是计算相对较小的批量时也比当前 CPU 和 GPU 具备更好的性能。

谬误：K80 GPU 架构很适合进行 DNN 推理。我们发现 TPU 在性能、能耗和成本方面优于 K80 GPU 有五个方面的原因。1、TPU 只有一个处理器，而 K80 有 13 个，单线程当然更容易满足严格的延迟目标。2、TPU 具备一个非常大的二维乘法单元，GPU 有 13 个小的一维乘法单元。DNN 的矩阵相乘密度适合二维阵列中的算术逻辑运算单元。3、二维阵列还能通过避免访问寄存器来促成脉动式的芯片实现，节约能源。4、TPU 的量化应用使用 8 位整型，而不是 GPU 的 32 位浮点； K80 并不支持 8 位整型。使用更小的数据，改善的不仅是计算能耗，还能四倍化权重 FIFO 的有效容量和权重内存的有效带宽。（尽管推理时使用的是 8 位整型，但训练这些应用时会保证和使用浮点一样的准确率）5、TPU 忽略 GPU 需要而 DNN 不需要的特征，从而缩小 TPU 芯片、节约能耗、为其他改进留下空间。TPU 芯片的大小几乎是 K80 的一半，通常运行所需能量是后者的三分之一，而它的内存却是后者的 3.5 倍。这五个因素导致 TPU 在能耗和性能方面优于 K80 GPU 30 倍。

陷阱：在设计领域专用架构时不顾架构历史。不适用通用计算的想法可能适合领域专用架构。对于 TPU 而言，三个重要的架构特征可以追溯到 1980 年代早期：脉动阵列（systolic array）、解耦访问/执行（decoupled access/execute）和复杂的指令集。第一个特征减少了大型矩阵相乘单元的面积和能耗；第二个特征在矩阵相乘单元运算期间并行获取权重；第三个特征更好地利用 PCIe bus 的有限带宽来发送指令。因此，对计算机架构历史比较了解的领域专用架构设计师具备竞争优势。

谬误：如果谷歌对 CPU 的使用更加高效，它得到的结果将可以媲美 TPU。由于有效使用 CPU 的高级向量扩展（AVX2）对整型计算做高效的支持需要大量工作，最初在 CPU 上只有一个 DNN 有 8 位整型的性能测试结果，它的性能提升大约是 3.5 倍。所有的 CPU 性能评估都基于浮点的计算性能来展示会更明确（也不会占太多图表空间），也就没有给这个整型计算结果绘制单独的 Roofline 图。如果所有 DNN 都能够得到类似的加速，TPU 带来的性能/功耗比提升将分别从 41 倍和 83 倍降为 12 倍和 24 倍。

谬误：如果谷歌使用合适的新版本，GPU 结果将与 TPU 差不多。表 3 报告了发布 GPU 和客户何时可以在云中使用 GPU 的区别。与较新的 GPU 进行公平比较将包括新的 TPU，而对于额外增加的 10W 功耗，我们只需使用 K80 的 GDDR5 内存就可以将 28 纳米、0.7GHz、40W TPU 的性能提高三倍。把 TPU 移动到 16 纳米工艺将进一步提高其性能/功耗。16 纳米英伟达 Pascal P40 GPU 的峰值性能是第一代TPU 的一半，但它 250 瓦的能耗却是原来的很多倍。如前所述，缺乏错误检测意味着 Google 无法再去数据中心部署 P40，因此无法在它们身上运行生产工作负载来确定其实际相对性能。

相关研究

两篇介绍 DNN ASIC 的研究文章至少可以追溯到 20 世纪 90 年代初。如 2016 年的 ACM 通讯中所述，DianNao 家族有四种 DNN 架构，通过对 DNN 应用程序中的内存访问模式提供有效的架构支持，可以最大限度地减少片上和外部 DRAM 的内存访问。最初的 DianNao 使用 64 个 16 位整数乘法累加单元的阵列。

谷歌 TPU 3.0 于今年 5 月推出，其功能是 TPU 2.0 的八倍，性能高达 100petaflops，芯片使用液体冷却

为 DNN 设计特定领域架构仍然是计算机架构师的热门话题，其中一个焦点是稀疏矩阵的计算架构，这是在 2015 年 TPU 首次部署之后提出的。Efficient Inference Engine（高效推理机）中有一步单独的初始扫描，它会过滤去掉非常小的值，将权重数量减少到 1/10 左右，然后使用哈夫曼编码进一步缩小数据以提高推理的性能。Cnvlutin 略去了激活输入为零时的乘法运算，这种计算出现的几率可以达到 44%，部分原因是非线性变换函数 ReLU 会把输入的负值转换为零；这种略去计算的做法使平均性能提高了 1.4 倍。Eyeriss 是一种新颖的低功耗数据流架构，通过游程编码利用数据中的零来减少内存占用，并通过避免输入为零时的计算来节省能耗。Minerva 是一种跨算法、结构和电路学科的协同设计系统，通过量化数据以及对较小的激活函数剪枝的方式把功耗降低到原来的 1/8。这种系统在 2017 年展出的成果是 SCNN——一种稀疏和压缩卷积神经网络的加速器。权重和激活函数都被压缩在 DRAM 和内部缓冲器中，从而减少了数据传输所需的时间和能量，并允许芯片存储更大的模型。

2016 年以来的另一个趋势，是用于训练的特定领域架构。例如，ScaleDeep 就是为 DNN 训练和推理设计的高性能服务器的一次尝试，它包含数千个处理器。其中的每块芯片都以 3：1 的比例包含计算专用模块和存储专用模块，性能优于 GPU 6-28 倍。它支持 16 位或 32 位浮点计算。芯片通过与 DNN 通信模式匹配的高性能互连拓扑连接。和 SCNN 一样，这种拓扑只在 CNN 上评估。2016 年，CNN 仅占谷歌数据中心 TPU 工作量的 5%。计算机架构师期待对其它类型的 DNN 和硬件实现进行 ScaleDeep 评估。

DNN 似乎是 FPGA 作为数据中心计算平台的一个良好用例。实际部署的一个例子是 Catapult。尽管 Catapult 是在 2014 年公开发布的，但它与 TPU 是同一个时代的，因为 2015 年在微软数据中心部署了 28 纳米 Stratix V FPGA，与谷歌部署 TPU 差不多在同一时间。Catapult 运行 CNN 比普通服务器快 2.3 倍。也许 Catapult 和 TPU 最显著的区别在于，为了获得最佳性能，用户必须使用低级硬件设计语言 Verilog 为 FPGA 编写长程序，而不是使用高级 TensorFlow 框架编写短程序；也就是说，“可再编程性”（re-programmability）来自于 TPU 的软件，而不是最快 FPGA 的固件。

总结

尽管 TPU 在 I/O 总线上，并且内存带宽相对有限限制了它发挥全部效能（六个 DNN 应用程序中有四个受限于内存），但一个很大的数即便拆到很细，拆到每个周期 65536 次乘法累加计算，仍然是一个相对较大的数字，如 roofline 性能模型所示。这个结果表明，Amdahl 定律的其实有一个非常有价值的推论——大量廉价资源的低效利用仍然可以提供颇具性价比的高性能。

我们了解到，推理应用具有严格的响应时间限制，因为它们通常是面向用户的应用；因此，为 DNN 设计计算芯片的设计师们需要保证满足 99% 情况下的时间限制要求。

TPU 芯片利用其在 MAC 和片上内存的优势运行使用特定领域 TensorFlow 框架编写的短程序，该 TensorFlow 框架比 K80 GPU 芯片快 15 倍，因此能获得 29 倍的性能/功耗优势，这与性能/总拥有成本相关。与 Haswell CPU 芯片相比，对应的比率分别为 29 和 83 倍。

有五个架构因素可以解释这种性能差距：

处理器。TPU只有一个处理器，而K80有13个，CPU有18个；单线程使系统更容易保持在固定的延迟限制内。大型二维乘法单元。TPU有一个非常大的二维乘法单元，而CPU和GPU分别只有18个和13个较小的一维乘法单元；二维硬件在矩阵乘法中有很好的性能。脉动阵列。二维组织支持脉动阵列，减少寄存器访问和能量消耗。8位整型。TPU的应用使用 8 位整型而不是 32 位浮点运算来提高计算和内存效率。弃掉的特征。TPU放弃了 CPU 和 GPU 需要但是 DNN 用不到的功能，这使得 TPU 更便宜，同时可以节约资源，并允许晶体管被重新用于特定领域的板载内存。

虽然未来的 CPU 和 GPU 在运行推理时速度更快，但是使用 circa-2015 型 GPU 内存重新设计的 TPU 将比原来快三倍，并使其性能/功耗优势分别为 K80 和 Haswell 的 70 倍和 200 倍。

至少在过去十年中，计算机架构研究人员发布的创新成果都是来自模拟计算的，这些成果使用了有限的基准，对于通用处理器的改进也只有 10% 或更少，而我们现在报告的性能提升是原来的十倍不止，这是应用于真实生产应用的真实硬件中部署的特定领域架构的收益。

商业产品之间的数量级差异在计算机架构中很少见，而这甚至可能导致 TPU 成为该领域未来工作的典范。我们预计，其他人也会跟进这个方向，并将门槛提得更高。