原创

美光发布第二代HBM3，加速AI计算应用

时间：2023-08-10 17:06:54

关键字： Micron HBM HBM3 GPU

手机看文章

扫描二维码
随时随地手机看文章

[导读]AI应用爆发促进了数据中心基础构架的发展，而HBM市场也将受益于此，据悉未来三年HBM的年复合增长率将超过50%。目前HBM技术最新已经发展到了HBM3e，而预期明年的大规模AI计算系统商用上，HBM3和HBM3e将会成为主流。

2015年，AMD发布了搭载HBM的GPU显卡。彼时大众对于HBM并不了解，苏姿丰形象比喻HBM的创新点在于——将DRAM颗粒由传统的“平房设计”转变为“楼房设计”，可实现更高的性能和带宽。

而今，HBM成为了影响GPU显卡实现更高性能AI计算的关键，AI巨头排队抢购。在最近的两次英伟达的新品发布中，黄仁勋也多次强调HBM3于AI计算的重要性。大众也开始意识到HBM的重要性，将HBM视为是躲在GPU背后的大赢家。

作为内存领导者，美光必然不会缺席HBM这场盛筵。近日，美光发布了业界首款8层堆叠的24GB 第二代HBM3，采用美光的1β制程工艺，实现了1.2TB/s超高性能。

AI应用对内存提出了更高的要求

我们可以把AI应用分为三大类。首先是生成式AI，包括时下火热的ChatGPT和Mid-Journey等，都属于此类范畴。第二类是深度学习，例如虚拟助理、聊天机器人和医疗诊断等。这类应用需要处理大量的数据，并通过算法来诠释数据、加以预测。第三类是高效能计算，包括全基因测序、天气预测等重大科学问题的解决，都需要依赖于此类AI计算能力发展。

而不论是哪种AI应用，都驱动了大量的计算性能需求和内存需求。据美光副总裁暨计算与网络事业部计算产品事业群总经理Praveen Vaidyanathan分享，光拥有大量的计算能力，却没有足够的內存带宽来支持也是不够的，通常计算性能的瓶颈超过半数都与內存的带宽有关。

此外，大语言模型的参数数量正在巨量增长，因此AI应用上需要更高的内存容量密度，以在相同的体积内实现更高的内存容量。最后还需要关注到功耗，据推测未来7年内数据中心的耗电量将占全球电力消耗近8%，而AI服务器中所需的内存是通用服务器的6～8倍，因此内存的高能效也同样关键。

为了应对数据密集型工作负载和应用程序的增长，数据中心基础构架已经被重新定义。传统上围绕着CPU的数据中心架构已经不足以满足当下的计算需求，GPU、FPGA和ASIC等专用加速芯片正在成为异构数据中心发展的核心。与此同时，仅仅靠DDR也已经不足异构数据中心基础设施的需求，HBM作为超带宽方案更为实现AI计算加速的关键。

HBM位于非常靠近GPU或CPU的中介层上，由多个DRAM Die以堆叠的方式构成，最底层是逻辑控制单元，每一层Die之间采用TVS的方式互联。凭借其宽I/O总线和增加的密度，HBM提供了现代数据中心基于加速器的计算模型所需的高性能和功效。目前HBM技术最新已经发展到了HBM3e，而预期明年的大规模AI计算系统商用上，HBM3和HBM3e将会成为主流。

美光第二代HBM3，先进工艺和封装技术加持

AI应用爆发促进了数据中心基础构架的发展，而HBM市场也将受益于此，据悉未来三年HBM的年复合增长率将超过50%。

美光近日推出的第二代HBM3，是24GB的单块DRAM，也是市面上第一款八层堆叠的24GB HBM3。在带宽、容量和功耗上，新的HBM3都实现了突破：内存带宽高达1.2TB/s，引脚传输速率超过9.2Gb/s，较市面上11x11毫米的HBM3 Gen1产品高出约50%；功耗方面每瓦性能相较前代提升了2.5倍。

能够取得如此领先的表现，得益于美光在HBM3上的技术积累。据悉，此次采用了1β制程工艺和先进的封装技术。

HBM3 Gen2是美光采用1β制程的第三个产品，该工艺已经达到规模生产要求，在去年第四季度开始投入生产，包括最新的LPDDR5和DDR5均采用此项工艺。该工艺是支持内存实现更高容量密度的关键，美光也计划在24GB 8层HBM3 Gen2的基础上，明年推出36GB 12层堆叠的产品。

而先进封装技术则是实现3D IC的技术基础，据Praveen介绍，美光致力于不断提升硅通孔（TSV）与封装以实现突破，达到封装互联的缩小。相比目前商用的产品，美光在HBM3 Gen2上提供了两倍的硅通孔（TSV）数量，并且采用了缩小25%的封装互联，缩小了DRAM层之间的空间，从而缩短了热量传输的距离；在封装互联的数量上也有所提升，从而减少了热阻抗，实现了更高的散热效率。此外，产品内部采用了采用更高能效数据路径设计，从而实现功耗的改善。

助力打造实现更高效的AI系统

对于AI系统而言，客户在意的是提高训练算法的精度，同时尽量实现更低的系统功耗。而美光HBM Gen2的出现，可以进一步助力客户打造更高效的AI系统。

据悉，在AI系统引入最新的HBM Gen2后，得益于内存带宽的提升，整个AI训练演算将会变得更为高效，大幅降低模型训练的时间。对于大语言模型而言，能够将训练时间降低30%。同时由于内存容量的提升，给予了客户更多的灵活性。不论是客户想追求更准确的精度，还是更快的运算速度，都是可以实现的。

而HBM3 Gen2的低功耗的热点，能够为客户提供更高的价值。一方面，更低的功耗可以帮助数据中心客户实现电费的节省，打造更绿色的服务器。假设一个数据中心装设了1000万个GPU，那么每个HBM哪怕实现了几W的功耗降低，对于整个数据中心而言都可以实现巨大的电量节省。而另一方面，对于电力充足的客户而言，HBM内存上节省的电力可以分配给GPU或ASIC，从而实现了整个系统的效能的提升。

HBM3 Gen2的性能提升，将会最终影响到AI应用的加速赋能。“虽然终端消费者不会直接购买HBM，但如果他们发现每天查询的效率或数量增加，便能提升他们的使用体验。”Praveen分享到，“长期而言，整个训练的成本会降低，最终计算的成本也会随之降低。因此，在未来几年，当越来越多人使用AI引擎，整体AI计算性能也会跟着提升。”

HBM乃内存厂商的兵家必争之地，美光也已经进行了长远的产品规划。据悉美光已经在开发 HBM Next内存产品，该 HBM 迭代将为每个堆栈提供 1.5 TB/s – 2+ TB/s 的带宽，容量范围为 36 GB 至 64 GB。