当前位置:首页 > 原创 > 刘岩轩
[导读]在近日召开的AMD大中华区合作伙伴峰会上,AMD再次重点介绍了其全新的数据中心加速产品——Radeon Instinct MI60,并且介绍了其明年即将发布的7nm 数据中心CPU产品,代码“Rome”。

在近日召开的AMD大中华区合作伙伴峰会上,AMD全球副总裁、数据中心解决方案产品部总经理Scott Aylor展示了一个7nm数据中心的demo。在演示中可以看到全新的AMD 7nm GPU+CPU的平台在进行图像训练的时候,可以达到前代产品两倍的运算速度。采用最新的7nm工艺制程的全新GPU Radeon INSTINCT MI60的预计年内发布;而同样为7nm制程,代号为“Rome”的EPYC系列数据中心处理器则宣布将在明年正式发布。

image1.jpg

图:7nm数据中心demo展示

随着人工智能、物联网等应用场景的不断普及。海量的数据和大量的运算让数据中心市场变得愈发庞大,而AMD在这个时间节点有一个很好的机会:既有非常强大的GPU的技术储备,又抢占了7nm的工艺节点。那么AMD是如何发挥这一优势,进行数据中心市场布局的?我们或可从此次峰会一窥端倪。

真实训练样本数不够?MI60模拟的拿来凑

“7nm制程的Radeon Instinct MI60这个季度就可以发货,”AMD Radeon技术事业部、工程研发高级副总裁王启尚如是说到。这句承诺引起了当天在座诸多合作伙伴的一阵欢呼和掌声。此处不掰饬实际哪种工艺制程的孰优孰劣,但从数字上看,AMD确实胜了一筹。英特尔的10nmFPGA仍未量产,英伟达的GPU去年刚步入12nm的制程。Radeon Instinct MI60(下文简称MI60)将会是AMD全面抢占数据中心加速类产品市场份额的利器。据王启尚介绍,GPU在数据中心的主要应用场景为云游戏、虚拟桌面及工作站、机器学习和高性能计算。MI60是全球首款7nm制程的GPU,采用了高性能、灵活的Vega架构,拥有领先的内存和可拓展性,并且是业内唯一的硬件虚拟化GPU。

image2.jpg

图:两种工艺路线的性能对比

遵循摩尔定律的规律,7nm带来的性能提升颇多。全新的工艺制程提供了高达2倍的密度,一个芯片在331mm²的面积上可以容纳132亿个晶体管;相同功耗条件下提升超过25%的性能;相同频率下降低50%的功耗;具有更高的每瓦特性能。全新的Vega架构可以实现了高效能的内存系统,可以达到1 TB/s的带宽;基于第二代HBM存储,可以支持大体量数据中心的部署;MI60是业界首款支持PCIe4.0的GPU,拓宽了GPU相互之间通信的频宽达到了双向64GB/s。MI60还是第三代的硬件虚拟化GPU,用户可以轻松地将应用程序部署到云端;每个GPU可以驱动多个虚拟机,因此可以节约数据中心运营商的成本;反过来呢,一个虚拟机又可以支持多个GPU,在一些虚拟计算应用中也可以提高计算性能。

为了将生态系统做大,AMD还提供了完全开源的ROCm平台。这个平台是GPU与上层软件的接口,完全的开源可以让任何人都可以更容易实现GPU在机器学习方面的应用搭建。王启尚表示,要将ROCm拓展到数百万的Linux内核的用户。目前ROCm已经被开源社区所接纳。

image3.jpg

图:开源ROCm2.0平台

峰会现场展示了一个用MI60来进行神经网络训练的客户案例。这个案例来自highwai,他们遇到的问题是得不到足够多真实的驾驶数据来进行升级网络的训练。要知道谷歌目前积累的自动驾驶的里程数也才10000万英里,但是其实统计数据表示每50万英里才会出现一次车祸。因此要想实现靠谱的自动驾驶,首先真实训练样本数就差的很远。因此highwai采用了AMD的GPU来模拟一些驾驶数据。第一步GPU先为神经网络训练生成数据,第二步用模拟的数据去训练神经网络,第三步将模拟数据和正式数据交叉验证,第四步最终到真实世界中开始部署。这是一个非常典型的GPU加速的应用案例,在这类加速应用中GPU相比ASIC和FPGA有着明显的优势。

image4.jpg

图:highwai的自动驾驶训练案例

MI60相比前代产品MI25,有大约8.8倍的提升。按照广泛发布的数据中心路线图来看,新一代的产品也已经在规划中。王启尚表示,AMD的GPU在数据中心中有很大的机会,并且AMD已经做好了竞争的准备。

image5.jpg

图:AMD数据中心GPU路线图

代号“Rome”的7nm数据中心CPU明年发布

因为正在研发中,所以可以讲的不是太多。负责这部分介绍的Scott先生更多着墨于当前AMD的CPU在数据中心市场中的表现。他在演讲中提到,10年前数据中心都是物理实体化和本地部署;而现在呢,当然都是在云端进行部署,虚拟化技术和混合云等应用广泛。AMD EPYC(霄龙)可以满足现代数据中心在核心密度、内存带宽、I/O性能和安全性方面的需求。

image6.jpg

图:单路EPYC服务器提供了更好的浮点运算性能

传统的双路服务器需要的成本更高,功耗也更多。而单路EPYC服务器在成本上则低了很多,并且性能上也毫不妥协。单路EPYC服务器可以将TCO降低45%,其它譬如管理费用、硬件费用、许可费用和空间费用上都有明显的节省。浮点性能是云服务器的重要指标,单路EPYC服务器的浮点性能也有了提升,反应在具体应用上:可以使WRF气象建模的计算速度提高44%;ANSYS流体力学的计算速度提高25%;NAMD分子动力学的计算速度提高41%。

image7.jpg

图:AMD数据中心CPU路线图

最受关注的当然还是代号为"Rome"的7nm数据中心CPU,Scott先生承诺其将于2019年发布,一个CPU中最多可以搭载64个Zen 2核心,提供更高的每时钟周期指令数和领先的计算、I/O以及内存带宽。官方信息表示,每插槽的计算性能将提升至2倍左右,每插槽的浮点性能将提升至4倍左右。“Rome”的插槽将于现有的“Naples”平台完全兼容,所以可以帮助客户更轻松地实现升级,并且向前兼容“Milan”平台。正如本文初所提及的,Scott先生展示了一个全新7nm GPU+CPU的数据中心与前代产品在进行图像识别训练的demo,笔者现场可见,全新7nm数据中心的计算速度确实比前代产品快了许多。距Rome正式发布还有不短的时间,说不定AMD还会带来更高的性能提升。

image8.jpg

图:AMD全球副总裁、大中华区总裁潘晓明

本次峰会上,AMD还重点介绍了其CPU在笔记本市场方面的业绩提升,以及GPU在游戏方面的赫赫战果。明年将是AMD成立50周年,笔者最期待的周年礼自然是Rome处理器的面世!而AMD全球副总裁、大中华区总裁潘晓明在大会上也自信地表示:“在下一个五十年,当我们迈入到沉浸式计算的时代,AMD做为技术的驱动者,责无旁待!让我们‘携手同芯’,坚信‘未来可期’。”7nm GPU+CPU的数据中心到底有多赞?让我们拭目以待其再次如7而至。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

虽然NVIDIA目前仍是AI芯片市场的霸主,不过年中开始,挑战者AMD的最强AI芯片MI300X也即将大批量出货,可能将会抢下部分NVIDIA的市场,并再次影响从晶圆代工到服务器的AI产品供应链。

关键字: AMD 光电模块 芯片加工

3月19日消息,在英伟达年度 GTC 开发者大会上,黄仁勋宣布推出推出了Project GR00T人型机器人项目,其中就包括全球首款人型机器人基础模型。

关键字: 英伟达 GPU 芯片

3月19日消息,在英伟达GTC 2024大会上,英伟达CEO黄仁勋宣布推出新一代GPU Blackwell。

关键字: 英伟达 GPU 芯片

基于先进的 NVIDIA 网络、NVIDIA 全栈 AI 软件和存储技术,可将集群中 Grace Blackwell 超级芯片的数量扩展至数万个,通过 NVIDIA NVLink可将多达 576 块 Blackwell...

关键字: 生成式 AI 超级计算 GPU

NVIDIA cuLitho 可将半导体制造中高度计算密集型的工作负载加快 40-60 倍,并为业界带来全新的生成式 AI 算法

关键字: 生成式 AI 半导体 GPU

全新 NVIDIA NIM 和 GPU 加速的微服务专为生物、化学、影像和医疗数据开发,并在 NVIDIA DGX 云中运行

关键字: 生成式 AI GPU 数字医疗

Meta日前推出两个功能强大的GPU集群,用于支持下一代生成式AI模型的训练,包括即将推出的Llama 3。

关键字: Meta 英伟达 H100 GPU

近日两名知情人士称,美国芯片巨头英特尔暂时保住了向华为的销售许可,使这家全球最大的芯片制造商一段时间内可以继续向华为出售价值数亿美元的芯片。另一家美国芯片巨头 AMD(超威半导体)申请的许可一直没得到回应,这使 AMD...

关键字: 英特尔 华为 芯片 AMD

该解决方案采用全新 1.6T 以太网控制器 IP、经过硅验证的224G PHY IP和验证IP,助力未来基础设施的升级建设

关键字: 数据中心 芯片 以太网

3月14日消息,从年初到现在,英伟达的股价已经飙升了80%,在过去一年内上涨了287%,其股价已经逼近1000美元关口,市值达到了2.2万亿美元逼近苹果公司。

关键字: 英伟达 GPU 芯片
关闭
关闭