当前位置:首页 > 原创 > 刘岩轩
[导读]据一家名为Allied Market Research的预测,2025年AI芯片相比2018年将迎来10倍到20倍的增长。而未来最有潜力的增长将来自专用ASIC。虽然GPU是目前AI芯片市场的明星,但是专用ASIC将主导市场的这种苗头已经从近期Habana Labs的产品发布中显露出来。

目前AI芯片市场很火热,产品类型也很丰富:GPU、ASIC、FPGA、CPU等。据一家名为Allied Market Research的预测,2025年AI芯片相比2018年将迎来10倍到20倍的增长。而未来最有潜力的增长将来自专用ASIC。虽然GPU是目前AI芯片市场的明星,但是专用ASIC将主导市场的这种苗头已经从近期Habana Labs的产品发布中显露出来。

秒杀GPU的专用AI芯片,内置RoCE实现灵活拓展

业界最大幅度能效提升,单卡性能小幅提升

秒杀GPU的专用AI芯片,内置RoCE实现灵活拓展

Habana Labs在去年曾推出了专门应用于推理的AI芯片Goya,而今年在北京,Habana Labs的首席商务官Eitan Medina先生宣布了全新训练AI芯片Gaudi的发布。

秒杀GPU的专用AI芯片,内置RoCE实现灵活拓展

根据给出的信息来看,在运行ResNet-50模型的时候,Gaudi的处理能力比英伟达的V100提升了14%;而更令人印象深刻的是其功耗的表现,消耗每瓦特的功耗可以提供的IPS处理能力相比特斯拉T4提升了94%!据Eitan先生介绍,单卡的Gaudi的功耗是140W,可以实现1650 IPS的性能。Gaudi的另一个优势在于其集群的处理能力的增长率也要比V100好上很多,如下图所示,在大约640个Gaudi和640个V100性能对比下,Gaudi是V100的3.8倍。所以Gaudi从小型服务器到大规模服务器的部署,都非常适合。尤其是在大规模部署方面,绝对是目前市场上最佳选择之一。

秒杀GPU的专用AI芯片,内置RoCE实现灵活拓展

那么这种优异的随数增速的处理能力来自哪里呢?那就不得不提到其内置的RoCE。

内置RoCE实现任性拓展

RoCE是一种目前业内普遍认可的英伟达曾在今年3月份以69亿美元现金收购以色列芯片商Mellanox Technologies,看重的就是RoCE技术。在近期的GTC 2019上,黄教主就强调了RoCE的重要性:随着服务器数量的提升,必须要借助RoCE的功能才可以将整个系统的处理性能实现提升。通过NVLink+PCIE+RoCE等技术构成了英伟达的NCCL的通信库,确保整个系统的性能随着硬件堆叠而继续提升。而Habana  Labs则直接将RoCE功能集成到了Gaudi中。

秒杀GPU的专用AI芯片,内置RoCE实现灵活拓展

Gaudi使用标准以太网RoCE来进行拓展,相比起英伟达的NVLink和InfiniBand在系统拓展和构建方面就更为简单。每个Gaudi中都内置了十个RoCE端口,而英伟达的V100则需要首先外接一个PCIE的转换卡,然后连接到RDMA上实现以太网的带宽拓展。Gaudi在成本和设计简化度上明显优于V100。

秒杀GPU的专用AI芯片,内置RoCE实现灵活拓展

Habana Labs在芯片之上提供两种不同的产品形态:PCB板卡样式的HL-205和PCIe卡样式的HL-200。以HL-205为例,通过内置的RoCE可以实现多种不同的组合。

秒杀GPU的专用AI芯片,内置RoCE实现灵活拓展

上图是8个HL-205,加上两个PCIe的开关组成的一个训练系统,接口为4x16 PCIe Gen4,可连接到外部主机服务器,最多80X100Gb以太网链路。外部以太网链路可以连接到任何交换层次结构。这种系统可以实现超大型模型并行训练。

秒杀GPU的专用AI芯片,内置RoCE实现灵活拓展

这8个HL-205还可以有另一种网络的方式,这种方式主要是针对已经使用了V100的训练系统中进行V100的替换。因为V100只有六个端口用于拓展。HL-205支持在OAM规范中定义的6个通道上分配20个SerDes端口。但是这种网络连接的系统并没有将Gaudi的性能发挥到极致,这非常适合在现有V100的系统中进行器件替换。如果你想要构建一个更为高效的训练系统,Habana Labs提供了另一种名为HLS-1的系统。

秒杀GPU的专用AI芯片,内置RoCE实现灵活拓展

HLS-1对外提供PCIE的这种接口,同时还提供了以太网接口。在系统内部,每个Gaudi会拿出10个RoCE中的7个来与其它7个Gaudi实现互连,剩下的3个作为外部以太网接口。所以HLS-1可以提供24个100G的外部以太网接口。这是一个非常高效的训练系统,无需任何以太网交换机,用户使用起来也非常方便,只需要通过PCIE就可以将HLS-1与自己的计算系统进行互联。而且复用率较高,可以连接到各种不同的CPU平台进行整个训练系统的搭建。

秒杀GPU的专用AI芯片,内置RoCE实现灵活拓展

两个HLS-1通过背板连接在一起就可以提供一个非常高效的16 Gaudi的训练系统。同时6个HLS-1可以放在同一个机架上组成一个训练系统。

秒杀GPU的专用AI芯片,内置RoCE实现灵活拓展

秒杀GPU的专用AI芯片,内置RoCE实现灵活拓展

到这里还没有结束,接下来给大家介绍下更大规模集成的训练系统的组成,因为Gaudi内置了10个RoCE,所以HLS-205相比英伟达的DGX-2在大规模集群方面可以实现更强大的堆叠。

24个HLS-205之间可以保持相互100GbE的通信速率。如果将通信速率降低为50GbE,那么自然可以直接使系统数量翻两倍。而DGX-2在进行大规模集群的情况下,性能放大的表现并不足够优秀。Gaudi的这种集群系统可以在几小时内训练大量的模型,这对于想要最大限度地减少培训时间,建立大型,高效率的AI训练系统的客户群而言非常有价值。

在Habana Labs的官方介绍中,提供了1000多个Gaui横向扩展的方案,这是一个8*11*12 = 1056的拓展方案。如果想要更大规模的拓展 ,则需要牺牲一定的带宽来实现。

秒杀GPU的专用AI芯片,内置RoCE实现灵活拓展

也可以选择采用全连接的单跳系统的方式来进行拓展,8个HL205的Gaudi系统通过网络交换机进行连接,总计16个100G的网络连接。这种大规模的系统可以直接连接到深度学习的加速器。

秒杀GPU的专用AI芯片,内置RoCE实现灵活拓展

还有一种拓展方式称为“high end 2k Gaudi”系统。每个HL205包含一个64口的交换器,每个交换器都连接到256X100G的交换机。

秒杀GPU的专用AI芯片,内置RoCE实现灵活拓展

Gaudi内置10个RoCE所带来的优势非常明显,V100被远远甩在了身后。但在Gaudi上进行开发的体验是否有保证呢?Habana Labs也考虑的非常周到。

将现有设计移植到Gaudi平台

新的硬件平台出来后,性能一般都会更优异,但客户最终会关心的一个问题是,如何将我现有的设计方便地移植到新的平台上?这是他们决定是否进行硬件平台变换的重要因素。

秒杀GPU的专用AI芯片,内置RoCE实现灵活拓展

Habana提供的软件环境叫做SynapseAI,软件在上层API可以对接多种主流框架,例如TensorFlow、Caffe2、ONNX和Glow等等。软件的核心包括一个Habana Labs的库、一个用户库和一个图形组件。如果客户有定制化的需求,可以通过用户库来进行定制化的设计。软件下层公国KMD API与Gaudi的PCIe驱动进行连接。

Habana Labs的Synapse AI希望可以帮助到做深度学习的开发者能够专注于算法本身的开发,而无需考虑过多的硬件移植和适配等问题。

---

Gaudi在性能、拓展性和功耗方面超越了V100和T4,随着未来AI方面需求的逐渐明确,专用的ASIC的方案肯定会比GPU、CPU等更加高效和适合。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

拉斯维加斯2025年9月11日 /美通社/ -- 在9月8日至11日举办的RE+ 2025展会上,全球综合储能解决方案供应商德赛电池(Desay Battery)全面展示了其创新成果,并宣布与深圳市华宝新能源股份有限公司...

关键字: 电池 电芯 人工智能 锂电

AI赋能制造,黄埔汇聚全球新机遇 广州2025年9月11日 /美通社/ -- 2025年9月10日,由广州开发区投资集团有限公司、广州开发区黄埔区具身智能机器人产业发展促进会、华南美国商会共同主办的"2025...

关键字: 智能制造 AI 人工智能 供应链

香港2025年9月11日 /美通社/ -- 华钦科技集团(纳斯达克代码:CLPS,以下简称"华钦科技"或"集团")近日宣布成功利用人工智能(AI),包括微软Copilot等客户指定AI模型,完成对一家香港大型银行30年历...

关键字: 人工智能 PS REACT 测试

在科技飞速发展的当下,人工智能与边缘计算的融合正以前所未有的速度重塑着我们的生活。RK3576芯片拥有4核Cortex-A72以及4核Cortex-A53提供基础算力,6TOPS算力NPU来模型推导运算。使用YOLOv8...

关键字: 人工智能 边缘计算 YOLOv8模型

广州2025年9月9日 /美通社/ -- 在2025年柏林国际消费电子展(IFA  2025)上,来自中国的清洁能源科技企业,广州疆海科技有限公司(征拓)以其前沿的...

关键字: 新能源 消费电子展 人工智能 清洁能源

上海2025年9月9日 /美通社/ -- 为全面落实党中央、国务院和上海市委、市政府关于加快发展人力资源服务业的决策部署,更好发挥人力资源服务业赋能百业作用,8月29日,以"AI智领 HR智链 静候你来&quo...

关键字: 智能体 AI BSP 人工智能

深圳2025年9月9日 /美通社/ -- 2025年9月3日,国际独立第三方检测、检验和认证机构德国莱茵TÜV大中华区(以下简称"TÜV莱茵&q...

关键字: 研讨会 汽车行业 ISO 人工智能

9月9日消息,今日,国际权威市场调研机构英富曼(Omdia)发布《中国AI云市场,1H25》报告。

关键字: AI 人工智能

近日,美国参议院公布了一项引人注目的国防政策方案,其中包含的“2025年国家人工智能保障准入和创新法案”(简称GAIN AI法案)再次在全球科技领域掀起波澜。

关键字: AI GPU

面对市场对更智能产品、更短设计周期以及更高效灵活生产流程的需求日益增长,设计与制造企业纷纷借助人工智能,推动业务流程迈向新高度。凭借处理复杂数据的卓越能力与传递智能洞见的便捷性,人工智能已准备好在工业价值链的各个环节承担...

关键字: 人工智能 工业物联网 传感器
关闭