当前位置:首页 > 公众号精选 > 物联传媒
[导读]半导体行业观察自1950年代以来,中央处理器“CPU”一直是每台计算机或智能设备的核心;到1990年代以来,GPU或图形处理单元扮演了重要角色;所以,在过去的十年中,计算已经摆脱了PC和服务器的繁琐局限,CPU和GPU为庞大的新超大规模数据中心提供了动力。然而最近几年,随着系统中...


本文来源:半导体行业观察


自1950年代以来,中央处理器“ CPU”一直是每台计算机或智能设备的核心;到1990年代以来,GPU或图形处理单元扮演了重要角色;所以,在过去的十年中,计算已经摆脱了PC和服务器的繁琐局限,CPU和GPU为庞大的新超大规模数据中心提供了动力。然而最近几年,随着系统中的CPU承受越来越多的网络和存储工作负载,DPU(即数据处理单元)已成为以数据为中心的加速计算模型的第三个成员。那么DPU又将发挥怎样的作用?为何如英特尔和英伟达以及云供应商阿里、亚马逊、微软等巨头们都纷纷涌入DPU?


DPU成为计算的三大支柱之一


Nvidia在今年早些时候的博客中表示:“DPU(即数据处理单元)已经成为以数据为中心的加速计算模型的第三个成员。Nvidia首席执行官黄仁勋在一次演讲中说:“这将代表未来计算的三大支柱之一。”这三者之间,CPU用于通用计算,GPU用于加速计算,而DPU在数据中心周围移动数据,进行数据处理。


那么什么是DPU?这里所说的DPU,就是Data Processing Unit的缩写,也就是所谓的数据处理单元。DPU可以用作独立的嵌入式处理器,但通常会集成到SmartNIC中,为未来的服务器提供支持。DPU是一种片上系统,或者说SOC,是结合了以下三个关键要素的新型可编程处理器:


  • 行业标准的高性能软件可编程多核CPU,通常基于广泛使用的Arm架构,并与其他SOC组件紧密耦合。


  • 高性能的网络接口,能够以网络速度解析,处理和有效地将数据传输到GPU和CPU。


  • 一组灵活的可编程加速引擎,旨在减轻网络任务负担并优化AI和机器学习,安全性,电信和存储等的应用程序性能。

那么为什么人们如此渴望使用DPU?首先,它更安全,因为控制平面可以在系统内和系统集群之间与数据平面分离。DPU可以执行原本需要CPU处理的网络、存储和安全等任务。这就意味着如果在数据中心中采用了DPU,那么CPU的不少运算能力可以被释放出来,去执行广泛的企业应用。


DPU还释放了服务器的容量,以便它们可以恢复到应用程序计算。在一些具有大量I / O和沉重虚拟化的系统上内核成本缩减一半,因此吞吐量提高了2倍。除了内核的成本,还要计算整个机器的成本,包括其内存和I / O以及所释放的工作量。所以,如果一台负载严重的服务器要花2万美元,那么DPU只要花1万美元,就能保证它的安全性和灵活性——特别是如果所有的机器学习加速都隐藏在系统软件中,企业就不必自己创建它了。


DPU丰富的、灵活和可编程的加速引擎可减轻和改善AI和机器学习应用的性能。所有的这些DPU功能对于实现隔离的裸机云原生计算至关重要,它也将定义下一代云规模计算。为此,国际巨头开始纷纷提前布局。


DPU玩家有哪些?


根据THENEXTPLATFORM的分析指出,在2020年,SmartNIC正在演变成DPU,每个人都想在这个领域分一杯羹。在这个领域的玩家或者潜在玩家主要包括Broadcom,Intel,英伟达,Netronome,Pensando,Fungible和Xilinx,还包括云供应商三大巨头。


大多数SmartNIC方法都是从基本的以太网控制器开始,要么在硅片上作为固件,要么在适配器上作为单独的芯片。然后,使用以下三种方法之一,通过增加以下内容来提高其计算能力,从而使普通的NIC变得智能:方法一,收集许多Arm核心;方法二,增加流处理核心(FPC),这是一种是自定义设计的网络处理器,通常为P4;方法三,增加现场可编程门阵列(FPGA),可编程逻辑。


Broadcom是商品以太网NIC控制器市场上无可争议的领导者。Broadcom在2019 SDC演讲中展示了Stingray架构,该公司采用了单芯片方法,与其他竞争对手的许多芯片板相比,单芯片SmartNIC解决方案在板级生产的成本始终较低。


以NetXtreme E系列控制器的逻辑为基础,Broadcom在Stingray的中心设计了NetXtreme-S BCM58800芯片。然后将8个主频为3 GHz的Arm v8 A72内核以群集配置放置。在3 GHz频率下,这些可能是最快的SmartNIC Arm内核。另外,Stingray最多可以配置16 GB DDR4内存。接下来,混入了一些逻辑,以高达90 Gb / s的速度卸载加密,并卸载了擦除编码和RAID等存储处理。最后,Broadcom添加了它有些神秘的TruFlow技术。


Broadcom准备在今年晚些时候将Stingray转移到7纳米工艺,这将使其可从8核扩展到12核。了解了所提供产品的复杂性后,该公司还提供了用于SmartNIC应用程序开发和存储控制器开发的Stingray开发人员工具包,它是完整SmartNIC产品提供的必要组件。


英伟达对DPU显得尤为重视,此前它以69亿美元收购了Mellanox,又以惊人的400亿美元收购了Arm控股公司,在一段时间内,其DPU业务可能会比CPU业务更大,DPU也是Nvidia最新的一个布局。


对于英伟达来说,说它正在引入DPU的概念有点大胆。但是,有一说一,Mellanox确实在2015年9月以8.11亿美元的天价收购了EZchip公司,该公司拥有多核芯片创业公司Tilera的资产,Tilera是最早使用知识产权的高度并行SmartNIC实施之一,该实施源自更早的MIT研究项目。

本质上,Tilera将处理内核安排为芯片上的切片,每个内核都具有到其周围四个内核的高速总线。早在2013年,其旗舰产品就支持多达72个MIPS内核,内存控制器,加密模块,PCIe块和mPipe,这是通过SFP +连接器连接至多个MAC的通道的集合。Mellanox通过用Arm替换内核并将mPipe换成ConnectX逻辑,从而向前迈进了一步。与Broadcom一样,当前的核心数量为8个Arm v8 A72核心,但主频仅为2.4 GHz。它们排列成四个双核Arm的集群。Bluefield目前正在使用Avago的16纳米工艺,但是像Broadcom一样,它也应该在今年夏天升级到7纳米,并从8核转变为12核。



在今年GTC秋季会议上,Nvidia推出了其第二代DPU BlueField-2。到2022年,英伟达计划推出第三代DPU,将计算中心的Arm CPU部分的性能提高5倍,达到350 SPEC整数单位,集成NEON SIMD单位的性能提高2倍以上,达到1.5 TOPS。BlueField-3 DPU卡上的网络速度将提高一倍,最高可达400 Gb /秒,这大概是一对200 Gb /秒的端口。用于DPU卡的Ampere GPU加速器的下一次迭代将在BlueField-3X变体中提高25%,达到75 TOPS。


展望2023年的BlueField-4,ARM CPU和Nvidia GPU将集成到单个芯片中。Arm计算将提高2.9倍,达到1,000 SPEC整数单位,而同一芯片上的GPU加速器的性能将提高5.3倍,达到400 TOPS。


英特尔也对用于超大规模生产者和云构建者的可编程以太网交换和SmartNIC(越来越多地称为DPU)更感兴趣。随着数据中心网络中传送的数据量以每年25%的速度增长。但是预算不能以这种速度增长,而且由于对原始CPU计算的偏见投资(与构建平衡的系统以更充分地利用可用的计算能力相反),网络通常不超过分布式成本的10%系统。面对所有这些压力,英特尔必须创新并帮助改善网络,英特尔认为集成显得很重要。


在DPU上,Intel主要是将CPU和FPGA结合在一起。但Intel新的SmartNIC并不intel自己做的,而是由Inventec和Silicom制造的,前者对于hyperscalers和云构建者来说是日益重要的ODM,而后者则是过去二十年来的网络接口供应商。下图是intel的SmartNIC产品,其中C5020X主要用于云端,N5010和N3000主要用于网络端。



Xilinx是SmartNIC领域中另一位杰出的FPGA进入者,该公司于2019年秋季收购了Solarflare Communications,并且Solarflare自2012年以来一直在构建基于ASIC和FPGA的NIC进行电子交易。两年前,两家公司展示了其SmartNIC的多功能性,在收购Solarflare之前,他们是合作伙伴,在OCP峰会上公开展示了XtremeScale X2控制器逻辑在更大的FPGA内部作为软NIC运行。


Xilinx的Alveo U25将双SFP28端口直接连接到Zynq系列芯片,包括6GB DDR4内存,Zynq的FPGA和Arm内核可通过该芯片上运行的程序对其进行访问。FPGA有520K逻辑元件可用,但是提供的四核Arm可以弥补可用门数的减少。赛灵思(Xilinx)将Alveo U25推向市场,最初是针对那些要求开放虚拟交换机(OvS)卸载功能的客户。该公司宣布,在不久的将来,它将增加IPsec,机器学习(ML),深度包检查(DPI),视频转码和分析的卸载。


再就是有一家SmartNIC初创公司Pensando,由Cisco(思科)前首席执行官John Chambers创建。John海带来了六名前Cisco员工。Pensando的 DPU处理器称为Capri,是一个具有多个并行级的P4可编程单元。然而,并行处理的确切程度是未知的,就像packet的性能、延迟和抖动还没有公布一样。Pensando保持P4应用程序的紧密性,这样当缓存丢失时,P4应用程序仍然保留在Capri的缓存中,从而导致为某个指令获取内存,降低了所有指标的性能。其他被称为服务处理卸载的附加计算单元处理加密、存储过程和其他任务。Pensando声称Capri可以提供线速性能。


Netronome是这个领域里的一家老牌创业公司,成立于2003年,迄今为止共获得了5轮融资,总计7300万美元。自2015年以来,该公司一直在积极推广P4,当时它展示了第一款使用该技术的智能手表。自那以后,Netronome取得了一些重大进展,但最近有传言称它步履蹒跚,可能会退出市场。Netronome的DPU主要是NFP4000流处理器架构。该公司没有使用单一的P4处理引擎,而是利用了两类可编程的核心,48个P4处理核心和60个流处理核心。额外的硅用于分类、修改和管理。所有这些核心都可以在P4中编程。


另外一家做DPU的公司也不容小觑,它也专注于P4,即增加流处理核心(FPC)。它就是Fungible,Fungible声称正在生产数据处理单元(DPU)。在Hot chips上,这家初创公司披露了它的F1数据处理单元(DPU),它将主要以未公布的系统级产品的形式销售。从外部来看,F1看起来类似于Broadcom的Stingray和英伟达的BlueField-2,只是有更大的I/O带宽。但在内部,它采用了高度可编程的数据平面。总的来说,它包括52个CPU核心,几十个硬件加速器,800Gbps的网络带宽,512Gbps的PCI Express带宽。尽管F1主要是为存储系统设计的,但派生S1处理服务器连接。因此,DPU架构足够灵活,可以充当系统和I / O处理器角色。Fungible表示已经对两种芯片进行了生产认证。


除了上述这些SmartNIC供应商,全球的云厂商巨头也都在部署SmartNIC,而且三家云供应商正在设计自己的系统级芯片(SoC)架构,他们就是阿里云的X-Dragon,亚马逊AWS的Nitro和微软Azure的Catapult。


阿里云的X-Dragon SmartNIC现在已进入第二代(X-Dragon II),并于2017年发布了第一代。其第二代芯片使它的轻量级内部Dragonfly虚拟机管理程序(在精神上类似于Firecracker)与SR一起使用。


AWS的Nitro现在已经是第三代产品,AWS Nitro是基于其Annapurna Labs团队设计的内部SoC。Nitro使AWS客户可以在其连接到的任何AWS云服务器上运行容器,虚拟机或裸机。Nitro卸载了虚拟机管理程序功能,并默认为通过SmartNIC传递的所有数据提供线速加密和解密-包括网络和本地存储流量。Nitro还提供了启动和运行时硬件的信任根,大概不使用行业标准的可信平台模块(TPM)。


微软 Azure的Catapult SmartNIC现在已经是第三代产品。微软尚未发布Catapult规格,但已经开放了一段历史。Azure将其在SmartNIC中的FPGA选择定位为到定制设计ASIC迁移路径上的一个点。当其云需求变得足够稳定以在Azure中实现四年到五年的使用寿命而不需要进行彻底的重新编程时,Azure将转向定制设计的逻辑。同时,Azure认为FPGA提供了低延迟,低功耗等的最佳组合。


Azure于2012年在其WCS云存储中部署了Catapult v1(“ Mount Granite”),同时在Bing和Azure内所有新购买的服务器中部署了Catapult v2(“ Pikes Peak”夹层和“ Story Peak” PCI-Express板)。从2015年开始。Azure在2017年部署了Catapult v3,以加速深层神经网络并将Bing中的网络速度提高到50 Gb /秒。


结语


十年前,随着硬件加速技术的第一次重大冲击,我们对GPU产品充满了兴趣。现在,随着FPGA扩展到超过300万个逻辑单元,FPGA得以与其他可组合的处理模块紧密地结合在一起,以实现网络,内存,存储和计算。有了这些进步,我们开始认识到第二次硬件加速浪潮的形成。因此,随着SmartNIC市场终于出现,它将与下一波基于FPGA的硬件加速器融合。这将在加速市场中形成各种叠加,也许会促进变化,并改变我们对计算的展望。


不得不说,SoC和更重要的FPGA已经成熟到可以成为SmartNIC的基础技术的地步,SmartNIC正在推动计算并因此将其加速到网络边缘,从而腾出服务器CPU来处理更多专注于关键业务和处理的解决方案。因此,越来越多供应商纷纷涌入DPU架构。DPU能否演绎CPU和GPU的佳话?让我们静待其变。


~END~


免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

随着信息技术的迅猛发展和大数据时代的到来,机器学习成为了人工智能领域中的核心技术之一。机器学习是通过模拟人类学习行为,使计算机系统能够从数据中自动发现规律、提取特征并进行预测和决策的过程。它在诸多领域取得了广泛的应用,包...

关键字: 计算机 人工智能 机器学习

随着大数据时代的到来,数据处理成为了一项至关重要的任务。传统的数据处理方法往往面临着效率低下、准确性不高等问题,而机器学习技术的兴起为数据处理带来了全新的解决方案。本文将深入探讨机器学习在数据处理中的应用,并分析其优势和...

关键字: 数据处理 计算机 机器学习

机器学习是人工智能领域的一个重要分支,它使用各种算法来使计算机系统能够从数据中学习和改进,而无需进行明确的编程。在机器学习的广阔领域中,有多种算法被广泛应用,每种算法都有其独特的适用场景和优势。本文将详细介绍机器学习中的...

关键字: 机器学习 人工智能 计算机

随着信息技术的飞速发展,机器学习(Machine Learning)作为人工智能领域的重要分支,正在逐步改变我们生活的方方面面。那么,什么叫做机器学习呢?简单来说,机器学习是一门研究如何让计算机从数据中自动获取知识和技能...

关键字: 机器学习 人工智能 计算机

随着信息技术的飞速发展,数据已经成为现代社会的重要资源。数据挖掘和机器学习作为处理和分析数据的两大关键技术,在多个领域得到了广泛应用。尽管它们在某些方面存在重叠,但数据挖掘和机器学习在定义、目标、方法以及应用场景等方面存...

关键字: 数据挖掘 机器学习 计算机

计算机的历史可以追溯到公元前的古代算盘和查尔斯·巴贝奇的“分析机”构想。然而,现代意义上的计算机起源于二战时期对复杂军事计算需求的响应。1941年,美国宾夕法尼亚大学开发出了ENIAC(Electronic Numeri...

关键字: 计算机 云服务

自二十世纪以来,计算机技术经历了从机械计算装置到如今高度智能化、微型化的巨大飞跃,成为人类科技进步的重要推动力。电脑的发展史是一段充满创新与突破的历史,以下将按照时间顺序概述这一发展历程。

关键字: 电脑 计算机

计算机网络是当今信息化社会中不可或缺的基础设施,它将世界各地的计算机系统及其附属设备紧密联系在一起,实现了信息的高速传输与共享资源的有效利用。计算机网络的定义可以归纳为:计算机网络是一系列分布在不同地理位置、具备独立功能...

关键字: 计算机 信息交互

随着科技的不断进步,人工智能(AI)已成为当今世界的热门话题。它以其强大的计算能力和深度学习能力,在多个领域展现出巨大的应用潜力。本文将对人工智能技术进行详细的探究,包括其定义、发展历程、主要技术、应用领域以及面临的挑战...

关键字: 人工智能 深度学习 计算机

4月1日消息,戴尔在中国的PC销量持续下滑(份额已被华为超越),这迫使他们不得不采取更多的裁员措施。

关键字: 戴尔 PC 计算机
关闭
关闭