当前位置:首页 > Achronix
  • 实例!详解FPGA如何实现FP16格式点积级联运算

    实例!详解FPGA如何实现FP16格式点积级联运算

    实例!详解FPGA如何实现FP16格式点积级联运算 作者:杨宇,Achronix资深现场应用工程师 摘要:通过使用Achronix Speedster7t FPGA中的机器学习加速器MLP72,开发人员可以轻松选择浮点/定点格式和多种位宽,或快速应用块浮点,并通过内部级联可以达到理想性能。 神经网络架构中的核心之一就是卷积层,卷积的最基本操作就是点积。向量乘法的结果是向量的每个元素的总和相乘在一起,通常称之为点积。此向量乘法如下所示: 图1 点积操作 该总和S由每个矢量元素的总和相乘而成,因此S=a1b1+a2b2+a3b3+…  本文讲述的是使用FP16格式的点积运算实例,展示了MLP72支持的数字类型和乘数的范围。 此设计实现了同时处理8对FP16输入的点积。该设计包含四个MLP72,使用MLP内部的级联路径连接。每个MLP72将两个并行乘法的结果相加(即aibi+ai+1bi+1),每个乘法都是i_a输入乘以i_b输入(均为FP16格式)的结果。来自每个MLP72的总和沿着MLP72的列级联到上面的下一个MLP72块。在最后一个MLP72中,在每个周期上,计算八个并行FP16乘法的总和。 最终结果是多个输入周期内的累加总和,其中累加由i_first和i_last输入控制。 i_first输入信号指示累加和归零的第一组输入。 i_last信号指示要累加和加到累加的最后一组输入。最终的i_last值可在之后的六个周期使用,并使用i_last o_valid进行限定。两次运算之间可以无空拍。 ● 配置说明   表1 FP16点积配置表 ● 端口说明 表2 FP16点积端口说明表 ● 时序图 图2 FP16点积时序图 其中, 那么,以上运算功能如何对应到MLP内部呢?其后的细节已分为MLP72中的多个功能阶段进行说明。 ● 进位链 首先请看下图,MLP之间的进位链结构,这是MLP内部的专用走线,可以保证级联的高效执行。 图3 MLP进位链 ● 乘法阶段 下图是MLP中浮点乘法功能阶段,其中寄存器代表一级可选延迟。 图4 MLP乘法功能阶段框图 MLP72浮点乘法级包括两个24位全浮点乘法器和一个24位全浮点加法器。两个乘法器执行A×B和C×D的并行计算。加法器将两个结果相加得到A×B + C×D。 乘法阶段有两个输出。下半部分输出可以在A×B或(A×B + C×D)之间选择。上半部分输出始终为C×D。 乘法器和加法器使用的数字格式由字节选择参数以及和参数设置的格式确定。 浮点输出具有与整数输出级相同的路径和结构。MLP72可以配置为在特定阶段选择整数或等效浮点输入。输出支持两个24位全浮点加法器,可以对其进行加法或累加配置。 进一步可以加载加法器(开始累加),可以将其设置为减法,并支持可选的舍入模式。 最终输出阶段支持将浮点输出格式化为MLP72支持的三种浮点格式中的任何一种。 此功能使MLP72可以外部支持大小一致的浮点输入和输出(例如fp16或bfloat16),而在内部以fp24执行所有计算。 图5 MLP浮点输出阶段框图 需要强调的是本设计输入和输出都是FP16格式,中间计算过程,即进位链上的fwdo_out和fwdi_dout 都是FP24格式。具体逻辑框图如下所示:   图6 FP16点积逻辑框图 MLP内部数据流示意图:   图7 FP16点积在MLP内部数据流图 最终ACE的时序结果如下:   如需了解更多产品细节,请发送邮件到Dawson.Guo@Achronix.com。

    时间:2020-08-14 关键词: achronix FPGA fp16

  • Achronix告诉你,新一代人工智能硬件需要具备哪些特质

    【导读】:如今AI的触角已经伸向了市场各个领域,AI离不开硬件,新一代人工智能硬件相较于之前的硬件有什么不一样的呢?Achronix给出了答案。 AI应用覆盖了不同的市场,如自主驾驶、医疗诊断、家用电器、工业自动化、自适应网站和金融分析等等;甚至是将这些系统连接在一起的通信基础设施也正朝着自动化的自我修复和优化发展。这些全新的架构将执行诸如负载平衡等功能,还有根据以往经验来进行预测来分配资源,如无线通道和网络端口等资源。这些应用要求高性能,并且在许多情况下,要有低延迟以成功地响应条件和需求的变化。它们还要求功耗要尽可能的低,其结果是无法在本地完成,机器学习解决方案往往被放在电能和散热器充足的云服务器中。对这些嵌入式系统进一步的要求是:即使在网络不能连接至云端的情况下,也要始终处于待命状态,并且随时准备响应。这些因素结合起来就要求改变硬件设计的方式。 让我们来了解一下通常被用于执行这类计算任务的一些主要硬件器件种类,并分析与它们每种器件相关的优缺点: 中央处理器(Central Processing Unit,CPU) CPU几乎是达到了半导体器件所能拥有的最高灵活性,被构想为一种完全通用的器件,它们也很容易被编程。然而,这种灵活性自然是要付出代价的,在一个通用架构中移动数据和指令所涉及到的大量开销,使CPU相对低效且耗电。其结果是,为了满足当今的计算需求,CPU很快就被淘汰了。因此,设计人员就顺理成章地选择探讨用其它架构来补充这种通用功能。 图形处理器(Graphics Processing Unit,GPU) 根据任务要求,另一条途径是考虑图形处理器(GPU)来解决这个问题。GPU从上世纪90年代起就开始进入了兴盛时期,那个时期它们通常被用来帮助个人电脑(PC)中的CPU完成图形处理任务,为此它们还在架构上进行了优化。事实上,凭借其拥有的许多计算内核和数不清的算数逻辑单元,GPU可被用来加速许多不同类型的高度并行功能。然而,其代价是不能执行通用计算任务,并且还相对耗电。 专用集成电路(ApplicaTIon Specific Integrated Circuits,ASICs) 在解决方案组合中,最遥远的一端是专用集成电路(ASIC)。它们被专门制造用来支持其目标应用,ASIC可被设计成不在任何其他计算上浪费时间或能耗。然而,正如大多数设计人员证实的一样,ASIC的设计和生产是昂贵的,并对数量有限的功能进行了高的承诺;ASIC在设计和制造完成之后,几乎没有能力去提供更通用的计算或适用其它用途。 我们的很大一部分客户已经到达这个阶段了——设计高性能ASIC来作为解决他们所面临的密集计算需求的唯一方法。然而即便是采用这种方案,许多与我们交流的客户已经在不得不考虑其他可选择方案,以支持他们以更低的整体成本去生产性能更高的器件,以及集成一定程度的功能灵活性。 那么,其它的可选方案是什么呢? FPGA 还有另一种方法。FPGA可提供接近CPU所拥有的灵活性,以及接近ASIC所拥有的效率。与ASIC一样,FPGA允许设计人员实现逻辑算法,提供巨大的并行和硬件优化的解决方案。与ASIC不同的是,FPGA可以在眨眼间用一个新的设计进行重新编程。与CPU或GPU相比,当今FPGA的能效非常高,能够比基于处理器的解决方案每瓦提供远远更多的运算。 但是,还有一种更具吸引力的解决方案。 Speedcore嵌入式FPGA(eFPGA)知识产权( IP) Achronix已经先行采取了进一步的措施。与其简单地提倡使用分立的FPGA芯片,为什么不将该架构引入到您的CPU或SoC之中呢?并同时仍可享受更多的性能提高呢? 一款eFPGA消除了芯片与芯片之间通信的需求,例如通过PCI-Express这样带宽有限的连接需求,消除了对数据进行串行化和解串行化的需求,并提供了一个极大容量的、直达为FPGA阵列结构的片上互连。这意味着与独立的FPGA芯片相比,可提供高达100倍的性能改善,同时将功耗降低高达50%,并缩小了片芯晶粒的面积,降低系统成本高达90%,及减少了对如稳压电源、元器件和散热器等其它组件的需求。 Achronix的SpeedcoreTM嵌入式FPGA(eFPGA)IP产品可以被集成到ASIC或者SoC之中,以提供定制的可编程阵列结构。客户通过细化其所需的逻辑功能、存储器和DSP资源,然后Achronix将配置Speedcore IP,以满足其个性化的需求。Speedcore的查找表(LUT)、存储器(RAM)单元和DSP64单元都可以像积木一样组装起来,从而为任何特定应用创建最优化的可编程功能阵列结构。Speedcore eFPGA目前已经在台积电(TSMC)的16nm工艺上验证量产,并在开发用于TSMC的7nm工艺的产品。Speedcore eFPGA由Achronix的经过实际芯片验证的ACE设计工具提供支持。 在其他几个优势之外,Speedcore eFPGA解决方案可提供缓存一致性、共享存储资源,以实现更快速地导入和导出数据,且能在2ms内对每10万个查找表重新配置其整个架构。 诸如多核CPU、通用图形处理器GPGPU和独立FPGA芯片等现有解决方案都可被用来支持如深度学习等先进的人工智能算法;但随着机器学习架构的发展,它们的局限无法满足开发人员对硬件不断攀升的要求。Achronix的Speedcore eFPGA是基于经过验证的技术,并可为设计人员提供一条途径,去实现更快速、更小巧的、成本更低且更节能的解决方案,从而支持设计人员根据快速升级的市场需求继续增加他们的计算能力。 Achronix半导体公司是一家提供高性能,高密度FPGA方案的美国高科技公司。Achronix半导体公司跟Intel的合作让其可以用业界最先进的22nm 3D FinFET 技术发展新一代的FPGA器件。

    时间:2020-07-16 关键词: 人工智能 智能硬件 achronix

  • 使用带有片上高速网络的FPGA的八大好处

    使用带有片上高速网络的FPGA的八大好处

    引言 自从几十年前首次推出FPGA以来,每种新架构都继续在采用按位(bit-wise)的布线结构。虽然这种方法一直是成功的,但是随着高速通信标准的兴起,总是要求不断增加片上总线位宽,以支持这些新的数据速率。这种限制的一个后果是,设计人员经常花费大量的开发时间来尝试实现时序收敛,牺牲性能来为他们的设计布局布线。 传统的FPGA布线基于整个FPGA中水平和垂直方向上运行的多个独立分段互连线(segment),在水平和垂直布线的交叉点处带有开关盒(switch box)以实现通路的连接。通过这些独立段和开关盒可以在FPGA上构建从任何源到任何目的地的通路。FPGA布线的这种统一结构为实现任何逻辑功能提供了极大的灵活性,可用于FPGA逻辑阵列内的任何数据路径位宽。 尽管在FPGA中的按位来布线非常灵活,但其缺点是每个段都会给任何给定的信号通路增加延迟。需要在FPGA中进行长距离传输的信号会导致分段之间的连接延迟,从而降低了功能的性能。按位布线的另一个挑战是拥塞,它要求信号路径绕过拥塞,这会导致更多的延迟,并造成性能的进一步降低。 Achronix将此挑战视为一个开发全新架构的机会,以消除传统FPGA的设计挑战并提高系统性能。Achronix的解决方案是在传统分段式FPGA布线结构之上,再为其全新的Speedster7t FPGA系列器件创建一个革命性的二维(2D)高速片上网络(NoC)。Speedster7t NoC连接到所有片上高速接口:400G以太网、PCIe Gen5、GDDR6和DDR4 / 5的多个端口。 NoC的内部由一组行和列组成,它们在整个FPGA逻辑阵列中将网络数据流量从水平和垂直方向上进行分发。主NoC接入(NAP)点和从NoC接入点位于NoC的每一行和每一列交叉的位置。这些NAP可以是NoC和可编程逻辑阵列之间的源或目的地。 图1:Speedster7t的片上网络(NoC)和接口 Ethernet:以太网 Security:安全性 Configuration:配置 each direction:每个方向 Speedster7t的NoC似乎只对FPGA内部的布线总线有所帮助;但是,这种新型架构可以显着提高设计人员的工作效率,实现全新的设计功能,并提供了轻松实现密集型数据处理应用的能力。下面列举了在效率提高、设计变更和性能提升方面最显著的八种应用场景。 在整个FPGA的逻辑阵列中简化高速数据分发 在传统的各种FPGA架构中,对连接到FPGA的片外存储器以及与之相连的外部高速数据源进行双向的读/写操作,需要数据在FPGA逻辑架构中经过一条较长且分段的路由路径。这种制约不仅限制了带宽,而且还会消耗在逻辑阵列中的用户设计所需的布线资源,这给FPGA设计人员在时序收敛方面带来了挑战,尤其是其他逻辑功能对器件利用率提高的时候。 使用Speedster7t的NoC将数据从外部源传输到FPGA和存储器,比使用传统的FPGA架构完成同样的工作要容易得多。Speedster7t NoC增强了FPGA阵列中传统的可编程互连,其中的NoC就像一个叠加在城市街道系统上的高速公路网络。虽然Speedster7t FPGA中传统的、可编程互连矩阵仍然适用于较慢的本地数据流量,但NoC可以处理更具挑战性的、高速的数据流。 NoC中的每一行或每一列都被实现为两个256位的、以2 Ghz固定时钟速率运行的单向数据通道。行具有东/西通道,列具有北/南通道,从而允许每个NoC行或列可以同时处理每个方向上512 Gbps的数据流量。总而言之,这些通道可以通过编写简单的Verilog或VHDL代码,在FPGA阵列中传输大量的数据,这些代码支持FPGA与NAP通信并连接到NoC高速公路网络上。 下图显示了NoC中各个点之间的数据传输。点1和点2的逻辑分别实例化了一个水平NAP。NAP可以发送和接收数据,但是每个单独的数据流都只是朝向一个方向。类似地,点3和点4的逻辑实例化了一个垂直NAP,并且可以在彼此之间发送数据流。 图2:NoC上跨越器件逻辑阵列的数据流 自动将PCIe接口连接到存储器 在现在的FPGA中,设计人员在将高速接口连接至连有FPGA的存储器件进行读写时,必须考虑在器件内由于连接逻辑、进行布线、以及输入和输出信号的位置而产生的延迟。为了实现基本的接口功能,在设计过程中构建一个简单的存储接口通常就要花费大量的时间。 在Speedster7t架构中,将嵌入式PCIe Gen5接口连接到已连接的GDDR6或DDR4存储器这项工作,可由外围NoC自动处理,不需要设计人员编写任何RTL来建立这些连接。由于NoC连接到所有的外围IP接口,因此设计人员在将PCIe连接到GDDR6或DDR4的任何一个存储器接口时,都具有极大的灵活性。在下面的示例中,NoC能够提供足够的带宽,以持续支持PCIe Gen 5通信流连接到GDDR6内存的任意两个通道。这种高带宽连接无需消耗任何FPGA逻辑阵列资源即可实现,并且设计所需时间几乎为零。用户只需要启用PCIe和GDDR6接口即可在NoC上发送事务。 图3:将PCIe直接连接到GDDR6接口 在独立的FPGA逻辑阵列模块上实现安全的局部重新配置 与其他基于静态随机存取存储器(SRAM)的FPGA一样,Speedster7t FPGA必须在通电时进行配置。Speedster7t FPGA具有一个片上FPGA配置单元(FCU),用于管理FPGA的初始配置和任何后续的局部重新配置。FCU还被连接到NoC,从而在配置FPGA时提供了更高的灵活性。使用NoC将配置位流传输到Speedster7t FCU,可以使用以前不可用的新方法来对FPGA进行配置。 在器件配置之前,Speedster7t NoC可用于某些读/写事务:PCIe至GDDR6、PCIe至DDR4、最后是PCIe至FCU。一旦PCIe接口被设置好,FPGA就可以通过PCIe接口接收配置比特流(bitstream),并将其发送给FCU以配置器件的其余部分。一旦到达FCU,配置比特流被写入FPGA可编程逻辑以配置器件。在器件被配置完成后,设计人员可以灵活地重新配置FPGA的某些部分(局部重新配置),以增加新的功能或提高加速性能,而无需关闭FPGA。 新的局部重新配置比特流可以通过PCIe接口发送到FCU,来重新配置器件的任何部分。当部分器件被重新配置时,通过在所需的区域中实例化一个NAP与NoC进行通信,任何进出新配置区域的数据都可以在Speedster7t1500器件中被轻松访问。NoC消除了传统FPGA局部重新配置的复杂性,因为用户不必担心围绕现有逻辑功能进行布线并影响性能,也不必担心由于该区域中的现有逻辑而无法访问某些器件的引脚。该功能节省了设计人员的时间,并在使用局部重新配置时提供了更大的灵活性。 此外,局部重新配置允许设计人员在工作负载变化时调整器件内的逻辑。例如,如果FPGA正在对输入的数据执行压缩算法,并且不再需要压缩,则主机CPU可以告诉FPGA重新配置,并加载经过优化的新设计以处理下一个工作负载。在器件仍处于运行状态时,局部重新配置可以在逻辑阵列集群(cluster)级别上独立完成。一个聪明的用例是开发一个具有自我感知的FPGA,该FPGA通过使用一个软CPU来监测器件操作以实时启动局部重新配置,来关闭逻辑从而节省功耗,或在FPGA架构中添加更多加速器模块,以临时处理大量的输入数据。这些功能为设计人员提供了前所未有的配置灵活性。 轻松支持硬件虚拟化 Speedster7t NoC通过利用NAP及其AXI接口,为设计人员提供了在单个FPGA中创建虚拟化安全硬件的独特能力。将可编程逻辑设计直接连接到NoC只需要在逻辑设计中实例化一个NAP及其AXI4接口即可。每个NAP还具有一个相关的地址转换表(ATT),该表将NAP上的逻辑地址转换为NoC上的物理地址。NAP的ATT允许可编程逻辑模块使用本地地址,同时将NoC定向事务映射到NoC全局存储映射所分配的地址。此项重新映射功能可以以多种方式使用。例如,它可以用于允许加速引擎的所有相同副本使用基于零的虚拟寻址,同时将数据流量从每个加速引擎发送到不同的物理存储位置。 每个ATT条目还包含一个访问保护位,以防止该节点访问被禁止的地址范围。该功能提供了一种重要的进程间安全机制,可防止同时在一个Speedster7t FPGA上运行的多个应用或多个任务干扰分配给其他应用或任务的存储模块。这种安全机制还有助于防止由于意外、偶然甚至是故意的存储地址冲突而导致系统崩溃。此外,设计人员可以使用此方案阻止逻辑功能访问整个存储设备。 图4:使用Speedster7t NoC实现硬件虚拟化 Memory Space:存储空间 简化团队协同设计 基于团队的协同化FPGA设计并不是一个新的概念,但是底层架构和布线依赖于FPGA的其他部分,从而使得实现这个简单概念非常具有挑战性。一旦一个团队完成了设计的一部分,另一个设计其他部分的团队在尝试访问设备另一端的资源时,通常会遇到挑战,因为需要在已经完成的设计部分进行布线。同样,对一部分已进行设计布线的FPGA的区域或大小进行更改,可能会对所有其他FPGA设计模块产生连锁影响。 使用Speedster7t NoC,可以将设计模块映射到FPGA的任何部分,并且可以对资源分配进行更改,而不会影响其他FPGA模块的时序、布局或布线。由于器件中所有的NAP都支持每个设计模块无限制地访问NoC进行通信,因此使得基于团队的设计成为可能。因此,如果一个设计的某个部分在规模上有所增大,只要有足够的FPGA资源可用,数据流就会由NoC自动管理,从而使设计人员不必担心是否满足时序,以及对其他团队成员正在进行的设计的其他部分可能带来的后续影响。 图5:致力于开发同一个FPGA的多个设计团队 Design Team:设计团队 通过独立的接口和逻辑验证加快设计速度 Speedster7t NoC的另一个独特功能是支持设计人员独立于用户逻辑去配置和验证I/O连接。例如,一个设计团队可以验证PCIe至GDDR6的接口,而另一个设计团队可以独立地验证内部逻辑功能。这种独立操作之所以能够实现,是因为NoC的外围部分连接了PCIe、GDDR6、DDR4和FCU,而不会消耗任何FPGA资源。这些连接可以在不使用任何HDL代码的情况下进行测试,从而可以同时独立地验证接口和逻辑。该功能消除了验证步骤之间的依赖关系,并实现了比传统FPGA架构更快的总体验证速度。 图6:独立的I/O和逻辑验证 Design Team 1: I/O Verification:设计团队1:I/O验证 Design Team 2: Logic Verification:设计团队2:逻辑验证 采用分组模式(Packet Mode)简化400 Gbps以太网应用 在FPGA中实现高速400 Gbps以太网数据通路所面临的挑战是找到一种能够满足FPGA性能要求的总线位宽。对于400G以太网,全带宽运行的唯一可行选择是运行在724 MHz的1,024位总线,或运行在642 MHz的2,048位总线。如此宽的总线难以布线,因为它们在FPGA架构内消耗了大量的逻辑资源,即使在最先进的FPGA中也会在这样的速率要求下产生时序收敛挑战。 但是,在Speedster7t架构中,设计人员可以使用一种称为分组模式(packet mode)的新型处理模式,其中传入的以太网流被重新排列为四个较窄的32字节数据包,或者四条独立的以506 MHz频率运行的256位总线。这种模式的优点包括:当数据包结束时减少了字节的浪费,并且可以并行传输数据,而不必等到第一个数据包完成后才开始第二个数据包的传输。Speedster7t FPGA架构的设计旨在通过将以太网MAC直接连接到特定的NoC列,然后使用用户实例化的NAP从NoC列连接到逻辑阵列中,从而启用分组模式。使用NoC列,数据可以沿着该列被发送到FPGA架构中的任何位置,以便进一步处理。使用ACE设计工具配置分组模式,可大大简化用户设计,并在处理400 Gbps以太网数据流时提高了效率。 图7:分组模式下的数据总线重排 Packet:数据包 Byte:字节 图8:使用分组模式的400 Gbps以太网 降低逻辑占用并提高整体FPGA性能 与以前的传统FPGA相比,Speedster7t NoC具有更大的灵活性和更简单的设计方法。一个潜在的好处是NoC会自动减少给定设计所需的逻辑量,设计可以使用NoC代替FPGA逻辑阵列来进行模块间布线。ACE设计工具自动管理将设计单元连接到Speedster7t NoC的复杂性,因此设计人员无需编写HDL代码即可实现生产率。这种方法简化了实现时序收敛的耗时挑战,同时又不会由于FPGA逻辑阵列内的布线拥塞而降低整体应用性能。NoC还可以在不牺牲FPGA性能的情况下提高器件利用率,并且可以显着增加可用于计算的查找表(LUT)数量。 为了强调这一优势,我们创建了一个支持二维输入图像卷积的示例设计。每个模块都使用Speedster7t机器学习处理器(MLP)和BRAM模块,每个MLP在一个周期内执行12次int8乘法。将40个二维卷积模块链接在一起,以利用器件中几乎所有可用的BRAM和MLP资源。总共有40个二维卷积示例设计实例并行运行,使用了94%的MLP、97%的BRAM、但仅使用了8%的LUT。在总的可用LUT中,其余92%的LUT仍可被用于其他功能。 随着更多的实例被内置于器件中,单个单元模块的最高频率(FMAX)不会降低。该设计能够保持性能,因为进出每个二维卷积模块的数据可以直接从连接到NoC的NAP访问GDDR6内存,而无需通过FPGA逻辑阵列进行布线。 图9:一个带有40个二维卷积模块实例的Speedster7t器件 结论 Speedster7t NoC实现了FPGA设计过程的根本转变。Achronix是第一家实现二维片上网络(2D NoC)的FPGA公司,该2D NoC可以连接所有的系统接口和FPGA逻辑阵列。这种新型架构使Achronix公司的FPGA特别适用于高带宽应用,同时显著提高了设计人员的生产率。由于NoC管理了FPGA中设计的数据加速器和高速数据接口之间的所有网络功能,因此设计人员只需要设计其数据加速器并将其连接到NAP原语即可。ACE和NoC负责其他所有事务。通过使用NoC,FPGA设计人员将受益于: ·在整个FPGA逻辑阵列中简化高速数据分发 ·自动将PCIe接口连接到存储器 ·在独立的FPGA逻辑阵列模块上实现安全的局部重新配置 ·轻松支持硬件虚拟化 ·简化团队化设计 ·通过独立的接口和逻辑验证加快设计速度 ·采用分组模式简化400 Gbps以太网应用 ·降低逻辑占用并提高整体FPGA性能

    时间:2020-06-03 关键词: 布线结构 achronix FPGA

  • 软件友好型的硬件提供了最大的灵活性,敲开了高性能数据加速的大门

    软件友好型的硬件提供了最大的灵活性,敲开了高性能数据加速的大门

    在云计算和边缘计算中,业界渴求能够支持各种应用的高性能。为了满足这一需求。 亚马逊(Amazon)、Facebook和微软(Microsoft)等超大规模用户采用的第一批加速器都是大幅度定制的设计。这些公司能够在打造自己的板卡设计中确保所需的规模经济,无论是基于自己设计的专用集成电路(ASIC),还是采用现成的FPGA和GPU。从成本和时间的角度来看,对于企业数据中心和边缘计算用户来说,他们难以在这种定制芯片级设计中找到合理的规模。然而,设计定制的ASIC和板卡并不是必需的。对诸如以太网和PCIe等标准接口的需求,不仅使使用标准板卡级产品成为可能,而且也是可取的。 作为一家长期提供硬件加速产品的供应商,BittWare一直在为从高性能计算到云加速到仪器仪表等众多领域内的客户设计采用PCIe尺寸的、基于FPGA的板卡,并在这方面积累了丰富的经验。现在,作为Molex集团的子公司,BittWare能够充分借助其全球供应网络以及与戴尔(Dell)和惠普企业(HP Enterprise)等服务器供应商的深厚关系。BittWare是唯一一家可与多家主流FPGA供应商合作的重要批量化供应商,能够满足企业客户的质量认证、验证、产品生命周期管理和支持需求,这些客户希望为关键任务型应用去大规模部署FPGA加速器。 在这些应用中,BittWare实现的一个重要差异化在于该公司为其基于FPGA的加速器提供了广泛的软件支持。每个加速卡均配有适用于Linux和Windows系统的驱动软件,可通过PCIe和以太网连接将其快速集成到各种系统中。除了支持主CPU和加速卡之间的通信外,该驱动还支持接入加速卡上的嵌入式固件。这个固件可以处理众多管理和自检功能。 它们使FPGA电路能够根据需要的新功能重新进行配置,此外还提供了一些对功耗、电压和温度的监测程序。如果主机系统中的冷却功能失效,那么担任管理者的固件可以关闭加速卡,以避免热过载。此外,软件组合包还包括各种参考设计,以便开发人员能够快速构建配置,使他们可以测试加速卡的功能并开始在其自己的应用上工作。 对于最新一代的加速卡,BittWare与Achronix紧密合作。Achronix是唯一一家能够同时提供独立FPGA芯片和嵌入式FPGA(eFPGA)半导体知识产权(IP)的FPGA供应商。VectorPath™S7t-VG6加速卡使用了Achronix采用7nm 工艺打造的、结合了很多功能的Speedster®7t FPGA芯片,不仅可以在内部提供高吞吐量数据加速,而且还支持现今从机器学习到先进仪器等系统所需的高度分布式、网络化的架构。 图1:VectorPath S7t-VG6加速卡 软件友好型的硬件提供了最大的灵活性 通过对分布式架构提供直接支持,VectorPath S7t-VG6加速卡中使用的Speedster7t FPGA芯片标志着与传统FPGA架构不同的重大转变,它使面向软件的开发人员更容易地构建定制化的处理单元。这种创新的全新架构与诸如英特尔(Intel)和赛灵思(Xilinx)等供应商生产的传统FPGA完全不同,传统FPGA的设计关注点并不在数据加速。 在设计Speedster7t的架构时,Achronix创建了一种可最大限度地提高系统吞吐量的FPGA芯片,同时还为计算机架构师和开发人员提高了易用性。与传统的FPGA架构相比,Speedster7t FPGA芯片的一个关键差异化点在于它包括一个创新的二维片上网络(2D NoC),可以在逻辑阵列内的处理单元与各种片上高速接口和存储器端口之间流传数据。 传统的FPGA要求用户去设计电路来将其加速器连接到高速以太网或PCIe数据端口和/或存储器端口。通常,一个独立系统是由连接到多个高速端口的多个加速器组成。例如,下图就说明了一种场景,其中有两个加速器连接到两个存储端口上,以共享一个存储空间。这种场景使用了FIFO来管理存储器和FPGA时钟之间的时钟域交叉(CDC)。此外,FPGA逻辑架构中还需要一个交换功能来管理寻址、仲裁和反压。在传统的FPGA中,这项功能会消耗大量的FPGA资源,并且其复杂程度足以降低系统性能并使时序收敛变得复杂。 Achronix采用了由软件设计来实现硬件的方法,而这种硬件中的以太网和其他高速I / O端口可用二维片上网络(2D NoC)轻松地连接到定制的加速器功能上。Speedster7t NoC不再需要设计CDC和交换功能来将加速器连接到高速数据或内存端口。通过简单地将这些功能连接到NoC,就消除了连接方面的难题,从而简化了设计,减少了FPGA资源的消耗,提高了性能并简化了时序收敛。 图2:传统FPGA设计面临的挑战 图3:Speedster7t二维片上网络支持软件友好型硬件 为了实现高性能的算术运算,每个Speedster7t器件都具有一个大型可编程计算单元阵列,它们被有序地放置在机器学习处理器(MLP)单元模块中。MLP是一个高度可配置的计算密集型单元模块,在每个周期内可支持多达32个乘法/累加(MAC)运算。在以加速器为中心的设计中,MLP的存在使得在完全可编程逻辑和硬连线算术单元之间能够有效地共享资源。 尽管有些FPGA倾向于使用HBM2存储器,其中FPGA和存储器被组装成一个昂贵的2.5D封装,而Speedster7t系列却采用GDDR6内存标准接口。这种接口提供了当今片外存储器可实现的最高性能,并且成本显著降低,从而使团队更容易去实现带有高带宽存储阵列的加速器。一个GDDR6存储控制器可以支持512 Gbps的带宽。VectorPath S7t-VG6加速卡可提供八组存储器,总存储带宽可以达到4 Tbps。此外,板上还有一个DDR4接口,可用于访问频率较低或不需要GDDR6吞吐量的数据。 VectorPath S7t-VG6加速卡提供了许多高性能接口,用来支持分布式架构和高速主机通信。现在,该加速卡提供了PCIe Gen 3.0的16通道合规性和认证,并提供获取Gen 4和Gen 5资质认证的途径。在以太网连接方面,该加速卡采用已获得广泛支持的光学接口模块,依据QSFP-DD和QSFP56标准,能够处理高达400 Gbps的超高线速。 在加速卡的另一端还有一个OCuLink扩展端口,以支持很多其他的低延迟应用场景。例如,OCuLink端口可用于将加速卡连接到各种外围设备上,比如用于计算存储或数据库加速应用的NVMe存储阵列。与采用连接到主处理器的PCIe接口相比,OCuLink连接能够成为一个更好的选择,因为它提供了一种消除了系统级延迟和抖动的高确定性的连接。OCuLink端口还可以引入其他网络连接,从而可扩展实现QSPF-DD或QSFP56之外的各种端口规格。 图4:VectorPath的网络和存储接口 在VectorPath S7t-VG6加速卡的前面板上还包括多个时钟输入,它们是在将多个加速卡同步到一起时通常需要的。两个SMB时钟输入连接器支持从1PPS和10 MHz的时钟输入,它们在进入FPGA之前,就已被连接到抖动清除器。一旦进入FPGA,这些时钟就可以被倍频或分频成为特定应用所需的频率。 还可以通过通用数字I / O端头进行进一步扩展。该I / O端口支持单端3.3V连接和低电压差分(LVDS)信号,支持外部时钟、触发器和专用I / O等自定义信号直接连接到Speedster7t FPGA。该扩展端口还可用于将VectorPath加速卡改造为传统硬件。 图5:VectorPath时钟输入和GPIO 适用于小批量和大批量需求 VectorPath S7t-VG6加速卡已考虑到了每个细节,例如可支持被动和主动空气散热和液体散热。此外,BittWare和Achronix还为医疗等需要更长产品生命周期的领域确保提供长期的供应与支持。在这些市场中,基于GPU的PCIe加速卡较短的产品生命周期与超过10年的系统服务支持需求是不符的。 对于更大批量需求,特别是在边缘计算等场景中,客户可以使用BittWare的成本降低计划来简化硬件,其设计仅仅支持客户所需的I / O选项。此外,BittWare也可提供电路板设计文件以及VectorPath S7t-VG6加速卡随附的软件和驱动器的使用。利用Achronix的Speedcore eFPGA IP,也可以走向定制系统级芯片(SoC)器件。客户可以构建自己其中包括Speedster7t可编程性的SoC,但又具有ASIC的成本结构。 为了实现更好的开发和更便捷的部署,VectorPath S7t-VG6加速卡可以由BittWare以其TeraBox平台的形式来提供预先集成的多核服务器。外形从2U到5U,TeraBox的机架式机箱最多可容纳16个BittWare PCIe加速卡,并由双路英特尔(Intel) Xeon处理器管理。作为一个完整的解决方案,TeraBox为客户提供了启动和运行FPGA开发的最快机制。在Bittworks II和FPGA Devkit软件的支持下,用户可以直接使用TeraBox并立即开始开发工作。或者,客户也可以从Dell和HP Enterprise购买包含BittWare加速卡的预配置服务器。 图6:TeraBox平台的部署

    时间:2020-03-22 关键词: bittware achronix

  • 硬件提供打开数据加速大门的钥匙

    硬件提供打开数据加速大门的钥匙

    日益增长的分布式加速需求 在云计算和边缘计算中,业界渴求能够支持各种应用的高性能。为了满足这一需求,数据中心、网络集群和边缘计算站点的运营商正在转向定制化的加速器技术。 对于需要高性能计算平台的用户,专用加速器在实践中被常用来应对各种挑战;这些用户不再依靠诸如Intel Xeon系列CPU这样的传统通用CPU来支持数据吞吐量不断增长这一需求。通用CPU的核心问题在于,尽管摩尔定律一直在以大约每两年就会使每平方毫米硅片中集成的晶体管数量增加一倍的速度演进,但它不再支持时钟速率的增长。此外,CPU内的并行性很快达到了天花板。因此,其他技术更适合支持新型工作负载,包括如机器学习、基因组研究、数学和统计分析、语音和图像识别以及数据挖掘和搜索。 与传统由数据库驱动的应用相比,这些新的工作负载通常无法很好地映射到传统CPU流水线上;例如一些神经网络的训练已被验证可以在GPU上运行良好,这些算法可以利用数百个并行浮点着色器内核通过所需的数万亿个步骤来迭代更新一个大型网络。另一方面,基因组研究和数据搜索需要利用大量的对比步骤,并需处理低分辨率的整数数据。尽管这些工作负载可以利用CPU或GPU来完成处理,但是在这些平台上运行时,这些任务的计算效率和能效相对较低。自定义的基于ASIC或FPGA的加速器能够以更低的功耗提供更大的吞吐量,这是因为它们支持设计人员去构建针对这些操作和数据类型进行优化的专用电路。 互联网搜索和社交媒体等领域内的超大规模数据中心运营商已采用加速器概念来保障其服务器载荷的高效运转。语音响应系统现在已经被用于日常生活中,并得到了运行在传统刀片服务器与自定义加速器组合上的人工智能算法的支持。随着对这些基于机器学习和数据挖掘等技术的应用的需求不断增长,大量的企业用户正在转向基于加速器的方案,以使他们自己能跟上需求的步伐。据研究机构Research and Markets的分析预测,仅数据中心加速器这一市场的规模,就将从2018年的28亿美元增长到2023年的212亿美元,复合年增长率接近50%。 在这种增长之外,加速器的应用还注定将扩展到数据中心之外。诸如虚拟现实、自动驾驶、机器人技术和工业4.0等领域无法忍受信息在经过远程数据中心中继后带来的电信延迟。越来越多的计算能力将需要被部署在边缘计算机架中,而被安装于路边机柜中、移动基站旁或校园柜子内。 在各种数据中心和边缘计算用例中,有诸多常见的需求驱动因素,比如能效,快速转型,以及可扩展性。能效是降低冷却成本和复杂性以及将电费花销降到最低的核心要求。低功耗操作在边缘计算装置中至关重要,因为其中的环境温度的控制功能较弱,并且还需将维护的需求保持在最低限度。 在许多领域中,快速转型是不可避免的,并会创造新的需求,以便在变化出现时能够根据要求对应用进行调整和再加工。它不仅仅是对现有应用的更新;通常,新的用例在出现时,都会挑战用户及时做出反应的能力。而这些用例可能需要开发将不同的技术和概念结合在一起的应用,例如将人工智能(AI)功能添加到数学建模和数据挖掘系统中。为了应对这些转型,用户需要调用可以很好地进行协同工作的加速器技术,并且各个组件可以通过网络连接来进行高速通信。 可扩展性同样重要。随着面向特定服务的客户群不断增长,运营商需要知道他们能够轻松地增加容量。同样至关重要的是,具有高效通信能力的高度可编程解决方案通过增加并行性来支持其扩展能力。对诸如100 Gbps以太网和更快的链路等协议的支持,可确保能够使用分布式处理去适应增长。例如,边缘应用可能会调用云支持,直到本地机柜升级到具有额外的处理能力。 用于加速的硬件平台 加速器的硬件可以有多种形式。理想的配置是提供PCI Express(PCIe)和高速以太网连接的组合,并可以选择添加自定义连接以支持诸如环形、网状和菊花链结构等各种拓扑结构,以满足应用的各种数据吞吐量需求。对PCIe的支持通过内存映射接口将加速引擎与主处理器和其他加速器紧密集成。能够在诸如PCIe之类的接口上存储共享结构来交换数据,就可以极大地简化分布式应用的开发。 以100 Gbps或更高速率运行的以太网连接进一步提供了扩展范围。通过使用它们自有的以太网端口,而不是通过主机的主网络接口来路由数据包,加速器可以彼此间高效地相互协调。例如,在一个分布式存储配置中,加速卡可以被直接连接到嵌入式非易失性存储器(NVMe)模块上,每个模块中的独立搜索引擎使用通过其以太网连接发送的消息,来识别分散在多个节点上的数据,从而可以很容易地进行协调。 无论是作为主要的加速技术还是与GPU和其他技术配合使用,FPGA都非常适合数据中心和边缘计算应用的需求。FPGA的一个关键优势是可以在系统中来对其进行编程,以创建各种各样的数字电路。软件可以为目标应用选择配置比特流,并将其发送以配置FPGA。通过将新模式加载到器件上的逻辑阵列中,FPGA可以根据需要进行动态更新以承担新的任务。可编程性创建了由软件定义的硬件,从而完全支持用户不仅能够动态更改应用,还可以动态更改支持它们运行的硬件。将硬件可编程性与连接多个加速器的能力相结合,为用户提供了极大的灵活性。 许多计算类用户已经意识到FPGA在加速应用中的强大功能。例如,微软的Catapult项目使用FPGA为其搜索服务构建加速器,并且在其BrainWave项目中使用FPGA进行高速人工智能推理。亚马逊通过其F1服务提供了可在云端使用的FPGA,这使得到远程用户可以容易地部署这项技术。 在其他领域选择使用FPGA加速也已有一些时间。例如, FPGA逻辑阵列多年来一直被用于军事和航空航天领域的雷达处理,以及医学领域的实时成像。随着工业领域接受了实时机器设备健康监测等概念,以作为迈向工业4.0的一部分,用户可以转向使用FPGA来提高其算法的质量和响应能力。 相对于使用GPU来进行数据加速,采用FPGA的实现方式通常受益于较低的延迟和更高的能效。GPU的一个关键问题是:它们的计算效率通常只是其理论吞吐量的一小部分。因为GPU针对3D图形渲染流水线进行了优化,基于数据高度重用的执行流水线设计,导致着色器内核往往会在相对较小的本地存储以外运行。数据流式工作负载提供的数据重用机会更少,这就意味着需要更频繁地用新数据来填充存储器,而这会影响处理时间。CPU中面向缓存的子系统也同样受制于类似的问题。FPGA可以实现数据自由流动的完整流水线,因此可以提供了远远高于GPU或者CPU的计算效率。例如,基因组研究应用的基准测试表明,与基于CPU的实现方式相比,基于FPGA的硬件可将速度提高80倍。 在高性能计算和云计算环境中,架构师正在转向FPGA加速以避开系统中其他部分出现的瓶颈。通过将更多工作移交给存储子系统本身,数据中心用户可以在效率上得到大幅提升。数据库加速、数据分析和其他适用于计算型存储的处理形式可以与加密、去重复数据和安全擦除编码等低层级服务功能一起被部署在加速器上。 随着诸如软件定义网络(SDN)和网络功能虚拟化(NFV)等概念的流行,刀片服务器在数据中心内部和数据中心之间的通信管理任务中正发挥着更为重要的作用。但是,随着线速增加到100 Gbps甚至更高,Xeon级服务器处理器的处理负担是非常巨大的,数据中心运营商热衷于将许多SDN功能的处理工作卸载到附近的加速卡上。在新兴的架构中,通用服务器CPU被用于处理异常事件,而同时加速器则负责处理大量的网络流量。当新的需求、应用和安全威胁出现时,FPGA能够更新算法和网络协议处理,从而使它们成为网络加速的理想基础平台。 实施有效加速 被亚马逊(Amazon)、Facebook和微软(Microsoft)等超大规模用户采用的第一批加速器都是大幅度定制的设计。这些公司能够在打造自己的板卡设计中确保所需的规模经济,无论是基于自己设计的专用集成电路(ASIC),还是采用现成的FPGA和GPU。从成本和时间的角度来看,对于企业数据中心和边缘计算用户来说,他们难以在这种定制芯片级设计中找到合理的规模。然而,设计定制的ASIC和板卡并不是必需的。对诸如以太网和PCIe等标准接口的需求,不仅使使用标准板卡级产品成为可能,而且也是可取的。 作为一家长期提供硬件加速产品的供应商,BittWare一直在为从高性能计算到云加速到仪器仪表等众多领域内的客户设计采用PCIe尺寸的、基于FPGA的板卡,并在这方面积累了丰富的经验。现在,作为Molex集团的子公司,BittWare能够充分借助其全球供应网络以及与戴尔(Dell)和惠普企业(HP Enterprise)等服务器供应商的深厚关系。BittWare是唯一一家可与多家主流FPGA供应商合作的重要批量化供应商,能够满足企业客户的质量认证、验证、产品生命周期管理和支持需求,这些客户希望为关键任务型应用去大规模部署FPGA加速器。 在这些应用中,BittWare实现的一个重要差异化在于该公司为其基于FPGA的加速器提供了广泛的软件支持。每个加速卡均配有适用于Linux和Windows系统的驱动软件,可通过PCIe和以太网连接将其快速集成到各种系统中。除了支持主CPU和加速卡之间的通信外,该驱动还支持接入加速卡上的嵌入式固件。这个固件可以处理众多管理和自检功能。 它们使FPGA电路能够根据需要的新功能重新进行配置,此外还提供了一些对功耗、电压和温度的监测程序。如果主机系统中的冷却功能失效,那么担任管理者的固件可以关闭加速卡,以避免热过载。此外,软件组合包还包括各种参考设计,以便开发人员能够快速构建配置,使他们可以测试加速卡的功能并开始在其自己的应用上工作。 对于最新一代的加速卡,BittWare与Achronix紧密合作。Achronix是唯一一家能够同时提供独立FPGA芯片和嵌入式FPGA(eFPGA)半导体知识产权(IP)的FPGA供应商。VectorPath™S7t-VG6加速卡使用了Achronix采用7nm 工艺打造的、结合了很多功能的Speedster®7t FPGA芯片,不仅可以在内部提供高吞吐量数据加速,而且还支持现今从机器学习到先进仪器等系统所需的高度分布式、网络化的架构。

    时间:2020-03-20 关键词: achronix

  • Achronix白皮书

    Achronix白皮书

    本文概要 在众多的行业中,数据加速是构建高效、智能系统的关键之处。传统的通用处理器在支持用户去突破性能和延迟限制方面性能不足。而已经出现的许多加速器技术填补了基于定制芯片、图形处理器或动态可重构硬件的空白,但其成功的关键在于它们能够集成到一个以高吞吐量、低延迟和易于开发为首要条件的环境之中。由Achronix和BittWare联合开发的板级平台已针对这些应用进行了优化,从而为开发人员提供了一条可部署高吞吐量数据加速的快捷途径。 日益增长的分布式加速需求 在云计算和边缘计算中,业界渴求能够支持各种应用的高性能。为了满足这一需求,数据中心、网络集群和边缘计算站点的运营商正在转向定制化的加速器技术。 对于需要高性能计算平台的用户,专用加速器在实践中被常用来应对各种挑战;这些用户不再依靠诸如Intel Xeon系列CPU这样的传统通用CPU来支持数据吞吐量不断增长这一需求。通用CPU的核心问题在于,尽管摩尔定律一直在以大约每两年就会使每平方毫米硅片中集成的晶体管数量增加一倍的速度演进,但它不再支持时钟速率的增长。此外,CPU内的并行性很快达到了天花板。因此,其他技术更适合支持新型工作负载,包括如机器学习、基因组研究、数学和统计分析、语音和图像识别以及数据挖掘和搜索。 与传统由数据库驱动的应用相比,这些新的工作负载通常无法很好地映射到传统CPU流水线上;例如一些神经网络的训练已被验证可以在GPU上运行良好,这些算法可以利用数百个并行浮点着色器内核通过所需的数万亿个步骤来迭代更新一个大型网络。另一方面,基因组研究和数据搜索需要利用大量的对比步骤,并需处理低分辨率的整数数据。尽管这些工作负载可以利用CPU或GPU来完成处理,但是在这些平台上运行时,这些任务的计算效率和能效相对较低。自定义的基于ASIC或FPGA的加速器能够以更低的功耗提供更大的吞吐量,这是因为它们支持设计人员去构建针对这些操作和数据类型进行优化的专用电路。 互联网搜索和社交媒体等领域内的超大规模数据中心运营商已采用加速器概念来保障其服务器载荷的高效运转。语音响应系统现在已经被用于日常生活中,并得到了运行在传统刀片服务器与自定义加速器组合上的人工智能算法的支持。随着对这些基于机器学习和数据挖掘等技术的应用的需求不断增长,大量的企业用户正在转向基于加速器的方案,以使他们自己能跟上需求的步伐。据研究机构Research and Markets的分析预测,仅数据中心加速器这一市场的规模,就将从2018年的28亿美元增长到2023年的212亿美元,复合年增长率接近50%。 在这种增长之外,加速器的应用还注定将扩展到数据中心之外。诸如虚拟现实、自动驾驶、机器人技术和工业4.0等领域无法忍受信息在经过远程数据中心中继后带来的电信延迟。越来越多的计算能力将需要被部署在边缘计算机架中,而被安装于路边机柜中、移动基站旁或校园柜子内。 在各种数据中心和边缘计算用例中,有诸多常见的需求驱动因素,比如能效,快速转型,以及可扩展性。能效是降低冷却成本和复杂性以及将电费花销降到最低的核心要求。低功耗操作在边缘计算装置中至关重要,因为其中的环境温度的控制功能较弱,并且还需将维护的需求保持在最低限度。 在许多领域中,快速转型是不可避免的,并会创造新的需求,以便在变化出现时能够根据要求对应用进行调整和再加工。它不仅仅是对现有应用的更新;通常,新的用例在出现时,都会挑战用户及时做出反应的能力。而这些用例可能需要开发将不同的技术和概念结合在一起的应用,例如将人工智能(AI)功能添加到数学建模和数据挖掘系统中。为了应对这些转型,用户需要调用可以很好地进行协同工作的加速器技术,并且各个组件可以通过网络连接来进行高速通信。 可扩展性同样重要。随着面向特定服务的客户群不断增长,运营商需要知道他们能够轻松地增加容量。同样至关重要的是,具有高效通信能力的高度可编程解决方案通过增加并行性来支持其扩展能力。对诸如100 Gbps以太网和更快的链路等协议的支持,可确保能够使用分布式处理去适应增长。例如,边缘应用可能会调用云支持,直到本地机柜升级到具有额外的处理能力。 用于加速的硬件平台 加速器的硬件可以有多种形式。理想的配置是提供PCI Express(PCIe)和高速以太网连接的组合,并可以选择添加自定义连接以支持诸如环形、网状和菊花链结构等各种拓扑结构,以满足应用的各种数据吞吐量需求。对PCIe的支持通过内存映射接口将加速引擎与主处理器和其他加速器紧密集成。能够在诸如PCIe之类的接口上存储共享结构来交换数据,就可以极大地简化分布式应用的开发。 以100 Gbps或更高速率运行的以太网连接进一步提供了扩展范围。通过使用它们自有的以太网端口,而不是通过主机的主网络接口来路由数据包,加速器可以彼此间高效地相互协调。例如,在一个分布式存储配置中,加速卡可以被直接连接到嵌入式非易失性存储器(NVMe)模块上,每个模块中的独立搜索引擎使用通过其以太网连接发送的消息,来识别分散在多个节点上的数据,从而可以很容易地进行协调。 无论是作为主要的加速技术还是与GPU和其他技术配合使用,FPGA都非常适合数据中心和边缘计算应用的需求。FPGA的一个关键优势是可以在系统中来对其进行编程,以创建各种各样的数字电路。软件可以为目标应用选择配置比特流,并将其发送以配置FPGA。通过将新模式加载到器件上的逻辑阵列中,FPGA可以根据需要进行动态更新以承担新的任务。可编程性创建了由软件定义的硬件,从而完全支持用户不仅能够动态更改应用,还可以动态更改支持它们运行的硬件。将硬件可编程性与连接多个加速器的能力相结合,为用户提供了极大的灵活性。 许多计算类用户已经意识到FPGA在加速应用中的强大功能。例如,微软的Catapult项目使用FPGA为其搜索服务构建加速器,并且在其BrainWave项目中使用FPGA进行高速人工智能推理。亚马逊通过其F1服务提供了可在云端使用的FPGA,这使得到远程用户可以容易地部署这项技术。 在其他领域选择使用FPGA加速也已有一些时间。例如, FPGA逻辑阵列多年来一直被用于军事和航空航天领域的雷达处理,以及医学领域的实时成像。随着工业领域接受了实时机器设备健康监测等概念,以作为迈向工业4.0的一部分,用户可以转向使用FPGA来提高其算法的质量和响应能力。 相对于使用GPU来进行数据加速,采用FPGA的实现方式通常受益于较低的延迟和更高的能效。GPU的一个关键问题是:它们的计算效率通常只是其理论吞吐量的一小部分。因为GPU针对3D图形渲染流水线进行了优化,基于数据高度重用的执行流水线设计,导致着色器内核往往会在相对较小的本地存储以外运行。数据流式工作负载提供的数据重用机会更少,这就意味着需要更频繁地用新数据来填充存储器,而这会影响处理时间。CPU中面向缓存的子系统也同样受制于类似的问题。FPGA可以实现数据自由流动的完整流水线,因此可以提供了远远高于GPU或者CPU的计算效率。例如,基因组研究应用的基准测试表明,与基于CPU的实现方式相比,基于FPGA的硬件可将速度提高80倍。 在高性能计算和云计算环境中,架构师正在转向FPGA加速以避开系统中其他部分出现的瓶颈。通过将更多工作移交给存储子系统本身,数据中心用户可以在效率上得到大幅提升。数据库加速、数据分析和其他适用于计算型存储的处理形式可以与加密、去重复数据和安全擦除编码等低层级服务功能一起被部署在加速器上。 随着诸如软件定义网络(SDN)和网络功能虚拟化(NFV)等概念的流行,刀片服务器在数据中心内部和数据中心之间的通信管理任务中正发挥着更为重要的作用。但是,随着线速增加到100 Gbps甚至更高,Xeon级服务器处理器的处理负担是非常巨大的,数据中心运营商热衷于将许多SDN功能的处理工作卸载到附近的加速卡上。在新兴的架构中,通用服务器CPU被用于处理异常事件,而同时加速器则负责处理大量的网络流量。当新的需求、应用和安全威胁出现时,FPGA能够更新算法和网络协议处理,从而使它们成为网络加速的理想基础平台。 实施有效加速 被亚马逊(Amazon)、Facebook和微软(Microsoft)等超大规模用户采用的第一批加速器都是大幅度定制的设计。这些公司能够在打造自己的板卡设计中确保所需的规模经济,无论是基于自己设计的专用集成电路(ASIC),还是采用现成的FPGA和GPU。从成本和时间的角度来看,对于企业数据中心和边缘计算用户来说,他们难以在这种定制芯片级设计中找到合理的规模。然而,设计定制的ASIC和板卡并不是必需的。对诸如以太网和PCIe等标准接口的需求,不仅使使用标准板卡级产品成为可能,而且也是可取的。 作为一家长期提供硬件加速产品的供应商,BittWare一直在为从高性能计算到云加速到仪器仪表等众多领域内的客户设计采用PCIe尺寸的、基于FPGA的板卡,并在这方面积累了丰富的经验。现在,作为Molex集团的子公司,BittWare能够充分借助其全球供应网络以及与戴尔(Dell)和惠普企业(HP Enterprise)等服务器供应商的深厚关系。BittWare是唯一一家可与多家主流FPGA供应商合作的重要批量化供应商,能够满足企业客户的质量认证、验证、产品生命周期管理和支持需求,这些客户希望为关键任务型应用去大规模部署FPGA加速器。 在这些应用中,BittWare实现的一个重要差异化在于该公司为其基于FPGA的加速器提供了广泛的软件支持。每个加速卡均配有适用于Linux和Windows系统的驱动软件,可通过PCIe和以太网连接将其快速集成到各种系统中。除了支持主CPU和加速卡之间的通信外,该驱动还支持接入加速卡上的嵌入式固件。这个固件可以处理众多管理和自检功能。 它们使FPGA电路能够根据需要的新功能重新进行配置,此外还提供了一些对功耗、电压和温度的监测程序。如果主机系统中的冷却功能失效,那么担任管理者的固件可以关闭加速卡,以避免热过载。此外,软件组合包还包括各种参考设计,以便开发人员能够快速构建配置,使他们可以测试加速卡的功能并开始在其自己的应用上工作。 对于最新一代的加速卡,BittWare与Achronix紧密合作。Achronix是唯一一家能够同时提供独立FPGA芯片和嵌入式FPGA(eFPGA)半导体知识产权(IP)的FPGA供应商。VectorPath™S7t-VG6加速卡使用了Achronix采用7nm 工艺打造的、结合了很多功能的Speedster®7t FPGA芯片,不仅可以在内部提供高吞吐量数据加速,而且还支持现今从机器学习到先进仪器等系统所需的高度分布式、网络化的架构。 图1:VectorPath S7t-VG6加速卡 软件友好型的硬件提供了最大的灵活性 通过对分布式架构提供直接支持,VectorPath S7t-VG6加速卡中使用的Speedster7t FPGA芯片标志着与传统FPGA架构不同的重大转变,它使面向软件的开发人员更容易地构建定制化的处理单元。这种创新的全新架构与诸如英特尔(Intel)和赛灵思(Xilinx)等供应商生产的传统FPGA完全不同,传统FPGA的设计关注点并不在数据加速。 在设计Speedster7t的架构时,Achronix创建了一种可最大限度地提高系统吞吐量的FPGA芯片,同时还为计算机架构师和开发人员提高了易用性。与传统的FPGA架构相比,Speedster7t FPGA芯片的一个关键差异化点在于它包括一个创新的二维片上网络(2D NoC),可以在逻辑阵列内的处理单元与各种片上高速接口和存储器端口之间流传数据。 传统的FPGA要求用户去设计电路来将其加速器连接到高速以太网或PCIe数据端口和/或存储器端口。通常,一个独立系统是由连接到多个高速端口的多个加速器组成。例如,下图就说明了一种场景,其中有两个加速器连接到两个存储端口上,以共享一个存储空间。这种场景使用了FIFO来管理存储器和FPGA时钟之间的时钟域交叉(CDC)。此外,FPGA逻辑架构中还需要一个交换功能来管理寻址、仲裁和反压。在传统的FPGA中,这项功能会消耗大量的FPGA资源,并且其复杂程度足以降低系统性能并使时序收敛变得复杂。 Achronix采用了由软件设计来实现硬件的方法,而这种硬件中的以太网和其他高速I / O端口可用二维片上网络(2D NoC)轻松地连接到定制的加速器功能上。Speedster7t NoC不再需要设计CDC和交换功能来将加速器连接到高速数据或内存端口。通过简单地将这些功能连接到NoC,就消除了连接方面的难题,从而简化了设计,减少了FPGA资源的消耗,提高了性能并简化了时序收敛。 图2:传统FPGA设计面临的挑战 图3:Speedster7t二维片上网络支持软件友好型硬件 为了实现高性能的算术运算,每个Speedster7t器件都具有一个大型可编程计算单元阵列,它们被有序地放置在机器学习处理器(MLP)单元模块中。MLP是一个高度可配置的计算密集型单元模块,在每个周期内可支持多达32个乘法/累加(MAC)运算。在以加速器为中心的设计中,MLP的存在使得在完全可编程逻辑和硬连线算术单元之间能够有效地共享资源。 尽管有些FPGA倾向于使用HBM2存储器,其中FPGA和存储器被组装成一个昂贵的2.5D封装,而Speedster7t系列却采用GDDR6内存标准接口。这种接口提供了当今片外存储器可实现的最高性能,并且成本显著降低,从而使团队更容易去实现带有高带宽存储阵列的加速器。一个GDDR6存储控制器可以支持512 Gbps的带宽。VectorPath S7t-VG6加速卡可提供八组存储器,总存储带宽可以达到4 Tbps。此外,板上还有一个DDR4接口,可用于访问频率较低或不需要GDDR6吞吐量的数据。 VectorPath S7t-VG6加速卡提供了许多高性能接口,用来支持分布式架构和高速主机通信。现在,该加速卡提供了PCIe Gen 3.0的16通道合规性和认证,并提供获取Gen 4和Gen 5资质认证的途径。在以太网连接方面,该加速卡采用已获得广泛支持的光学接口模块,依据QSFP-DD和QSFP56标准,能够处理高达400 Gbps的超高线速。 在加速卡的另一端还有一个OCuLink扩展端口,以支持很多其他的低延迟应用场景。例如,OCuLink端口可用于将加速卡连接到各种外围设备上,比如用于计算存储或数据库加速应用的NVMe存储阵列。与采用连接到主处理器的PCIe接口相比,OCuLink连接能够成为一个更好的选择,因为它提供了一种消除了系统级延迟和抖动的高确定性的连接。OCuLink端口还可以引入其他网络连接,从而可扩展实现QSPF-DD或QSFP56之外的各种端口规格。 图4:VectorPath的网络和存储接口 在VectorPath S7t-VG6加速卡的前面板上还包括多个时钟输入,它们是在将多个加速卡同步到一起时通常需要的。两个SMB时钟输入连接器支持从1PPS和10 MHz的时钟输入,它们在进入FPGA之前,就已被连接到抖动清除器。一旦进入FPGA,这些时钟就可以被倍频或分频成为特定应用所需的频率。 还可以通过通用数字I / O端头进行进一步扩展。该I / O端口支持单端3.3V连接和低电压差分(LVDS)信号,支持外部时钟、触发器和专用I / O等自定义信号直接连接到Speedster7t FPGA。该扩展端口还可用于将VectorPath加速卡改造为传统硬件。 图5:VectorPath时钟输入和GPIO 适用于小批量和大批量需求 VectorPath S7t-VG6加速卡已考虑到了每个细节,例如可支持被动和主动空气散热和液体散热。此外,BittWare和Achronix还为医疗等需要更长产品生命周期的领域确保提供长期的供应与支持。在这些市场中,基于GPU的PCIe加速卡较短的产品生命周期与超过10年的系统服务支持需求是不符的。 对于更大批量需求,特别是在边缘计算等场景中,客户可以使用BittWare的成本降低计划来简化硬件,其设计仅仅支持客户所需的I / O选项。此外,BittWare也可提供电路板设计文件以及VectorPath S7t-VG6加速卡随附的软件和驱动器的使用。利用Achronix的Speedcore eFPGA IP,也可以走向定制系统级芯片(SoC)器件。客户可以构建自己其中包括Speedster7t可编程性的SoC,但又具有ASIC的成本结构。 为了实现更好的开发和更便捷的部署,VectorPath S7t-VG6加速卡可以由BittWare以其TeraBox平台的形式来提供预先集成的多核服务器。外形从2U到5U,TeraBox的机架式机箱最多可容纳16个BittWare PCIe加速卡,并由双路英特尔(Intel) Xeon处理器管理。作为一个完整的解决方案,TeraBox为客户提供了启动和运行FPGA开发的最快机制。在Bittworks II和FPGA Devkit软件的支持下,用户可以直接使用TeraBox并立即开始开发工作。或者,客户也可以从Dell和HP Enterprise购买包含BittWare加速卡的预配置服务器。 图6:TeraBox平台的部署 结论 考虑到用户需要在多种多样的应用中寻求数据加速功能,BittWare和Achronix已经创建了一种高度灵活的引擎,无论它们是被单独使用,还是作为大型异构处理阵列中的一部分,都可以被轻松部署。作为该加速卡的核心芯片,Speedster7t FPGA为开发人员提供了构建高吞吐量应用的能力,这些应用可以充分利用可编程逻辑、PCIe以及高达400 Gbps的以太网连接。BittWare的软件和支持保证了这些开发人员在插入卡后就可以立即开始工作。FPGA和Speedster7t NoC的灵活特性意味着:随着应用的变化和发展,这些加速卡可以最大限度地延长其使用寿命。

    时间:2020-03-20 关键词: 分布式 数据加速 achronix

  • 将GDDR6的优势从图形计算扩展至高性能网络应用

    将GDDR6的优势从图形计算扩展至高性能网络应用

    将GDDR6的优势从图形计算扩展至高性能网络应用作者:Achronix资深现场应用工程师  袁光(Kevin Yuan)Achronix Speedster7t FPGA如何运用GDDR6满足下一代网络产品的高带宽需求简介:随着网络和数据中心带宽需求的日益提升,针对高性能内存解决方案的需求也是水涨船高。对于超过 400 Gbps 的系统开发,以经济高效的方式实现内存方案的性能和效率已经成为项目中的重要挑战之一。1. 概述随着网络和数据中心带宽需求的日益提升,针对高性能内存解决方案的需求也是水涨船高。对于超过 400 Gbps 的系统开发,以经济高效的方式实现内存方案的性能和效率已经成为项目中的重要挑战之一。图形双数据速率 (GDDR) 内存最初是为了满足游戏机和PC的高性能图形计算需求而开发的,自2008年面市至今历经十余载,已经在市场中久经考验,如今也正被应用于网络和数据中心领域等其他领域,为产品提供低风险、灵活而又经济高效内存解决方案。在接下来的章节中,本文将首先分享推动这些高带宽和高性能需求的网络行业宏观趋势,然后讨论GDDR6如何以比当今任何其他高带宽内存解决方案更好地满足这些需求,最后介绍Achronix Speedster7t FPGA产品中的GDDR6控制器。我们将会陆续推出关于GDDR6其他有用知识的系列文章,比如GDDR6构架和基本使用方法,存取带宽与延迟的性能测评,网络应用参考设计,以及如何应对GDDR6系统级设计中的信号完整性挑战,敬请关注。2. 网络行业趋势思科在2019年发布的可视化网络指数(Visual Networking Index)报告[1]称,2017 年全球互联网IP流量月均为 122 EB (1018 Bytes),预计 到2022 年将增加到 396 EB,复合年增长率 (CAGR) 为 26%,这一趋势大部分与大数据的兴起和不断增长的视频流量有关。图 1:全球互联网IP流量预测(Cisco VNI 2017-2022)[1]同一研究[1]预测,智能手机和平板电脑等接入设备的数量将从 2017 年的 180 亿台增长到 2022 年的 285 多亿台设备(图 2),届时人均所拥有的网络接入设备数量将达到 3.6台。得益于5G以及物联网(IoT)的发展,2022年总连接节点数量中M2M设备的数量将超过50%。图 2:需要连接的网络设备(Cisco VNI 2017-2022)[1]3. 是什么在推动网络需求?几个重要领域的增长正在推动网络行业中这些前所未有的需求:• 移动数据和互联网视频:通过互联网按需访问数据和高清视频的需求不断增加。(此处不包含非按需的网络访问,比如占据全网流量25%以上的DDoS攻击)• 物联网 (IoT): 物联网正在增加必须访问网络的设备数量,如可穿戴设备、智能家电和汽车。• 云服务:无数企业正在将其服务迁移到云中,云端的创新业务也在不断的增加。• 大数据分析:要使复杂网络的所有部分都高效运行,网络中的边缘设备必须通过智能的数据分析,来更好、更快地了解其携带的数据。总之,更多的用户、更多的设备、更大的屏幕,以及更多样的云端服务正在推动 IP 流量呈指数级增长。在增长没有放缓迹象的情况下,我们如何设计产品以满足这些要求?4. 为什么使用GDDR6?原因1:极佳的性能如今,GDDR6的密度已经做到16Gbits,与最高容量的 DDR4 内存芯片一致。GDDR6 器件的带宽高达512Gb/s,是DDR4 的 10 倍。在未来,GDDR6将按照标准向更高容量更快速度演进。GDDR6的这些优势,使其成为满足现代网络需求的理想选择。图3: DDR vs. GDDR 容量比较 [2]图4: DDR vs. GDDR 带宽比较 [2]原因2:降低总拥有成本在考虑总拥有成本 (TCO) 时,请务必考虑设计的所有方面。图 5 比较了三种不同的方法,以满足 1Tb 交换应用程序的需求。如图所示,相对于DDR4,采用GDDR6 不仅可以将设计复杂性降低80%,还可以减少 82% 的PCB面积占用,并将能效提高 44%。图5: 各种主流内存方案的总拥有成本(TCO)比较 [2]原因3:轻松设计如果您已经熟悉传统的DDR 设计,则使用 GDDR 内存进行设计将是一种熟悉的低风险体验。对逻辑工程师和软件工程师来说,GDDR6 与传统DDR技术使用的方法类似,Speedster7t FPGA 所内建的GDDR6控制器进一步简化了设计。对于硬件工程师来说,GDDR6 的高速单端SerDes信号管脚与DDR的低速信号管脚的设计规则区别较大,Achronix将提供高速信号设计手册以及参考设计,帮助客户低风险地从DDR迁移到GDDR6。如果您已经熟悉GDDR5设计,那么过渡至GDDR6将是非常顺滑的设计体验。GDDR6 和 GDDR5 之间的主要区别与封装和引脚相关,遵循相同的设计实践。 5. Achronix Speedster7t FPGA产品中的GDDR6控制器Achronix 半导体的 Speedster7t FPGA 系列针对高带宽工作负载进行了优化,消除了与传统 FPGA 相关的性能瓶颈。Speedster7t FPGA 基于台积电的 7nm FinFET 工艺技术,采用革命性的新型 2D 片上网络 (NoC)和独创的机器学习处理器 (MLP)矩阵,并利用高带宽 GDDR6 接口、400G 以太网和 PCI Express Gen5 端口等IP,可提供 ASIC 级性能,同时保留完整的编程性能。图6: Achronix Speedster7t1500 高性能FPGA 构架 [3]Speedster7t FPGA 设计具有多达8个 GDDR6 控制器,以较低的成本提供最快的访问速度,同时保证相当于LPDDR5水平的低功耗。每个 GDDR6控制器支持多达 32 位数据,总共支持4Tbps的内存带宽。 GDDR6 控制器和 PHY 是硬 IP,无需消耗FPGA中的可编程逻辑资源,也无需面对布局布线所带来的时序收敛挑战。这些特征共同使GDDR6 SDRAM 接口成为下一代系统设计的绝佳选择。如需更多信息,请访问Achronix公司官方网站 http://www.achronix.com 。参考文献:1.    Visual Networking Index: Forecast and Trends, 2017–2022. Cisco, 20192.    Extending the Benefits of GDDR Beyond Graphics. Micron, 20173.    Achronix official website http://www.achronix.com

    时间:2020-02-17 关键词: gddr6 speedster7t achronix FPGA

  • Achronix推出突破性的FPGA系列产品,以面向高带宽数据加速应用的灵活性而将性能提升到全新高度

    ·         全新Speedster7t系列产品专为机器学习市场和高带宽网络应用而进行了优化·         创新架构和ACE软件工具为要求更高性能和更短设计周期的设计提供了全新范式·         Speedster7t器件采用台积电(TSMC)的7nm FinFET工艺制造美国加州圣克拉拉市, 2019年 5月 21日—基于现场可编程门阵列(FPGA)的硬件加速器件和高性能嵌入式FPGA(eFPGA)半导体知识产权(IP)领导性企业Achronix半导体公司(Achronix Semiconductor Corporation)今日宣布:推出创新性的、全新的FPGA系列产品,以满足人工智能/机器学习(AI/ML)和高带宽数据加速应用日益增长的需求。Achronix的Speedster®7t系列基于一种高度优化的全新架构,以其所具有的如同ASIC一样的性能、可简化设计的FPGA灵活性和增强功能,从而远远超越传统的FPGA解决方案。Speedster7t FPGA系列产品是专为高带宽应用进行设计,具有一个革命性的全新二维片上网络(2D NoC),以及一个高密度全新机器学习处理器(MLP)模块阵列。通过将FPGA的可编程性与ASIC的布线结构和计算引擎完美地结合在一起,Speedster7t系列产品创造了一类全新的“FPGA +”技术。随着人工智能/机器学习的应用场景快速发展演进,新的解决方案都要去应对在高性能、灵活和上市时间等方面的不同需求。根据市场调研公司Semico Research的预测,人工智能应用中FPGA的市场规模将在未来4年内增长3倍,达到52亿美元。 “我们正处于智能化、自学习计算的高增长阶段的早期,这种计算将广泛影响我们日的常生活。”Achronix Semiconductor总裁兼首席执行官Robert Blake表示:“Speedster7t是Achronix历史上最令人激动的发布,代表了建立在四个架构代系的硬件和软件开发基础上的创新和积淀,以及与我们领先客户之间的密切合作。Speedster7t是灵活的FPGA技术与ASIC核心效率的融合,从而提供了一个全新的‘FPGA+’芯片品类,它们可以将高性能技术的极限大大提升。”在开发Speedster7t系列FPGA的产品过程中,Achronix的工程团队完全重新构想了整个FPGA架构,以平衡片上处理、互连和外部输入输出接口(I / O),以实现数据密集型应用吞吐量的最大化,这些应用场景可见于那些基于边缘和基于服务器的AI / ML应用、网络处理和存储。Speedster7t器件采用了TSMC的7nm FinFET工艺制造,是专为接收来自多个高速来源的大量数据而设计,同时还需要将那些数据分发到可编程片上算法性和处理性单元中,然后以尽可能低的延迟来提供那些结果。Speedster7t系列产品包括高带宽GDDR6接口、400G以太网端口和PCI Express Gen5等接口,所有这一切单元都互相连接以提供ASIC级带宽,同时保留FPGA的完全可编程性。“Achronix全新的Speedster7t FPGA系列产品是创新性芯片架构实现爆发的一个卓越案例,创造该架构的目的是直接面向AI应用处理大量的数据,” Semico Research公司ASIC和SoC首席市场分析师Rich Wawrzyniak说道。“通过将数学函数、存储器和可编程性整合到其机器学习处理器中,再结合交叉芯片、二维NoC结构,从而形成了消除瓶颈和确保整个器件中数据自由流动的绝佳方法。在AI / ML应用中,内存带宽就是一切,Achronix的Speedster7t在这一领域提供了令人印象深刻的性能指标。”为计算性能进行了高度的优化Speedster7t FPGA的核心是其全新机器学习处理器(MLP)中大规模的可编程计算单元平行阵列,它们可提供业界最高的、基于FPGA的计算密度。MLP是高度可配置的、计算密集型的单元模块,可支持4到24位的整点格式和高效的浮点模式,包括对TensorFlow的16位格式的支持,以及可使每个MLP的计算引擎加倍的增压块浮点格式的直接支持。MLP与嵌入式存储器模块紧密相邻,通过消除传统设计中与FPGA布线相关的延迟,来确保以750 MHz的最高性能将数据传送到MLP。这种高密度计算和高性能数据传输的结合使得处理器逻辑阵列能够提供基于FPGA的最高可用计算能力以每秒万亿次运算数量为单位(TOPS,Tera-Operations Per Second)。世界级的带宽高性能计算和机器学习系统的关键之处是高片外存储器带宽,从而为多个数据流提供存储源和缓冲。 Speedster7t器件是唯一支持GDDR6存储器的FPGA,该类存储器是具有最高带宽的外部存储器件。每个GDDR6存储控制器都能够支持512 Gbps的带宽,Speedster7t器件中有多达8个GDDR6控制器,可以支持4 Tbps的GDDR6累加带宽,并且以很小的成本就可提供与基于HBM的FPGA等效存储带宽。 “美光(Micron)乐于携手Achronix去实现全球第一个面向高带宽存储需求而直接加载了GDDR6的FPGA产品,”美光计算与联网业务部营销副总裁Mal Humphrey。“像这样的创新的和可扩展的解决方案将推动人工智能领域内的差异化,其中异构计算可选方案与高性能的存储是加速获得数据内涵的必需部分。”除了这种非凡的存储带宽,Speedster7t器件还包括业界最高性能的接口端口,以支持极高带宽的数据流。Speedster7t器件拥有多达72个业界最高性能的SerDes,可以达到1到112 Gbps的速度。还有带有前向纠错(FEC)的硬件400G以太网MAC,支持4x 100G和8x 50G的配置,以及每个控制器有8个或16个通道的硬件PCI Express Gen5控制器。超高效率的数据移动来自Speedster7t高速I / O和存储器端口的数万兆比特数据很容易淹没传统FPGA面向比特位的可编程互连逻辑阵列的路由容量,而Speedster7t架构包含一个可横跨和垂直跨越FPGA逻辑阵列的创新性的、高带宽的二维片上网络(NOC),它们连接到所有FPGA的高速数据和存储器接口。它们就像叠加在FPGA互连这个城市街道系统上的空中高速公路网络一样,Speedster7t的NoC支持片上处理引擎之间所需的高带宽通信。NoC中的每一行或每一列都可作为两个256位实现,单向的、行业标准的AXI通道,工作频率为2Ghz,同时可为每个方向提供512 Gbps的数据流量。通过在Speedster中实现专用二维 NoC, 极大地简化了高速数据移动,并确保数据流可以轻松地定向到整个FPGA结构中的任何自定义处理引擎。最重要的是,NOC消除了传统FPGA使用可编程路由和逻辑查找表资源在整个FPGA中移动数据流中出现的拥塞和性能瓶颈。这种高性能网络不仅可以提高Speedster7t FPGA的总带宽容量,还可以在降低功耗的同时提高有效LUT容量。针对安全性至上和硬件确保应用的安全防护功能Speedster7t FPGA系列产品在面临第三方攻击的威胁时,可用最先进的比特流安全保护功能应对,它们具有的多层防御能力可保护比特流的保密性和完整性。密钥是基于防篡改物理不可克隆技术(PUF)进行加密,比特流由256位的AES-GCM加密算法进行加密和验证。为了防止来自旁侧信道的攻击,比特流被分段,每个数据段使用单独导出的密钥,且解密硬件采用差分功率分析(DPA)计数器措施。 此外,2048位RSA公钥认证协议被用来激活解密和认证硬件。用户可以确信的是当他们加载其安全比特流时,它是预期的配置,这是因为它已通过RSA公钥、AES-GCM私钥和CRC校验进行了身份验证。经验证的、可向低成本ASIC转换的途径,用以满足大批量需求Achronix是唯一一家既提供独立FPGA芯片又提供Speedcore™嵌入式FPGA(eFPGA)半导体知识产权( IP)的公司。Achronix在Speedcore eFPGA IP中采用了与Speedster7t FPGA中使用的同一种技术,可支持从Speedster7t FPGA到ASIC的无缝转换。FPGA应用通常具有必须保持可编程性的功能,而其他固定功能则是专用于特定的系统应用。对于ASIC的转换而言,固定功能可以被固化进ASIC结构中,从而减小芯片面积、成本和功耗。当使用Speedcore eFPGA IP将Speedster7t FPGA转换为ASIC时,客户有望节省高达50%的功耗并降低90%的成本。供货Speedster7t FPGA器件的大小范围为从363K至2.6M 的6输入查找表(LUT)。支持所有Achronix产品的ACE设计工具现已可提供,可支持包括Speedcore eFPGA和Speedchip™FPGA多晶粒封装芯片(Chiplet)。第一批用于评估的器件和开发板将于2019年第四季度提供。

    时间:2020-02-17 关键词: finfet speedster7t achronix FPGA

  • 后摩尔时代FPGA是加速最佳拍档?Achronix将创造新FPGA架构和eFPGA IP

    后摩尔时代FPGA是加速最佳拍档?Achronix将创造新FPGA架构和eFPGA IP

    在2020年伊始,21ic专门采访了Achronix公司产品营销总监Bob Siller先生,邀请他和我们一起回顾2019与展望2020。 (Achronix公司产品营销总监Bob Siller) 1、Achronix在2019年取得了哪些成绩? 2019年,Achronix通过推出全新的Speedster7t系列现场可编程门阵列(FPGA)器件,确立了我们作为领先的高端FPGA供应商的地位。基于台积电(TSMC)的7nm FinFET工艺技术,Speedster7t器件为业界带来了一位可以在高端FPGA领域与英特尔(Intel)和赛灵思(Xilinx)并驾齐驱的竞争对手。这是FPGA这个规模超过50亿美元的行业自35年前形成以来出现的一个重大变化,该行业曾经一直被Xilinx和Intel/Altera占据着约90%的市场份额。 作为一家小型私有公司,我们能够提供一种全新的、创新的架构,以服务于网络、计算、存储和数据中心等关键市场。这些高速增长的市场为Achronix带来了巨大的机遇,我们已准备好在这些新兴应用领域中占据重要的市场份额。 除了我们的7nm FPGA器件,Achronix是唯一的、与众不同的可同时量产嵌入式FPGA(eFPGA)和独立FPGA器件的供应商。我们的Speedcore eFPGA为客户提供了一种新选择,以支持他们向Achronix购买其FPGA逻辑、存储器、数字信号处理器(DSP)和机器学习处理器(MLP)半导体知识产权(IP),并集成到他们自己的系统级芯片(SoC)或特定应用集成电路(ASIC)器件中。Intel和Xillinx不可能提供FPGA的IP授权,因而就不会为FPGA设计转换为ASIC提供一条降低成本的途径,而且更不会为诸如工业人工智能(AI)或汽车等快速变化的市场提供新产品开发的新选择,而客户已经在这些市场中看到了硬件可编程性所具有的重大价值。 2、2019年Achronix有哪些特别重大的产品或技术突破? 2019年,Achronix推出了基于7nm工艺节点的Speedster7t FPGA器件系列和带有Speedster7t FPGA的VectorPath加速卡。其中,Speedster7t FPGA从设计一开始时就重点关注了架构性创新的三大支柱: ——构建最高效的计算单元模块(针对最高效的推理性能而对通用计算逻辑和机器学习进行优化); ——构建正确的存储层次和存储带宽; ——通过在传统的FPGA布线上叠加真正的二维片上网络(2D NoC),从而构建最高效的数据传输。 通过创新地创建可支持超过20Tbps内部数据带宽的片上网络(NoC),实现可支持超过4Tbps存储带宽的GDDR6存储器接口,引入全新的、可支持超过80 TOps运算能力的机器学习处理器(MLP),Achronix实现了Speedster7t FPGA与其他7nm FPGA竞品的差异化。这种全新的FPGA架构,可以为人工智能/机器学习(AI/ML)应用提供每秒处理超过8,600张图像的性能(基于ResNet50网络的基准测试)。这些指标清楚地表明,我们在架构性创新上的投资已见成效,而且我们能够为我们的关键目标应用实现优异的性能。 此外,我们还与Molex旗下的BittWare公司合作推出了VectorPath PCIe加速卡。该加速卡具有400G和200G以太网接口、8个GDDR6存储器通道和可作为额外连接选项的OCuLink扩展端口。该平台符合PCIe接口的外形规范,是专为原型设计和大批量生产应用而设计。 我们相信,这两款突破性的创新产品将推动Achronix在未来超过5年的时间内实现显著的增长。Speedster7t FPGA不同于当前其他的FPGA产品,并且在面对当前市场上已有的FPGA解决方案时,它展现出了强悍的竞争力。Achronix已经看到了全球客户对Speedster7t所产生的浓厚兴趣,这将推动我们在2020年及以后实现增长。 3、目前Achronix在中国市场的发展情况如何?与以往相比,有何不同? 中国市场对于Achronix一直是高增长的区域,我们将继续投资于为中国企业提供FPGA解决方案。Achronix将通过植根于中国的市场营销、销售和技术支持团队来不断提高品牌知名度,并创造新的客户机会。 4、汽车电子、5G和人工智能将给行业带来哪些机遇与挑战?Achronix又是如何把握机遇、直面挑战的? 汽车、5G和人工智能,为高科技行业带来了新的、重大的增长机遇。鉴于其增长潜力,我们已经看到大量的新投资、收购和初创公司努力进入这些市场。此外,一些老牌公司正试图完善其产品和技术,以在未来十年内继续保持影响力。 Achronix通过致力于提供创新的、差异化的解决方案来把握这些机遇,这些解决方案能够应对可编程硬件急需解决的关键挑战。作为一家小型私有公司,Achronix能够比我们的大型竞争对手更快地进行调整,以适应市场的变化。及时制定决策和让整个公司致力于共同的奋斗目标和结果,使Achronix能够面对这些不断增长的关键市场应用而做好准备。 5、Achronix如何应对摩尔定律失效,持续实现技术突破? 摩尔定律的放慢,实际上有助于推动FPGA成为硬件加速器的理想选择。当应用设计人员不再能够仅仅依靠CPU就能够从中获得所需的性能时,他们便转向了将CPU与定制硬件加速器结合起来的异构解决方案,从而实现所需的系统性能。正如许多基准测试所显示的那样,在运行相同的算法时,FPGA的性能可比CPU的性能提高130倍,比GPU的性能提高4倍。在过去的一年中,我们看到越来越多的客户在寻找以成本和功耗利用率更高的方式来提高系统性能的方法,而这正是Achronix FPGA解决方案所能提供的。 6、Achronix在生态建设方面有何布局? 在2019年中,Achronix宣布了一项针对EDA工具、软件和IP供应商的全新合作伙伴计划,以推动他们为我们的FPGA芯片和eFPGA IP产品提供定制的解决方案。该计划的目标是将我们的客户与优秀的合作伙伴联系起来,以加快他们的设计周期。Achronix认识到,一个由IP、EDA和解决方案提供商组成的大型生态系统将有助于为我们的FPGA解决方案去开拓新的应用和市场。 此外,Achronix还携自己的Speedcore eFPGA IP产品加入了台积电(TSMC)的IP联盟计划。Speedcore eFPGA IP可适用于台积电的16nm和7nm工艺技术,并且它很快也将适用于其12nm FinFET技术。eFPGA正在成为ASIC和SoC开发人员的关键IP。而Achronix作为唯一一家可同时提供量产的eFPGA和独立FPGA器件的供应商,在此领域处于行业领先地位。 Achronix与Molex的子公司BittWare合作,共同推出了一款名为VectorPath的新型PCIe加速卡,其上搭载了Speedster7t FPGA芯片。30多年来,BittWare一直在为FPGA行业开发各种板卡,而凭借VectorPath这项全新的加速卡技术,该公司已经为Achronix的Speedster7t FPGA芯片进入市场的重要合作伙伴。BittWare将帮助Achronix生产和销售新的VectorPath加速卡,该加速卡将于2020年第二季度上市。 7、2020年Achronix有何市场计划?准备在哪些方面重点推进? Achronix将继续致力于研发工作,来创建创新的FPGA架构和eFPGA IP,以满足数据中心、计算、网络、存储和人工智能/机器学习等关键应用中的数据加速需求。同时,我们还将继续投资与软件工具和设计流程,使采用Achronix技术的客户更容易发挥Speedster7t FPGA和Speedcore eFPGA IP的无限潜力。在2020年,我们将开始我们的Speedster7t FPGA芯片和VectorPath加速卡的出货。这些产品已经有了非常巨大的初期市场需求,我们将集中精力使它们进入批量生产,并推出Speedster7t FPGA系列的后续产品。

    时间:2020-02-04 关键词: 嵌入式 人工智能 高端访谈 achronix

  • 在不就的未来,嵌入式 FPGA 编程只需简单一步即可完成

    在不就的未来,嵌入式 FPGA 编程只需简单一步即可完成

    我们都知道,FPGA(Field Programmable Gate Array)是在PAL、GAL等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。嵌入式 FPGA 将不再是梦想。根据 Achronix,未来,芯片设计者只要简单地将线对线互连加进其 SoC 设计即可。 Achronix Semiconductor 营销副总裁 Steve Mensor 表示,这款被称为 Speedcore 的嵌入式 FPGA (eFPGA) IP 产品目前已经就绪且正出货中。尽管并未透露出货数字以及客户名称,该公司表示这款产品现在已经提供给客户使用了。 Speedcore 象征着该公司首次进军 IP 业务。Achronix 自 2013 年以来一直在生产其旗舰级 FPGA 产品——Speedster 22i。因此,对于 Achronix 来说,这是一条漫长的道路,因为该公司在 4 年以前才首次宣布开发 eFPGA IP 的计划。 尽管如此,Achronix 在此看到了一线曙光,预计今年可望首次盈利,营收上看 1,200 万美元。根据 Mensor 表示,该公司预计其销售额将在 2017 年成长超过 4,000 万美元,进一步使 eFPGA IP 业务成为带动 Achronix 成长的“重要驱动力”。 设计工具 Speedcore 采用与 Achronix Speedster 22i FPGA 相同的高性能架构。专为运算和网络加速应用而设计的 Speedcore eFPGA IP 将整合至其他公司的 ASIC,应用于数据中心、无线基础设施和网络设备。 Mensor 认为,eFPGA 的最大优势在于其设计工具。多年来,Achronix 了解到客户需要更好的设计工具,为其带来优质的结果、简单易用性以及第三方整合,而这些特点都是“Achronix CAD 环境”(ACE)所能提供的一部份。 为了成为系统的一部份,eFPGA IP 必须具备易于整合于 SoC 的功能设计。Achronix 提供了可让客户直接整合于其 SoC 的 GDS II 版 Speedcore IP,以及可让客户用于设计、验证与编程 Speedcore eFPGA 功能的 ACE 工具客制版。 CPU 投片? 整个电子产业都知道 FPGA 极其热门。只要看看微软(Microsoft)的 Project Catapult 就知道了。 微软解释,这项计划是专为“加速微软在网络、安全、云端服务和人工智能(AI)等方面的超级运算基础”而打造的,并作为其于“后 CPU”(post-CPU)的各种技术——包括 GPU、FPGA 与 ASIC 的最大睹注。 微软这项 Project Catapult 的关键就在于 Altera Stratix V D5 FPGA。Mensor 强调,整个电子产业普遍存在的看法是,微软的计划促成了英特尔(Intel)决定收购 Altera。 藉由 AlphaGo,Googler 的客制 Tensor 处理器单元也激励了许多工程师,促使他们开始考虑从 ASIC 到 GPU 和 DSP 的一切。Mensor 解释说,他们正在寻找能够更有效率处理“加速非结构性搜寻、机器学习与人工智能”的技术。 Achronix 在其中看到了机会。     FPGA 应用领域以及成长阶段 FPGA 从 1990 年代中期作为“胶合芯片”(glue chip)开始流行于市场上,如今正重新定义其价值,成为 CPU 的协同处理器。在这个角色上,FPGA 可加速加密 / 解密、压缩 / 解压缩,或甚至是预处理资料封包,以便只让有关的共享资料可被传送与进行处理。 当进行非结构化搜寻时,FPGA 的平行环境经证实是十分有效的。例如,相较于专为划分功能成为较小部份以及依顺序作业而设计的 CPU 而言,FPGA 能以平行方式,在单一频率周期完成整个任务。 当无线基础设施必须涵盖多个地理区时,FPGA 是可编程数位前端和地理区客制化的一张备用王牌。 在芯片之间布线 尽管在 SoC 中嵌入 FPGA 总能为设计者带来不错的设计想法,但对于 FPGA 供应商而言,要实现这个愿望并不容易。 “在不同芯片之间布线是非常困难的,”Mensor 说。成功整合 eFPGA IP 的关键在于尽可能降低延迟并提高吞吐量。该公司强调,Achronix 最先提供了具有嵌入式系统级 IP 的高密度 FPGA。 对于“希望将 ASIC 设计的所有效率以及 eFPGA 可编程硬件加速器的灵活性结合于同一芯片”的公司,Achronix 为其提供相同的 eFPGA 技术。 而对于 IP 供货商而言,整合极具挑战之处在于客户对于特定应用所要求的优化芯片尺寸、功耗与资源分配总有不同的想法与方法。他们还自行定义了查找表数目、嵌入式内存模块女以及 DSP 模块的数量。 但问题并不一定是客户的不同建置方式,而是他们经常使用不同的方法进行芯片测试与验证。Mensor 解释,客户并不知道 IP 供货商的工具如何与其搭配作业。例如,“我们经常听到客户问:‘如何才能用你们的 IP 关闭计时功能?’” 虽然 Achronix 并未为客户整合其 IP,其业务取决于所提供的工具是否足以让客户快速完成设计     Achronix NT31P1 Achronix 也向外收购了一些第三方 IP,包括接口协议、可编程 IO、SerDes 和 PLL 等。那么在开发 FPGA 和满足客户需求时,Achronix 是否遇到困难?Mensor 说:“我们总会试着把遇到的每个问题都转化为一次机会。” 对于 Achronix 来说,其关键在于整合该公司的 FPGA 架构。最终的结果是一款更精简的 Speedster 22i,其可编程 IO、SerDes 和接口控制器占用的空间更少,相形之下,竞争对手的高阶 FPGA 通常使用了大约 50%的芯片面积。     Achronix NT31P2 FPGA 芯片尺寸比较 提高延迟和传输速率 Achronix 认为,能够与 SoC 实现线对线连接的 Speedcore eFPGA,有助于消除大量的可编程 IO 缓冲器,从而使功耗降低一半。此外,Speedcore 的芯片尺寸也比标准 FPGA 更小,使得 eFPGA 的成本可降低 90%以上。 然而,Mensor 强调,“对于大多数客户而言,最大的决定因素在于延迟和吞吐量方面的问题。”根据 Achronix,相较于独立的 FPGA,eFPGA 具有更高的接口性能,可望提高 10 倍的吞吐量和延迟性能。

    时间:2020-01-12 关键词: 嵌入式 SoC 嵌入式开发 achronix FPGA

  • FPGA加速卡时代开启,Achronix+BittWare联手抢占高端市场先机

    FPGA加速卡时代开启,Achronix+BittWare联手抢占高端市场先机

    Achronix半导体公司是一家提供高端独立FPGA芯片和嵌入式FPGA(eFPGA)硅知识产权(IP)技术的FPGA供应商。 BittWare是Molex集团公司的一员,30年来一直以成功设计和部署FPGA加速器产品而声名卓著。 最近,这两家公司合作推出了一款基于FPGA的VectorPath数据加速卡,面向高带宽数据加速应用,瞄准的是正在爆发的云计算与边缘计算加速市场。   Achronix半导体公司市场营销副总裁Steve Mensor和BittWare公司副总裁Sam Bichara共同介绍了加速卡市场及这款新产品。 加速卡时代开启,FPGA黑马浮现 Achronix半导体公司市场营销副总裁Steve Mensor介绍了数据中心加速器市场的发展状况。据Research and Markets2019年1月的报告,数据中心加速器市场预计将从2018年的28.4亿美元增长到2023年的211.9亿美元,年复合增长率(CAGR)高达49.47%,这其中,相比CPU、GPU、ASIC,FPGA得天独厚的灵活性和高能效性正得到了越来越多的认可,有预测,基于FPGA的加速方案有望超越50%的年复合增长率。像高性能计算、网络、存储、传感器处理这些都是需要FPGA硬件加速的应用市场。   早在多年前,FPGA在数据中心加速的优势已经被大厂商发现,并开始运用,一些超大规模厂商已经实施了“FPGA芯片级”设计,但是,大多数二类规模厂商还没有足够的规模经济或者内部资源来支持实施芯片级设计,这些客户正在寻求现成可用的板级或者系统级解决方案。而采用标准接口的加速卡则可以为用户提供一整套打包解决方案,这样,基于PCIe的FPGA加速卡就应运而生了。 基于通用FPGA的PCIe加速卡可以提供可重配置的硬件,比GPU/CPU有更高的性能/功耗比率,同时,标准的PCIe接口从1块加速卡扩展到n块加速卡,即刻可用的加速卡可以实现快速部署新应用,从而将总拥有成本降至最低。 VectorPath S7T-VG6加速卡瞄准高带宽数据加速应用   VectorPath S7T-VG6加速卡采用了Achronix公司的Speedster7t FPGA芯片,在同类加速卡中,提供了目前业界最高性能的多种接口:包括1x400GbE和2x100GbE接口,以及总带宽为4Tbps的8组GDDR6的板上存储器,使该加速卡成为高带宽数据加速应用的理想选择。 BittWare公司副总裁Sam Bichara指出,之所以选择采用Achronix公司的Speedster7t FPGA芯片,正是看中了这款芯片所提供的超高性能,可以满足现在和未来高带宽数据加速应用需求。 据Achronix半导体公司市场营销副总裁Steve Mensor介绍,Speedster7t系列FPGA芯片可为高带宽和人工智能/机器学习(AI/ML)提供了业界最高的性能,除了超高的性能,Speedster7t 的另一个独创秘籍是其2D片上网络(NoC),这个2D NoC使FPGA成为软件友好的硬件,可以便捷的将IP连接到AXI接口,解决了IP生态系统公司面临的IP接入困难。   另外,与现有的FPGA加速卡不同的是,VectorPath S7T-VG6加速卡虽然采用的是PCIe Gen3接口,同时也支持Gen4和Gen5标准。VectorPath S7T-VG6加速卡提供了400GbE QSFP-DD和100GbE QSFP56接口。 该加速卡不仅提供了8组GDDR6存储器,还提供了DDR4存储,以便给用户提供低成本的灵活选择。 FPGA加速卡提供低成本灵活选择 众所周知,在芯片和FPGA的世界里,需求量和成本有着密切的关系。Achronix和BittWare认识到必须为不同客户的不同批量提供灵活的成本模式,以满足其特定的价格要求,此次合作推出的加速卡即可为用户提供多种选择,既可以满足高校研究机构的小批量需求,也可以满足超大型数据处理厂商的要求。 BittWare公司副总裁Sam Bichara透露,BittWare还可以提供定制板卡设计,根据客户的功能要求重新设计和打造加速卡,以优化成本结构,当批量达到上万单品时,BittWare可以支持最终用户利用自己优选的、获得了授权的合约制造商(CEM)来制造和测试S7t-VG6加速卡,甚至客户在获得授权之后,还可以创建其自有品牌的S7t-VG6加速卡。

    时间:2019-11-01 关键词: 加速卡 行业观察 bittware achronix FPGA

  • Achronix和BittWare推出采用Speedster7t独立FPGA芯片的VectorPath加速卡

    Achronix和BittWare推出采用Speedster7t独立FPGA芯片的VectorPath加速卡

    美国加州圣克拉拉市,2019年10月29日—基于现场可编程门阵列(FPGA)的数据加速器件和高性能嵌入式FPGA(eFPGA)半导体知识产权(IP)领导性企业Achronix半导体公司,与Molex旗下的一家领先企业级FPGA加速器产品供应商BittWare今日联合宣布:推出一类全新的、面向高性能计算和数据加速应用的FPGA加速卡。新推出的VectorPath™S7t-VG6加速卡搭载了Achronix采用7nm工艺打造的Speedster®7tAC7t1500独立FPGA芯片,它在同类PCIe FPGA加速卡中,提供了目前业界最高性能的接口。这些高性能接口包括1x400GbE和2x100GbE接口,以及总带宽为4Tbps的8组GDDR6的板上存储器,使该加速卡成为高带宽数据加速应用的理想选择。 VectorPath S7T-VG6加速卡所具有的功能 VectorPath加速卡系专为高性能和高带宽数据应用而设计,具有以下硬件功能: ·  400GbE QSFP-DD和100GbE QSFP56接口 ·  8组GDDR6存储器可提供4 Tbps的总带宽 ·  1组带有错误检查和纠正(ECC)功能的、运行频率为2666MHz的DDR4存储器 ·   符合PCIe的要求并获得了认证 ·   Speedster7t FPGA芯片集成了带宽为20 Tbps的二维片上网络(NoC) ·   692K的6输入查找表(LUT) ·   40K Int8 MAC提供高于80 TOps的算力 ·   OCuLink – 用于连接扩展卡的4通道PCIe Gen 4连接器 VectorPath加速卡包括一整套Achronix的ACE开发工具,以及BittWare的基板管理控制器和开发工具包,其中包括API、PCIe驱动程序、诊断自测和应用示例设计,以提供快速的、开箱即用的体验。专为原型设计和大批量生产应用而设计的VectorPath S7t-VG6加速卡使设计人员能够处理极大量的数据,这是前几代FPGA无法做到的。 “VectorPath加速卡提供了一个使用Achronix全新Speedster7t FPGA芯片来快速开发人工智能/机器学习(AI / ML)、网络和数据加速应用的平台。”Achronix半导体公司总裁兼首席执行官Robert Blake表示,“我们很高兴能与基于FPGA的PCIe板卡市场的领先企业BittWare合作。他们在基于FPGA的PCIe板卡和解决方案的设计、制造和支持方面具有深厚专业知识,可为我们的客户提供一个世界级的平台,支持他们去加快开发和部署一系列激动人心的、全新的计算任务。” “BittWare在为高性能应用成功开发和设计前沿技术方面有着悠久的历史。”BittWare总裁Jeff Milrod说:“与Achronix的合作充分利用了BittWare和Achronix的优势,客户将因此获得巨大的、开箱即用的优势,并且可以利用Speedster7t FPGA芯片的各种先进功能。” 在今年早些时候推出的Speedster7t FPGA系列芯片为高带宽数据加速应用提供了全新的性能和适应性。它具有革命性的2D片上网络(NoC),其带宽容量超过20 Tbps,可将数据从高速接口移动到FPGA逻辑架构,或跨越FPGA逻辑架构进行数据移动。该2D NoC通过在每个方向上为每个NoC行和列提供256位的单向总线和总计512 Gbps的带宽,从而缓解了数据瓶颈。NoC的主要接口是行业标准的AXI通道。在ACE 8.0设计软件中,现已提供对Speedster7t AC7t1500器件的初始软件支持。

    时间:2019-10-30 关键词: vectorpath achronix FPGA

  • Achronix加入台积电(TSMC)半导体知识产权(IP)联盟计划

    Achronix加入台积电(TSMC)半导体知识产权(IP)联盟计划

    美国加州圣克拉拉市,2019年9月25日—基于现场可编程门阵列(FPGA)的硬件加速器件和高性能嵌入式FPGA(eFPGA)半导体知识产权(IP)领导性企业Achronix半导体公司(Achronix Semiconductor Corporation)已加入台积电IP联盟计划,该计划是台积电开放创新平台(OIP)的关键组成部分。Achronix屡获殊荣的Speedcore™ eFPGA IP针对高端和高性能应用进行了优化。Speedcore eFPGA IP现已可用在TSMC 16nm FinFET Plus(16FF +)和N7工艺技术上,并且很快将在TSMC 12nm FinFET Compact Technology(12FFC)上可用。 Achronix先前宣布了其用于Speedcore IP的、现已可提供客户使用的Gen4 FPGA架构。与以前的Speedcore架构相比,Speedcore Gen4架构的性能提高了60%,功耗降低了50%,芯片面积减少了65%,同时保留了Speedcore eFPGA IP的原有功能,将可编程硬件加速功能带到广泛的高性能计算、网络和存储应用中。Achronix将于9月26日参加在圣克拉拉市举行的台积电开放创新平台生态论坛(TSMC Open Innovation Platform Ecosystem Forum),并在420号展位上展示其Speedcore eFPGA IP如何针对每个客户的应用进行独特的规模定制和优化。 “Achronix的Speedcore eFPGA IP实现了提供最高性能硬件加速功能与同时保留适应新工作负载的灵活性之间的最佳平衡。这是在计算、网络和存储卸载等领域进行SoC开发所面临的关键设计要求。”Achronix市场营销副总裁Steve Mensor说道,“Achronix是唯一一家能同时提供基于高性能独立FPGA芯片的数据加速器和eFPGA IP技术的公司。有兴趣在其ASIC / SoC中使用Achronix的Speedcore eFPGA的公司可以确信,他们将获得与Achronix在其自身产品中使用的、同样高质量的FPGA技术。” Speedcore eFPGA IP是一种完全可扩展的架构,可支持从5K大小的6输入查找表(6LUT)到1M大小的6LUT的逻辑阵列,并支持包括存储器、用于滤波的数字信号处理器(DSP)单元块和针对AI / ML应用优化的机器学习处理器(MLP)单元块在内的其他可编程单元块。Achronix的高质量ACE设计工具可支持Speedcore IP。 “CPU内核、GPU内核以及现在的eFPGA都是芯片创新的关键IP,这些创新专注于人工智能、5G无线基础设施、汽车和边缘计算等领域中瞬息万变的应用。”台积电设计基础设施管理部门高级总监Suk Lee说,“我们很高兴地看到Achronix携其优化的Speedcore eFPGA IP解决方案加入到我们的IP联盟计划,从而使我们的客户能够获得流畅的设计体验、便捷的设计重用以及快速集成到整个设计系统中。”

    时间:2019-09-27 关键词: 台积电 achronix FPGA

  • FPGA难以逾越的瓶颈究竟该如何突破?

    FPGA难以逾越的瓶颈究竟该如何突破?

    如今,电子行业发展速度令人瞠舌,5G、AI、工业4.0、智能汽车一波又一波的应用革新引领了“新浪潮”,但随之带来的就是巨量的计算、分析、处理量。数据显示,2019年数据总量将达40ZB总量,如此庞大的潜在计算量,FPGA的小尺寸、低功耗以及高灵活性等特点恰与新兴技术“不谋而合”。 FPGA巨大市场背后:难以逾越的瓶颈   据Semico统计,FPGA市场正在逐年增长,而复合年均增长率高达38.4%,至2023年将具有55亿-60亿美元的规模。Achronix Semiconductor 总裁兼首席执行官Robert Blake表示对于FPGA近年的市场增长非常兴奋,相信在庞大高速增长的市场中新产品将有出色的表现。 据统计,约有25%的企业选择入局AI/ML以保持企业自身的竞争力,未来两年内,将会有接近四分之三的企业会布局AI。而AI方面,算法仍在不断演进,数值精度选择越来越多样性,但仅依赖数据格式的转变降低能耗的方法已接近瓶颈,市场需要更具有高效计算力、高效大带宽的数据运送能力、丰富储缓存能力的最高能效比的广适应性平台。 5月22日,Achronix宣布推出全新的 “FPGA+”系列产品Speedster7t FPGA,该产品采用台积电(TSMC)7nm FinFET工艺打造。据介绍,该产品将FPGA与ASIC技术融合,兼顾了两者的优点。 除此之外,Speedster7t FPGA具有革命性的新型二维片上网络(2D NoC)和一系列针对高带宽和人工智能/机器学习(AI / ML)应用进行了优化的新型机器学习处理器(MLP)。另外,值得一提的是,Speedster7t FPGA还具有满足未来AI/ML需求所需的超高带宽接口,包括400G以太网端口、用于数据传输的PCI Express Gen5端口以及用于业界最灵活、低成本、高带宽存储的GDDR6控制器。 利用四个架构代系的硬件和软件开发基础上的创新和积淀,客户可以拥有更快的设计周期、更好的设计表现,另外,还可以降低设计中的风险、减少所需设计面积。 Blake表示:“我们正处于智能化、自学习计算的高增长阶段的早期,这种计算将广泛影响我们日的常生活。” Semico Research公司ASIC和SoC首席市场分析师Rich Wawrzyniak表示:“全新的系列产品是创新性芯片架构实现爆发的一个卓越案例,创造该架构的目的是直接面向AI应用处理大量的数据。” 那么,Speedster7t FPGA究竟解决了哪些瓶颈?   瓶颈一:1+1>2,如何兼顾FPGA与ASIC的双重优点   如今,为了适应当前应用的高速发展,大多公司的设计团队开始选择全新的方案。众所周知,ASIC具有高性能、低功耗的优势,但相对来说,其内核执行外的任何算法都是冻结的,所以FPGA的高灵活性、高适应性相比来说更具优势。那么,有没有一款产品即具有FPGA的适应性,也兼顾ASIC的超高表现力? Speedster7t FPGA系列产品正是将二者相融合,利用台积电(TSMC)7nm技术,构建出全新的具有高性能、低功耗、高灵活性、高适应性的FPGA+。   瓶颈二:传统FPGA数据传输拥塞 vs 纵横交错的NOC路由结构   假若将400G内容传送到以太网比作在传送带上传送,影响传输的除了传送带速度,还有盒子的大小。传输速度需要足够快确保来得及装包,而越大的盒子也会降低效率。传统FPGA在传输400G内容时,无论如何调整传输大小和传输频率,也无法达到以太网的传输曲线。所以对于传统FPGA几乎无法满足超高速的传输条件。 来自Speedster7t高速I / O和存储器端口的数万兆比特数据很容易淹没传统FPGA面向比特位的可编程互连逻辑阵列的路由容量,而Speedster7t架构包含一个可横跨和垂直跨越FPGA逻辑阵列的创新性的、高带宽的二维片上网络(NOC),它们连接到所有FPGA的高速数据和存储器接口。 它们就像叠加在FPGA互连这个城市街道系统上的空中高速公路网络一样,Speedster7t的NoC支持片上处理引擎之间所需的高带宽通信。NoC中的每一行或每一列都可作为两个256位实现,单向的、行业标准的AXI通道,工作频率为2Ghz,同时可为每个方向提供512 Gbps的数据流量。 通过在Speedster中实现专用二维 NoC,极大地简化了高速数据移动,并确保数据流可以轻松地定向到整个FPGA结构中的任何自定义处理引擎。最重要的是,NOC消除了传统FPGA使用可编程路由和逻辑查找表资源在整个FPGA中移动数据流中出现的拥塞和性能瓶颈。这种高性能网络不仅可以提高Speedster7t FPGA的总带宽容量,还可以在降低功耗的同时提高有效LUT容量。   瓶颈三:传统DSP式FPGA受限的表现力 vs 计算、存储、程序三位一体的MLP   传统FPGA使用DSP模块有着相对有限的表现力,具体表现在不高效的数值精度支持、需要消耗额外逻辑和Memory资源、性能受限于FPGA布线。 Speedster7t FPGA搭载全新的机器学习处理器(MLP),将计算、存储和程序集于一身,使其支持阵列式乘累积计算架构、内嵌缓存、可配置以支持演进中算法、支持广泛各种不同整点和浮点格式。大规模的可编程计算单元平行阵列是其核心,可提供业界最高的、基于FPGA的计算密度,另外,也具有最高的能效比。 MLP是高度可配置的、计算密集型的单元模块,可支持4到24位的整点格式和高效的浮点模式,包括对TensorFlow的16位格式的支持,以及可使每个MLP的计算引擎加倍的增压块浮点格式的直接支持。 MLP与嵌入式存储器模块紧密相邻,通过消除传统设计中与FPGA布线相关的延迟,来确保以750 MHz的最高性能将数据传送到MLP。这种高密度计算和高性能数据传输的结合使得处理器逻辑阵列能够提供基于FPGA的最高可用计算能力以每秒万亿次运算数量为单位(TOPS,Tera-Operations Per Second)。   瓶颈四:表现较差的传统带宽存储 vs GDDR6高带宽存储   高性能计算和机器学习系统的关键之处是高片外存储器带宽,从而为多个数据流提供存储源和缓冲。 Speedster7t器件是唯一支持GDDR6存储器的FPGA,该类存储器是具有最高带宽的外部存储器件。每个GDDR6存储控制器都能够支持512 Gbps的带宽,Speedster7t器件中有多达8个GDDR6控制器,可以支持4 Tbps的GDDR6累加带宽,并且以很小的成本就可提供与基于HBM的FPGA等效存储带宽。  “美光(Micron)乐于携手Achronix去实现全球第一个面向高带宽存储需求而直接加载了GDDR6的FPGA产品,”美光计算与联网业务部营销副总裁Mal Humphrey。“像这样的创新的和可扩展的解决方案将推动人工智能领域内的差异化,其中异构计算可选方案与高性能的存储是加速获得数据内涵的必需部分。”   瓶颈五: “旗鼓不相当”的接口 vs 最高速度的接口   非凡的存储带宽需要好的“后卫”才能真正发挥出其性能。Speedster7t器件包括业界最高性能的接口端口,以支持极高带宽的数据流。 Speedster7t器件拥有多达72个业界最高性能的SerDes,可以达到1到112 Gbps的速度。还有带有前向纠错(FEC)的硬件400G以太网MAC,支持4x 100G和8x 50G的配置,以及每个控制器有8个或16个通道的硬件PCI Express Gen5控制器。   值得期待的FPGA+家族   Speedster7t FPGA器件的大小范围为从363K至2.6M 的6输入查找表(LUT),无论是低成本客户还是高端客户,均可满足。而FPGA+如此众多的优点也可“随意驰骋”在AI、图像处理、语言处理、Database加速、加密算法、网络处理方案上。 据Achronix表示,支持所有Achronix产品的ACE设计工具现已可提供,可支持包括Speedcore eFPGA和Speedchip™FPGA多晶粒封装芯片(Chiplet)。相关配套软件将于第三季度面世,更加高级的语言让设计开发更具表现力,第一批用于评估的器件和开发板也将于2019年第四季度提供。   关于Achronix   Achronix Semiconductor是一家私有的、采用无晶圆厂模式的半导体公司,总部位于美国加利福尼亚州圣克拉拉市,公司提供了高性能的现场可编程逻辑门阵列(FPGA)解决方案。 2013年,随着其Speedster22i FPGA产品系列开始量产,Achronix提供了业界最先进的、带有面向高性能有线通信应用的嵌入式系统级IP的FPGA产品。Speedster22i系列是第一款专用的FPGA,可支持全新的、创新的和高性能的可编程设计。 2016年10月,Achronix宣布其Speedcore 嵌入式FPGA(eFPGA) IP产品实现量产供应,实现了客户在自己的SoC中对可编程逻辑的集成。在发布之时,Achronix已经向多家客户付运了Speedcore IP产品;自那时起,出现了对Speedcore IP产品的前所未有的需求。Speedcore IP是专为计算和网络加速应用而设计的。 2019年5月,Achronix推出了突破性的Speedster7t FPGA系列产品,该系列产品对高带宽数据加速应用提供ASIC级性能,并具有FPGA的灵活性。 Achronix的所有产品均由其业内最优的ACE设计工具提供支持,ACE是一个可支持逻辑综合、布局布线、再加上时序收敛和调试等功能强大的EDA工具。ACE工具可以免费提供用于评估。

    时间:2019-05-25 关键词: asic 技术专访 achronix FPGA

  • Achronix推出7nm FPGA,支持GDDR6高带宽!

    Achronix推出7nm FPGA,支持GDDR6高带宽!

    近日,美国eFPGA IP企业Achronix半导体公司在京发布其全新Speedster7t FPGA系列产品,基于一种高度优化的全新架构,采用台积电7nm FinFET工艺制造,主要针对AI/ML、高带宽数据、网络处理等方面加速。 FPGA即现场可编程逻辑阵列,特点是通用性,可以按照设计者的需要进行灵活编程,比专用芯片(ASIC)更加灵活。在数据中心,FPGA作为替代GPU、ASIC的另一种方案正得到越来越多的应用。 和其他FPGA供应商不同的是,Achronix是唯一一家既提供独立FPGA芯片,又提供Speedcore嵌入式FPGA(eFPGA)IP的半导体公司。 Achronix公司董事长兼首席执行官Robert Blake、亚太区总经理罗炜亮及中国区同事来到现场,介绍该公司革新的FPGA产品以及在中国市场的最新进展和策略。 据Robert Blake介绍,该产品具有针对高带宽和AI/ML应用进行优化的全新机器学习处理器(MLP),以及革命性的新型二维片上网络2D NOC,将FPGA与ASIC的布线结构和计算引擎结合,能提供与ASIC如出一辙的性能、可简化设计的FPGA灵活性和增强功能,远超传统的FPGA解决方案。   此外,Achronix将在今年第四季度提供相应的评估器件和加速卡。

    时间:2019-05-24 关键词: 台积电 行业资讯 achronix FPGA

  • Achronix推出突破性的FPGA系列产品,以面向高带宽数据加速应用的灵活性而将性能提升到全新高度

    美国加州圣克拉拉市, 2019年 5月 21日—基于现场可编程门阵列(FPGA)的硬件加速器件和高性能嵌入式FPGA(eFPGA)半导体知识产权(IP)领导性企业Achronix半导体公司(Achronix Semiconductor Corporation)今日宣布:推出创新性的、全新的FPGA系列产品,以满足人工智能/机器学习(AI/ML)和高带宽数据加速应用日益增长的需求。Achronix的Speedster®7t系列基于一种高度优化的全新架构,以其所具有的如同ASIC一样的性能、可简化设计的FPGA灵活性和增强功能,从而远远超越传统的FPGA解决方案。 Speedster7t FPGA系列产品是专为高带宽应用进行设计,具有一个革命性的全新二维片上网络(2D NoC),以及一个高密度全新机器学习处理器(MLP)模块阵列。通过将FPGA的可编程性与ASIC的布线结构和计算引擎完美地结合在一起,Speedster7t系列产品创造了一类全新的“FPGA +”技术。 随着人工智能/机器学习的应用场景快速发展演进,新的解决方案都要去应对在高性能、灵活和上市时间等方面的不同需求。根据市场调研公司Semico Research的预测,人工智能应用中FPGA的市场规模将在未来4年内增长3倍,达到52亿美元。  “我们正处于智能化、自学习计算的高增长阶段的早期,这种计算将广泛影响我们日的常生活。”Achronix Semiconductor总裁兼首席执行官Robert Blake表示:“Speedster7t是Achronix历史上最令人激动的发布,代表了建立在四个架构代系的硬件和软件开发基础上的创新和积淀,以及与我们领先客户之间的密切合作。Speedster7t是灵活的FPGA技术与ASIC核心效率的融合,从而提供了一个全新的‘FPGA+’芯片品类,它们可以将高性能技术的极限大大提升。” 在开发Speedster7t系列FPGA的产品过程中,Achronix的工程团队完全重新构想了整个FPGA架构,以平衡片上处理、互连和外部输入输出接口(I / O),以实现数据密集型应用吞吐量的最大化,这些应用场景可见于那些基于边缘和基于服务器的AI / ML应用、网络处理和存储。 Speedster7t器件采用了TSMC的7nm FinFET工艺制造,是专为接收来自多个高速来源的大量数据而设计,同时还需要将那些数据分发到可编程片上算法性和处理性单元中,然后以尽可能低的延迟来提供那些结果。Speedster7t系列产品包括高带宽GDDR6接口、400G以太网端口和PCI Express Gen5等接口,所有这一切单元都互相连接以提供ASIC级带宽,同时保留FPGA的完全可编程性。 “Achronix全新的Speedster7t FPGA系列产品是创新性芯片架构实现爆发的一个卓越案例,创造该架构的目的是直接面向AI应用处理大量的数据,” Semico Research公司ASIC和SoC首席市场分析师Rich Wawrzyniak说道。“通过将数学函数、存储器和可编程性整合到其机器学习处理器中,再结合交叉芯片、二维NoC结构,从而形成了消除瓶颈和确保整个器件中数据自由流动的绝佳方法。在AI / ML应用中,内存带宽就是一切,Achronix的Speedster7t在这一领域提供了令人印象深刻的性能指标。”   为计算性能进行了高度的优化   Speedster7t FPGA的核心是其全新机器学习处理器(MLP)中大规模的可编程计算单元平行阵列,它们可提供业界最高的、基于FPGA的计算密度。MLP是高度可配置的、计算密集型的单元模块,可支持4到24位的整点格式和高效的浮点模式,包括对TensorFlow的16位格式的支持,以及可使每个MLP的计算引擎加倍的增压块浮点格式的直接支持。 MLP与嵌入式存储器模块紧密相邻,通过消除传统设计中与FPGA布线相关的延迟,来确保以750 MHz的最高性能将数据传送到MLP。这种高密度计算和高性能数据传输的结合使得处理器逻辑阵列能够提供基于FPGA的最高可用计算能力以每秒万亿次运算数量为单位(TOPS,Tera-Operations Per Second)。   世界级的带宽   高性能计算和机器学习系统的关键之处是高片外存储器带宽,从而为多个数据流提供存储源和缓冲。 Speedster7t器件是唯一支持GDDR6存储器的FPGA,该类存储器是具有最高带宽的外部存储器件。每个GDDR6存储控制器都能够支持512 Gbps的带宽,Speedster7t器件中有多达8个GDDR6控制器,可以支持4 Tbps的GDDR6累加带宽,并且以很小的成本就可提供与基于HBM的FPGA等效存储带宽。  “美光(Micron)乐于携手Achronix去实现全球第一个面向高带宽存储需求而直接加载了GDDR6的FPGA产品,”美光计算与联网业务部营销副总裁Mal Humphrey。“像这样的创新的和可扩展的解决方案将推动人工智能领域内的差异化,其中异构计算可选方案与高性能的存储是加速获得数据内涵的必需部分。” 除了这种非凡的存储带宽,Speedster7t器件还包括业界最高性能的接口端口,以支持极高带宽的数据流。Speedster7t器件拥有多达72个业界最高性能的SerDes,可以达到1到112 Gbps的速度。还有带有前向纠错(FEC)的硬件400G以太网MAC,支持4x 100G和8x 50G的配置,以及每个控制器有8个或16个通道的硬件PCI Express Gen5控制器。   超高效率的数据移动   来自Speedster7t高速I / O和存储器端口的数万兆比特数据很容易淹没传统FPGA面向比特位的可编程互连逻辑阵列的路由容量,而Speedster7t架构包含一个可横跨和垂直跨越FPGA逻辑阵列的创新性的、高带宽的二维片上网络(NOC),它们连接到所有FPGA的高速数据和存储器接口。它们就像叠加在FPGA互连这个城市街道系统上的空中高速公路网络一样,Speedster7t的NoC支持片上处理引擎之间所需的高带宽通信。NoC中的每一行或每一列都可作为两个256位实现,单向的、行业标准的AXI通道,工作频率为2Ghz,同时可为每个方向提供512 Gbps的数据流量。 通过在Speedster中实现专用二维 NoC, 极大地简化了高速数据移动,并确保数据流可以轻松地定向到整个FPGA结构中的任何自定义处理引擎。最重要的是,NOC消除了传统FPGA使用可编程路由和逻辑查找表资源在整个FPGA中移动数据流中出现的拥塞和性能瓶颈。这种高性能网络不仅可以提高Speedster7t FPGA的总带宽容量,还可以在降低功耗的同时提高有效LUT容量。   针对安全性至上和硬件确保应用的安全防护功能   Speedster7t FPGA系列产品在面临第三方攻击的威胁时,可用最先进的比特流安全保护功能应对,它们具有的多层防御能力可保护比特流的保密性和完整性。密钥是基于防篡改物理不可克隆技术(PUF)进行加密,比特流由256位的AES-GCM加密算法进行加密和验证。为了防止来自旁侧信道的攻击,比特流被分段,每个数据段使用单独导出的密钥,且解密硬件采用差分功率分析(DPA)计数器措施。 此外,2048位RSA公钥认证协议被用来激活解密和认证硬件。用户可以确信的是当他们加载其安全比特流时,它是预期的配置,这是因为它已通过RSA公钥、AES-GCM私钥和CRC校验进行了身份验证。   经验证的、可向低成本ASIC转换的途径,用以满足大批量需求   Achronix是唯一一家既提供独立FPGA芯片又提供Speedcore™嵌入式FPGA(eFPGA)半导体知识产权( IP)的公司。Achronix在Speedcore eFPGA IP中采用了与Speedster7t FPGA中使用的同一种技术,可支持从Speedster7t FPGA到ASIC的无缝转换。FPGA应用通常具有必须保持可编程性的功能,而其他固定功能则是专用于特定的系统应用。对于ASIC的转换而言,固定功能可以被固化进ASIC结构中,从而减小芯片面积、成本和功耗。当使用Speedcore eFPGA IP将Speedster7t FPGA转换为ASIC时,客户有望节省高达50%的功耗并降低90%的成本。   供货   Speedster7t FPGA器件的大小范围为从363K至2.6M 的6输入查找表(LUT)。支持所有Achronix产品的ACE设计工具现已可提供,可支持包括Speedcore eFPGA和Speedchip™FPGA多晶粒封装芯片(Chiplet)。 第一批用于评估的器件和开发板将于2019年第四季度提供。   关于Achronix半导体公司   Achronix半导体公司是一家私有的、采用无晶圆厂模式的半导体公司,总部位于美国加利福尼亚州圣克拉拉市,同时提供高性能FPGA和嵌入式FPGA(EFPGA)解决方案。Achronix历来都是高性能FPGA市场向前发展的推动者之一。Achronix提供的产品包括可编程的FPGA结构、具有硬连线系统级模块的分立式高性能和高密度FPGA、数据中心和HPC硬件加速器板,以及支持所有Achronix产品的一流EDA软件。公司在美国、欧洲和中国都设有销售办公室和代表处,在印度班加罗尔设有一间研发和设计办公室。更多信息,请访问:http://www.achronix.com。 Achronix 和Speedster是 Achronix Semiconductor Corporation的注册商标,Speedcore 和Speedchip是Achronix Semiconductor Corporation的商标。 其他所有品牌、产品名称和标志均属于其各自所有者。  

    时间:2019-05-23 关键词: speedster7t fpga+ achronix

  • Achronix新一代嵌入式FPGA IP为AI/ML和网络硬件加速应用带来更高性能

    Achronix新一代嵌入式FPGA IP为AI/ML和网络硬件加速应用带来更高性能

    2016年,Achronix推出的Speedcore成为首款向客户出货的嵌入式FPGA(eFPGA)IP,使客户将FPGA功能集成到他们的SoC中成为可能。由于Speedcore IP是专为计算和网络加速应用而设计的,并基于Speedster22i FPGA系列相同的高性能架构,采用Speedcore作为硬件加速器的方案被广泛应用到数据中心和通信基础设施等领域。据了解,eFPGA IP授权业务在过去两年间快速增长,2017年,已经占到Achronix FPGA整体营收的20%,而2018年,凭借其显着的功耗和成本优势,eFPGA IP授权业务比重进一步提高。 本月,Achronix宣布推出第四代嵌入式FPGA产品Speedcore Gen4 eFPGA IP。较前代产品,Speedcore Gen4将性能提高了60%、功耗降低了50%、芯片面积减少65%,同时保留了原有的Speedcore eFPGA IP的功能,即可将可编程硬件加速功能引入广泛的计算、网络和存储应用,实现接口协议桥接/转换、算法加速和数据包处理。 图:Speedcore 7t较前代产品性能显著提升 据Achronix市场营销副总裁Steve Mensor介绍,创新的架构使这些性能提升成为可能。与上一代Speedcore产品相比,新的Speedcore Gen4架构实现了多项创新,从而可将系统整体性能提高60%。其中查找表的所有方面都得到了增强,以支持使用最少的资源来实现各种功能,从而可缩减面积和功耗并提高性能。其中的更改包括将ALU的大小加倍、将每个LUT的寄存器数量加倍、支持7位函数和一些8位函数、以及为移位寄存器提供的专用高速连接。 图:Achronix市场营销副总裁Steve Mensor Speedcore Gen4的路由架构也借由一种独立的专用总线路由结构得到了增强。此外,在该路由结构中还有专用的总线多路复用器,可有效地创建分布式的、运行时可配置的交换网络。这为高带宽和低延迟应用提供了最佳的解决方案,并在业界首次实现了将网络优化应用于FPGA互连。 图:Speedcore Gen4架构为高性能总线提供了专用路由 易用性也是eFPGA的特色之一,降低了客户集成FPGA加速器的门槛。客户通过定制其逻辑、RAM和DSP资源需求,Achronix接下来就会为其配置满足其需求的Speedcore IP,Speedcore查找表(LUT)、RAM单元模块和DSP64单元模块可以像乐高积木一样进行组合,以便为特定的应用创建优化的可编程功能。 根据艾瑞咨询的数据,2020年全球人工智能市场规模约1190亿人民币,未来10年,人工智能将会是一个2000亿美元的市场,空间非常巨大。 在人工智能领域,传统的芯片计算架构已无法支撑深度学习等大规模并行计算的需求,这就需要新的底层硬件来更好地储备数据、加速计算过程。其中,FPGA等用于性能加速的硬件、神经网络芯片、传感器与中间件,则是支撑人工智能的前提。新的Speedcore Gen4可谓最佳的人工智能/机器学习加速器。Achronix机器学习处理器(MLP)利用了人工智能/机器学习处理的特定属性,并将这些应用的性能提高了300%。这是通过多种架构性创新来实现的,这些创新可以同时提高每个时钟周期的性能和操作次数。 MLP是一个完整的人工智能/机器学习计算引擎,支持定点和多个浮点数格式和精度。每个机器学习处理器包括一个循环寄存器文件,它用来存储重用的权重或数据。各个机器学习处理器与相邻的机器学习处理器单元模块和更大的存储单元模块紧密耦合,以提供最高的处理性能、每秒最高的操作次数和最低的功率分集。这些机器学习处理器支持各种定点和浮点格式,包括Bfloat16、16位、半精度、24位和单元块浮点。用户可以通过为其应用选择最佳精度来实现精度和性能的均衡。 为了补充机器学习处理器并提高人工智能/机器学习的计算密度,Speedcore Gen4查找表(LUT)可以实现比任何独立FPGA芯片产品高出两倍的乘法器。领先的独立FPGA芯片在21个查找表可以中实现6x6乘法器,而Speedcore Gen4仅需在11个LUT中就可实现相同的功能,并可在1 GHz的速率上工作。 GSMA智库发布的最新的全球物联网市场报告显示,包括连接、应用、平台与服务,到2025年全球物联网市场规模将达到1.1万亿美元。数十亿物联网设备的出现,将给传统网络和计算基础设施带来压力。固定和无线网络带宽的急剧增加,加上处理能力向边缘等进行重新分配。这种新的处理范式意味着每秒将有数十亿到数万亿次的运算。传统云和企业数据中心计算资源和通信基础设施无法跟上数据速率的指数级增长、快速变化的安全协议、以及许多新的网络和连接要求。传统的多核CPU和SoC无法在没有辅助的情况下独立满足这些要求,因而它们需要硬件加速器,通常是可重新编程的硬件加速器,用来预处理和卸载计算,以便提高系统的整体计算性能。经过优化后的Speedcore Gen4 eFPGA已经可以满足这些应用需求。 Steve Mensor告诉21IC记者,现有已量产的Speedcore架构,Achronix可在6周内为客户配置并提供Speedcore eFPGA IP和支持文件。而最新采用台积电7nm工艺节点的Speedcore Gen4将于2019年上半年投入量产,芯片设计企业现已可以联系Achronix,以获得支持其特定需求的Speedcore Gen4实例。此外Achronix还将于2019年下半年提供用于台积电16nm和12nm工艺节点的Speedcore Gen4 eFPGA IP。据Steve Mensor预测,凭借Speedcore Gen4 eFPGA的功耗和成本优势,人工智能/机器学习和高数据带宽应用的爆炸式需求将推动其在边缘计算、5G、网络加速和计算加速等领域被广泛采纳,2019年,eFPGA IP授权业务有望达到Achronix FPGA整体营收的50%甚至更多。

    时间:2018-12-21 关键词: 技术专访 嵌入式fpga 硬件加速器 achronix

  • 摩尔定律渐渐失效 eFPGA将加速AI发展

    摩尔定律渐渐失效 eFPGA将加速AI发展

    AI正在迅速发展,对芯片算力和内存的要求也越来越高,但摩尔定律的放缓甚至失效让芯片靠先进半导体工艺来提高芯片的性能和能效难度越来越大。此时,无论是在芯片市场耕耘多年的芯片霸主还是科技巨头都纷纷研发AI芯片,新的芯片类型和技术也开始涌现。那么,eFPGA这种嵌入式的FPGA技术将如何推动AI的发展?7nm eFPGA的设计又将如何被AI的发展影响?AI加速发展与摩尔定律放缓AI的快速发展让智能语音助理几乎成了手机的标配,也让智能音箱的出货量连年上涨。于此同时,越来越多的手机正在使用AI技术优化拍照的效果以及对相册的照片进行分类。不过这些只是AI技术现阶段一些常见的应用,AI算法的不断演变正在让AI与更多的行业和应用结合,新的AI算法无论对芯片的算力还是内存等都提出了更高的要求,所有的AI芯片公司都在追求性能更高、功耗更低、面积更小的芯片。回看芯片性能提升的历程,在1986年到2003年之间,芯片性能和功耗持续降低,到了2003年之后,凭借着多核的设计以及半导体工艺的进步芯片的性能依旧在提升,但摩尔定律显然已经放缓。2015年之后,芯片的提升越来越难,关于摩尔定律失效的讨论越来越多。摩尔定律减缓因此,CPU、GPU、FPGA、ASIC性能的提升和功耗降低都面临越来越大的挑战,另外,从16nm到7nm节点,芯片制造成本也在大幅提升。对于运算速度、数据传输、内存带宽都有较高要求的AI芯片,如何才能实现每瓦更高的性能以及更低的成本?AI如何改变eFPGA的架构设计?对于AI芯片,越来越多的芯片设计公司正在使用多核异构的架构来提升芯片的效率,满足深度学习算法的需求。除了多核异构的架构,具体的核的架构也都在不断针对AI优化,FPGA也不例外。值得注意的是,成立于2004年总部位于美国的Achronix提供的是嵌入式FPGA技术。Achronix的Speedcore IP是可以集成到ASIC和SoC之中的嵌入式FPGA(eFPGA),作为可配置的协处理器和硬件加速器来支持各种各样的任务,其比特位导向(bit-oriented)FPGA架构,比字段导向(word-oriented)的CPU架构更为高效,适用于SQL卸载、在线I/O处理、加密、搜索引擎算法性加速和增强多媒体处理等功能。据了解,Achronix是唯一一家交付的eFPGA技术已经嵌入到ASIC中实现量产的公司,Speedcore IP适用的工艺节点包括TSMC 16nm FF+和英特尔的14nm FinFET,并已宣布将于2019年上半年开始提供适用于台积电7nm工艺的第四代Speedcore eFPGA IP。Achronix市场营销副总裁Steve Mensor除了支持最先进的制造工艺,7nm的eFPGA也进行了架构上的优化,其中非常关键的就是将机器学习处理器(MLP)增加到Speedcore可提供的资源逻辑库单元模块中。Achronix市场营销副总裁Steve Mensor表示:“MLP模块是一种高度灵活的计算引擎,它与存储器紧密耦合,利用了人工智能及机器学习处理的特定属性,将这些应用的性能提高了300%。可以同时提高每个时钟周期的性能和操作次数,一个MLP在1个时钟周期可以完成1个16×16的运算,8个8×8的运算,12个6×6的运算,16个4×4的运算。”数据类型的支持对机器学习也非常重要,据悉MLP支持各种定点和浮点格式,包括Bfloat16、16位、半精度、24位和单元块浮点,也就是说可以根据应用选择最佳精度来实现精度和性能的均衡。至于在支持的数据类型的支持上是否会有所偏重的问题,Steve告诉他们的eFPGA支持所有的数据类型,这也是FPGA可编程行的好处。虽然能够支持所有的数据类型,但数据的存取耗能比计算耗能更多是所有AI芯片都不得不面对的问题。对此,Steve表示:“每个MLP包括一个循环寄存器文件(Cyclical Register File),用来存储重用的权重或数据,无需经过LUT,提升处理性能的同时还能降低功耗。”另外,对于对机器学习计算密度比较高的应用,如果MLP还不能够满足希求,Speedcore Gen4查找表(LUT)可作为补充,可实现比独立FPGA高两倍的乘法器。不仅仅是机器学习性能,Steve还表示:“我们的7nm eFPGA的逻辑单元、走线、路由架构、内存都进行了改进。”具体来说,查找表进行了全面的增强,更改包括将ALU的大小加倍、将每个LUT的寄存器数量加倍、支持7位函数和一些8位函数、以及为移位寄存器提供的专用高速连接,缩减面积和功耗并提高性能。另外,路由架构借由一种独立的专用总线路由结构得到了增强,该路由结构中有专用的总线多路复用器,可有效地创建分布式的、运行时可配置的交换网络,并且在业界首次实现了将网络优化应用于FPGA互连。经过芯片架构的优化设计以及在7nm工艺的加持下,Speedcore Gen4性能提高了60%、机器学习性能提升300%、功耗降低50%、芯片面积减少65%。Speedcore Gen4 FPGA提升同时推7nm eFPGA IP和独立FPGA只为AI应用AI对eFPGA不止于架构方面的改变,Steve表示采用台积电7nm工艺节点的Speedcore Gen4将于2019年上半年投入量产,并将在2019年下半年提供用于台积电16nm和12nm工艺节点的Speedcore Gen4 eFPGA IP。注意到,在7nm节点Achronix不仅提供eFPGA IP,还提供FPGA裸片可与SoC进行封装,并且还会推出独立的FPGA器件。至于提供IP为主的Achronix为什么要在7nm节点推出独立FPGA,Steve表示:“这更多的是基于用户需求的考虑。在AI的应用中,数据中心的加速、5G、自动驾驶都有不同的需求。独立的FPGA更够让他们能够更快的应用在数据中心,实现加速,也能更好地满足对7nm FPGA芯片用量更小的公司的需求。那些对芯片成本和面积更加敏感,或者想设计出性能更高的AI芯片的公司,则可以选择IP。当然SoC公司也可以选择合适的封装技术将我们的裸片与他们的SoC进行封装,实现更高的性能。”Achronix 亚太区总经理罗炜亮当然,硬件是根本,软件也将在AI中发挥着越来越重要的作用,许多芯片设计公司在AI时代也开始更多地与软件公司进行合作,但在发布会上除了Achronix的ACE设计工具,并没有其他针对AI的软件。Steve对此表示:“我们作为一家正在快速发展但规模还不够大的公司,目前我们主要是在硬件层面提供稳定且性价比高的不同的芯片,我们最高会做到Libiary层,软件方面则更多地与合作伙伴协作。”高成本下谁需要7nm eFPGA?至此,我们已经了解到,无论从架构设计还是需求角度,eFPGA都进行了优化,但还有一个非常关键的问题就是16nm到7nm制程带来的性能、功耗的提升在成本面前似乎吸引力不足。虽然Steve表示芯片设计公司购买7nm eFPGA IP的价格与16nm eFPGA IP的价格相比没有上涨,但是制造成本的陡增还是会让许多芯片设计公司望而却步。Steve表示,7nm eFPGA主要的市场包括对计算性能和价格有要求的数据中心加速、对低功耗计算有要求的边缘计算、有低功耗和低成本要求的存储器、低功耗高性能并且需要有可编程性的5G基础设施、网络加速/智能网卡、自动驾驶。7nm eFPGA市场不过,其中一些应用是潜在市场,另外一些则是驱动Achronix推出7nm eFPGA的关键。Steve指出:“目前我们公司营收最重要的两个应用是5G基础设施和智能卡(SmartIC),5G对芯片有高性能和低功耗的要求,因此很多以前用FPGA的公司现在转到了ASIC,但还需要一些灵活性以应对协议的改变。智能卡则是在数据传输前就进行一些数据的处理,我们知道数据量以及数据的复杂程度都在增加,因此这两个场景对7nm eFGPA都有很大的需求。数据中心以及自动驾驶、存储都需求明确,至于边缘计算最合适的场景则需要看市场的发展。”还值得一提的是,为了能够加速数据中心和汽车等应用中机器学习工作负载,Achronix将其eFPGA与Micron的GDDR6存储器相结合,第四代eFPGA中有8个增强的GDDR6存储器接口,通过这种联合解决方案,可以应对深度神经网络中包括存储大数据集、重权重参数和存储器激活;底层硬件需要在处理器和存储器之间存储、处理和快速移动数据等挑战。小结AI算法还在不断的迭代和发展,因此通用性更强的CPU、GPU虽然能够完成相应的算法,但是效率越来越低,成本也越来越高,这推动了芯片架构的革新。我们看到越来越多的AI芯片采用多核异构,通过不同的核心组合提升性能和效率,更好地满足AI的需求。从Achronix eFPGA的改进中我们也看到了其在逻辑单元、走线、路由架构方面都进行了改进,并且增加了MLP,为减少数据搬运的耗能,还搭载了片上存储,同时为了解决深度学习的固有问题,率先在FPGA中支持GDDR6。AI应用与AI芯片就是在这样的相互影响下推动AI向前发展。

    时间:2018-12-07 关键词: ai芯片 efpga achronix

  • Achronix推出全新eFPGA项目,帮工程师快速构建低成本测试芯片!

    ·该组项目将使研究机构和公司能够使用Achronix高性能Speedcore eFPGA技术快速构建低成本测试芯片 基于现场可编程门阵列(FPGA)的硬件加速器器件和高性能嵌入式FPGA半导体知识产权(eFPGA IP)领导性企业Achronix半导体公司日前宣布:公司推出两个全新的项目,以支持研究机构、联盟和公司能够全面对接Achronix领先Speedcore eFPGA技术。 eFPGA技术正在迅速地成为基于系统级芯片(SoC)的CPU卸载功能中可编程硬件加速单元的必备硅知识产权(IP),已被广泛用于包括人工智能/机器学习(AI / ML)、区块链、网络加速、智能网卡和智能物联网等各种应用。这些被称为“eFPGA Accelerator”的eFPGA应用加速项目面向希望试验或证实新硬件架构的研究机构和测试芯片开发人员,为其提供了获得公司Speedcore eFPGA IP预先配置版本及相关开发工具的对接机会。 研究类eFPGA Accelerator应用加速项目: 大学、政府机构和行业联盟经常工作在技术进步的前沿, Achronix承诺支持这些类型的前沿研究项目。 Achronix的全新研究类eFPGA Accelerator应用加速项目将支持研究人员使用预先配置的Speedcore eFPGA IP,在他们的SoC研究项目中构建可编程硬件加速器。这类项目还针对政府机构的高性能计算需求,解决这些需求中确实需要解决的关键安全性和硬件保障问题,尽管他们通常缺乏去摊销开发定制SoC费用的制造批量。 测试芯片类eFPGA Accelerator应用加速项目: 测试芯片类eFPGA Accelerator应用加速项目使各种公司能够将eFPGA IP集成到其ASIC和SoC之中,从而利用Achronix经过流片验证的、预先配置好的IP及支持性ACE设计工具。跨越许多个应用领域和地区的公司都希望测试其包含可编程硬件加速器的新体系结构设计,从而满足计算、联网和存储平台的高性能应用需求。测试芯片类eFPGAAccelerator应用加速项目支持这些公司便捷地将经过流片验证的高性能eFPGA IP集成到其ASIC和SoC的设计中,然后根据评估批量来制造芯片。 “Achronix很高兴能够走在嵌入式FPGA市场的最前沿,该技术正在迅速地成为许多需要硬件加速的应用的首要选择”,Achronix市场营销副总裁Steve Mensor说道。“这些全新的eFPGA Accelerator应用加速项目将使创新的公司和研究机构能够使用我们的IP和工具去构建下一代的可编程芯片,从而满足AI / ML和其他计算密集型应用不断增长的数据和计算量需求。” Achronix 的研究类eFPGA Accelerator应用加速项目和测试芯片类eFPGA Accelerator应用加速项目,将支持研究机构和测试芯片开发人员轻松地获得Achronix的Speedcore eFPGA技术的许可授权。该项许可包括对接预先配置的、经过流片验证的Speedcore eFPGA IP以及该公司业内一流的ACE设计工具。所有标准的Speedcore交付物都将包含在这些应用加速项目中。这些项目的Speedcore IP都是基于台积电(TSMC)的16FF +工艺技术。

    时间:2018-11-28 关键词: 芯片 efpga achronix

  • Achronix出席2018世界集成电路大会并在人工智能与半导体专场发言

    21ic讯 Achronix半导体公司出席了在北京亦庄举行的“2018北京微电子国际研讨会暨IC WORLD大会(世界集成电路大会)”,公司亚太区总经理罗炜亮(Eric Law)出席了大会的人工智能(AI)与半导体专场,并介绍了Achronix的Speedcore嵌入式FPGA(Speedcore eFPGA)在人工智能芯片设计中的诸多优势和广泛应用。     Achronix亚太区总经理罗炜亮在世界微电子大会人工智能专场上演讲 2018北京微电子国际研讨会的指导单位包括工业和信息化部、科学和技术部以及北京市人民政府;主办单位包括北京市经济和信息化委员会、以及国家集成电路产业投资基金股份有限公司;承办单位包括北京经济技术开发区管理委员会、北京半导体行业协会、国际半导体产业协会(SEMI)、华美半导体协会(CASPA)、中芯北方集成电路制造(北京)有限公司和北方集成电路技术创新中心(北京)有限公司。 Achronix公司今年首次参加了北京微电子国际研讨会,并在大会的人工智能与半导体专场上,就Speedcore eFPGA在人工智能中的应用发表了演讲。罗炜亮表示:人工智能正在重塑世界的运行方式,为商业和工业系统开启了无数的机会。人工智能应用遍及多个市场,如自动驾驶、医疗诊断、家用电器、工业自动化、自适应网站和财务分析等等,甚至将这些系统连接在一起的通信基础设施也正朝着自动化自我修复和优化方向发展。这些新的架构将执行诸多功能,例如负载平衡以及基于由经验得出的预测来分配诸如无线信道和网络端口等资源。 针对人工智能应用,FPGA提供了一种方法来实现自定义处理器和内存管理技术的优点,而不需要将实现锁定到一个特定的、不变的硬件结构上。现在,诸如Achronix的Speedster等许多FPGA架构提供了完全可自定义的逻辑和数字信号处理(DSP)引擎的混合结构,它们可支持固定和浮点运算。在许多情况下,DSP引擎可采用由8位或16位单元来组成一种构建模块,这种方法可以将它们组合起来以支持更高精度的数据类型。通过用逻辑阵列中的查找表(LUT)中来实现相关逻辑也能够适用于低精度。     嵌入式可编程逻辑通过消除对面积大、功耗高的I / O电路的需求,来缩减了芯片的总面积 而诸如Achronix的Speedcore这样可集成在芯片上的嵌入式FPGA硅知识产权(IP)模块,在人工智能以及其他加速应用中,还通过以下方式节省了大量的硅片占用面积:消除一款独立FPGA芯片上占用很大面积和功耗很高的输入/输出单元(I / O);将固定的功能转移至更高效的专用集成电路(ASIC)模块; 将重复功能转换为Speedcore自定义模块,从而实现进一步更加高效的处理并缩减面积和功耗。 通过参加此次世界集成电路大会的人工智能专场,Achronix正和其他产业生态中的伙伴一起,加速中国高端FPGA芯片和带有eFPGA的先进系统级芯片(SoC)的设计,从而在包括5G、先进数据中心、智能网联汽车、数字医疗、边缘计算和超级计算等等诸多领域内为国内厂商去实现世界级的创新提供先进的芯片和解决方案。     通过使用Speedcore自定义模块可缩减41%的芯片占用面积 本届世界集成电路大会以“技术创新引领,产业链协同发展”为主题,首次在已举办19届的北京微电子国际研讨会之外增设了产业博览会,200多家集成电路产业上下游企业参展。大会以推动京津冀为核心的集成电路纵向整合及产学研协同创新为目标,致力于提升北京集成电路产业的影响力与吸引力,助力北京全国科技创新中心建设,搭建了多层级的沟通平台。 Achronix已推出题为《AI应用的理想解决方案 — Speedcore eFPGA》白皮书,不久将在Achronix微信公众号上连载,欢迎大家关注。

    时间:2018-11-15 关键词: 人工智能 2018世界集成电路大会 achronix

首页  上一页  1 2 3 下一页 尾页
发布文章

技术子站

更多

项目外包