当前位置:首页 > achronix
  • 软件友好型的硬件提供了最大的灵活性,敲开了高性能数据加速的大门

    软件友好型的硬件提供了最大的灵活性,敲开了高性能数据加速的大门

    在云计算和边缘计算中,业界渴求能够支持各种应用的高性能。为了满足这一需求。 亚马逊(Amazon)、Facebook和微软(Microsoft)等超大规模用户采用的第一批加速器都是大幅度定制的设计。这些公司能够在打造自己的板卡设计中确保所需的规模经济,无论是基于自己设计的专用集成电路(ASIC),还是采用现成的FPGA和GPU。从成本和时间的角度来看,对于企业数据中心和边缘计算用户来说,他们难以在这种定制芯片级设计中找到合理的规模。然而,设计定制的ASIC和板卡并不是必需的。对诸如以太网和PCIe等标准接口的需求,不仅使使用标准板卡级产品成为可能,而且也是可取的。 作为一家长期提供硬件加速产品的供应商,BittWare一直在为从高性能计算到云加速到仪器仪表等众多领域内的客户设计采用PCIe尺寸的、基于FPGA的板卡,并在这方面积累了丰富的经验。现在,作为Molex集团的子公司,BittWare能够充分借助其全球供应网络以及与戴尔(Dell)和惠普企业(HP Enterprise)等服务器供应商的深厚关系。BittWare是唯一一家可与多家主流FPGA供应商合作的重要批量化供应商,能够满足企业客户的质量认证、验证、产品生命周期管理和支持需求,这些客户希望为关键任务型应用去大规模部署FPGA加速器。 在这些应用中,BittWare实现的一个重要差异化在于该公司为其基于FPGA的加速器提供了广泛的软件支持。每个加速卡均配有适用于Linux和Windows系统的驱动软件,可通过PCIe和以太网连接将其快速集成到各种系统中。除了支持主CPU和加速卡之间的通信外,该驱动还支持接入加速卡上的嵌入式固件。这个固件可以处理众多管理和自检功能。 它们使FPGA电路能够根据需要的新功能重新进行配置,此外还提供了一些对功耗、电压和温度的监测程序。如果主机系统中的冷却功能失效,那么担任管理者的固件可以关闭加速卡,以避免热过载。此外,软件组合包还包括各种参考设计,以便开发人员能够快速构建配置,使他们可以测试加速卡的功能并开始在其自己的应用上工作。 对于最新一代的加速卡,BittWare与Achronix紧密合作。Achronix是唯一一家能够同时提供独立FPGA芯片和嵌入式FPGA(eFPGA)半导体知识产权(IP)的FPGA供应商。VectorPath™S7t-VG6加速卡使用了Achronix采用7nm 工艺打造的、结合了很多功能的Speedster®7t FPGA芯片,不仅可以在内部提供高吞吐量数据加速,而且还支持现今从机器学习到先进仪器等系统所需的高度分布式、网络化的架构。 图1:VectorPath S7t-VG6加速卡 软件友好型的硬件提供了最大的灵活性 通过对分布式架构提供直接支持,VectorPath S7t-VG6加速卡中使用的Speedster7t FPGA芯片标志着与传统FPGA架构不同的重大转变,它使面向软件的开发人员更容易地构建定制化的处理单元。这种创新的全新架构与诸如英特尔(Intel)和赛灵思(Xilinx)等供应商生产的传统FPGA完全不同,传统FPGA的设计关注点并不在数据加速。 在设计Speedster7t的架构时,Achronix创建了一种可最大限度地提高系统吞吐量的FPGA芯片,同时还为计算机架构师和开发人员提高了易用性。与传统的FPGA架构相比,Speedster7t FPGA芯片的一个关键差异化点在于它包括一个创新的二维片上网络(2D NoC),可以在逻辑阵列内的处理单元与各种片上高速接口和存储器端口之间流传数据。 传统的FPGA要求用户去设计电路来将其加速器连接到高速以太网或PCIe数据端口和/或存储器端口。通常,一个独立系统是由连接到多个高速端口的多个加速器组成。例如,下图就说明了一种场景,其中有两个加速器连接到两个存储端口上,以共享一个存储空间。这种场景使用了FIFO来管理存储器和FPGA时钟之间的时钟域交叉(CDC)。此外,FPGA逻辑架构中还需要一个交换功能来管理寻址、仲裁和反压。在传统的FPGA中,这项功能会消耗大量的FPGA资源,并且其复杂程度足以降低系统性能并使时序收敛变得复杂。 Achronix采用了由软件设计来实现硬件的方法,而这种硬件中的以太网和其他高速I / O端口可用二维片上网络(2D NoC)轻松地连接到定制的加速器功能上。Speedster7t NoC不再需要设计CDC和交换功能来将加速器连接到高速数据或内存端口。通过简单地将这些功能连接到NoC,就消除了连接方面的难题,从而简化了设计,减少了FPGA资源的消耗,提高了性能并简化了时序收敛。 图2:传统FPGA设计面临的挑战 图3:Speedster7t二维片上网络支持软件友好型硬件 为了实现高性能的算术运算,每个Speedster7t器件都具有一个大型可编程计算单元阵列,它们被有序地放置在机器学习处理器(MLP)单元模块中。MLP是一个高度可配置的计算密集型单元模块,在每个周期内可支持多达32个乘法/累加(MAC)运算。在以加速器为中心的设计中,MLP的存在使得在完全可编程逻辑和硬连线算术单元之间能够有效地共享资源。 尽管有些FPGA倾向于使用HBM2存储器,其中FPGA和存储器被组装成一个昂贵的2.5D封装,而Speedster7t系列却采用GDDR6内存标准接口。这种接口提供了当今片外存储器可实现的最高性能,并且成本显著降低,从而使团队更容易去实现带有高带宽存储阵列的加速器。一个GDDR6存储控制器可以支持512 Gbps的带宽。VectorPath S7t-VG6加速卡可提供八组存储器,总存储带宽可以达到4 Tbps。此外,板上还有一个DDR4接口,可用于访问频率较低或不需要GDDR6吞吐量的数据。 VectorPath S7t-VG6加速卡提供了许多高性能接口,用来支持分布式架构和高速主机通信。现在,该加速卡提供了PCIe Gen 3.0的16通道合规性和认证,并提供获取Gen 4和Gen 5资质认证的途径。在以太网连接方面,该加速卡采用已获得广泛支持的光学接口模块,依据QSFP-DD和QSFP56标准,能够处理高达400 Gbps的超高线速。 在加速卡的另一端还有一个OCuLink扩展端口,以支持很多其他的低延迟应用场景。例如,OCuLink端口可用于将加速卡连接到各种外围设备上,比如用于计算存储或数据库加速应用的NVMe存储阵列。与采用连接到主处理器的PCIe接口相比,OCuLink连接能够成为一个更好的选择,因为它提供了一种消除了系统级延迟和抖动的高确定性的连接。OCuLink端口还可以引入其他网络连接,从而可扩展实现QSPF-DD或QSFP56之外的各种端口规格。 图4:VectorPath的网络和存储接口 在VectorPath S7t-VG6加速卡的前面板上还包括多个时钟输入,它们是在将多个加速卡同步到一起时通常需要的。两个SMB时钟输入连接器支持从1PPS和10 MHz的时钟输入,它们在进入FPGA之前,就已被连接到抖动清除器。一旦进入FPGA,这些时钟就可以被倍频或分频成为特定应用所需的频率。 还可以通过通用数字I / O端头进行进一步扩展。该I / O端口支持单端3.3V连接和低电压差分(LVDS)信号,支持外部时钟、触发器和专用I / O等自定义信号直接连接到Speedster7t FPGA。该扩展端口还可用于将VectorPath加速卡改造为传统硬件。 图5:VectorPath时钟输入和GPIO 适用于小批量和大批量需求 VectorPath S7t-VG6加速卡已考虑到了每个细节,例如可支持被动和主动空气散热和液体散热。此外,BittWare和Achronix还为医疗等需要更长产品生命周期的领域确保提供长期的供应与支持。在这些市场中,基于GPU的PCIe加速卡较短的产品生命周期与超过10年的系统服务支持需求是不符的。 对于更大批量需求,特别是在边缘计算等场景中,客户可以使用BittWare的成本降低计划来简化硬件,其设计仅仅支持客户所需的I / O选项。此外,BittWare也可提供电路板设计文件以及VectorPath S7t-VG6加速卡随附的软件和驱动器的使用。利用Achronix的Speedcore eFPGA IP,也可以走向定制系统级芯片(SoC)器件。客户可以构建自己其中包括Speedster7t可编程性的SoC,但又具有ASIC的成本结构。 为了实现更好的开发和更便捷的部署,VectorPath S7t-VG6加速卡可以由BittWare以其TeraBox平台的形式来提供预先集成的多核服务器。外形从2U到5U,TeraBox的机架式机箱最多可容纳16个BittWare PCIe加速卡,并由双路英特尔(Intel) Xeon处理器管理。作为一个完整的解决方案,TeraBox为客户提供了启动和运行FPGA开发的最快机制。在Bittworks II和FPGA Devkit软件的支持下,用户可以直接使用TeraBox并立即开始开发工作。或者,客户也可以从Dell和HP Enterprise购买包含BittWare加速卡的预配置服务器。 图6:TeraBox平台的部署

    时间:2020-03-22 关键词: achronix bittware

  • 硬件提供打开数据加速大门的钥匙

    硬件提供打开数据加速大门的钥匙

    日益增长的分布式加速需求 在云计算和边缘计算中,业界渴求能够支持各种应用的高性能。为了满足这一需求,数据中心、网络集群和边缘计算站点的运营商正在转向定制化的加速器技术。 对于需要高性能计算平台的用户,专用加速器在实践中被常用来应对各种挑战;这些用户不再依靠诸如Intel Xeon系列CPU这样的传统通用CPU来支持数据吞吐量不断增长这一需求。通用CPU的核心问题在于,尽管摩尔定律一直在以大约每两年就会使每平方毫米硅片中集成的晶体管数量增加一倍的速度演进,但它不再支持时钟速率的增长。此外,CPU内的并行性很快达到了天花板。因此,其他技术更适合支持新型工作负载,包括如机器学习、基因组研究、数学和统计分析、语音和图像识别以及数据挖掘和搜索。 与传统由数据库驱动的应用相比,这些新的工作负载通常无法很好地映射到传统CPU流水线上;例如一些神经网络的训练已被验证可以在GPU上运行良好,这些算法可以利用数百个并行浮点着色器内核通过所需的数万亿个步骤来迭代更新一个大型网络。另一方面,基因组研究和数据搜索需要利用大量的对比步骤,并需处理低分辨率的整数数据。尽管这些工作负载可以利用CPU或GPU来完成处理,但是在这些平台上运行时,这些任务的计算效率和能效相对较低。自定义的基于ASIC或FPGA的加速器能够以更低的功耗提供更大的吞吐量,这是因为它们支持设计人员去构建针对这些操作和数据类型进行优化的专用电路。 互联网搜索和社交媒体等领域内的超大规模数据中心运营商已采用加速器概念来保障其服务器载荷的高效运转。语音响应系统现在已经被用于日常生活中,并得到了运行在传统刀片服务器与自定义加速器组合上的人工智能算法的支持。随着对这些基于机器学习和数据挖掘等技术的应用的需求不断增长,大量的企业用户正在转向基于加速器的方案,以使他们自己能跟上需求的步伐。据研究机构Research and Markets的分析预测,仅数据中心加速器这一市场的规模,就将从2018年的28亿美元增长到2023年的212亿美元,复合年增长率接近50%。 在这种增长之外,加速器的应用还注定将扩展到数据中心之外。诸如虚拟现实、自动驾驶、机器人技术和工业4.0等领域无法忍受信息在经过远程数据中心中继后带来的电信延迟。越来越多的计算能力将需要被部署在边缘计算机架中,而被安装于路边机柜中、移动基站旁或校园柜子内。 在各种数据中心和边缘计算用例中,有诸多常见的需求驱动因素,比如能效,快速转型,以及可扩展性。能效是降低冷却成本和复杂性以及将电费花销降到最低的核心要求。低功耗操作在边缘计算装置中至关重要,因为其中的环境温度的控制功能较弱,并且还需将维护的需求保持在最低限度。 在许多领域中,快速转型是不可避免的,并会创造新的需求,以便在变化出现时能够根据要求对应用进行调整和再加工。它不仅仅是对现有应用的更新;通常,新的用例在出现时,都会挑战用户及时做出反应的能力。而这些用例可能需要开发将不同的技术和概念结合在一起的应用,例如将人工智能(AI)功能添加到数学建模和数据挖掘系统中。为了应对这些转型,用户需要调用可以很好地进行协同工作的加速器技术,并且各个组件可以通过网络连接来进行高速通信。 可扩展性同样重要。随着面向特定服务的客户群不断增长,运营商需要知道他们能够轻松地增加容量。同样至关重要的是,具有高效通信能力的高度可编程解决方案通过增加并行性来支持其扩展能力。对诸如100 Gbps以太网和更快的链路等协议的支持,可确保能够使用分布式处理去适应增长。例如,边缘应用可能会调用云支持,直到本地机柜升级到具有额外的处理能力。 用于加速的硬件平台 加速器的硬件可以有多种形式。理想的配置是提供PCI Express(PCIe)和高速以太网连接的组合,并可以选择添加自定义连接以支持诸如环形、网状和菊花链结构等各种拓扑结构,以满足应用的各种数据吞吐量需求。对PCIe的支持通过内存映射接口将加速引擎与主处理器和其他加速器紧密集成。能够在诸如PCIe之类的接口上存储共享结构来交换数据,就可以极大地简化分布式应用的开发。 以100 Gbps或更高速率运行的以太网连接进一步提供了扩展范围。通过使用它们自有的以太网端口,而不是通过主机的主网络接口来路由数据包,加速器可以彼此间高效地相互协调。例如,在一个分布式存储配置中,加速卡可以被直接连接到嵌入式非易失性存储器(NVMe)模块上,每个模块中的独立搜索引擎使用通过其以太网连接发送的消息,来识别分散在多个节点上的数据,从而可以很容易地进行协调。 无论是作为主要的加速技术还是与GPU和其他技术配合使用,FPGA都非常适合数据中心和边缘计算应用的需求。FPGA的一个关键优势是可以在系统中来对其进行编程,以创建各种各样的数字电路。软件可以为目标应用选择配置比特流,并将其发送以配置FPGA。通过将新模式加载到器件上的逻辑阵列中,FPGA可以根据需要进行动态更新以承担新的任务。可编程性创建了由软件定义的硬件,从而完全支持用户不仅能够动态更改应用,还可以动态更改支持它们运行的硬件。将硬件可编程性与连接多个加速器的能力相结合,为用户提供了极大的灵活性。 许多计算类用户已经意识到FPGA在加速应用中的强大功能。例如,微软的Catapult项目使用FPGA为其搜索服务构建加速器,并且在其BrainWave项目中使用FPGA进行高速人工智能推理。亚马逊通过其F1服务提供了可在云端使用的FPGA,这使得到远程用户可以容易地部署这项技术。 在其他领域选择使用FPGA加速也已有一些时间。例如, FPGA逻辑阵列多年来一直被用于军事和航空航天领域的雷达处理,以及医学领域的实时成像。随着工业领域接受了实时机器设备健康监测等概念,以作为迈向工业4.0的一部分,用户可以转向使用FPGA来提高其算法的质量和响应能力。 相对于使用GPU来进行数据加速,采用FPGA的实现方式通常受益于较低的延迟和更高的能效。GPU的一个关键问题是:它们的计算效率通常只是其理论吞吐量的一小部分。因为GPU针对3D图形渲染流水线进行了优化,基于数据高度重用的执行流水线设计,导致着色器内核往往会在相对较小的本地存储以外运行。数据流式工作负载提供的数据重用机会更少,这就意味着需要更频繁地用新数据来填充存储器,而这会影响处理时间。CPU中面向缓存的子系统也同样受制于类似的问题。FPGA可以实现数据自由流动的完整流水线,因此可以提供了远远高于GPU或者CPU的计算效率。例如,基因组研究应用的基准测试表明,与基于CPU的实现方式相比,基于FPGA的硬件可将速度提高80倍。 在高性能计算和云计算环境中,架构师正在转向FPGA加速以避开系统中其他部分出现的瓶颈。通过将更多工作移交给存储子系统本身,数据中心用户可以在效率上得到大幅提升。数据库加速、数据分析和其他适用于计算型存储的处理形式可以与加密、去重复数据和安全擦除编码等低层级服务功能一起被部署在加速器上。 随着诸如软件定义网络(SDN)和网络功能虚拟化(NFV)等概念的流行,刀片服务器在数据中心内部和数据中心之间的通信管理任务中正发挥着更为重要的作用。但是,随着线速增加到100 Gbps甚至更高,Xeon级服务器处理器的处理负担是非常巨大的,数据中心运营商热衷于将许多SDN功能的处理工作卸载到附近的加速卡上。在新兴的架构中,通用服务器CPU被用于处理异常事件,而同时加速器则负责处理大量的网络流量。当新的需求、应用和安全威胁出现时,FPGA能够更新算法和网络协议处理,从而使它们成为网络加速的理想基础平台。 实施有效加速 被亚马逊(Amazon)、Facebook和微软(Microsoft)等超大规模用户采用的第一批加速器都是大幅度定制的设计。这些公司能够在打造自己的板卡设计中确保所需的规模经济,无论是基于自己设计的专用集成电路(ASIC),还是采用现成的FPGA和GPU。从成本和时间的角度来看,对于企业数据中心和边缘计算用户来说,他们难以在这种定制芯片级设计中找到合理的规模。然而,设计定制的ASIC和板卡并不是必需的。对诸如以太网和PCIe等标准接口的需求,不仅使使用标准板卡级产品成为可能,而且也是可取的。 作为一家长期提供硬件加速产品的供应商,BittWare一直在为从高性能计算到云加速到仪器仪表等众多领域内的客户设计采用PCIe尺寸的、基于FPGA的板卡,并在这方面积累了丰富的经验。现在,作为Molex集团的子公司,BittWare能够充分借助其全球供应网络以及与戴尔(Dell)和惠普企业(HP Enterprise)等服务器供应商的深厚关系。BittWare是唯一一家可与多家主流FPGA供应商合作的重要批量化供应商,能够满足企业客户的质量认证、验证、产品生命周期管理和支持需求,这些客户希望为关键任务型应用去大规模部署FPGA加速器。 在这些应用中,BittWare实现的一个重要差异化在于该公司为其基于FPGA的加速器提供了广泛的软件支持。每个加速卡均配有适用于Linux和Windows系统的驱动软件,可通过PCIe和以太网连接将其快速集成到各种系统中。除了支持主CPU和加速卡之间的通信外,该驱动还支持接入加速卡上的嵌入式固件。这个固件可以处理众多管理和自检功能。 它们使FPGA电路能够根据需要的新功能重新进行配置,此外还提供了一些对功耗、电压和温度的监测程序。如果主机系统中的冷却功能失效,那么担任管理者的固件可以关闭加速卡,以避免热过载。此外,软件组合包还包括各种参考设计,以便开发人员能够快速构建配置,使他们可以测试加速卡的功能并开始在其自己的应用上工作。 对于最新一代的加速卡,BittWare与Achronix紧密合作。Achronix是唯一一家能够同时提供独立FPGA芯片和嵌入式FPGA(eFPGA)半导体知识产权(IP)的FPGA供应商。VectorPath™S7t-VG6加速卡使用了Achronix采用7nm 工艺打造的、结合了很多功能的Speedster®7t FPGA芯片,不仅可以在内部提供高吞吐量数据加速,而且还支持现今从机器学习到先进仪器等系统所需的高度分布式、网络化的架构。

    时间:2020-03-20 关键词: achronix

  • Achronix白皮书

    Achronix白皮书

    本文概要 在众多的行业中,数据加速是构建高效、智能系统的关键之处。传统的通用处理器在支持用户去突破性能和延迟限制方面性能不足。而已经出现的许多加速器技术填补了基于定制芯片、图形处理器或动态可重构硬件的空白,但其成功的关键在于它们能够集成到一个以高吞吐量、低延迟和易于开发为首要条件的环境之中。由Achronix和BittWare联合开发的板级平台已针对这些应用进行了优化,从而为开发人员提供了一条可部署高吞吐量数据加速的快捷途径。 日益增长的分布式加速需求 在云计算和边缘计算中,业界渴求能够支持各种应用的高性能。为了满足这一需求,数据中心、网络集群和边缘计算站点的运营商正在转向定制化的加速器技术。 对于需要高性能计算平台的用户,专用加速器在实践中被常用来应对各种挑战;这些用户不再依靠诸如Intel Xeon系列CPU这样的传统通用CPU来支持数据吞吐量不断增长这一需求。通用CPU的核心问题在于,尽管摩尔定律一直在以大约每两年就会使每平方毫米硅片中集成的晶体管数量增加一倍的速度演进,但它不再支持时钟速率的增长。此外,CPU内的并行性很快达到了天花板。因此,其他技术更适合支持新型工作负载,包括如机器学习、基因组研究、数学和统计分析、语音和图像识别以及数据挖掘和搜索。 与传统由数据库驱动的应用相比,这些新的工作负载通常无法很好地映射到传统CPU流水线上;例如一些神经网络的训练已被验证可以在GPU上运行良好,这些算法可以利用数百个并行浮点着色器内核通过所需的数万亿个步骤来迭代更新一个大型网络。另一方面,基因组研究和数据搜索需要利用大量的对比步骤,并需处理低分辨率的整数数据。尽管这些工作负载可以利用CPU或GPU来完成处理,但是在这些平台上运行时,这些任务的计算效率和能效相对较低。自定义的基于ASIC或FPGA的加速器能够以更低的功耗提供更大的吞吐量,这是因为它们支持设计人员去构建针对这些操作和数据类型进行优化的专用电路。 互联网搜索和社交媒体等领域内的超大规模数据中心运营商已采用加速器概念来保障其服务器载荷的高效运转。语音响应系统现在已经被用于日常生活中,并得到了运行在传统刀片服务器与自定义加速器组合上的人工智能算法的支持。随着对这些基于机器学习和数据挖掘等技术的应用的需求不断增长,大量的企业用户正在转向基于加速器的方案,以使他们自己能跟上需求的步伐。据研究机构Research and Markets的分析预测,仅数据中心加速器这一市场的规模,就将从2018年的28亿美元增长到2023年的212亿美元,复合年增长率接近50%。 在这种增长之外,加速器的应用还注定将扩展到数据中心之外。诸如虚拟现实、自动驾驶、机器人技术和工业4.0等领域无法忍受信息在经过远程数据中心中继后带来的电信延迟。越来越多的计算能力将需要被部署在边缘计算机架中,而被安装于路边机柜中、移动基站旁或校园柜子内。 在各种数据中心和边缘计算用例中,有诸多常见的需求驱动因素,比如能效,快速转型,以及可扩展性。能效是降低冷却成本和复杂性以及将电费花销降到最低的核心要求。低功耗操作在边缘计算装置中至关重要,因为其中的环境温度的控制功能较弱,并且还需将维护的需求保持在最低限度。 在许多领域中,快速转型是不可避免的,并会创造新的需求,以便在变化出现时能够根据要求对应用进行调整和再加工。它不仅仅是对现有应用的更新;通常,新的用例在出现时,都会挑战用户及时做出反应的能力。而这些用例可能需要开发将不同的技术和概念结合在一起的应用,例如将人工智能(AI)功能添加到数学建模和数据挖掘系统中。为了应对这些转型,用户需要调用可以很好地进行协同工作的加速器技术,并且各个组件可以通过网络连接来进行高速通信。 可扩展性同样重要。随着面向特定服务的客户群不断增长,运营商需要知道他们能够轻松地增加容量。同样至关重要的是,具有高效通信能力的高度可编程解决方案通过增加并行性来支持其扩展能力。对诸如100 Gbps以太网和更快的链路等协议的支持,可确保能够使用分布式处理去适应增长。例如,边缘应用可能会调用云支持,直到本地机柜升级到具有额外的处理能力。 用于加速的硬件平台 加速器的硬件可以有多种形式。理想的配置是提供PCI Express(PCIe)和高速以太网连接的组合,并可以选择添加自定义连接以支持诸如环形、网状和菊花链结构等各种拓扑结构,以满足应用的各种数据吞吐量需求。对PCIe的支持通过内存映射接口将加速引擎与主处理器和其他加速器紧密集成。能够在诸如PCIe之类的接口上存储共享结构来交换数据,就可以极大地简化分布式应用的开发。 以100 Gbps或更高速率运行的以太网连接进一步提供了扩展范围。通过使用它们自有的以太网端口,而不是通过主机的主网络接口来路由数据包,加速器可以彼此间高效地相互协调。例如,在一个分布式存储配置中,加速卡可以被直接连接到嵌入式非易失性存储器(NVMe)模块上,每个模块中的独立搜索引擎使用通过其以太网连接发送的消息,来识别分散在多个节点上的数据,从而可以很容易地进行协调。 无论是作为主要的加速技术还是与GPU和其他技术配合使用,FPGA都非常适合数据中心和边缘计算应用的需求。FPGA的一个关键优势是可以在系统中来对其进行编程,以创建各种各样的数字电路。软件可以为目标应用选择配置比特流,并将其发送以配置FPGA。通过将新模式加载到器件上的逻辑阵列中,FPGA可以根据需要进行动态更新以承担新的任务。可编程性创建了由软件定义的硬件,从而完全支持用户不仅能够动态更改应用,还可以动态更改支持它们运行的硬件。将硬件可编程性与连接多个加速器的能力相结合,为用户提供了极大的灵活性。 许多计算类用户已经意识到FPGA在加速应用中的强大功能。例如,微软的Catapult项目使用FPGA为其搜索服务构建加速器,并且在其BrainWave项目中使用FPGA进行高速人工智能推理。亚马逊通过其F1服务提供了可在云端使用的FPGA,这使得到远程用户可以容易地部署这项技术。 在其他领域选择使用FPGA加速也已有一些时间。例如, FPGA逻辑阵列多年来一直被用于军事和航空航天领域的雷达处理,以及医学领域的实时成像。随着工业领域接受了实时机器设备健康监测等概念,以作为迈向工业4.0的一部分,用户可以转向使用FPGA来提高其算法的质量和响应能力。 相对于使用GPU来进行数据加速,采用FPGA的实现方式通常受益于较低的延迟和更高的能效。GPU的一个关键问题是:它们的计算效率通常只是其理论吞吐量的一小部分。因为GPU针对3D图形渲染流水线进行了优化,基于数据高度重用的执行流水线设计,导致着色器内核往往会在相对较小的本地存储以外运行。数据流式工作负载提供的数据重用机会更少,这就意味着需要更频繁地用新数据来填充存储器,而这会影响处理时间。CPU中面向缓存的子系统也同样受制于类似的问题。FPGA可以实现数据自由流动的完整流水线,因此可以提供了远远高于GPU或者CPU的计算效率。例如,基因组研究应用的基准测试表明,与基于CPU的实现方式相比,基于FPGA的硬件可将速度提高80倍。 在高性能计算和云计算环境中,架构师正在转向FPGA加速以避开系统中其他部分出现的瓶颈。通过将更多工作移交给存储子系统本身,数据中心用户可以在效率上得到大幅提升。数据库加速、数据分析和其他适用于计算型存储的处理形式可以与加密、去重复数据和安全擦除编码等低层级服务功能一起被部署在加速器上。 随着诸如软件定义网络(SDN)和网络功能虚拟化(NFV)等概念的流行,刀片服务器在数据中心内部和数据中心之间的通信管理任务中正发挥着更为重要的作用。但是,随着线速增加到100 Gbps甚至更高,Xeon级服务器处理器的处理负担是非常巨大的,数据中心运营商热衷于将许多SDN功能的处理工作卸载到附近的加速卡上。在新兴的架构中,通用服务器CPU被用于处理异常事件,而同时加速器则负责处理大量的网络流量。当新的需求、应用和安全威胁出现时,FPGA能够更新算法和网络协议处理,从而使它们成为网络加速的理想基础平台。 实施有效加速 被亚马逊(Amazon)、Facebook和微软(Microsoft)等超大规模用户采用的第一批加速器都是大幅度定制的设计。这些公司能够在打造自己的板卡设计中确保所需的规模经济,无论是基于自己设计的专用集成电路(ASIC),还是采用现成的FPGA和GPU。从成本和时间的角度来看,对于企业数据中心和边缘计算用户来说,他们难以在这种定制芯片级设计中找到合理的规模。然而,设计定制的ASIC和板卡并不是必需的。对诸如以太网和PCIe等标准接口的需求,不仅使使用标准板卡级产品成为可能,而且也是可取的。 作为一家长期提供硬件加速产品的供应商,BittWare一直在为从高性能计算到云加速到仪器仪表等众多领域内的客户设计采用PCIe尺寸的、基于FPGA的板卡,并在这方面积累了丰富的经验。现在,作为Molex集团的子公司,BittWare能够充分借助其全球供应网络以及与戴尔(Dell)和惠普企业(HP Enterprise)等服务器供应商的深厚关系。BittWare是唯一一家可与多家主流FPGA供应商合作的重要批量化供应商,能够满足企业客户的质量认证、验证、产品生命周期管理和支持需求,这些客户希望为关键任务型应用去大规模部署FPGA加速器。 在这些应用中,BittWare实现的一个重要差异化在于该公司为其基于FPGA的加速器提供了广泛的软件支持。每个加速卡均配有适用于Linux和Windows系统的驱动软件,可通过PCIe和以太网连接将其快速集成到各种系统中。除了支持主CPU和加速卡之间的通信外,该驱动还支持接入加速卡上的嵌入式固件。这个固件可以处理众多管理和自检功能。 它们使FPGA电路能够根据需要的新功能重新进行配置,此外还提供了一些对功耗、电压和温度的监测程序。如果主机系统中的冷却功能失效,那么担任管理者的固件可以关闭加速卡,以避免热过载。此外,软件组合包还包括各种参考设计,以便开发人员能够快速构建配置,使他们可以测试加速卡的功能并开始在其自己的应用上工作。 对于最新一代的加速卡,BittWare与Achronix紧密合作。Achronix是唯一一家能够同时提供独立FPGA芯片和嵌入式FPGA(eFPGA)半导体知识产权(IP)的FPGA供应商。VectorPath™S7t-VG6加速卡使用了Achronix采用7nm 工艺打造的、结合了很多功能的Speedster®7t FPGA芯片,不仅可以在内部提供高吞吐量数据加速,而且还支持现今从机器学习到先进仪器等系统所需的高度分布式、网络化的架构。 图1:VectorPath S7t-VG6加速卡 软件友好型的硬件提供了最大的灵活性 通过对分布式架构提供直接支持,VectorPath S7t-VG6加速卡中使用的Speedster7t FPGA芯片标志着与传统FPGA架构不同的重大转变,它使面向软件的开发人员更容易地构建定制化的处理单元。这种创新的全新架构与诸如英特尔(Intel)和赛灵思(Xilinx)等供应商生产的传统FPGA完全不同,传统FPGA的设计关注点并不在数据加速。 在设计Speedster7t的架构时,Achronix创建了一种可最大限度地提高系统吞吐量的FPGA芯片,同时还为计算机架构师和开发人员提高了易用性。与传统的FPGA架构相比,Speedster7t FPGA芯片的一个关键差异化点在于它包括一个创新的二维片上网络(2D NoC),可以在逻辑阵列内的处理单元与各种片上高速接口和存储器端口之间流传数据。 传统的FPGA要求用户去设计电路来将其加速器连接到高速以太网或PCIe数据端口和/或存储器端口。通常,一个独立系统是由连接到多个高速端口的多个加速器组成。例如,下图就说明了一种场景,其中有两个加速器连接到两个存储端口上,以共享一个存储空间。这种场景使用了FIFO来管理存储器和FPGA时钟之间的时钟域交叉(CDC)。此外,FPGA逻辑架构中还需要一个交换功能来管理寻址、仲裁和反压。在传统的FPGA中,这项功能会消耗大量的FPGA资源,并且其复杂程度足以降低系统性能并使时序收敛变得复杂。 Achronix采用了由软件设计来实现硬件的方法,而这种硬件中的以太网和其他高速I / O端口可用二维片上网络(2D NoC)轻松地连接到定制的加速器功能上。Speedster7t NoC不再需要设计CDC和交换功能来将加速器连接到高速数据或内存端口。通过简单地将这些功能连接到NoC,就消除了连接方面的难题,从而简化了设计,减少了FPGA资源的消耗,提高了性能并简化了时序收敛。 图2:传统FPGA设计面临的挑战 图3:Speedster7t二维片上网络支持软件友好型硬件 为了实现高性能的算术运算,每个Speedster7t器件都具有一个大型可编程计算单元阵列,它们被有序地放置在机器学习处理器(MLP)单元模块中。MLP是一个高度可配置的计算密集型单元模块,在每个周期内可支持多达32个乘法/累加(MAC)运算。在以加速器为中心的设计中,MLP的存在使得在完全可编程逻辑和硬连线算术单元之间能够有效地共享资源。 尽管有些FPGA倾向于使用HBM2存储器,其中FPGA和存储器被组装成一个昂贵的2.5D封装,而Speedster7t系列却采用GDDR6内存标准接口。这种接口提供了当今片外存储器可实现的最高性能,并且成本显著降低,从而使团队更容易去实现带有高带宽存储阵列的加速器。一个GDDR6存储控制器可以支持512 Gbps的带宽。VectorPath S7t-VG6加速卡可提供八组存储器,总存储带宽可以达到4 Tbps。此外,板上还有一个DDR4接口,可用于访问频率较低或不需要GDDR6吞吐量的数据。 VectorPath S7t-VG6加速卡提供了许多高性能接口,用来支持分布式架构和高速主机通信。现在,该加速卡提供了PCIe Gen 3.0的16通道合规性和认证,并提供获取Gen 4和Gen 5资质认证的途径。在以太网连接方面,该加速卡采用已获得广泛支持的光学接口模块,依据QSFP-DD和QSFP56标准,能够处理高达400 Gbps的超高线速。 在加速卡的另一端还有一个OCuLink扩展端口,以支持很多其他的低延迟应用场景。例如,OCuLink端口可用于将加速卡连接到各种外围设备上,比如用于计算存储或数据库加速应用的NVMe存储阵列。与采用连接到主处理器的PCIe接口相比,OCuLink连接能够成为一个更好的选择,因为它提供了一种消除了系统级延迟和抖动的高确定性的连接。OCuLink端口还可以引入其他网络连接,从而可扩展实现QSPF-DD或QSFP56之外的各种端口规格。 图4:VectorPath的网络和存储接口 在VectorPath S7t-VG6加速卡的前面板上还包括多个时钟输入,它们是在将多个加速卡同步到一起时通常需要的。两个SMB时钟输入连接器支持从1PPS和10 MHz的时钟输入,它们在进入FPGA之前,就已被连接到抖动清除器。一旦进入FPGA,这些时钟就可以被倍频或分频成为特定应用所需的频率。 还可以通过通用数字I / O端头进行进一步扩展。该I / O端口支持单端3.3V连接和低电压差分(LVDS)信号,支持外部时钟、触发器和专用I / O等自定义信号直接连接到Speedster7t FPGA。该扩展端口还可用于将VectorPath加速卡改造为传统硬件。 图5:VectorPath时钟输入和GPIO 适用于小批量和大批量需求 VectorPath S7t-VG6加速卡已考虑到了每个细节,例如可支持被动和主动空气散热和液体散热。此外,BittWare和Achronix还为医疗等需要更长产品生命周期的领域确保提供长期的供应与支持。在这些市场中,基于GPU的PCIe加速卡较短的产品生命周期与超过10年的系统服务支持需求是不符的。 对于更大批量需求,特别是在边缘计算等场景中,客户可以使用BittWare的成本降低计划来简化硬件,其设计仅仅支持客户所需的I / O选项。此外,BittWare也可提供电路板设计文件以及VectorPath S7t-VG6加速卡随附的软件和驱动器的使用。利用Achronix的Speedcore eFPGA IP,也可以走向定制系统级芯片(SoC)器件。客户可以构建自己其中包括Speedster7t可编程性的SoC,但又具有ASIC的成本结构。 为了实现更好的开发和更便捷的部署,VectorPath S7t-VG6加速卡可以由BittWare以其TeraBox平台的形式来提供预先集成的多核服务器。外形从2U到5U,TeraBox的机架式机箱最多可容纳16个BittWare PCIe加速卡,并由双路英特尔(Intel) Xeon处理器管理。作为一个完整的解决方案,TeraBox为客户提供了启动和运行FPGA开发的最快机制。在Bittworks II和FPGA Devkit软件的支持下,用户可以直接使用TeraBox并立即开始开发工作。或者,客户也可以从Dell和HP Enterprise购买包含BittWare加速卡的预配置服务器。 图6:TeraBox平台的部署 结论 考虑到用户需要在多种多样的应用中寻求数据加速功能,BittWare和Achronix已经创建了一种高度灵活的引擎,无论它们是被单独使用,还是作为大型异构处理阵列中的一部分,都可以被轻松部署。作为该加速卡的核心芯片,Speedster7t FPGA为开发人员提供了构建高吞吐量应用的能力,这些应用可以充分利用可编程逻辑、PCIe以及高达400 Gbps的以太网连接。BittWare的软件和支持保证了这些开发人员在插入卡后就可以立即开始工作。FPGA和Speedster7t NoC的灵活特性意味着:随着应用的变化和发展,这些加速卡可以最大限度地延长其使用寿命。

    时间:2020-03-20 关键词: 分布式 achronix 数据加速

  • 将GDDR6的优势从图形计算扩展至高性能网络应用

    将GDDR6的优势从图形计算扩展至高性能网络应用

    将GDDR6的优势从图形计算扩展至高性能网络应用作者:Achronix资深现场应用工程师  袁光(Kevin Yuan)Achronix Speedster7t FPGA如何运用GDDR6满足下一代网络产品的高带宽需求简介:随着网络和数据中心带宽需求的日益提升,针对高性能内存解决方案的需求也是水涨船高。对于超过 400 Gbps 的系统开发,以经济高效的方式实现内存方案的性能和效率已经成为项目中的重要挑战之一。1. 概述随着网络和数据中心带宽需求的日益提升,针对高性能内存解决方案的需求也是水涨船高。对于超过 400 Gbps 的系统开发,以经济高效的方式实现内存方案的性能和效率已经成为项目中的重要挑战之一。图形双数据速率 (GDDR) 内存最初是为了满足游戏机和PC的高性能图形计算需求而开发的,自2008年面市至今历经十余载,已经在市场中久经考验,如今也正被应用于网络和数据中心领域等其他领域,为产品提供低风险、灵活而又经济高效内存解决方案。在接下来的章节中,本文将首先分享推动这些高带宽和高性能需求的网络行业宏观趋势,然后讨论GDDR6如何以比当今任何其他高带宽内存解决方案更好地满足这些需求,最后介绍Achronix Speedster7t FPGA产品中的GDDR6控制器。我们将会陆续推出关于GDDR6其他有用知识的系列文章,比如GDDR6构架和基本使用方法,存取带宽与延迟的性能测评,网络应用参考设计,以及如何应对GDDR6系统级设计中的信号完整性挑战,敬请关注。2. 网络行业趋势思科在2019年发布的可视化网络指数(Visual Networking Index)报告[1]称,2017 年全球互联网IP流量月均为 122 EB (1018 Bytes),预计 到2022 年将增加到 396 EB,复合年增长率 (CAGR) 为 26%,这一趋势大部分与大数据的兴起和不断增长的视频流量有关。图 1:全球互联网IP流量预测(Cisco VNI 2017-2022)[1]同一研究[1]预测,智能手机和平板电脑等接入设备的数量将从 2017 年的 180 亿台增长到 2022 年的 285 多亿台设备(图 2),届时人均所拥有的网络接入设备数量将达到 3.6台。得益于5G以及物联网(IoT)的发展,2022年总连接节点数量中M2M设备的数量将超过50%。图 2:需要连接的网络设备(Cisco VNI 2017-2022)[1]3. 是什么在推动网络需求?几个重要领域的增长正在推动网络行业中这些前所未有的需求:• 移动数据和互联网视频:通过互联网按需访问数据和高清视频的需求不断增加。(此处不包含非按需的网络访问,比如占据全网流量25%以上的DDoS攻击)• 物联网 (IoT): 物联网正在增加必须访问网络的设备数量,如可穿戴设备、智能家电和汽车。• 云服务:无数企业正在将其服务迁移到云中,云端的创新业务也在不断的增加。• 大数据分析:要使复杂网络的所有部分都高效运行,网络中的边缘设备必须通过智能的数据分析,来更好、更快地了解其携带的数据。总之,更多的用户、更多的设备、更大的屏幕,以及更多样的云端服务正在推动 IP 流量呈指数级增长。在增长没有放缓迹象的情况下,我们如何设计产品以满足这些要求?4. 为什么使用GDDR6?原因1:极佳的性能如今,GDDR6的密度已经做到16Gbits,与最高容量的 DDR4 内存芯片一致。GDDR6 器件的带宽高达512Gb/s,是DDR4 的 10 倍。在未来,GDDR6将按照标准向更高容量更快速度演进。GDDR6的这些优势,使其成为满足现代网络需求的理想选择。图3: DDR vs. GDDR 容量比较 [2]图4: DDR vs. GDDR 带宽比较 [2]原因2:降低总拥有成本在考虑总拥有成本 (TCO) 时,请务必考虑设计的所有方面。图 5 比较了三种不同的方法,以满足 1Tb 交换应用程序的需求。如图所示,相对于DDR4,采用GDDR6 不仅可以将设计复杂性降低80%,还可以减少 82% 的PCB面积占用,并将能效提高 44%。图5: 各种主流内存方案的总拥有成本(TCO)比较 [2]原因3:轻松设计如果您已经熟悉传统的DDR 设计,则使用 GDDR 内存进行设计将是一种熟悉的低风险体验。对逻辑工程师和软件工程师来说,GDDR6 与传统DDR技术使用的方法类似,Speedster7t FPGA 所内建的GDDR6控制器进一步简化了设计。对于硬件工程师来说,GDDR6 的高速单端SerDes信号管脚与DDR的低速信号管脚的设计规则区别较大,Achronix将提供高速信号设计手册以及参考设计,帮助客户低风险地从DDR迁移到GDDR6。如果您已经熟悉GDDR5设计,那么过渡至GDDR6将是非常顺滑的设计体验。GDDR6 和 GDDR5 之间的主要区别与封装和引脚相关,遵循相同的设计实践。 5. Achronix Speedster7t FPGA产品中的GDDR6控制器Achronix 半导体的 Speedster7t FPGA 系列针对高带宽工作负载进行了优化,消除了与传统 FPGA 相关的性能瓶颈。Speedster7t FPGA 基于台积电的 7nm FinFET 工艺技术,采用革命性的新型 2D 片上网络 (NoC)和独创的机器学习处理器 (MLP)矩阵,并利用高带宽 GDDR6 接口、400G 以太网和 PCI Express Gen5 端口等IP,可提供 ASIC 级性能,同时保留完整的编程性能。图6: Achronix Speedster7t1500 高性能FPGA 构架 [3]Speedster7t FPGA 设计具有多达8个 GDDR6 控制器,以较低的成本提供最快的访问速度,同时保证相当于LPDDR5水平的低功耗。每个 GDDR6控制器支持多达 32 位数据,总共支持4Tbps的内存带宽。 GDDR6 控制器和 PHY 是硬 IP,无需消耗FPGA中的可编程逻辑资源,也无需面对布局布线所带来的时序收敛挑战。这些特征共同使GDDR6 SDRAM 接口成为下一代系统设计的绝佳选择。如需更多信息,请访问Achronix公司官方网站 http://www.achronix.com 。参考文献:1.    Visual Networking Index: Forecast and Trends, 2017–2022. Cisco, 20192.    Extending the Benefits of GDDR Beyond Graphics. Micron, 20173.    Achronix official website http://www.achronix.com

    时间:2020-02-17 关键词: FPGA achronix gddr6 speedster7t

  • Achronix推出突破性的FPGA系列产品,以面向高带宽数据加速应用的灵活性而将性能提升到全新高度

    ·         全新Speedster7t系列产品专为机器学习市场和高带宽网络应用而进行了优化·         创新架构和ACE软件工具为要求更高性能和更短设计周期的设计提供了全新范式·         Speedster7t器件采用台积电(TSMC)的7nm FinFET工艺制造美国加州圣克拉拉市, 2019年 5月 21日—基于现场可编程门阵列(FPGA)的硬件加速器件和高性能嵌入式FPGA(eFPGA)半导体知识产权(IP)领导性企业Achronix半导体公司(Achronix Semiconductor Corporation)今日宣布:推出创新性的、全新的FPGA系列产品,以满足人工智能/机器学习(AI/ML)和高带宽数据加速应用日益增长的需求。Achronix的Speedster®7t系列基于一种高度优化的全新架构,以其所具有的如同ASIC一样的性能、可简化设计的FPGA灵活性和增强功能,从而远远超越传统的FPGA解决方案。Speedster7t FPGA系列产品是专为高带宽应用进行设计,具有一个革命性的全新二维片上网络(2D NoC),以及一个高密度全新机器学习处理器(MLP)模块阵列。通过将FPGA的可编程性与ASIC的布线结构和计算引擎完美地结合在一起,Speedster7t系列产品创造了一类全新的“FPGA +”技术。随着人工智能/机器学习的应用场景快速发展演进,新的解决方案都要去应对在高性能、灵活和上市时间等方面的不同需求。根据市场调研公司Semico Research的预测,人工智能应用中FPGA的市场规模将在未来4年内增长3倍,达到52亿美元。 “我们正处于智能化、自学习计算的高增长阶段的早期,这种计算将广泛影响我们日的常生活。”Achronix Semiconductor总裁兼首席执行官Robert Blake表示:“Speedster7t是Achronix历史上最令人激动的发布,代表了建立在四个架构代系的硬件和软件开发基础上的创新和积淀,以及与我们领先客户之间的密切合作。Speedster7t是灵活的FPGA技术与ASIC核心效率的融合,从而提供了一个全新的‘FPGA+’芯片品类,它们可以将高性能技术的极限大大提升。”在开发Speedster7t系列FPGA的产品过程中,Achronix的工程团队完全重新构想了整个FPGA架构,以平衡片上处理、互连和外部输入输出接口(I / O),以实现数据密集型应用吞吐量的最大化,这些应用场景可见于那些基于边缘和基于服务器的AI / ML应用、网络处理和存储。Speedster7t器件采用了TSMC的7nm FinFET工艺制造,是专为接收来自多个高速来源的大量数据而设计,同时还需要将那些数据分发到可编程片上算法性和处理性单元中,然后以尽可能低的延迟来提供那些结果。Speedster7t系列产品包括高带宽GDDR6接口、400G以太网端口和PCI Express Gen5等接口,所有这一切单元都互相连接以提供ASIC级带宽,同时保留FPGA的完全可编程性。“Achronix全新的Speedster7t FPGA系列产品是创新性芯片架构实现爆发的一个卓越案例,创造该架构的目的是直接面向AI应用处理大量的数据,” Semico Research公司ASIC和SoC首席市场分析师Rich Wawrzyniak说道。“通过将数学函数、存储器和可编程性整合到其机器学习处理器中,再结合交叉芯片、二维NoC结构,从而形成了消除瓶颈和确保整个器件中数据自由流动的绝佳方法。在AI / ML应用中,内存带宽就是一切,Achronix的Speedster7t在这一领域提供了令人印象深刻的性能指标。”为计算性能进行了高度的优化Speedster7t FPGA的核心是其全新机器学习处理器(MLP)中大规模的可编程计算单元平行阵列,它们可提供业界最高的、基于FPGA的计算密度。MLP是高度可配置的、计算密集型的单元模块,可支持4到24位的整点格式和高效的浮点模式,包括对TensorFlow的16位格式的支持,以及可使每个MLP的计算引擎加倍的增压块浮点格式的直接支持。MLP与嵌入式存储器模块紧密相邻,通过消除传统设计中与FPGA布线相关的延迟,来确保以750 MHz的最高性能将数据传送到MLP。这种高密度计算和高性能数据传输的结合使得处理器逻辑阵列能够提供基于FPGA的最高可用计算能力以每秒万亿次运算数量为单位(TOPS,Tera-Operations Per Second)。世界级的带宽高性能计算和机器学习系统的关键之处是高片外存储器带宽,从而为多个数据流提供存储源和缓冲。 Speedster7t器件是唯一支持GDDR6存储器的FPGA,该类存储器是具有最高带宽的外部存储器件。每个GDDR6存储控制器都能够支持512 Gbps的带宽,Speedster7t器件中有多达8个GDDR6控制器,可以支持4 Tbps的GDDR6累加带宽,并且以很小的成本就可提供与基于HBM的FPGA等效存储带宽。 “美光(Micron)乐于携手Achronix去实现全球第一个面向高带宽存储需求而直接加载了GDDR6的FPGA产品,”美光计算与联网业务部营销副总裁Mal Humphrey。“像这样的创新的和可扩展的解决方案将推动人工智能领域内的差异化,其中异构计算可选方案与高性能的存储是加速获得数据内涵的必需部分。”除了这种非凡的存储带宽,Speedster7t器件还包括业界最高性能的接口端口,以支持极高带宽的数据流。Speedster7t器件拥有多达72个业界最高性能的SerDes,可以达到1到112 Gbps的速度。还有带有前向纠错(FEC)的硬件400G以太网MAC,支持4x 100G和8x 50G的配置,以及每个控制器有8个或16个通道的硬件PCI Express Gen5控制器。超高效率的数据移动来自Speedster7t高速I / O和存储器端口的数万兆比特数据很容易淹没传统FPGA面向比特位的可编程互连逻辑阵列的路由容量,而Speedster7t架构包含一个可横跨和垂直跨越FPGA逻辑阵列的创新性的、高带宽的二维片上网络(NOC),它们连接到所有FPGA的高速数据和存储器接口。它们就像叠加在FPGA互连这个城市街道系统上的空中高速公路网络一样,Speedster7t的NoC支持片上处理引擎之间所需的高带宽通信。NoC中的每一行或每一列都可作为两个256位实现,单向的、行业标准的AXI通道,工作频率为2Ghz,同时可为每个方向提供512 Gbps的数据流量。通过在Speedster中实现专用二维 NoC, 极大地简化了高速数据移动,并确保数据流可以轻松地定向到整个FPGA结构中的任何自定义处理引擎。最重要的是,NOC消除了传统FPGA使用可编程路由和逻辑查找表资源在整个FPGA中移动数据流中出现的拥塞和性能瓶颈。这种高性能网络不仅可以提高Speedster7t FPGA的总带宽容量,还可以在降低功耗的同时提高有效LUT容量。针对安全性至上和硬件确保应用的安全防护功能Speedster7t FPGA系列产品在面临第三方攻击的威胁时,可用最先进的比特流安全保护功能应对,它们具有的多层防御能力可保护比特流的保密性和完整性。密钥是基于防篡改物理不可克隆技术(PUF)进行加密,比特流由256位的AES-GCM加密算法进行加密和验证。为了防止来自旁侧信道的攻击,比特流被分段,每个数据段使用单独导出的密钥,且解密硬件采用差分功率分析(DPA)计数器措施。 此外,2048位RSA公钥认证协议被用来激活解密和认证硬件。用户可以确信的是当他们加载其安全比特流时,它是预期的配置,这是因为它已通过RSA公钥、AES-GCM私钥和CRC校验进行了身份验证。经验证的、可向低成本ASIC转换的途径,用以满足大批量需求Achronix是唯一一家既提供独立FPGA芯片又提供Speedcore™嵌入式FPGA(eFPGA)半导体知识产权( IP)的公司。Achronix在Speedcore eFPGA IP中采用了与Speedster7t FPGA中使用的同一种技术,可支持从Speedster7t FPGA到ASIC的无缝转换。FPGA应用通常具有必须保持可编程性的功能,而其他固定功能则是专用于特定的系统应用。对于ASIC的转换而言,固定功能可以被固化进ASIC结构中,从而减小芯片面积、成本和功耗。当使用Speedcore eFPGA IP将Speedster7t FPGA转换为ASIC时,客户有望节省高达50%的功耗并降低90%的成本。供货Speedster7t FPGA器件的大小范围为从363K至2.6M 的6输入查找表(LUT)。支持所有Achronix产品的ACE设计工具现已可提供,可支持包括Speedcore eFPGA和Speedchip™FPGA多晶粒封装芯片(Chiplet)。第一批用于评估的器件和开发板将于2019年第四季度提供。

    时间:2020-02-17 关键词: FPGA finfet achronix speedster7t

  • 后摩尔时代FPGA是加速最佳拍档?Achronix将创造新FPGA架构和eFPGA IP

    后摩尔时代FPGA是加速最佳拍档?Achronix将创造新FPGA架构和eFPGA IP

    在2020年伊始,21ic专门采访了Achronix公司产品营销总监Bob Siller先生,邀请他和我们一起回顾2019与展望2020。 (Achronix公司产品营销总监Bob Siller) 1、Achronix在2019年取得了哪些成绩? 2019年,Achronix通过推出全新的Speedster7t系列现场可编程门阵列(FPGA)器件,确立了我们作为领先的高端FPGA供应商的地位。基于台积电(TSMC)的7nm FinFET工艺技术,Speedster7t器件为业界带来了一位可以在高端FPGA领域与英特尔(Intel)和赛灵思(Xilinx)并驾齐驱的竞争对手。这是FPGA这个规模超过50亿美元的行业自35年前形成以来出现的一个重大变化,该行业曾经一直被Xilinx和Intel/Altera占据着约90%的市场份额。 作为一家小型私有公司,我们能够提供一种全新的、创新的架构,以服务于网络、计算、存储和数据中心等关键市场。这些高速增长的市场为Achronix带来了巨大的机遇,我们已准备好在这些新兴应用领域中占据重要的市场份额。 除了我们的7nm FPGA器件,Achronix是唯一的、与众不同的可同时量产嵌入式FPGA(eFPGA)和独立FPGA器件的供应商。我们的Speedcore eFPGA为客户提供了一种新选择,以支持他们向Achronix购买其FPGA逻辑、存储器、数字信号处理器(DSP)和机器学习处理器(MLP)半导体知识产权(IP),并集成到他们自己的系统级芯片(SoC)或特定应用集成电路(ASIC)器件中。Intel和Xillinx不可能提供FPGA的IP授权,因而就不会为FPGA设计转换为ASIC提供一条降低成本的途径,而且更不会为诸如工业人工智能(AI)或汽车等快速变化的市场提供新产品开发的新选择,而客户已经在这些市场中看到了硬件可编程性所具有的重大价值。 2、2019年Achronix有哪些特别重大的产品或技术突破? 2019年,Achronix推出了基于7nm工艺节点的Speedster7t FPGA器件系列和带有Speedster7t FPGA的VectorPath加速卡。其中,Speedster7t FPGA从设计一开始时就重点关注了架构性创新的三大支柱: ——构建最高效的计算单元模块(针对最高效的推理性能而对通用计算逻辑和机器学习进行优化); ——构建正确的存储层次和存储带宽; ——通过在传统的FPGA布线上叠加真正的二维片上网络(2D NoC),从而构建最高效的数据传输。 通过创新地创建可支持超过20Tbps内部数据带宽的片上网络(NoC),实现可支持超过4Tbps存储带宽的GDDR6存储器接口,引入全新的、可支持超过80 TOps运算能力的机器学习处理器(MLP),Achronix实现了Speedster7t FPGA与其他7nm FPGA竞品的差异化。这种全新的FPGA架构,可以为人工智能/机器学习(AI/ML)应用提供每秒处理超过8,600张图像的性能(基于ResNet50网络的基准测试)。这些指标清楚地表明,我们在架构性创新上的投资已见成效,而且我们能够为我们的关键目标应用实现优异的性能。 此外,我们还与Molex旗下的BittWare公司合作推出了VectorPath PCIe加速卡。该加速卡具有400G和200G以太网接口、8个GDDR6存储器通道和可作为额外连接选项的OCuLink扩展端口。该平台符合PCIe接口的外形规范,是专为原型设计和大批量生产应用而设计。 我们相信,这两款突破性的创新产品将推动Achronix在未来超过5年的时间内实现显著的增长。Speedster7t FPGA不同于当前其他的FPGA产品,并且在面对当前市场上已有的FPGA解决方案时,它展现出了强悍的竞争力。Achronix已经看到了全球客户对Speedster7t所产生的浓厚兴趣,这将推动我们在2020年及以后实现增长。 3、目前Achronix在中国市场的发展情况如何?与以往相比,有何不同? 中国市场对于Achronix一直是高增长的区域,我们将继续投资于为中国企业提供FPGA解决方案。Achronix将通过植根于中国的市场营销、销售和技术支持团队来不断提高品牌知名度,并创造新的客户机会。 4、汽车电子、5G和人工智能将给行业带来哪些机遇与挑战?Achronix又是如何把握机遇、直面挑战的? 汽车、5G和人工智能,为高科技行业带来了新的、重大的增长机遇。鉴于其增长潜力,我们已经看到大量的新投资、收购和初创公司努力进入这些市场。此外,一些老牌公司正试图完善其产品和技术,以在未来十年内继续保持影响力。 Achronix通过致力于提供创新的、差异化的解决方案来把握这些机遇,这些解决方案能够应对可编程硬件急需解决的关键挑战。作为一家小型私有公司,Achronix能够比我们的大型竞争对手更快地进行调整,以适应市场的变化。及时制定决策和让整个公司致力于共同的奋斗目标和结果,使Achronix能够面对这些不断增长的关键市场应用而做好准备。 5、Achronix如何应对摩尔定律失效,持续实现技术突破? 摩尔定律的放慢,实际上有助于推动FPGA成为硬件加速器的理想选择。当应用设计人员不再能够仅仅依靠CPU就能够从中获得所需的性能时,他们便转向了将CPU与定制硬件加速器结合起来的异构解决方案,从而实现所需的系统性能。正如许多基准测试所显示的那样,在运行相同的算法时,FPGA的性能可比CPU的性能提高130倍,比GPU的性能提高4倍。在过去的一年中,我们看到越来越多的客户在寻找以成本和功耗利用率更高的方式来提高系统性能的方法,而这正是Achronix FPGA解决方案所能提供的。 6、Achronix在生态建设方面有何布局? 在2019年中,Achronix宣布了一项针对EDA工具、软件和IP供应商的全新合作伙伴计划,以推动他们为我们的FPGA芯片和eFPGA IP产品提供定制的解决方案。该计划的目标是将我们的客户与优秀的合作伙伴联系起来,以加快他们的设计周期。Achronix认识到,一个由IP、EDA和解决方案提供商组成的大型生态系统将有助于为我们的FPGA解决方案去开拓新的应用和市场。 此外,Achronix还携自己的Speedcore eFPGA IP产品加入了台积电(TSMC)的IP联盟计划。Speedcore eFPGA IP可适用于台积电的16nm和7nm工艺技术,并且它很快也将适用于其12nm FinFET技术。eFPGA正在成为ASIC和SoC开发人员的关键IP。而Achronix作为唯一一家可同时提供量产的eFPGA和独立FPGA器件的供应商,在此领域处于行业领先地位。 Achronix与Molex的子公司BittWare合作,共同推出了一款名为VectorPath的新型PCIe加速卡,其上搭载了Speedster7t FPGA芯片。30多年来,BittWare一直在为FPGA行业开发各种板卡,而凭借VectorPath这项全新的加速卡技术,该公司已经为Achronix的Speedster7t FPGA芯片进入市场的重要合作伙伴。BittWare将帮助Achronix生产和销售新的VectorPath加速卡,该加速卡将于2020年第二季度上市。 7、2020年Achronix有何市场计划?准备在哪些方面重点推进? Achronix将继续致力于研发工作,来创建创新的FPGA架构和eFPGA IP,以满足数据中心、计算、网络、存储和人工智能/机器学习等关键应用中的数据加速需求。同时,我们还将继续投资与软件工具和设计流程,使采用Achronix技术的客户更容易发挥Speedster7t FPGA和Speedcore eFPGA IP的无限潜力。在2020年,我们将开始我们的Speedster7t FPGA芯片和VectorPath加速卡的出货。这些产品已经有了非常巨大的初期市场需求,我们将集中精力使它们进入批量生产,并推出Speedster7t FPGA系列的后续产品。

    时间:2020-02-04 关键词: 嵌入式 人工智能 高端访谈 achronix

  • 在不就的未来,嵌入式 FPGA 编程只需简单一步即可完成

    在不就的未来,嵌入式 FPGA 编程只需简单一步即可完成

    我们都知道,FPGA(Field Programmable Gate Array)是在PAL、GAL等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。嵌入式 FPGA 将不再是梦想。根据 Achronix,未来,芯片设计者只要简单地将线对线互连加进其 SoC 设计即可。 Achronix Semiconductor 营销副总裁 Steve Mensor 表示,这款被称为 Speedcore 的嵌入式 FPGA (eFPGA) IP 产品目前已经就绪且正出货中。尽管并未透露出货数字以及客户名称,该公司表示这款产品现在已经提供给客户使用了。 Speedcore 象征着该公司首次进军 IP 业务。Achronix 自 2013 年以来一直在生产其旗舰级 FPGA 产品——Speedster 22i。因此,对于 Achronix 来说,这是一条漫长的道路,因为该公司在 4 年以前才首次宣布开发 eFPGA IP 的计划。 尽管如此,Achronix 在此看到了一线曙光,预计今年可望首次盈利,营收上看 1,200 万美元。根据 Mensor 表示,该公司预计其销售额将在 2017 年成长超过 4,000 万美元,进一步使 eFPGA IP 业务成为带动 Achronix 成长的“重要驱动力”。 设计工具 Speedcore 采用与 Achronix Speedster 22i FPGA 相同的高性能架构。专为运算和网络加速应用而设计的 Speedcore eFPGA IP 将整合至其他公司的 ASIC,应用于数据中心、无线基础设施和网络设备。 Mensor 认为,eFPGA 的最大优势在于其设计工具。多年来,Achronix 了解到客户需要更好的设计工具,为其带来优质的结果、简单易用性以及第三方整合,而这些特点都是“Achronix CAD 环境”(ACE)所能提供的一部份。 为了成为系统的一部份,eFPGA IP 必须具备易于整合于 SoC 的功能设计。Achronix 提供了可让客户直接整合于其 SoC 的 GDS II 版 Speedcore IP,以及可让客户用于设计、验证与编程 Speedcore eFPGA 功能的 ACE 工具客制版。 CPU 投片? 整个电子产业都知道 FPGA 极其热门。只要看看微软(Microsoft)的 Project Catapult 就知道了。 微软解释,这项计划是专为“加速微软在网络、安全、云端服务和人工智能(AI)等方面的超级运算基础”而打造的,并作为其于“后 CPU”(post-CPU)的各种技术——包括 GPU、FPGA 与 ASIC 的最大睹注。 微软这项 Project Catapult 的关键就在于 Altera Stratix V D5 FPGA。Mensor 强调,整个电子产业普遍存在的看法是,微软的计划促成了英特尔(Intel)决定收购 Altera。 藉由 AlphaGo,Googler 的客制 Tensor 处理器单元也激励了许多工程师,促使他们开始考虑从 ASIC 到 GPU 和 DSP 的一切。Mensor 解释说,他们正在寻找能够更有效率处理“加速非结构性搜寻、机器学习与人工智能”的技术。 Achronix 在其中看到了机会。     FPGA 应用领域以及成长阶段 FPGA 从 1990 年代中期作为“胶合芯片”(glue chip)开始流行于市场上,如今正重新定义其价值,成为 CPU 的协同处理器。在这个角色上,FPGA 可加速加密 / 解密、压缩 / 解压缩,或甚至是预处理资料封包,以便只让有关的共享资料可被传送与进行处理。 当进行非结构化搜寻时,FPGA 的平行环境经证实是十分有效的。例如,相较于专为划分功能成为较小部份以及依顺序作业而设计的 CPU 而言,FPGA 能以平行方式,在单一频率周期完成整个任务。 当无线基础设施必须涵盖多个地理区时,FPGA 是可编程数位前端和地理区客制化的一张备用王牌。 在芯片之间布线 尽管在 SoC 中嵌入 FPGA 总能为设计者带来不错的设计想法,但对于 FPGA 供应商而言,要实现这个愿望并不容易。 “在不同芯片之间布线是非常困难的,”Mensor 说。成功整合 eFPGA IP 的关键在于尽可能降低延迟并提高吞吐量。该公司强调,Achronix 最先提供了具有嵌入式系统级 IP 的高密度 FPGA。 对于“希望将 ASIC 设计的所有效率以及 eFPGA 可编程硬件加速器的灵活性结合于同一芯片”的公司,Achronix 为其提供相同的 eFPGA 技术。 而对于 IP 供货商而言,整合极具挑战之处在于客户对于特定应用所要求的优化芯片尺寸、功耗与资源分配总有不同的想法与方法。他们还自行定义了查找表数目、嵌入式内存模块女以及 DSP 模块的数量。 但问题并不一定是客户的不同建置方式,而是他们经常使用不同的方法进行芯片测试与验证。Mensor 解释,客户并不知道 IP 供货商的工具如何与其搭配作业。例如,“我们经常听到客户问:‘如何才能用你们的 IP 关闭计时功能?’” 虽然 Achronix 并未为客户整合其 IP,其业务取决于所提供的工具是否足以让客户快速完成设计     Achronix NT31P1 Achronix 也向外收购了一些第三方 IP,包括接口协议、可编程 IO、SerDes 和 PLL 等。那么在开发 FPGA 和满足客户需求时,Achronix 是否遇到困难?Mensor 说:“我们总会试着把遇到的每个问题都转化为一次机会。” 对于 Achronix 来说,其关键在于整合该公司的 FPGA 架构。最终的结果是一款更精简的 Speedster 22i,其可编程 IO、SerDes 和接口控制器占用的空间更少,相形之下,竞争对手的高阶 FPGA 通常使用了大约 50%的芯片面积。     Achronix NT31P2 FPGA 芯片尺寸比较 提高延迟和传输速率 Achronix 认为,能够与 SoC 实现线对线连接的 Speedcore eFPGA,有助于消除大量的可编程 IO 缓冲器,从而使功耗降低一半。此外,Speedcore 的芯片尺寸也比标准 FPGA 更小,使得 eFPGA 的成本可降低 90%以上。 然而,Mensor 强调,“对于大多数客户而言,最大的决定因素在于延迟和吞吐量方面的问题。”根据 Achronix,相较于独立的 FPGA,eFPGA 具有更高的接口性能,可望提高 10 倍的吞吐量和延迟性能。

    时间:2020-01-12 关键词: FPGA 嵌入式 SoC 嵌入式开发 achronix

  • FPGA加速卡时代开启,Achronix+BittWare联手抢占高端市场先机

    FPGA加速卡时代开启,Achronix+BittWare联手抢占高端市场先机

    Achronix半导体公司是一家提供高端独立FPGA芯片和嵌入式FPGA(eFPGA)硅知识产权(IP)技术的FPGA供应商。 BittWare是Molex集团公司的一员,30年来一直以成功设计和部署FPGA加速器产品而声名卓著。 最近,这两家公司合作推出了一款基于FPGA的VectorPath数据加速卡,面向高带宽数据加速应用,瞄准的是正在爆发的云计算与边缘计算加速市场。   Achronix半导体公司市场营销副总裁Steve Mensor和BittWare公司副总裁Sam Bichara共同介绍了加速卡市场及这款新产品。 加速卡时代开启,FPGA黑马浮现 Achronix半导体公司市场营销副总裁Steve Mensor介绍了数据中心加速器市场的发展状况。据Research and Markets2019年1月的报告,数据中心加速器市场预计将从2018年的28.4亿美元增长到2023年的211.9亿美元,年复合增长率(CAGR)高达49.47%,这其中,相比CPU、GPU、ASIC,FPGA得天独厚的灵活性和高能效性正得到了越来越多的认可,有预测,基于FPGA的加速方案有望超越50%的年复合增长率。像高性能计算、网络、存储、传感器处理这些都是需要FPGA硬件加速的应用市场。   早在多年前,FPGA在数据中心加速的优势已经被大厂商发现,并开始运用,一些超大规模厂商已经实施了“FPGA芯片级”设计,但是,大多数二类规模厂商还没有足够的规模经济或者内部资源来支持实施芯片级设计,这些客户正在寻求现成可用的板级或者系统级解决方案。而采用标准接口的加速卡则可以为用户提供一整套打包解决方案,这样,基于PCIe的FPGA加速卡就应运而生了。 基于通用FPGA的PCIe加速卡可以提供可重配置的硬件,比GPU/CPU有更高的性能/功耗比率,同时,标准的PCIe接口从1块加速卡扩展到n块加速卡,即刻可用的加速卡可以实现快速部署新应用,从而将总拥有成本降至最低。 VectorPath S7T-VG6加速卡瞄准高带宽数据加速应用   VectorPath S7T-VG6加速卡采用了Achronix公司的Speedster7t FPGA芯片,在同类加速卡中,提供了目前业界最高性能的多种接口:包括1x400GbE和2x100GbE接口,以及总带宽为4Tbps的8组GDDR6的板上存储器,使该加速卡成为高带宽数据加速应用的理想选择。 BittWare公司副总裁Sam Bichara指出,之所以选择采用Achronix公司的Speedster7t FPGA芯片,正是看中了这款芯片所提供的超高性能,可以满足现在和未来高带宽数据加速应用需求。 据Achronix半导体公司市场营销副总裁Steve Mensor介绍,Speedster7t系列FPGA芯片可为高带宽和人工智能/机器学习(AI/ML)提供了业界最高的性能,除了超高的性能,Speedster7t 的另一个独创秘籍是其2D片上网络(NoC),这个2D NoC使FPGA成为软件友好的硬件,可以便捷的将IP连接到AXI接口,解决了IP生态系统公司面临的IP接入困难。   另外,与现有的FPGA加速卡不同的是,VectorPath S7T-VG6加速卡虽然采用的是PCIe Gen3接口,同时也支持Gen4和Gen5标准。VectorPath S7T-VG6加速卡提供了400GbE QSFP-DD和100GbE QSFP56接口。 该加速卡不仅提供了8组GDDR6存储器,还提供了DDR4存储,以便给用户提供低成本的灵活选择。 FPGA加速卡提供低成本灵活选择 众所周知,在芯片和FPGA的世界里,需求量和成本有着密切的关系。Achronix和BittWare认识到必须为不同客户的不同批量提供灵活的成本模式,以满足其特定的价格要求,此次合作推出的加速卡即可为用户提供多种选择,既可以满足高校研究机构的小批量需求,也可以满足超大型数据处理厂商的要求。 BittWare公司副总裁Sam Bichara透露,BittWare还可以提供定制板卡设计,根据客户的功能要求重新设计和打造加速卡,以优化成本结构,当批量达到上万单品时,BittWare可以支持最终用户利用自己优选的、获得了授权的合约制造商(CEM)来制造和测试S7t-VG6加速卡,甚至客户在获得授权之后,还可以创建其自有品牌的S7t-VG6加速卡。

    时间:2019-11-01 关键词: FPGA 加速卡 achronix 行业观察 bittware

  • Achronix和BittWare推出采用Speedster7t独立FPGA芯片的VectorPath加速卡

    Achronix和BittWare推出采用Speedster7t独立FPGA芯片的VectorPath加速卡

    美国加州圣克拉拉市,2019年10月29日—基于现场可编程门阵列(FPGA)的数据加速器件和高性能嵌入式FPGA(eFPGA)半导体知识产权(IP)领导性企业Achronix半导体公司,与Molex旗下的一家领先企业级FPGA加速器产品供应商BittWare今日联合宣布:推出一类全新的、面向高性能计算和数据加速应用的FPGA加速卡。新推出的VectorPath™S7t-VG6加速卡搭载了Achronix采用7nm工艺打造的Speedster®7tAC7t1500独立FPGA芯片,它在同类PCIe FPGA加速卡中,提供了目前业界最高性能的接口。这些高性能接口包括1x400GbE和2x100GbE接口,以及总带宽为4Tbps的8组GDDR6的板上存储器,使该加速卡成为高带宽数据加速应用的理想选择。 VectorPath S7T-VG6加速卡所具有的功能 VectorPath加速卡系专为高性能和高带宽数据应用而设计,具有以下硬件功能: ·  400GbE QSFP-DD和100GbE QSFP56接口 ·  8组GDDR6存储器可提供4 Tbps的总带宽 ·  1组带有错误检查和纠正(ECC)功能的、运行频率为2666MHz的DDR4存储器 ·   符合PCIe的要求并获得了认证 ·   Speedster7t FPGA芯片集成了带宽为20 Tbps的二维片上网络(NoC) ·   692K的6输入查找表(LUT) ·   40K Int8 MAC提供高于80 TOps的算力 ·   OCuLink – 用于连接扩展卡的4通道PCIe Gen 4连接器 VectorPath加速卡包括一整套Achronix的ACE开发工具,以及BittWare的基板管理控制器和开发工具包,其中包括API、PCIe驱动程序、诊断自测和应用示例设计,以提供快速的、开箱即用的体验。专为原型设计和大批量生产应用而设计的VectorPath S7t-VG6加速卡使设计人员能够处理极大量的数据,这是前几代FPGA无法做到的。 “VectorPath加速卡提供了一个使用Achronix全新Speedster7t FPGA芯片来快速开发人工智能/机器学习(AI / ML)、网络和数据加速应用的平台。”Achronix半导体公司总裁兼首席执行官Robert Blake表示,“我们很高兴能与基于FPGA的PCIe板卡市场的领先企业BittWare合作。他们在基于FPGA的PCIe板卡和解决方案的设计、制造和支持方面具有深厚专业知识,可为我们的客户提供一个世界级的平台,支持他们去加快开发和部署一系列激动人心的、全新的计算任务。” “BittWare在为高性能应用成功开发和设计前沿技术方面有着悠久的历史。”BittWare总裁Jeff Milrod说:“与Achronix的合作充分利用了BittWare和Achronix的优势,客户将因此获得巨大的、开箱即用的优势,并且可以利用Speedster7t FPGA芯片的各种先进功能。” 在今年早些时候推出的Speedster7t FPGA系列芯片为高带宽数据加速应用提供了全新的性能和适应性。它具有革命性的2D片上网络(NoC),其带宽容量超过20 Tbps,可将数据从高速接口移动到FPGA逻辑架构,或跨越FPGA逻辑架构进行数据移动。该2D NoC通过在每个方向上为每个NoC行和列提供256位的单向总线和总计512 Gbps的带宽,从而缓解了数据瓶颈。NoC的主要接口是行业标准的AXI通道。在ACE 8.0设计软件中,现已提供对Speedster7t AC7t1500器件的初始软件支持。

    时间:2019-10-30 关键词: FPGA achronix vectorpath

  • Achronix加入台积电(TSMC)半导体知识产权(IP)联盟计划

    Achronix加入台积电(TSMC)半导体知识产权(IP)联盟计划

    美国加州圣克拉拉市,2019年9月25日—基于现场可编程门阵列(FPGA)的硬件加速器件和高性能嵌入式FPGA(eFPGA)半导体知识产权(IP)领导性企业Achronix半导体公司(Achronix Semiconductor Corporation)已加入台积电IP联盟计划,该计划是台积电开放创新平台(OIP)的关键组成部分。Achronix屡获殊荣的Speedcore™ eFPGA IP针对高端和高性能应用进行了优化。Speedcore eFPGA IP现已可用在TSMC 16nm FinFET Plus(16FF +)和N7工艺技术上,并且很快将在TSMC 12nm FinFET Compact Technology(12FFC)上可用。 Achronix先前宣布了其用于Speedcore IP的、现已可提供客户使用的Gen4 FPGA架构。与以前的Speedcore架构相比,Speedcore Gen4架构的性能提高了60%,功耗降低了50%,芯片面积减少了65%,同时保留了Speedcore eFPGA IP的原有功能,将可编程硬件加速功能带到广泛的高性能计算、网络和存储应用中。Achronix将于9月26日参加在圣克拉拉市举行的台积电开放创新平台生态论坛(TSMC Open Innovation Platform Ecosystem Forum),并在420号展位上展示其Speedcore eFPGA IP如何针对每个客户的应用进行独特的规模定制和优化。 “Achronix的Speedcore eFPGA IP实现了提供最高性能硬件加速功能与同时保留适应新工作负载的灵活性之间的最佳平衡。这是在计算、网络和存储卸载等领域进行SoC开发所面临的关键设计要求。”Achronix市场营销副总裁Steve Mensor说道,“Achronix是唯一一家能同时提供基于高性能独立FPGA芯片的数据加速器和eFPGA IP技术的公司。有兴趣在其ASIC / SoC中使用Achronix的Speedcore eFPGA的公司可以确信,他们将获得与Achronix在其自身产品中使用的、同样高质量的FPGA技术。” Speedcore eFPGA IP是一种完全可扩展的架构,可支持从5K大小的6输入查找表(6LUT)到1M大小的6LUT的逻辑阵列,并支持包括存储器、用于滤波的数字信号处理器(DSP)单元块和针对AI / ML应用优化的机器学习处理器(MLP)单元块在内的其他可编程单元块。Achronix的高质量ACE设计工具可支持Speedcore IP。 “CPU内核、GPU内核以及现在的eFPGA都是芯片创新的关键IP,这些创新专注于人工智能、5G无线基础设施、汽车和边缘计算等领域中瞬息万变的应用。”台积电设计基础设施管理部门高级总监Suk Lee说,“我们很高兴地看到Achronix携其优化的Speedcore eFPGA IP解决方案加入到我们的IP联盟计划,从而使我们的客户能够获得流畅的设计体验、便捷的设计重用以及快速集成到整个设计系统中。”

    时间:2019-09-27 关键词: FPGA 台积电 achronix

  • FPGA难以逾越的瓶颈究竟该如何突破?

    FPGA难以逾越的瓶颈究竟该如何突破?

    如今,电子行业发展速度令人瞠舌,5G、AI、工业4.0、智能汽车一波又一波的应用革新引领了“新浪潮”,但随之带来的就是巨量的计算、分析、处理量。数据显示,2019年数据总量将达40ZB总量,如此庞大的潜在计算量,FPGA的小尺寸、低功耗以及高灵活性等特点恰与新兴技术“不谋而合”。 FPGA巨大市场背后:难以逾越的瓶颈   据Semico统计,FPGA市场正在逐年增长,而复合年均增长率高达38.4%,至2023年将具有55亿-60亿美元的规模。Achronix Semiconductor 总裁兼首席执行官Robert Blake表示对于FPGA近年的市场增长非常兴奋,相信在庞大高速增长的市场中新产品将有出色的表现。 据统计,约有25%的企业选择入局AI/ML以保持企业自身的竞争力,未来两年内,将会有接近四分之三的企业会布局AI。而AI方面,算法仍在不断演进,数值精度选择越来越多样性,但仅依赖数据格式的转变降低能耗的方法已接近瓶颈,市场需要更具有高效计算力、高效大带宽的数据运送能力、丰富储缓存能力的最高能效比的广适应性平台。 5月22日,Achronix宣布推出全新的 “FPGA+”系列产品Speedster7t FPGA,该产品采用台积电(TSMC)7nm FinFET工艺打造。据介绍,该产品将FPGA与ASIC技术融合,兼顾了两者的优点。 除此之外,Speedster7t FPGA具有革命性的新型二维片上网络(2D NoC)和一系列针对高带宽和人工智能/机器学习(AI / ML)应用进行了优化的新型机器学习处理器(MLP)。另外,值得一提的是,Speedster7t FPGA还具有满足未来AI/ML需求所需的超高带宽接口,包括400G以太网端口、用于数据传输的PCI Express Gen5端口以及用于业界最灵活、低成本、高带宽存储的GDDR6控制器。 利用四个架构代系的硬件和软件开发基础上的创新和积淀,客户可以拥有更快的设计周期、更好的设计表现,另外,还可以降低设计中的风险、减少所需设计面积。 Blake表示:“我们正处于智能化、自学习计算的高增长阶段的早期,这种计算将广泛影响我们日的常生活。” Semico Research公司ASIC和SoC首席市场分析师Rich Wawrzyniak表示:“全新的系列产品是创新性芯片架构实现爆发的一个卓越案例,创造该架构的目的是直接面向AI应用处理大量的数据。” 那么,Speedster7t FPGA究竟解决了哪些瓶颈?   瓶颈一:1+1>2,如何兼顾FPGA与ASIC的双重优点   如今,为了适应当前应用的高速发展,大多公司的设计团队开始选择全新的方案。众所周知,ASIC具有高性能、低功耗的优势,但相对来说,其内核执行外的任何算法都是冻结的,所以FPGA的高灵活性、高适应性相比来说更具优势。那么,有没有一款产品即具有FPGA的适应性,也兼顾ASIC的超高表现力? Speedster7t FPGA系列产品正是将二者相融合,利用台积电(TSMC)7nm技术,构建出全新的具有高性能、低功耗、高灵活性、高适应性的FPGA+。   瓶颈二:传统FPGA数据传输拥塞 vs 纵横交错的NOC路由结构   假若将400G内容传送到以太网比作在传送带上传送,影响传输的除了传送带速度,还有盒子的大小。传输速度需要足够快确保来得及装包,而越大的盒子也会降低效率。传统FPGA在传输400G内容时,无论如何调整传输大小和传输频率,也无法达到以太网的传输曲线。所以对于传统FPGA几乎无法满足超高速的传输条件。 来自Speedster7t高速I / O和存储器端口的数万兆比特数据很容易淹没传统FPGA面向比特位的可编程互连逻辑阵列的路由容量,而Speedster7t架构包含一个可横跨和垂直跨越FPGA逻辑阵列的创新性的、高带宽的二维片上网络(NOC),它们连接到所有FPGA的高速数据和存储器接口。 它们就像叠加在FPGA互连这个城市街道系统上的空中高速公路网络一样,Speedster7t的NoC支持片上处理引擎之间所需的高带宽通信。NoC中的每一行或每一列都可作为两个256位实现,单向的、行业标准的AXI通道,工作频率为2Ghz,同时可为每个方向提供512 Gbps的数据流量。 通过在Speedster中实现专用二维 NoC,极大地简化了高速数据移动,并确保数据流可以轻松地定向到整个FPGA结构中的任何自定义处理引擎。最重要的是,NOC消除了传统FPGA使用可编程路由和逻辑查找表资源在整个FPGA中移动数据流中出现的拥塞和性能瓶颈。这种高性能网络不仅可以提高Speedster7t FPGA的总带宽容量,还可以在降低功耗的同时提高有效LUT容量。   瓶颈三:传统DSP式FPGA受限的表现力 vs 计算、存储、程序三位一体的MLP   传统FPGA使用DSP模块有着相对有限的表现力,具体表现在不高效的数值精度支持、需要消耗额外逻辑和Memory资源、性能受限于FPGA布线。 Speedster7t FPGA搭载全新的机器学习处理器(MLP),将计算、存储和程序集于一身,使其支持阵列式乘累积计算架构、内嵌缓存、可配置以支持演进中算法、支持广泛各种不同整点和浮点格式。大规模的可编程计算单元平行阵列是其核心,可提供业界最高的、基于FPGA的计算密度,另外,也具有最高的能效比。 MLP是高度可配置的、计算密集型的单元模块,可支持4到24位的整点格式和高效的浮点模式,包括对TensorFlow的16位格式的支持,以及可使每个MLP的计算引擎加倍的增压块浮点格式的直接支持。 MLP与嵌入式存储器模块紧密相邻,通过消除传统设计中与FPGA布线相关的延迟,来确保以750 MHz的最高性能将数据传送到MLP。这种高密度计算和高性能数据传输的结合使得处理器逻辑阵列能够提供基于FPGA的最高可用计算能力以每秒万亿次运算数量为单位(TOPS,Tera-Operations Per Second)。   瓶颈四:表现较差的传统带宽存储 vs GDDR6高带宽存储   高性能计算和机器学习系统的关键之处是高片外存储器带宽,从而为多个数据流提供存储源和缓冲。 Speedster7t器件是唯一支持GDDR6存储器的FPGA,该类存储器是具有最高带宽的外部存储器件。每个GDDR6存储控制器都能够支持512 Gbps的带宽,Speedster7t器件中有多达8个GDDR6控制器,可以支持4 Tbps的GDDR6累加带宽,并且以很小的成本就可提供与基于HBM的FPGA等效存储带宽。  “美光(Micron)乐于携手Achronix去实现全球第一个面向高带宽存储需求而直接加载了GDDR6的FPGA产品,”美光计算与联网业务部营销副总裁Mal Humphrey。“像这样的创新的和可扩展的解决方案将推动人工智能领域内的差异化,其中异构计算可选方案与高性能的存储是加速获得数据内涵的必需部分。”   瓶颈五: “旗鼓不相当”的接口 vs 最高速度的接口   非凡的存储带宽需要好的“后卫”才能真正发挥出其性能。Speedster7t器件包括业界最高性能的接口端口,以支持极高带宽的数据流。 Speedster7t器件拥有多达72个业界最高性能的SerDes,可以达到1到112 Gbps的速度。还有带有前向纠错(FEC)的硬件400G以太网MAC,支持4x 100G和8x 50G的配置,以及每个控制器有8个或16个通道的硬件PCI Express Gen5控制器。   值得期待的FPGA+家族   Speedster7t FPGA器件的大小范围为从363K至2.6M 的6输入查找表(LUT),无论是低成本客户还是高端客户,均可满足。而FPGA+如此众多的优点也可“随意驰骋”在AI、图像处理、语言处理、Database加速、加密算法、网络处理方案上。 据Achronix表示,支持所有Achronix产品的ACE设计工具现已可提供,可支持包括Speedcore eFPGA和Speedchip™FPGA多晶粒封装芯片(Chiplet)。相关配套软件将于第三季度面世,更加高级的语言让设计开发更具表现力,第一批用于评估的器件和开发板也将于2019年第四季度提供。   关于Achronix   Achronix Semiconductor是一家私有的、采用无晶圆厂模式的半导体公司,总部位于美国加利福尼亚州圣克拉拉市,公司提供了高性能的现场可编程逻辑门阵列(FPGA)解决方案。 2013年,随着其Speedster22i FPGA产品系列开始量产,Achronix提供了业界最先进的、带有面向高性能有线通信应用的嵌入式系统级IP的FPGA产品。Speedster22i系列是第一款专用的FPGA,可支持全新的、创新的和高性能的可编程设计。 2016年10月,Achronix宣布其Speedcore 嵌入式FPGA(eFPGA) IP产品实现量产供应,实现了客户在自己的SoC中对可编程逻辑的集成。在发布之时,Achronix已经向多家客户付运了Speedcore IP产品;自那时起,出现了对Speedcore IP产品的前所未有的需求。Speedcore IP是专为计算和网络加速应用而设计的。 2019年5月,Achronix推出了突破性的Speedster7t FPGA系列产品,该系列产品对高带宽数据加速应用提供ASIC级性能,并具有FPGA的灵活性。 Achronix的所有产品均由其业内最优的ACE设计工具提供支持,ACE是一个可支持逻辑综合、布局布线、再加上时序收敛和调试等功能强大的EDA工具。ACE工具可以免费提供用于评估。

    时间:2019-05-25 关键词: FPGA asic achronix 技术专访

  • Achronix推出7nm FPGA,支持GDDR6高带宽!

    Achronix推出7nm FPGA,支持GDDR6高带宽!

    近日,美国eFPGA IP企业Achronix半导体公司在京发布其全新Speedster7t FPGA系列产品,基于一种高度优化的全新架构,采用台积电7nm FinFET工艺制造,主要针对AI/ML、高带宽数据、网络处理等方面加速。 FPGA即现场可编程逻辑阵列,特点是通用性,可以按照设计者的需要进行灵活编程,比专用芯片(ASIC)更加灵活。在数据中心,FPGA作为替代GPU、ASIC的另一种方案正得到越来越多的应用。 和其他FPGA供应商不同的是,Achronix是唯一一家既提供独立FPGA芯片,又提供Speedcore嵌入式FPGA(eFPGA)IP的半导体公司。 Achronix公司董事长兼首席执行官Robert Blake、亚太区总经理罗炜亮及中国区同事来到现场,介绍该公司革新的FPGA产品以及在中国市场的最新进展和策略。 据Robert Blake介绍,该产品具有针对高带宽和AI/ML应用进行优化的全新机器学习处理器(MLP),以及革命性的新型二维片上网络2D NOC,将FPGA与ASIC的布线结构和计算引擎结合,能提供与ASIC如出一辙的性能、可简化设计的FPGA灵活性和增强功能,远超传统的FPGA解决方案。   此外,Achronix将在今年第四季度提供相应的评估器件和加速卡。

    时间:2019-05-24 关键词: FPGA 台积电 achronix 行业资讯

  • Achronix推出突破性的FPGA系列产品,以面向高带宽数据加速应用的灵活性而将性能提升到全新高度

    美国加州圣克拉拉市, 2019年 5月 21日—基于现场可编程门阵列(FPGA)的硬件加速器件和高性能嵌入式FPGA(eFPGA)半导体知识产权(IP)领导性企业Achronix半导体公司(Achronix Semiconductor Corporation)今日宣布:推出创新性的、全新的FPGA系列产品,以满足人工智能/机器学习(AI/ML)和高带宽数据加速应用日益增长的需求。Achronix的Speedster®7t系列基于一种高度优化的全新架构,以其所具有的如同ASIC一样的性能、可简化设计的FPGA灵活性和增强功能,从而远远超越传统的FPGA解决方案。 Speedster7t FPGA系列产品是专为高带宽应用进行设计,具有一个革命性的全新二维片上网络(2D NoC),以及一个高密度全新机器学习处理器(MLP)模块阵列。通过将FPGA的可编程性与ASIC的布线结构和计算引擎完美地结合在一起,Speedster7t系列产品创造了一类全新的“FPGA +”技术。 随着人工智能/机器学习的应用场景快速发展演进,新的解决方案都要去应对在高性能、灵活和上市时间等方面的不同需求。根据市场调研公司Semico Research的预测,人工智能应用中FPGA的市场规模将在未来4年内增长3倍,达到52亿美元。  “我们正处于智能化、自学习计算的高增长阶段的早期,这种计算将广泛影响我们日的常生活。”Achronix Semiconductor总裁兼首席执行官Robert Blake表示:“Speedster7t是Achronix历史上最令人激动的发布,代表了建立在四个架构代系的硬件和软件开发基础上的创新和积淀,以及与我们领先客户之间的密切合作。Speedster7t是灵活的FPGA技术与ASIC核心效率的融合,从而提供了一个全新的‘FPGA+’芯片品类,它们可以将高性能技术的极限大大提升。” 在开发Speedster7t系列FPGA的产品过程中,Achronix的工程团队完全重新构想了整个FPGA架构,以平衡片上处理、互连和外部输入输出接口(I / O),以实现数据密集型应用吞吐量的最大化,这些应用场景可见于那些基于边缘和基于服务器的AI / ML应用、网络处理和存储。 Speedster7t器件采用了TSMC的7nm FinFET工艺制造,是专为接收来自多个高速来源的大量数据而设计,同时还需要将那些数据分发到可编程片上算法性和处理性单元中,然后以尽可能低的延迟来提供那些结果。Speedster7t系列产品包括高带宽GDDR6接口、400G以太网端口和PCI Express Gen5等接口,所有这一切单元都互相连接以提供ASIC级带宽,同时保留FPGA的完全可编程性。 “Achronix全新的Speedster7t FPGA系列产品是创新性芯片架构实现爆发的一个卓越案例,创造该架构的目的是直接面向AI应用处理大量的数据,” Semico Research公司ASIC和SoC首席市场分析师Rich Wawrzyniak说道。“通过将数学函数、存储器和可编程性整合到其机器学习处理器中,再结合交叉芯片、二维NoC结构,从而形成了消除瓶颈和确保整个器件中数据自由流动的绝佳方法。在AI / ML应用中,内存带宽就是一切,Achronix的Speedster7t在这一领域提供了令人印象深刻的性能指标。”   为计算性能进行了高度的优化   Speedster7t FPGA的核心是其全新机器学习处理器(MLP)中大规模的可编程计算单元平行阵列,它们可提供业界最高的、基于FPGA的计算密度。MLP是高度可配置的、计算密集型的单元模块,可支持4到24位的整点格式和高效的浮点模式,包括对TensorFlow的16位格式的支持,以及可使每个MLP的计算引擎加倍的增压块浮点格式的直接支持。 MLP与嵌入式存储器模块紧密相邻,通过消除传统设计中与FPGA布线相关的延迟,来确保以750 MHz的最高性能将数据传送到MLP。这种高密度计算和高性能数据传输的结合使得处理器逻辑阵列能够提供基于FPGA的最高可用计算能力以每秒万亿次运算数量为单位(TOPS,Tera-Operations Per Second)。   世界级的带宽   高性能计算和机器学习系统的关键之处是高片外存储器带宽,从而为多个数据流提供存储源和缓冲。 Speedster7t器件是唯一支持GDDR6存储器的FPGA,该类存储器是具有最高带宽的外部存储器件。每个GDDR6存储控制器都能够支持512 Gbps的带宽,Speedster7t器件中有多达8个GDDR6控制器,可以支持4 Tbps的GDDR6累加带宽,并且以很小的成本就可提供与基于HBM的FPGA等效存储带宽。  “美光(Micron)乐于携手Achronix去实现全球第一个面向高带宽存储需求而直接加载了GDDR6的FPGA产品,”美光计算与联网业务部营销副总裁Mal Humphrey。“像这样的创新的和可扩展的解决方案将推动人工智能领域内的差异化,其中异构计算可选方案与高性能的存储是加速获得数据内涵的必需部分。” 除了这种非凡的存储带宽,Speedster7t器件还包括业界最高性能的接口端口,以支持极高带宽的数据流。Speedster7t器件拥有多达72个业界最高性能的SerDes,可以达到1到112 Gbps的速度。还有带有前向纠错(FEC)的硬件400G以太网MAC,支持4x 100G和8x 50G的配置,以及每个控制器有8个或16个通道的硬件PCI Express Gen5控制器。   超高效率的数据移动   来自Speedster7t高速I / O和存储器端口的数万兆比特数据很容易淹没传统FPGA面向比特位的可编程互连逻辑阵列的路由容量,而Speedster7t架构包含一个可横跨和垂直跨越FPGA逻辑阵列的创新性的、高带宽的二维片上网络(NOC),它们连接到所有FPGA的高速数据和存储器接口。它们就像叠加在FPGA互连这个城市街道系统上的空中高速公路网络一样,Speedster7t的NoC支持片上处理引擎之间所需的高带宽通信。NoC中的每一行或每一列都可作为两个256位实现,单向的、行业标准的AXI通道,工作频率为2Ghz,同时可为每个方向提供512 Gbps的数据流量。 通过在Speedster中实现专用二维 NoC, 极大地简化了高速数据移动,并确保数据流可以轻松地定向到整个FPGA结构中的任何自定义处理引擎。最重要的是,NOC消除了传统FPGA使用可编程路由和逻辑查找表资源在整个FPGA中移动数据流中出现的拥塞和性能瓶颈。这种高性能网络不仅可以提高Speedster7t FPGA的总带宽容量,还可以在降低功耗的同时提高有效LUT容量。   针对安全性至上和硬件确保应用的安全防护功能   Speedster7t FPGA系列产品在面临第三方攻击的威胁时,可用最先进的比特流安全保护功能应对,它们具有的多层防御能力可保护比特流的保密性和完整性。密钥是基于防篡改物理不可克隆技术(PUF)进行加密,比特流由256位的AES-GCM加密算法进行加密和验证。为了防止来自旁侧信道的攻击,比特流被分段,每个数据段使用单独导出的密钥,且解密硬件采用差分功率分析(DPA)计数器措施。 此外,2048位RSA公钥认证协议被用来激活解密和认证硬件。用户可以确信的是当他们加载其安全比特流时,它是预期的配置,这是因为它已通过RSA公钥、AES-GCM私钥和CRC校验进行了身份验证。   经验证的、可向低成本ASIC转换的途径,用以满足大批量需求   Achronix是唯一一家既提供独立FPGA芯片又提供Speedcore™嵌入式FPGA(eFPGA)半导体知识产权( IP)的公司。Achronix在Speedcore eFPGA IP中采用了与Speedster7t FPGA中使用的同一种技术,可支持从Speedster7t FPGA到ASIC的无缝转换。FPGA应用通常具有必须保持可编程性的功能,而其他固定功能则是专用于特定的系统应用。对于ASIC的转换而言,固定功能可以被固化进ASIC结构中,从而减小芯片面积、成本和功耗。当使用Speedcore eFPGA IP将Speedster7t FPGA转换为ASIC时,客户有望节省高达50%的功耗并降低90%的成本。   供货   Speedster7t FPGA器件的大小范围为从363K至2.6M 的6输入查找表(LUT)。支持所有Achronix产品的ACE设计工具现已可提供,可支持包括Speedcore eFPGA和Speedchip™FPGA多晶粒封装芯片(Chiplet)。 第一批用于评估的器件和开发板将于2019年第四季度提供。   关于Achronix半导体公司   Achronix半导体公司是一家私有的、采用无晶圆厂模式的半导体公司,总部位于美国加利福尼亚州圣克拉拉市,同时提供高性能FPGA和嵌入式FPGA(EFPGA)解决方案。Achronix历来都是高性能FPGA市场向前发展的推动者之一。Achronix提供的产品包括可编程的FPGA结构、具有硬连线系统级模块的分立式高性能和高密度FPGA、数据中心和HPC硬件加速器板,以及支持所有Achronix产品的一流EDA软件。公司在美国、欧洲和中国都设有销售办公室和代表处,在印度班加罗尔设有一间研发和设计办公室。更多信息,请访问:http://www.achronix.com。 Achronix 和Speedster是 Achronix Semiconductor Corporation的注册商标,Speedcore 和Speedchip是Achronix Semiconductor Corporation的商标。 其他所有品牌、产品名称和标志均属于其各自所有者。  

    时间:2019-05-23 关键词: achronix speedster7t fpga+

  • Achronix新一代嵌入式FPGA IP为AI/ML和网络硬件加速应用带来更高性能

    Achronix新一代嵌入式FPGA IP为AI/ML和网络硬件加速应用带来更高性能

    2016年,Achronix推出的Speedcore成为首款向客户出货的嵌入式FPGA(eFPGA)IP,使客户将FPGA功能集成到他们的SoC中成为可能。由于Speedcore IP是专为计算和网络加速应用而设计的,并基于Speedster22i FPGA系列相同的高性能架构,采用Speedcore作为硬件加速器的方案被广泛应用到数据中心和通信基础设施等领域。据了解,eFPGA IP授权业务在过去两年间快速增长,2017年,已经占到Achronix FPGA整体营收的20%,而2018年,凭借其显着的功耗和成本优势,eFPGA IP授权业务比重进一步提高。 本月,Achronix宣布推出第四代嵌入式FPGA产品Speedcore Gen4 eFPGA IP。较前代产品,Speedcore Gen4将性能提高了60%、功耗降低了50%、芯片面积减少65%,同时保留了原有的Speedcore eFPGA IP的功能,即可将可编程硬件加速功能引入广泛的计算、网络和存储应用,实现接口协议桥接/转换、算法加速和数据包处理。 图:Speedcore 7t较前代产品性能显著提升 据Achronix市场营销副总裁Steve Mensor介绍,创新的架构使这些性能提升成为可能。与上一代Speedcore产品相比,新的Speedcore Gen4架构实现了多项创新,从而可将系统整体性能提高60%。其中查找表的所有方面都得到了增强,以支持使用最少的资源来实现各种功能,从而可缩减面积和功耗并提高性能。其中的更改包括将ALU的大小加倍、将每个LUT的寄存器数量加倍、支持7位函数和一些8位函数、以及为移位寄存器提供的专用高速连接。 图:Achronix市场营销副总裁Steve Mensor Speedcore Gen4的路由架构也借由一种独立的专用总线路由结构得到了增强。此外,在该路由结构中还有专用的总线多路复用器,可有效地创建分布式的、运行时可配置的交换网络。这为高带宽和低延迟应用提供了最佳的解决方案,并在业界首次实现了将网络优化应用于FPGA互连。 图:Speedcore Gen4架构为高性能总线提供了专用路由 易用性也是eFPGA的特色之一,降低了客户集成FPGA加速器的门槛。客户通过定制其逻辑、RAM和DSP资源需求,Achronix接下来就会为其配置满足其需求的Speedcore IP,Speedcore查找表(LUT)、RAM单元模块和DSP64单元模块可以像乐高积木一样进行组合,以便为特定的应用创建优化的可编程功能。 根据艾瑞咨询的数据,2020年全球人工智能市场规模约1190亿人民币,未来10年,人工智能将会是一个2000亿美元的市场,空间非常巨大。 在人工智能领域,传统的芯片计算架构已无法支撑深度学习等大规模并行计算的需求,这就需要新的底层硬件来更好地储备数据、加速计算过程。其中,FPGA等用于性能加速的硬件、神经网络芯片、传感器与中间件,则是支撑人工智能的前提。新的Speedcore Gen4可谓最佳的人工智能/机器学习加速器。Achronix机器学习处理器(MLP)利用了人工智能/机器学习处理的特定属性,并将这些应用的性能提高了300%。这是通过多种架构性创新来实现的,这些创新可以同时提高每个时钟周期的性能和操作次数。 MLP是一个完整的人工智能/机器学习计算引擎,支持定点和多个浮点数格式和精度。每个机器学习处理器包括一个循环寄存器文件,它用来存储重用的权重或数据。各个机器学习处理器与相邻的机器学习处理器单元模块和更大的存储单元模块紧密耦合,以提供最高的处理性能、每秒最高的操作次数和最低的功率分集。这些机器学习处理器支持各种定点和浮点格式,包括Bfloat16、16位、半精度、24位和单元块浮点。用户可以通过为其应用选择最佳精度来实现精度和性能的均衡。 为了补充机器学习处理器并提高人工智能/机器学习的计算密度,Speedcore Gen4查找表(LUT)可以实现比任何独立FPGA芯片产品高出两倍的乘法器。领先的独立FPGA芯片在21个查找表可以中实现6x6乘法器,而Speedcore Gen4仅需在11个LUT中就可实现相同的功能,并可在1 GHz的速率上工作。 GSMA智库发布的最新的全球物联网市场报告显示,包括连接、应用、平台与服务,到2025年全球物联网市场规模将达到1.1万亿美元。数十亿物联网设备的出现,将给传统网络和计算基础设施带来压力。固定和无线网络带宽的急剧增加,加上处理能力向边缘等进行重新分配。这种新的处理范式意味着每秒将有数十亿到数万亿次的运算。传统云和企业数据中心计算资源和通信基础设施无法跟上数据速率的指数级增长、快速变化的安全协议、以及许多新的网络和连接要求。传统的多核CPU和SoC无法在没有辅助的情况下独立满足这些要求,因而它们需要硬件加速器,通常是可重新编程的硬件加速器,用来预处理和卸载计算,以便提高系统的整体计算性能。经过优化后的Speedcore Gen4 eFPGA已经可以满足这些应用需求。 Steve Mensor告诉21IC记者,现有已量产的Speedcore架构,Achronix可在6周内为客户配置并提供Speedcore eFPGA IP和支持文件。而最新采用台积电7nm工艺节点的Speedcore Gen4将于2019年上半年投入量产,芯片设计企业现已可以联系Achronix,以获得支持其特定需求的Speedcore Gen4实例。此外Achronix还将于2019年下半年提供用于台积电16nm和12nm工艺节点的Speedcore Gen4 eFPGA IP。据Steve Mensor预测,凭借Speedcore Gen4 eFPGA的功耗和成本优势,人工智能/机器学习和高数据带宽应用的爆炸式需求将推动其在边缘计算、5G、网络加速和计算加速等领域被广泛采纳,2019年,eFPGA IP授权业务有望达到Achronix FPGA整体营收的50%甚至更多。

    时间:2018-12-21 关键词: achronix 技术专访 嵌入式fpga 硬件加速器

  • 摩尔定律渐渐失效 eFPGA将加速AI发展

    摩尔定律渐渐失效 eFPGA将加速AI发展

    AI正在迅速发展,对芯片算力和内存的要求也越来越高,但摩尔定律的放缓甚至失效让芯片靠先进半导体工艺来提高芯片的性能和能效难度越来越大。此时,无论是在芯片市场耕耘多年的芯片霸主还是科技巨头都纷纷研发AI芯片,新的芯片类型和技术也开始涌现。那么,eFPGA这种嵌入式的FPGA技术将如何推动AI的发展?7nm eFPGA的设计又将如何被AI的发展影响?AI加速发展与摩尔定律放缓AI的快速发展让智能语音助理几乎成了手机的标配,也让智能音箱的出货量连年上涨。于此同时,越来越多的手机正在使用AI技术优化拍照的效果以及对相册的照片进行分类。不过这些只是AI技术现阶段一些常见的应用,AI算法的不断演变正在让AI与更多的行业和应用结合,新的AI算法无论对芯片的算力还是内存等都提出了更高的要求,所有的AI芯片公司都在追求性能更高、功耗更低、面积更小的芯片。回看芯片性能提升的历程,在1986年到2003年之间,芯片性能和功耗持续降低,到了2003年之后,凭借着多核的设计以及半导体工艺的进步芯片的性能依旧在提升,但摩尔定律显然已经放缓。2015年之后,芯片的提升越来越难,关于摩尔定律失效的讨论越来越多。摩尔定律减缓因此,CPU、GPU、FPGA、ASIC性能的提升和功耗降低都面临越来越大的挑战,另外,从16nm到7nm节点,芯片制造成本也在大幅提升。对于运算速度、数据传输、内存带宽都有较高要求的AI芯片,如何才能实现每瓦更高的性能以及更低的成本?AI如何改变eFPGA的架构设计?对于AI芯片,越来越多的芯片设计公司正在使用多核异构的架构来提升芯片的效率,满足深度学习算法的需求。除了多核异构的架构,具体的核的架构也都在不断针对AI优化,FPGA也不例外。值得注意的是,成立于2004年总部位于美国的Achronix提供的是嵌入式FPGA技术。Achronix的Speedcore IP是可以集成到ASIC和SoC之中的嵌入式FPGA(eFPGA),作为可配置的协处理器和硬件加速器来支持各种各样的任务,其比特位导向(bit-oriented)FPGA架构,比字段导向(word-oriented)的CPU架构更为高效,适用于SQL卸载、在线I/O处理、加密、搜索引擎算法性加速和增强多媒体处理等功能。据了解,Achronix是唯一一家交付的eFPGA技术已经嵌入到ASIC中实现量产的公司,Speedcore IP适用的工艺节点包括TSMC 16nm FF+和英特尔的14nm FinFET,并已宣布将于2019年上半年开始提供适用于台积电7nm工艺的第四代Speedcore eFPGA IP。Achronix市场营销副总裁Steve Mensor除了支持最先进的制造工艺,7nm的eFPGA也进行了架构上的优化,其中非常关键的就是将机器学习处理器(MLP)增加到Speedcore可提供的资源逻辑库单元模块中。Achronix市场营销副总裁Steve Mensor表示:“MLP模块是一种高度灵活的计算引擎,它与存储器紧密耦合,利用了人工智能及机器学习处理的特定属性,将这些应用的性能提高了300%。可以同时提高每个时钟周期的性能和操作次数,一个MLP在1个时钟周期可以完成1个16×16的运算,8个8×8的运算,12个6×6的运算,16个4×4的运算。”数据类型的支持对机器学习也非常重要,据悉MLP支持各种定点和浮点格式,包括Bfloat16、16位、半精度、24位和单元块浮点,也就是说可以根据应用选择最佳精度来实现精度和性能的均衡。至于在支持的数据类型的支持上是否会有所偏重的问题,Steve告诉他们的eFPGA支持所有的数据类型,这也是FPGA可编程行的好处。虽然能够支持所有的数据类型,但数据的存取耗能比计算耗能更多是所有AI芯片都不得不面对的问题。对此,Steve表示:“每个MLP包括一个循环寄存器文件(Cyclical Register File),用来存储重用的权重或数据,无需经过LUT,提升处理性能的同时还能降低功耗。”另外,对于对机器学习计算密度比较高的应用,如果MLP还不能够满足希求,Speedcore Gen4查找表(LUT)可作为补充,可实现比独立FPGA高两倍的乘法器。不仅仅是机器学习性能,Steve还表示:“我们的7nm eFPGA的逻辑单元、走线、路由架构、内存都进行了改进。”具体来说,查找表进行了全面的增强,更改包括将ALU的大小加倍、将每个LUT的寄存器数量加倍、支持7位函数和一些8位函数、以及为移位寄存器提供的专用高速连接,缩减面积和功耗并提高性能。另外,路由架构借由一种独立的专用总线路由结构得到了增强,该路由结构中有专用的总线多路复用器,可有效地创建分布式的、运行时可配置的交换网络,并且在业界首次实现了将网络优化应用于FPGA互连。经过芯片架构的优化设计以及在7nm工艺的加持下,Speedcore Gen4性能提高了60%、机器学习性能提升300%、功耗降低50%、芯片面积减少65%。Speedcore Gen4 FPGA提升同时推7nm eFPGA IP和独立FPGA只为AI应用AI对eFPGA不止于架构方面的改变,Steve表示采用台积电7nm工艺节点的Speedcore Gen4将于2019年上半年投入量产,并将在2019年下半年提供用于台积电16nm和12nm工艺节点的Speedcore Gen4 eFPGA IP。注意到,在7nm节点Achronix不仅提供eFPGA IP,还提供FPGA裸片可与SoC进行封装,并且还会推出独立的FPGA器件。至于提供IP为主的Achronix为什么要在7nm节点推出独立FPGA,Steve表示:“这更多的是基于用户需求的考虑。在AI的应用中,数据中心的加速、5G、自动驾驶都有不同的需求。独立的FPGA更够让他们能够更快的应用在数据中心,实现加速,也能更好地满足对7nm FPGA芯片用量更小的公司的需求。那些对芯片成本和面积更加敏感,或者想设计出性能更高的AI芯片的公司,则可以选择IP。当然SoC公司也可以选择合适的封装技术将我们的裸片与他们的SoC进行封装,实现更高的性能。”Achronix 亚太区总经理罗炜亮当然,硬件是根本,软件也将在AI中发挥着越来越重要的作用,许多芯片设计公司在AI时代也开始更多地与软件公司进行合作,但在发布会上除了Achronix的ACE设计工具,并没有其他针对AI的软件。Steve对此表示:“我们作为一家正在快速发展但规模还不够大的公司,目前我们主要是在硬件层面提供稳定且性价比高的不同的芯片,我们最高会做到Libiary层,软件方面则更多地与合作伙伴协作。”高成本下谁需要7nm eFPGA?至此,我们已经了解到,无论从架构设计还是需求角度,eFPGA都进行了优化,但还有一个非常关键的问题就是16nm到7nm制程带来的性能、功耗的提升在成本面前似乎吸引力不足。虽然Steve表示芯片设计公司购买7nm eFPGA IP的价格与16nm eFPGA IP的价格相比没有上涨,但是制造成本的陡增还是会让许多芯片设计公司望而却步。Steve表示,7nm eFPGA主要的市场包括对计算性能和价格有要求的数据中心加速、对低功耗计算有要求的边缘计算、有低功耗和低成本要求的存储器、低功耗高性能并且需要有可编程性的5G基础设施、网络加速/智能网卡、自动驾驶。7nm eFPGA市场不过,其中一些应用是潜在市场,另外一些则是驱动Achronix推出7nm eFPGA的关键。Steve指出:“目前我们公司营收最重要的两个应用是5G基础设施和智能卡(SmartIC),5G对芯片有高性能和低功耗的要求,因此很多以前用FPGA的公司现在转到了ASIC,但还需要一些灵活性以应对协议的改变。智能卡则是在数据传输前就进行一些数据的处理,我们知道数据量以及数据的复杂程度都在增加,因此这两个场景对7nm eFGPA都有很大的需求。数据中心以及自动驾驶、存储都需求明确,至于边缘计算最合适的场景则需要看市场的发展。”还值得一提的是,为了能够加速数据中心和汽车等应用中机器学习工作负载,Achronix将其eFPGA与Micron的GDDR6存储器相结合,第四代eFPGA中有8个增强的GDDR6存储器接口,通过这种联合解决方案,可以应对深度神经网络中包括存储大数据集、重权重参数和存储器激活;底层硬件需要在处理器和存储器之间存储、处理和快速移动数据等挑战。小结AI算法还在不断的迭代和发展,因此通用性更强的CPU、GPU虽然能够完成相应的算法,但是效率越来越低,成本也越来越高,这推动了芯片架构的革新。我们看到越来越多的AI芯片采用多核异构,通过不同的核心组合提升性能和效率,更好地满足AI的需求。从Achronix eFPGA的改进中我们也看到了其在逻辑单元、走线、路由架构方面都进行了改进,并且增加了MLP,为减少数据搬运的耗能,还搭载了片上存储,同时为了解决深度学习的固有问题,率先在FPGA中支持GDDR6。AI应用与AI芯片就是在这样的相互影响下推动AI向前发展。

    时间:2018-12-07 关键词: achronix ai芯片 efpga

  • Achronix推出全新eFPGA项目,帮工程师快速构建低成本测试芯片!

    ·该组项目将使研究机构和公司能够使用Achronix高性能Speedcore eFPGA技术快速构建低成本测试芯片 基于现场可编程门阵列(FPGA)的硬件加速器器件和高性能嵌入式FPGA半导体知识产权(eFPGA IP)领导性企业Achronix半导体公司日前宣布:公司推出两个全新的项目,以支持研究机构、联盟和公司能够全面对接Achronix领先Speedcore eFPGA技术。 eFPGA技术正在迅速地成为基于系统级芯片(SoC)的CPU卸载功能中可编程硬件加速单元的必备硅知识产权(IP),已被广泛用于包括人工智能/机器学习(AI / ML)、区块链、网络加速、智能网卡和智能物联网等各种应用。这些被称为“eFPGA Accelerator”的eFPGA应用加速项目面向希望试验或证实新硬件架构的研究机构和测试芯片开发人员,为其提供了获得公司Speedcore eFPGA IP预先配置版本及相关开发工具的对接机会。 研究类eFPGA Accelerator应用加速项目: 大学、政府机构和行业联盟经常工作在技术进步的前沿, Achronix承诺支持这些类型的前沿研究项目。 Achronix的全新研究类eFPGA Accelerator应用加速项目将支持研究人员使用预先配置的Speedcore eFPGA IP,在他们的SoC研究项目中构建可编程硬件加速器。这类项目还针对政府机构的高性能计算需求,解决这些需求中确实需要解决的关键安全性和硬件保障问题,尽管他们通常缺乏去摊销开发定制SoC费用的制造批量。 测试芯片类eFPGA Accelerator应用加速项目: 测试芯片类eFPGA Accelerator应用加速项目使各种公司能够将eFPGA IP集成到其ASIC和SoC之中,从而利用Achronix经过流片验证的、预先配置好的IP及支持性ACE设计工具。跨越许多个应用领域和地区的公司都希望测试其包含可编程硬件加速器的新体系结构设计,从而满足计算、联网和存储平台的高性能应用需求。测试芯片类eFPGAAccelerator应用加速项目支持这些公司便捷地将经过流片验证的高性能eFPGA IP集成到其ASIC和SoC的设计中,然后根据评估批量来制造芯片。 “Achronix很高兴能够走在嵌入式FPGA市场的最前沿,该技术正在迅速地成为许多需要硬件加速的应用的首要选择”,Achronix市场营销副总裁Steve Mensor说道。“这些全新的eFPGA Accelerator应用加速项目将使创新的公司和研究机构能够使用我们的IP和工具去构建下一代的可编程芯片,从而满足AI / ML和其他计算密集型应用不断增长的数据和计算量需求。” Achronix 的研究类eFPGA Accelerator应用加速项目和测试芯片类eFPGA Accelerator应用加速项目,将支持研究机构和测试芯片开发人员轻松地获得Achronix的Speedcore eFPGA技术的许可授权。该项许可包括对接预先配置的、经过流片验证的Speedcore eFPGA IP以及该公司业内一流的ACE设计工具。所有标准的Speedcore交付物都将包含在这些应用加速项目中。这些项目的Speedcore IP都是基于台积电(TSMC)的16FF +工艺技术。

    时间:2018-11-28 关键词: 芯片 achronix efpga

  • Achronix出席2018世界集成电路大会并在人工智能与半导体专场发言

    21ic讯 Achronix半导体公司出席了在北京亦庄举行的“2018北京微电子国际研讨会暨IC WORLD大会(世界集成电路大会)”,公司亚太区总经理罗炜亮(Eric Law)出席了大会的人工智能(AI)与半导体专场,并介绍了Achronix的Speedcore嵌入式FPGA(Speedcore eFPGA)在人工智能芯片设计中的诸多优势和广泛应用。     Achronix亚太区总经理罗炜亮在世界微电子大会人工智能专场上演讲 2018北京微电子国际研讨会的指导单位包括工业和信息化部、科学和技术部以及北京市人民政府;主办单位包括北京市经济和信息化委员会、以及国家集成电路产业投资基金股份有限公司;承办单位包括北京经济技术开发区管理委员会、北京半导体行业协会、国际半导体产业协会(SEMI)、华美半导体协会(CASPA)、中芯北方集成电路制造(北京)有限公司和北方集成电路技术创新中心(北京)有限公司。 Achronix公司今年首次参加了北京微电子国际研讨会,并在大会的人工智能与半导体专场上,就Speedcore eFPGA在人工智能中的应用发表了演讲。罗炜亮表示:人工智能正在重塑世界的运行方式,为商业和工业系统开启了无数的机会。人工智能应用遍及多个市场,如自动驾驶、医疗诊断、家用电器、工业自动化、自适应网站和财务分析等等,甚至将这些系统连接在一起的通信基础设施也正朝着自动化自我修复和优化方向发展。这些新的架构将执行诸多功能,例如负载平衡以及基于由经验得出的预测来分配诸如无线信道和网络端口等资源。 针对人工智能应用,FPGA提供了一种方法来实现自定义处理器和内存管理技术的优点,而不需要将实现锁定到一个特定的、不变的硬件结构上。现在,诸如Achronix的Speedster等许多FPGA架构提供了完全可自定义的逻辑和数字信号处理(DSP)引擎的混合结构,它们可支持固定和浮点运算。在许多情况下,DSP引擎可采用由8位或16位单元来组成一种构建模块,这种方法可以将它们组合起来以支持更高精度的数据类型。通过用逻辑阵列中的查找表(LUT)中来实现相关逻辑也能够适用于低精度。     嵌入式可编程逻辑通过消除对面积大、功耗高的I / O电路的需求,来缩减了芯片的总面积 而诸如Achronix的Speedcore这样可集成在芯片上的嵌入式FPGA硅知识产权(IP)模块,在人工智能以及其他加速应用中,还通过以下方式节省了大量的硅片占用面积:消除一款独立FPGA芯片上占用很大面积和功耗很高的输入/输出单元(I / O);将固定的功能转移至更高效的专用集成电路(ASIC)模块; 将重复功能转换为Speedcore自定义模块,从而实现进一步更加高效的处理并缩减面积和功耗。 通过参加此次世界集成电路大会的人工智能专场,Achronix正和其他产业生态中的伙伴一起,加速中国高端FPGA芯片和带有eFPGA的先进系统级芯片(SoC)的设计,从而在包括5G、先进数据中心、智能网联汽车、数字医疗、边缘计算和超级计算等等诸多领域内为国内厂商去实现世界级的创新提供先进的芯片和解决方案。     通过使用Speedcore自定义模块可缩减41%的芯片占用面积 本届世界集成电路大会以“技术创新引领,产业链协同发展”为主题,首次在已举办19届的北京微电子国际研讨会之外增设了产业博览会,200多家集成电路产业上下游企业参展。大会以推动京津冀为核心的集成电路纵向整合及产学研协同创新为目标,致力于提升北京集成电路产业的影响力与吸引力,助力北京全国科技创新中心建设,搭建了多层级的沟通平台。 Achronix已推出题为《AI应用的理想解决方案 — Speedcore eFPGA》白皮书,不久将在Achronix微信公众号上连载,欢迎大家关注。

    时间:2018-11-15 关键词: 人工智能 achronix 2018世界集成电路大会

  • Speedcore eFPGA在自动驾驶汽车中的应用

    Speedcore eFPGA在自动驾驶汽车中的应用

    概述无论一辆汽车它是21世纪20年代初的辅助驾驶汽车,即带有用于信息娱乐系统、传动系统和自主驾驶员辅助系统(ADAS)的智能子网的汽车,还是未来3级 (Level 3)及以上的自动驾驶汽车(在车流中驾驶时只需最少的人力辅助),网络化交通系统对硬件加速的需求正在迅猛增长。几年前,由Nvidia,Mobileye和其他以CPU为中心的供应商推出的最受青睐的汽车智能模型都假设了一个集中式汽车网络,其中由带有增强DSP功能的多核RISC CPU来管理一套专用的子网络。现在,关注点正在迅速转向分布式汽车智能化,其中包含带有相关视觉系统的复杂相机,具有来自物联网世界的传感器中枢架构的传感器子网络、以及用于车载信息娱乐系统(IVI)和ADAS的附加子网络、以及传动系统/动力系统子网络,共同协作来实现自动驾驶汽车功能。虽然Achronix预计未来的传统车辆和自动驾驶车辆最喜欢的架构都将是分布式架构,但是任何一种网络都需要比目前已经实现的架构更多的后备协处理能力。汽车网络中预期的分布式计算架构将是异构的,需要从网络控制到利用深度学习节点的并行对象识别的混合计算资源。结果,豪华辅助驾驶汽车中目前CPU的基数多达100个,而在自动驾驶汽车中可能会增加到几百个CPU。传感器中枢将需要后备图像处理来实现扭曲和拼接效果;以太网需要IP进行数据包过滤/监控,以及与传统CAN和FlexRay网络的特殊桥接。在第一代汽车架构中使用整数个CPU和GPU,将迁移到需要可编程加速的高度专业化计算节点。为了优化芯片面积和功率效率,在未来的汽车平台上,相比固定功能的SoC或传统的FPGA,将Speedcore™嵌入式FPGA(eFPGA)硅知识产权(IP)集成到SoC中以提供客户可配置功能,是实现快速切换协处理的一个最佳选择 。要了解更多关于处理过程的演变,请参见Achronix白皮书(WP008):SoC中的EFPGA加速 - 了解Speedcore IP设计流程。Speedcore eFPGA IP在异构汽车数据处理中的独特作用Speedcore eFPGA IP可以集成到ASIC或SoC中,以提供定制的可编程逻辑阵列。客户指定他们的逻辑、内存和DSP资源需求,然后Achronix配置Speedcore IP以满足他们的特定需求。Speedcore查找表(LUT)、RAM模块和DSP64模块可以像积木一样进行组合,为任何给定应用创建最佳的可编程逻辑阵列。Speedcore eFPGA IP在汽车网络集成方面提供独特的优势,无论是在现有设计中取代一个FPGA还是增强一个ASIC。l  更高的性能 – 一个eFPGA通过宽阔的并行接口直接连接(无I / O缓冲器)到ASIC,提供显著更高的吞吐量,延迟仅为个位数的时钟周期。 在需要对迅速变化的交通状况进行实时响应时,延迟非常重要。l  更低的功耗:l  可编程I / O电路的功耗占独立FPGA总功耗的一半。一个 eFPGA直接连接到SoC,完全消除了大型可编程I / O缓冲器,从而降低了功耗。l  一个eFPGA的面积可以根据最终应用的要求精确定制,并且可以调整工艺技术以实现性能和功耗的平衡。l  更低的系统成本:l  一个eFPGA的片芯占用面积比等效的独立FPGA小得多,这是因为可编程I / O缓冲器,未使用的DSP和存储器模块以及过度配置的LUT和寄存器都全部被移除。l  借助Speedcore定制模块,可将定制功能作为附加模块添加到eFPGA逻辑阵列中,并与传统的LUT、RAM和DSP构建模块一起添加。这种高效的实施方式极大地降低了片芯尺寸面积,最大限度地降低了功耗,其总体结果就是,大大降低了系统成本。有关更多详细信息,请参阅Achronix白皮书(WP009):使用Speedcore定制模块来增强eFPGA功能。l  更高的系统可靠性和良率 - 将FPGA功能集成到ASIC中,可以提高系统级信号完整性,并消除了在PCB上安装一个独立FPGA相关联的可靠性和良率损失。以ADAS为中心的处理模型由于多个视觉处理系统的融合被认为是驾驶辅助和自动驾驶车辆的核心,所以先进驾驶员辅助系统(ADAS)在未来的汽车架构中保持了核心地位,即使被认为是管理者中的管理者的多核视觉处理器,也已经部分被取代了。涉及DSP和整数密集型任务两者的图像实时处理,最初被认为是从静态相机或视频图像中提取信息以确定对象类型、位置和速度的问题。随着设计人员为自动驾驶车辆做准备,ADAS处理器的角色已经扩展到包括视觉、红外、超声波、激光雷达(LIDAR)和雷达图像的融合。在传统的SoC和协处理器套件中,图像预处理与CPU分开执行,并且必须通过一个或多个高速总线与CPU连接。即使ADAS架构的总线延迟得到改善,当协处理器在单独的芯片中实现时,也会付出延迟的代价。因此,将eFPGA IP与统一ADAS架构中的CPU相结合,以确保在快速变化的交通状况中有视觉、红外或雷达警报的快速响应,这是可以验证的最有效的方式。将多个传感器源与一个ADAS内核集成在一起,提供了Speedcore IP与一个CPU并行嵌入的一种理想应用场景。 Speedcore IP支持客户将一个定制的可编程逻辑阵列嵌入到具有专用计算资源的标准化ASIC平台中(请参见下图,并请参阅第4页)。在实践中,这种集成化可以将从图像源汇总的数据写入CPU的缓存,而不是写入独立的SDRAM。 减少CPU的中断意味着对移动中汽车视野里的物体有更多的实时响应。视觉处理器(通常来自相机输入的2D图像,尽管已包括越来越多的3D图像)可以依靠多年来在边缘提取、格式转换、色彩平衡和分辨率变化方面积累的图形处理器研究。包括Ceva和Synopsys在内的一些处理器IP供应商,也在对象分类和识别中提升了卷积神经网络的价值。以Nvidia为代表的,在这两个领域都有经验的CPU供应商,已经试图在传统的CPU / GPU任务与特定的神经网络模式识别引擎之间取得平衡。对于汽车中的神经网络子架构,正从需要高精度浮点DSP的早期成熟架构迁移到能够使用低精度DSP内核的自我培训推理引擎,Speedcore DSP64模块为新的深度学习架构提供了大量的开销。 对ADAS和视觉处理演变的一个共同认识是,实时汽车的态势感知永远不会有一个最佳的集中式ADAS处理器或SoC。总是会有意想不到的协同处理和加速任务被添加到ADAS中心内核中。任何ADAS处理器固有的两项附加功能是传感器融合/中枢集成和网络转换。前者涉及将来自各种传感器的信息进行组合和关联:包括CMOS图像、红外、激光雷达和新兴的小型化雷达等传感器。网络转换是指以太网的主干网络与CSI-2、FlexRay、CAN甚至更早的网络协议的接口。虽然未来的一个ADAS SoC确实可以集成一个传感器中枢或一个以太网MAC,但总是会有一些新兴的功能,由CPU外部的外围逻辑极好地提供。由于传感器被聚合并且网络在输入到CPU之前在芯片内互连,所以通过减少暴露的接口来保持安全性是一个解决方案,同时通过片上集成来提高可靠性,对于许多这样的任务而言将被证明是最佳的方案。图1:Speedcore阵列(左上)链接到CPU子系统及内存集群可编程能力在功能安全性中的作用从驾驶辅助车辆到完全自动驾驶车辆的过渡已经提高了安全性在新车中的地位。网络对车辆的控制越多,越多的司机期望多级安全性以防止诸如引起了公众高度关注的2016年特斯拉死亡事故这类事件。这种对于容错安全性的驱动力促使业界颁布了针对自动驾驶汽车领域的ISO 26262标准,它是作为电气和电子系统IEC 61508通用功能安全性标准的衍生标准。在EDA和SoC社群内的早期工作已经实现了ISO 26262方法体系的标准化,以确保IP中功能安全性。故障模式、效果和诊断分析(FMEDA)技术阐述了针对IP单元的功能和故障模式的标准规范,一个故障模式对产品功能的影响,自动诊断检测故障的能力,设计强度以及运行情况分集,包括环境压力。一个强健的系统应该最大限度地提高IP单元的诊断覆盖范围,并通过适当处理安全的、检测到的和未检测到的故障来提供高度的功能安全性。嵌入式FPGA由于其极度可编程化的特性,还可以增强车辆在作为系统时的安全性。 除了主控车辆的“航行”功能之外,SoC中的eFPGA还可以承载大量的硬件诊断功能,其运行速度比基于软件的诊断快几个数量级,大大增加了任何车载内置的自测故障覆盖率(BIST)。 此外,它们以可编程方式帮助汽车制造商更新已部署的系统,从而有助于ISO 26262安全性生命周期。 以特斯拉车祸为例,如果事故的根本原因是硬件中托管的对象检测算法中有错误(由于性能原因),只要开发了修复程序,就可以将其推送到整个车队。可以绕过漫长而昂贵的硬件开发和重新部署过程。分布式控制意味着分布式智能由于摄像头的安装位置以及对局部传感器中枢的需求,汽车设计人员总是规划在车体内采用了大量的分布式智能。尽管如此,诸如Nvidia Tegra等多核多线程处理器的早期支持者都认为,要把大部分智能都集中在仪表板中或者附近,尽管是为了高度并行的CPU工作于对象识别。现在,先进的ADAS在辅助驾驶汽车和三级自主驾驶汽车的完全自主性之间的模糊界限已经引起人们的注意,回到分布式智能,其中CPU、GPU和神经网络处理器在车体内提供了多个管理和控制点。这种转变意味着可编程架构的更多机会存在于全面覆盖的SoC设计之外。现在,ADAS处理器市场每年增长超过25%。这种增长是由于从自动紧急制动、换道辅助和自适应巡航控制等功能开始,ADAS功能已从豪华车辆转移到中型和入门级车辆 - 这些功能将在下个十年中期之前被普遍使用。与此同时,三级自动驾驶汽车将于2018年在诸如宝马17等豪华平台上推出,而全自动五级汽车可能在2022年之前可供商业销售。随着自主驾驶平台从三级发展到四级和五级,传感器中枢、摄像头和激光雷达/雷达设备将遍布整个车辆,并且每个都需要本地控制。这种控制模式在业界产业整合中已经清晰可见,如高通公司对恩智浦发起的收购、以及英特尔对Mobileye的收购,处理器领域将由那些致力于将开发生态系统引导至特定专业领域的大型供应商占据主导地位 — 英特尔采用服务器加机器学习模式,英伟达采用GPU /机器学习模式,高通采用以蜂窝移动通信为中心的模式,增加了恩智浦Cognivue和i.MX处理器。例如 Ceva、Cadence / Tensilica、Synopsys / ARC和VeriSilicon等IP开发人员将尝试通过其在特殊处理器内核方面的专业技术来颠覆封闭模式。与此同时,如Broadcom、Valens和Marvell等网络专家将寻求围绕以太网主干网络来定义汽车架构。这样的市场格局与企业网络演变成数据中心的时代有些相似。以处理器为中心的半导体供应商试图定义一个完整的系统架构,但设计领域则展示了多样化的狂野西部(Wild-West)风格,其中用不同的逻辑套件来为一家组件供应商(以及OEM或汽车制造商)提供样品从而创建特有的优势。在这样的环境中,配置为IP的可编程逻辑(如Achronix的Speedcore eFPGA)将扮演重要角色,不仅在近期辅助驾驶和自动驾驶汽车开发方面是这样,而且在这两种类型的车辆多年来的分布式处理器开发发面亦是如此。Speedcore eFPGA IP提供了其他优势,例如通过写入CPU缓存而不是片外内存来最大限度地减少CPU中断。 CAN设计中所需的BIST电路通常占总ASIC电路的10%至15%,由于支持BIST的电路可以在eFPGA内可编程,所以在许多情况下这些电路可以被省去。 另外,eFPGA可以提供片上探测功能来进行诊断。对于现有的基于ASIC的、无需更换FPGA的系统设计,Speedcore IP所具有的灵活性将支持对新算法进行编程,从而延长了现场已部署的ASIC的使用寿命。在5G蜂窝网络现有设计中使用Speedcore IP也将使该架构成为未来V2X通信接口的理想型选择。在未来的全自动和先进辅助驾驶车辆中,存在几十个甚至数百个分布式CPU。 用于将汽车子网连接在一起的外设处理功能可由ASIC、SoC或传统FPGA提供服务。 但是,Speedcore eFPGA IP的引入提供了传统FPGA所不具备的,在延迟、安全性、带宽和可靠性等方面的优势。

    时间:2018-11-06 关键词: achronix efpga speedcore adas处理器

  • Achronix出席D&R IP SoC China会议,介绍并展示Speedcore eFPGA如何加速边缘计算

    lSpeedcore eFPGA IP拥有为高性能芯片设计添加可编程结构的能力 l通过具体案例重点介绍Speedcore eFPGA对各种应用的支持 9月中旬,D&R IP SoC China会议在上海长荣桂冠酒店举行,基于FPGA的硬件加速器件和嵌入式FPGA知识产权(eFPGA IP)领域的领导性企业Achronix半导体公司在会议期间发表演讲并进行现场展示。 Achronix亚太区总经理罗炜亮先生(Eric Law)代表公司发表题为“利用Speedcore eFPGA加速边缘计算”的演讲,该演讲是“eFPGA是物联网解决方案的使能者”主题会议的一部分。     罗炜亮先生在演讲中对Achronix公司的基本情况和主要产品作了简要介绍,并分析了边缘设备对可编程硬件加速器的需求以及计算从云端向边缘设备转移的趋势,之后他详细介绍了eFPGA的优势以及Achronix的Speedcore eFPGA产品和ACE设计工具的功能和特性,并举例说明了eFPGA在5G、ADAS(先进驾驶辅助系统)和机器学习等领域的应用。     在具体谈及支持计算加速时,罗炜亮先生表示:“Speedcore eFPGA拥有诸多性能优势,例如高吞吐量、低延迟、一致性,以及可集成AXI/ACE轻量级接口等。”     Achronix公司还在会议现场设有展位,并安排工作人员通过实际演示向参观者具体展示Speedcore eFPGA产品的特性。  

    时间:2018-09-28 关键词: 边缘计算 achronix efpga

  • CAST和Achronix使用无损压缩IP支持从数据中心到边缘的数据处理

    CAST和Achronix使用无损压缩IP支持从数据中心到边缘的数据处理

    基于现场可编程门阵列(FPGA)的硬件加速器器件及嵌入式FPGA(eFPGA)领域内领导性企业Achronix半导体公司(Achronix Semiconductor Corporation)日前宣布:与专注于为电子系统设计人员提供半导体IP的半导体知识产权公司CAST Incorporated达成合作;CAST的高性能无损压缩IP已经被植入,以支持Achronix 的FPGA产品组合,用来完成数据中心和移动边缘间数据传输的高效处理。 CAST为Deflate、GZIP和ZLIB等无损压缩工具提供标准的硬件实现,它们与用于压缩或解压的软件实现方式兼容。ZipAccel内核提供的硬件实现可提供高达100Gbps的高吞吐量,且拥有非常高的压缩性能和低延迟。将其与Achronix的Speedcore eFPGA技术耦合在一起,可实现一种可更加便捷地移动和存储大数据的高性能、低功耗解决方案。 随着带有解析的应用呈现爆炸式增长,通过带宽有限的通信通道去传输越来越多的信息广泛地出现在从汽车系统到大型金融机构等很多场景中。传输数据的成本和功耗变得越来越重要,使用Achronix eFPGA来实现的压缩功能可将功耗降到最低并使网络能力最大化。在客制化SoC中,将CAST压缩IP和Speedcore eFPGA IP结合在一起,可有效地提升可实现的吞吐量;此外,开发人员可利用eFPGA去快速且高效地实现数据处理算法。 为了应对系统的特定吞吐量、存储和延迟需求,能够在eFPGA中优化压缩算法,将使该解决方案成为数百种应用场景的可选技术。这不仅可以增加吞吐量,而且可以实现昂贵的内存存储空间的显著节省。 “我们非常高兴能够与CAST合作,来进一步丰富Achronix的合作伙伴计划,” Achronix产品规划和业务拓展高级总监Mike Fitton说道。“能够在我们的eFPGA中将CAST的高吞吐量压缩内核实例化,将支持带有Speedcore的ASIC和SoC去有效地满足数据服务市场。由于有了eFPGA IP来作为面向特定工作负载的、可重复编程的硬件加速器,从而使包括压缩以及包括数据解析等全新算法即刻被快速实现。Speedcore eFPGA的高性能加上其巨大的市场牵引力使其成为该类应用的理想选择。” “CAST很高兴地将内核授权给Achronix的客户,他们将受益于Achronix的独特架构,可以为全新的算法提供高度灵活性和永不过时的能力,并实现快速上市,”CAST有限公司首席执行官Nikos D. Zervas评论道。“通过为Achronix FPGA工具链和架构提供经过验证的IP解决方案,为我们那些要求在Achronix的FPGA和eFPGA中实现这些功能的客户节省了开发时间。该IP已被进一步优化以充分利用Achronix的FPGA架构来实现加速并缩减芯片面积。”

    时间:2018-05-02 关键词: 数据中心 cast achronix 技术前沿

首页  上一页  1 2 3 下一页 尾页
发布文章

技术子站

更多

项目外包