当前位置:首页 > EDA > 电子设计自动化
[导读] 最近出现的 FPGA设计工具和 IP有效减少了计算占用的资源,大大简化了浮点数据通路的实现。而且,与数字信号处理器不同, FPGA能够支持浮点和定点混合工作的 DSP数据通路,实现的性能超过了 100 GFLOPS。在所有信

    最近出现的 FPGA设计工具和 IP有效减少了计算占用的资源,大大简化了浮点数据通路的实现。而且,与数字信号处理器不同, FPGA能够支持浮点和定点混合工作的 DSP数据通路,实现的性能超过了 100 GFLOPS。在所有信号处理算法中,对于只需要动态范围浮点算法的很多高性能 DSP应用,这是非常重要的优点。选择 FPGA并结合浮点工具和 IP,设计人员能够灵活的处理定点数据宽度、浮点数据精度和达到的性能等级,而这是处理器体系结构所无法实现的。

引言

对于通信、军事、医疗等应用中的很多复杂系统,首先要使用浮点数据处理算法,利用 C或者 MATLAB软件进行仿真和建模。而最终实现几乎都采用定点或者整数算法。算法被仔细映射到有限动态范围内,调整数据通路中的每一功能。这就需要很多取整和饱和步骤,如果处理的不合适,就会对算法性能有不利的影响。在集成过程中一般还需要进行大量的验证工作,以确保系统工作符合仿真结果。

以前,由于缺乏 FPGA工具包的支持, FPGA设计人员一般不选择浮点算法。使用很多浮点 FPGA运算符时,由于需要大量逻辑和布线资源,因此,它的另一个缺点是性能太差。 FPGA高效实现复数浮点函数的关键是使用基于乘法器的算法,利用大量集成在 FPGA器件中的硬件乘法器资源。用于实现这些非线性函数的乘法器必须有很高的精度,以保证乘法迭代过程中的精度要求。而且,高精度乘法器不需要在每一次乘法迭代中进行归一化和逆归一化处理,大大降低了对逻辑和布线的要求。

FPGA采用硬件数字信号处理 (DSP)模块,能够实现高效的 36位x36位乘法器,对于单精度浮点算法,提供足够的位数,满足一般的单精度 24位尾数要求。这些乘法器还能够用于构建更大的乘法器,实现高达 72位 x72位的双精度浮点算法。

由于浮点算法动态范围较大,相对于浮点仿真,大大简化了系统性能验证任务,因此,对于设计人员而言,这种算法通常能够提高性能。在某些应用中,定点算法是不可行的。动态范围要求使用浮点算法的一个常见的例子是矩阵求逆运算。

浮点 IP内核
Altera现在提供业界最全面的单精度和双精度浮点 IP内核,其性能非常高。目前提供的浮点 IP内核包括:


■加法 /减法
■乘法
■除法
■倒数
■指数
■对数
■平方根
■逆平方根
■矩阵乘法
■矩阵求逆
■快速傅立叶变换 (FFT)
■对比
■整数和分数转换
f本白皮书只提供单精度指标。对于双精度指标,请参考浮点宏功能用户指南。

 WP-01116-1.0

2009年 10月, 1.0版


充分发挥 FPGA浮点 IP内核的优势 Altera公司

基本功能
图1详细列出了基本浮点功能及其性能。对比浮点除法与加减法所需要的资源及其性能,表明系统设计人
员不需要在算法中避开除法运算以简化硬件实现。

图1. 逻辑和寄存器使用对比(左侧),以及乘法器和 fMAX对比(右侧)

矩阵乘法
Altera在提供基于 FPGA的参数赋值浮点矩阵IP内核方面有其独到之处。这些运算符集成了数十甚至上百个
浮点运算符,保持了较高的性能。矩阵乘法内核还可以用于完成标准测试或者 GFLOP/S和 GFLOP/W。
SGEMM矩阵乘法内核的性能结果如表1所示,它实际是后编译时序逼近结果,与确定 GFLOP/S通常使用的 Altera公司充分发挥 FPGA浮点 IP内核的优势 纸笔浮点计算方法不同。任何其他 FPGA供应商都不支持这类基准测试,用户使用 Altera Quartus. II软件中提供的参数赋值矩阵乘法 IP内核,很容易自己进行测试。

表 1. 单精度矩阵乘法性能结果

MatrixAA大小
MatrixBB大小
Vectorsize
使用的逻辑
GFLOPSf MAX (MHz)
功耗 (mW)
ALM (1)
DSP使用 (2)
M9KM144K
存储器 (bits)
静态
动态
I/O
总计
36x112 112x36 8 4,604 32 43 2 576,200 4 291 2,008 1,063 300 3,334
36x224 224x36 16 7,882 64 77 4 1,101,920 9 291 2,045 1,821 300 4,165
36x448 448x36 32 14,257 128 137 8 2,153,040 18 291 2,110 3,448 300 5,858
64x64 64x64 32 13,154 128 41 8 1,333,233 18 292 2,112 2,604 306 5,023
128x128 128x128 64 25,636 256 141 16 3,173,189 37 293 2,244 5,384 306 7,934

注释:

(1) 自适应逻辑模块
(2) 18x18 DSP模块
使用 Quartus II功耗估算器,很容易计算得到实际的每瓦每秒 giga浮点结果 (GFLOPS/W)。使用 Altera.
Stratix. IV EP4SE230 FPGA部分资源时,结果达到了 5 GFLOPS/W。使用 Stratix IV EP4SE530器件中更大的
矩阵乘法内核,结果大约为 7 GFLOPS/W,计算密度为 200 GFLOPS。利用整个器件实现大规模浮点算法
时,分散了 FPGA静态功耗,效率非常高。

Altera开发的浮点技术大大降低了实现大规模浮点数据通路的逻辑和布线资源要求。使用浮点数据通路优化
工具非常关键,对资源要求的降低使得单位浮点逻辑/布线运算比达到了高端 FPGA的水平。这反映在工
具能够实现接近 300 MHz的 fMAX,与例化的矩阵乘法规模无关。通过这种方式,在大规模浮点设计中,用
户能够可靠的使用 FPGA 80%以上的资源,实现大于 200-MHz的 fMAX性能。

矩阵求逆
FPGA中浮点算法最常见的应用是矩阵求逆。大部分无线多输入多输出 (MIMO)算法、雷达 STAP系统、医疗
成像聚束和很多高性能计算应用都需要进行矩阵求逆。参数赋值矩阵求逆浮点 IP内核的实例性能 (表2)
显示了非常高的矩阵吞吐量。 4x4矩阵求逆内核能够进行每秒 2千万次矩阵求逆运算,速度足以支持 LTE
无线 MIMO应用。

表 2. 单精度浮点矩阵求逆 (Cholesky算法 )性能

快速傅立叶变换
FFT是另一种大动态范围应用实例。由于 FFT算法的内在特性,位精度一般会随着 FFT长度增加而增大。某些应用使用级联 FFT,需要更大的动态范围。很多雷达应用使用 FFT进行定点算法,装入测距数据。这一般还需要第二次 FFT,装入多普勒测距数据,动态范围足够高,需要采用浮点算法。如图3和图4所示,相对于定点算法,需要增加逻辑以实现单精度浮点算法,而电路 fMAX、存储器和乘法器基本相似。


充分发挥 FPGA浮点 IP内核的优势 Altera公司

图3. FFT逻辑和寄存器使用对比

结论
Altera新的浮点电路优化技术集成到浮点 IP内核中,同时提高了密度,并提供更多的逻辑资源,实现了优异
的 FPGA浮点性能。其他供应商提供专用浮点处理器解决方案,但是,大部分都达不到 Altera FPGA解决
方案的 GFLOPS高性能水平,而且没有一个能够实现 Stratix IV FPGA解决方案的 GFLOP/W性能。国家科
学基金会 (NSF)高性能配置计算中心 (CHREC)的独立基准测试证明了这一点,认为 Stratix IV EP4SE530双
精度浮点处理的性能最好。

Altera FPGA的其他优点包括业界领先的外部存储器带宽资源以及性能达到 12.5 Gbps的SERDES收发器等。
FPGA平台还提供性能最好的定点数据通路,实现了非常灵活的 I/O和存储器接口。通过这些功能, Stratix
IV FPGA成为构建高性能浮点数据通路的理想平台,可以用在多种应用中,从高性能计算到雷达和电子战,
直至基于 MIMO的 SDR/无线系统,以及无线聚束应用等。


本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

(全球TMT2022年10月17日讯)为全球技术基础设施提供高速连接的企业Alphawave IP Group plc发布其截至2022年9月30日的三个月交易和业务更新文告。公司从2022年9月1日起整合了已收购的O...

关键字: ALPHA IP GROUP PLC

最近为什么越来越多的研究开始利用FPGA作为CNN加速器?FPGA与CNN的相遇究竟能带来什么神奇效果呢?原来,FPGA拥有大量的可编程逻辑资源,相对于GPU,它的可重构性以及高功耗能效比的优点,是GPU无法比拟的;同时...

关键字: FPGA 可编程逻辑资源 GPU

FPGA的应用领域包罗万象,我们今天来看看在音乐科技领域及医疗照护的智能巧思。

关键字: FPGA 科技领域 智能

东芝公司(Toshiba)关于经营重组方案,计划与国内基金“日本产业合作伙伴”(JIP)为核心的企业联盟优先展开谈判。JIP向中部电力、欧力士等多家日企寻求出资参与东芝重组。东芝9月30日宣布,从通过第一轮招标的多个阵营...

关键字: 东芝 IP TOSHIBA 电力

东芝公司(Toshiba)关于经营重组方案,计划与国内基金“日本产业合作伙伴”(JIP)为核心的企业联盟优先展开谈判。JIP向中部电力、欧力士等多家日企寻求出资参与东芝重组。东芝9月30日宣布,从通过第一轮招标的多个阵营...

关键字: 东芝 IP TOSHIBA 电力

强大的产品可降低信号噪音并提高分辨率与动态

关键字: Spectrum仪器 数字化仪 FPGA

北京2022年10月11日 /美通社/ -- 在四川大凉山深处,有一只"凉山黑鹰"少年篮球队:队员平均年龄12岁,平均身高1米3,球队刚成立时,连个像样的球场都没有。然而,凭着一腔热情和惊人天赋,这只...

关键字: 网络 BSP 内核 腾讯

最近某项目采用以太网通信,实践起来有些奇怪,好像设计成只能应答某类计算机的ICMP(ping)命令, 某类计算机指的是Windows特定系统,其他系统发送ping都不能正确识别。

关键字: 嵌入式Linux FPGA 协议

近两年,国外厂商的FPGA芯片价格飙升,由于价格,货期,出口管制等多方面因素的影响,很多公司都在寻找FPGA国产化替代方案。我工作中正在使用的几款芯片也面临停产的风险,用一片少一片,了解到国产FPGA发展的也不错,完全自...

关键字: FPGA 芯片 EDA

这个国庆假期前,温州14岁的小文(化名)在“鬼门关”前走了一遭。感冒发烧的小文,因为课业繁忙强撑着没去医院治疗,撑了两天高烧迟迟没退。等到医院后,小文心肌炎暴发,一度心脏停跳半分钟…...

关键字: IP 传导

电子设计自动化

21191 篇文章

关注

发布文章

编辑精选

技术子站

关闭