当前位置:首页 > FPGA
  • 如何确定JTAG好坏?JTAG到底是什么?

    素材来源:FPGA资源侠客 在FPGA研发及学习过程中,有一个关键步骤就是下板实现,做硬件“硬现”很重要,一般来说用JTAG口比较常见一些,因此相信肯定有些大侠遇到过JTAG口失灵或者损坏无法使用的事情。 最近我就遇到了这类事情,FPGA的JTAG口突然就不能下载程序了,而且这种事情已经不是第一次了,之前在做项目的时候也出现过,而且出现的形式也极其相似,之前还用的好好的,第二天就不行了,真是让人郁闷。 为此,本人也是去尝试了很多解决办法,一开始也没有去设想是JTAG口坏了,于是乎,本人换了usb-blaster,可一点反应也没有。 难道真的是JTAG口坏了?于是,本人就去查阅相关资料去搞清楚问题的本质在哪里,下面就是本人的一些收获,分享出来,仅供各位大侠参考,一起交流学习。 免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

    时间:2021-02-24 关键词: JTAG FPGA

  • 网友:国产FPGA,长点心吧

    FPGA作为嵌入式必备的一个硬件,国产的产品也正在逐渐渗透工程师的生活之中。不过tzgok认为,目前国产FPGA还有几个问题非常令人困扰,并发出评论表示“国产FPGA,长点心吧”: 1、开发板: 居然价格贵的离谱,本末倒置。开发板对于厂家而言,开发板目的是什么?100来元成本的开发板(准确应该叫演示板,因为没有任何配套代码),你卖1000多元,图啥?你不是卖IC的吗? 2、买货渠道: 都什么年代了,网店不开,买点样品,又是电话又是合同,效率低下。而且价格还神秘得很,买国产不就图你便宜吗?你价格好有什么不敢说的? 3、技术支持: 官网没有自己的社区或论坛,新入手遇到问题,只能打电话,然后各种电话转接,各种人口调查,各种上门拜访,哥啊,只是问个问题而已。谁有耐心这么来回折腾。 4、手册软件问题: 也是各种乱七八糟。甚至连个PCB封装都懒得提供。 5、基础工作: 让多少试图支持国产fpga的兄弟寒心。 一位代理国产FPGA的网友回复表示,看到楼主发的帖子,先自省一下。高云的FPGA开发板是免费借用的,目前还好。我们自己也有一款开发板,新的开发板也正在做。自己之前不是做FPGA的,很多问题也需要同事或者原厂技术来帮忙解决,有时候也真怕耽误或者误导客户。 用户zwwoshi 表示,“这个基本是国产芯片的问题,以前找一款芯片选了一个国产的,后面开发板和烧录器加起来2000多,询问可不可以借,借可以需要走流程,很多合同传真,公司采购那边觉得太麻烦就PASS了! ” 用户512870372则认为,这是很正常的流程。“别人要把关渠道的,你一个买散片的人家压根没兴趣陪你玩。你没买过国外大厂的开发板吧,这个东西从来都是能借不买的,贵的离谱。 ” 国产FPGA正在面临挑战 FPGA(现场可编辑门阵列)是著名厂商赛灵思(Xilinx)的一项重要发明,以其可编程和灵活性著称。 信息来源:头豹研究院 起初,FPGA只是用来仿真ASIC,再进行掩码处理和批量制造使用。不过ASIC相比FPGA来说明显在定制化上要求过高,流片量过小情况下成本反而更高,因此两者毫不冲突地“各司其职”。 信息来源: 头 豹 研究院 而后,随着加速器的出现和算力提升,目前已成为与GPU齐名的并行计算器件。如今,FPGA甚至已进入了数据中心领域,相比CPU和GPU,FPGA所需器件更少,功耗也更优。 与此同时,FPGA也是通信、航天、军工等领域的关键核心器件,也战略安全的重要支撑基础一环。 信息来源: 头 豹 研究院 长期以来,FPGA市场都处于美国的垄断之下,在经过种种制裁之下,毫无疑问将是一个重大的隐患。 为了满足经济发展和国防需求,打破垄断的窘境,中国多年来已经投入了数百亿科研经费,通过逆向工程方式仿制FPGA产品。但由于知识产权、生产工艺和软件技术等多方面的限制,仿制品种有限,技术无法突破。 国内FPGA厂商包括,紫光同创、复旦微电子、华微电子、中电科58所、航天772所所、京微雅格、高云半导体、上海安路、西安智多晶、上海遨格芯等。 著名工程师Hello Panda表示,FPGA属高大上的行业,国产才刚刚起步,主要存在以下三个发展瓶颈: (1)专业壁垒: 美国几乎持有所有的FPGA核心专利; (2)人才问题: EDA核心工具专业人才,特别是布局布线的算法高级人才几乎没有; (3)生态环境: 当前基本都是Xilinx、Intel(Altera)、Achronix和Lattice等的生态,后进市场者从头开始建立谈何容易,IP资源圈、开发资源圈都得从头建设。 如何选择国产化替代FPGA产品 “先弄清楚自已的任务要求,才能考虑FPGA的规模大小,最后才是寻找国产替代品.若清楚原有FPGA型号,先弄清样品规模,才好有的放矢找”,用户tyw这样告诉网友。 1、根据需求先选择资源足够的芯片,估算使用的资源,资源包括LUT、RAM、DSP和GTP等,记得留余量,我是留40%~50%,资源用太多容易出现问题。 2、根据系统时钟频率选择一个系列,频率高的就选择中端以上的FPGA,速度等级一般先-2。 3、根据IO需求选择封装,IO规划是最麻烦的,一定要仔细看DATASHEET。 4、根据芯片选择的文档,对比一下就知道选哪个了。当然要考虑价格,冷门或新出的芯片都非常贵,尽量选容易买到的,货期快,替换方便。 在国产FPGA的技术选型上,用户sleepybear表示选型主要看两方面:接口和容量。 1、接口: 要看你外接的数据口是什么类型,速度高低。一个很现实的问题是:普通并行口就可以,还是需要用到高速Serdes?国产FPGA在高速Serdes这方面貌似做的还没到特别高的速度级别。另一端,就是FPGA和DSP/ARM的接口是什么。 2、容量: 无非就是你需要多少资源?这个可以先选一个Xilinx或者Intel(Altera)的,在软件环境下估一下,再横向比较国产FPGA的型号,是否有满足要求的。 如果自己要做的处理算法还没有做或者没概念,也可以去这两家网站上找一找差不多同等规模的算法应用示例(图像处理的应该有不少),把代码和工程环境下载下来跑一跑,估一下大概的资源量级。 还有一个比较快的方法,尽早和相关厂商FAE取得联系,让他们帮忙推荐。一般来说,应用范围广的东西客户的资源会比较多,应该有同类型应用的其他客户,参考着推荐会准一些。 3、其他: 是不是需要外扩RAM,这个其实也属于接口问题。这个取决于你们的工作模式,以及你们的处理算法,是否需要前后帧间运算或者有没有同步要求。有帧间运算,就需要帧缓存,一般FPGA的片上RAM是不够的,需要外扩。 同步要求也一样,如果接口和内部是不同的时钟域,可能需要定期丢帧、加帧,也需要存帧队列,同样需要外扩RAM。 你在使用哪家的FPGA产品?你怎么看待国产FPGA产品,国产FPGA的路还有多远? 免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

    时间:2021-02-19 关键词: 国产 嵌入式 FPGA

  • Teledyne SP Devices宣布推出持续数据传输速率为7 GB/s的12位数字化仪

    Teledyne SP Devices宣布推出持续数据传输速率为7 GB/s的12位数字化仪

    2021年2月9日,瑞典林雪平市——Teledyne技术公司的业务部门Teledyne SP Devices今天宣布发布ADQ32和ADQ33,这是针对高通量应用进行了优化的第四代模块化数据采集板。凭借板载开放式现场可编程门阵列(FPGA)和高速数据流的结合,即使在对于计算要求最苛刻的应用环境下,ADQ32和ADQ33堪称是理想的选择。 ADQ32双通道12位数字转换器支持每通道2.5 Gb/s的同步采样,而ADQ33则支持每通道1 GS/s的同步采样,并具有开放的Xilinx Kintex Ultrascale KU040现场可编程门阵列(FPGA) 。这两款数字化仪为高容量应用而优化,因此适合原始设备制造商(OEM)在扫描源光学相干层析成像(SS-OCT)、飞行时间质谱(ToF-MS)和分布式光纤传感(DOFS)等领域进行集成。ADQ33不受出口管制,因此不需要任何许可证。 使用者可在板载FPGA中实时执行定制的专用数字信号处理(DSP),以表征信号并提取有价值的信息。它还可用于执行数据缩减,以便输出速率与PCI Express接口的7 G/s持续传输容量相匹配。接着,可以在主PC的中央处理单元(CPU)上对数据进行后处理,或通过点对点传输到图形处理单元(GPU)。 这种体系结构提供了极大的灵活性,允许设计者在委派的任务中,使用最合适的处理资源类型。专用DSP的示例包括用于SS-OCT的快速傅立叶变换(FFT)和k空间重映射,以及用于ToF MS的波形平均和零抑制。 除了高流率和计算灵活性之外,ADQ32还具有出色的模拟性能,包括有效位数(ENOB),无杂散动态范围(SFDR)等。硬件触发、内部/外部时钟选择和通用输入/输出(GPIO)简化了系统级集成。有关完整规格,请参阅资料表。

    时间:2021-02-09 关键词: 数字化仪 数字信号处理 FPGA

  • Microchip的PolarFire SoC FPGA在贸泽开售,率先采用RISC-V处理器 性能大幅提升

    Microchip的PolarFire SoC FPGA在贸泽开售,率先采用RISC-V处理器 性能大幅提升

    2021年2月5日 – 专注于引入新品并提供海量库存的电子元器件分销商贸泽电子 (Mouser Electronics) 即日起开始备货Microchip Technology的PolarFire™ SoC FPGA系列产品。PolarFire片上系统 (SoC) 现场可编程门阵列 (FPGA) 拥有低功耗、防御级安全性以及热效率,是物联网 (IoT) 器件等互连系统和智能应用的理想之选。 贸泽电子备货的Microchip PolarFire SoC FPGA内含一个基于RISC-V指令集体系结构 (ISA) 且支持五核Linux的处理器子系统,以及一个灵活的大容量L2存储器子系统。PolarFire SoC FPGA具有优异的低功耗性能,与同类FPGA相比功耗可降低高达50%。此外,此器件还具有12.7Gbps收发器以及25k到460k个逻辑单元。 基于RISC-V的SoC FPGA属于Microchip RISC-V生态系统,这是支持各种操作系统和生态系统合作伙伴的工具套件和设计资源组合。此高性能SoC FPGA支持各种应用,包括影像和机器学习、工业自动化、国防、汽车和通信系统。 PolarFire SoC FPGA还具有配套的PolarFire SoC FPGA Icicle套件。此低成本开发平台采用板载存储器(包括LPDDR4、QSPI和eMMC闪存),可立即运行Linux系统。除了板载PolarFire SoC FPGA外,Icicle套件还包括一个用于监视各种电源域的多轨电源传感器,以及PCIe根端口、mikroBUS和Raspberry Pi扩展端口。PolarFire SoC FPGA Icicle套件支持一系列有线连接选项,有助于快速实现原型设计,加速产品上市。

    时间:2021-02-05 关键词: Microchip 处理器 FPGA

  • 贸泽开售用于PCIe 4.0 设计的Intel Agilex F系列FPGA开发套件

    贸泽开售用于PCIe 4.0 设计的Intel Agilex F系列FPGA开发套件

    2021年2月4日 – 专注于引入新品推动行业创新的电子元器件分销商贸泽电子 (Mouser Electronics) 即日起开售Intel® Agilex™ F系列现场可编程门阵列 (FPGA) 开发套件。套件中的PCI-SIG兼容开发板让工程师能够使用板载Agilex F系列FPGA来开发和测试PCI Express (PCIe) 4.0设计。该套件提供配备所有软硬件的完整设计环境,能够使用硬件处理器系统 (HPS) 评估SoC功能和性能。 贸泽电子供应的Intel Agilex F系列FPGA开发套件搭载Agilex F系列FPGA,含1400 KLE,并采用2486 球的BGA封装。这个多功能开发套件包含四个DDR4 DIMM插槽和两个DDR4 DIMM模块。该套件的HPS接口支持UART、以太网、SD卡插槽、eMMC和Mictor连接器。另外该套件还配有PCIe x16 Gen 4金手指,连接到P-Tile收发器。该套件内含完整的软件资产,包括设计示例、电路板设计文件、说明文档以及Intel Quartus®Prime Pro Edition软件。 Agilex系列FPGA和SoC将于近期推出,提供定制化解决方案,解决网络、嵌入式和数据中心等市场上以数据为中心的业务挑战。高性能Agilex系列采用异构3D系统级封装技术,集成基于10nm工艺技术的FPGA架构。FPGA和SoC具有众多特色,包括强大的存储器集成、强化的协议支持、第二代Intel Hyperflex™ FPGA架构以及可配置的DSP引擎。

    时间:2021-02-04 关键词: 贸泽 现场可编程门阵列 FPGA

  • 相比独立FPGA器件,eFPGA将是一种使用范式的转换

    相比独立FPGA器件,eFPGA将是一种使用范式的转换

    Achronix回答:自2020年初以来,新冠肺炎疫情席卷全球,对每个国家的经济、社会和政治产生了影响,迫使大多数人居家办公和学习。在2020年,尽管这种全新的模式对每个个体和公司而言都是最严峻的挑战之一,甚至是最大的挑战,但是在这种情况下也孕育出许多机会。 市场分析机构Frost&Sullivan表示:“由于新冠肺炎疫情破坏了医疗服务的提供能力,所以在2020年和2021年,对远程医疗的需求将会激增。”该机构预测称,到2025年,美国远程医疗市场将增长7倍,未来五年的复合年增长率将达到惊人的38%。仅在2020年,该预测提出的增长目标就达到64%。2020年1月,Business Insider在一篇文章中写道,设备制造商中兴通讯与中国电信合作,推动了中国首次通过5G网络对新冠肺炎进行远程诊断。 那为什么要选择现场可编程逻辑门阵列(FPGA)呢?与大多数软件解决方案不同,FPGA提供了一个关键的构建模块,它以线速(wire-speed)提供数据加速和应用计算,并具有近乎无限的灵活性来适应新的需求和不同的用例特性,优化部署中的再次利用,从而支持新的技术浪潮。Achronix的Speedster7t FPGA产品平台支持技术公司为人工智能、5G、边缘计算、远程医疗和其他许多领域提供最前沿的解决方案,这些解决方案对于在当前疫情下生存至关重要。无论是数据加速还是纯计算,Achronix的FPGA技术已经成为这场疫情防控战中的重要武器。 2. 2020年,半导体行业并购仍在继续进行。连续出现了多起巨头并购大案,例如英伟达收购ARM,AMD收购赛灵思等,贵公司如何看待它们的影响? 随着半导体公司致力于提供一个完整的联网、计算和存储解决方案组合,FPGA技术已被视为加速网络,以及从主处理单元的中央处理器(CPU)卸载计算负载的关键技术。2020年充斥着各种大型收购公告,诸如Marvell / Inphi(100亿美元)、AMD / 赛灵思(Xilinx,350亿美元)、英伟达(Nvidia)/ ARM(400亿美元)、微软(Microsoft)/ Metaswitch以及英伟达/ Mellanox(68亿美元)等,它们仅是大型并购案的一部分。几年前,英特尔收购了Altera的FPGA业务,并于2020年收购了Habana的人工智能加速技术。随着英特尔收购Altera、AMD收购赛灵思,考虑到这些新技术的应用,在仅剩下的FPGA厂商中只有Achronix一家处于领先地位。 速度 延迟 可预测性 Achronix在FPGA数据和计算加速市场上具有独特的优势,借助其拥有的400GbE、PCIe Gen 5、GDDR6等所有器件中最快的I/O,以及世界一流的片上网络(NoC),这使得Speedster7t成为市场上最快的FPGA。Achronix向前又迈进了一步,做了其他FPGA厂商都没有做的事情,即将其突破性的FPGA技术作为一种独立的解决方案(FPGA),以晶粒形式用于与系统级芯片(SoC)进行嵌入式合封,或以IP形式(也称为eFPGA)集成到客户的ASIC中。这些优势使Achronix在市场中处于领先地位。 Achronix回答:来自www.0-ran.org网站的信息表明,“基于智能和开放的原则,O-RAN架构是在开放硬件和云上构建虚拟化无线接入网络(RAN)的基础,并具有嵌入式人工智能来支持射频单元控制。”为了处理传入的数据包并进行大量计算,将使用智能网络单元来辅助主处理单元系统。FPGA是一种线速的、可编程的集成电路,可加速数据和应用。即使已在应用中部署了这些器件,其可重新编程的能力能够提供最佳的灵活性,同时还能提供一流的性能效率。 4. 地缘政治摩擦加速了中国半导体产业的自主化发展,国产替代是2020年绕不开的话题,贵公司是否有参与其中? 中国在上世纪50年代实施了第一个五年规划,并将这一传统一直延续到2020年,并于2020年10月发布了第14个五年规划。提到五年规划,以下两项关键举措与Achronix非常一致。 这可能是新冠肺炎疫情及其在全球范围内造成的相互隔离的结果。中国正朝着更加自力更生的模式发展,以满足其技术需求,激励中国企业开发自己的技术并将这些技术投入到中国。 就中国国内的创新而言,有些技术是花费了数年的时间才得以发展起来。FPGA就属于这一类,只有少数厂家才精通这项技术。与国内创新保持一致,中国可以利用Achronix的技术在平台和系统层面进行创新,开发一些最先进的AI算法、最高密度的视频和存储压缩。中国在ASIC设计和制造方面也进行了巨额投资,Achronix提供的独特技术可以通过eFPGA IP模型加以利用。我们的eFPGA将支持中国去开发那些现有可供货解决方案不能提供的、定制的FPGA加速器。 5. 在2020年贵公司有哪些产品和技术您认为可以称得上是对该应用活技术领域有明显提升或颠覆性的贡献?请您分享。 在过去的2-3年中,我们看到FPGA技术在数据中心的机器学习、人工智能/机器学习(AI/ML)和智能网络接口设备等应用,以及基带加速和基于云的无线接入网络(RAN)等5G基础设施中,都得到了越来越多的应用。在下一波计算浪潮中,我们预计将继续采用FPGA以支持更多应用,诸如智能网联和自动驾驶车辆、边缘计算以及用于可编程无线电和前传融合的5G基础设施。 •为了将数据快速地传入和传出FPGA器件,Achronix集成了多达72个高速SerDes I/O接口,每个通道的运行速率可从1Gbps到112Gbps。我们还提供了4个400G以太网接口以支持高速数据网络应用。一旦数据进入FPGA,它们就会使用二维片上网络(NoC)在FPGA的逻辑阵列之内和之间进行传输。NoC为FPGA器件内的数据传输提供了超过20Tbps的带宽,并减少了在传统FPGA设计中常见的路由瓶颈。Speedster7t FPGA是首款包含专为数据加速应用而设计的、覆盖全芯片NoC的FPGA器件。 •Speedster7t FPGA架构的最后一个关键部分是高性能存储接口。Achronix的Speedster7t FPGA利用低成本的GDDR6存储器件,提供了高达4Tbps的存储带宽。这种规模的存储带宽与I/O和计算性能实现了平衡,以缓解由于外部有限的存储带宽而导致的处理瓶颈。 与独立FPGA器件相比,eFPGA IP是一种相对较新的技术。Achronix是最早的eFPGA供应商之一,自2017年以来就一直在大批量应用中提供eFPGA技术。eFPGA IP的典型应用包括汽车驾驶员辅助系统、计算存储加速器、金融科技、人工智能/机器学习和5G基础设施。这些应用使用具有集成eFPGA IP的定制ASIC器件来提供所需的工作负载和算法灵活性。对于许多使用过英特尔(Intel)或赛灵思(Xilinx)的独立FPGA芯片的客户而言,这是一种使用范式的转换,那些厂商并不提供eFPGA IP来集成到定制的器件中。 •使用VectorPath PCIe加速卡 – 适用于批量最小或有成本压力的应用,无需围绕FPGA进行板级开发,并且可以在最短的时间内提供解决方案。 • 这样可以先使用独立FPGA进行开发和/或概念验证,然后过渡到使用eFPGA IP的ASIC或MCM – 适用于对成本有一些敏感,但可以从封装和集成节省的成本中获益的应用。

    时间:2021-01-25 关键词: Achornix eFPGA FPGA

  • 刚刚,小米、中微半导体“荣登”特朗普认证榜

    网站:21ic.com 免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

    时间:2021-01-17 关键词: 半导体 FPGA

  • 想实现FPGA低功耗设计?先好好了解下FPGA功耗

    想实现FPGA低功耗设计?先好好了解下FPGA功耗

    功耗是我们关注的设计焦点之一,优秀的器件设计往往具备低功耗特点。在前两篇文章中,小编对基于Freez技术的低功耗设计以及FPGA低功耗设计有所介绍。为增进大家对低功耗的了解,以及方便大家更好的实现低功耗设计,本文将对FPGA具备的功耗加以详细阐述。如果你对低功耗具有兴趣,不妨继续往下阅读哦。 FPGA器件的一个比较特别的现象是其上电瞬间的电流比较大,有的时候甚至大于芯片正常工作的电流,这是因为FPGA内部的逻辑和互连线资源(SRAM工艺)在上电的瞬间处于不确定状态,发生电流冲突的结果。 如果用户在设计的时候没有考虑到这个上电瞬间的打电流,电源模块不能够提供这么大的电流,芯片在上电过程中就会出现上电曲线不单调的问题,导致器件上电失败,以至于芯片无法正常工作。一般在器件手册中会给出这个上电电流值。 FPGA在正常工作中,其消耗的总功耗由器件的静态功耗、动态功耗和IO功耗构成。静态功耗也叫待机功耗(standbypower),是芯片处于上电状态,但是内部电路没有工作(也就是内部电路没有翻转)时消耗的功耗;而所谓动态功耗是指由于内部电路翻转所消耗的功耗;IO功耗是IO翻转时,对外部负载电容进行充放电所消耗的功耗。 如下式: 总功耗=静态功耗+动态功耗+IO功耗 芯片的静态功耗是芯片处于待机状态下所消耗的功耗,它主要由芯片内部的漏电流产生。在高速的40nm器件中(如straticIV),芯片的漏电流相对来说较大,因此静态功耗成为主要的电源功耗,也叫漏电功耗(leakagepower)。 静态功耗有一个显著的特点,就是它随着器件结温(junctiontemperature,TJ)的变化而变化较大。TJ越大,功耗越大;TJ越小,功耗越小,如下图所示。因此,控制芯片的结温可以有效的控制芯片的静态功耗。 FPGA设计的总功耗包括静态功耗和动态功耗两个部分。其中,静态功耗是指逻辑门没有开关活动时的功率消耗,主要由泄漏电流造成的,随温度和工艺的不同而不同。静态功耗主要取决于所选的FPGA产品。 动态功耗是指逻辑门开关活动时的功率消耗,在这段时间内,电路的输入输出电容完成充电和放电,形成瞬间的轨到地的直通通路。与静态功耗相比,通常有许多方法可降低动态功耗。 采用正确的结构对于设计是非常重要的,最新的FPGA是90nm的1.2 V器件,与先前产品相比可降低静态和动态功耗,且FPGA制造商采用不同的设计技术进一步降低了功耗,平衡了成本和性能。这些90nm器件都改变了门和扩散长度,优化了所需晶体管的开关速率,采用低K值电介质工艺,不仅提高了性能还降低了寄生电容。结构的改变,如增强的逻辑单元内部互连,可实现更强大的功能,而无需更多的功耗。StraTIx II更大的改变是采用了六输入查找表(LUT)架构,能够通过更有效的资源利用,实现更快速、低功耗的设计。 除常规的可重配置逻辑外,FPGA正不断集成更多的专用电路。最先进的PLD就集成了专门的乘法器、DSP模块、可变容量RAM模块以及闪存等,这些专用电路为FPGA提供了更加高效的功能。总体上看,采用这些模块节约了常规逻辑资源并增加了系统执行的速度,同时可以减少系统功耗。因此更高的逻辑效率也意味着能够实现更小的器件设计,并进一步降低静态功耗和系统成本。 不同供应商所提供的IP内核对于低功耗所起的作用各有侧重。选择正确的内核对高效设计至关重要,有的产品将注意力集中在空间、性能和功耗的平衡上。某些供应商提供的IP内核具有多种配置(如Altera的Nios II嵌入式处理器内核采用快速、标准和经济等三种版本),用户可根据自己的设计进行选择。例如,如果一个处理器在同一个存储分区中进行多个不同调用,则采用带板载缓存的Nios II/f就比从片外存储器访问数据的解决方案节约更多功耗。 如果用户能够从多种I/O标准中进行选择,则低压和无端接(non-terminated)标准通常利于降低功耗,任何电压的降低都会对功耗产生平方的效果。静态功耗对于接口标准特别重要,当I/O缓冲器驱动一个高电平信号时,该I/O为外部端接电阻提供电压源;而当其驱动低电平信号时,芯片所消耗的功率则来自外部电压。差分I/O标准(如典型值为350 mV的低开关电压LVDS)可提供更低的功耗、更佳的噪声边缘、更小的电磁干扰以及更佳的整体性能。 以上便是此次小编带来的“功耗”相关内容,通过本文,希望大家对FPGA功耗具备一定的了解。如果你喜欢本文,不妨持续关注我们网站哦,小编将于后期带来更多精彩内容。最后,十分感谢大家的阅读,have a nice day!

    时间:2021-01-13 关键词: 功耗 指数 FPGA

  • 如何优化FPGA功耗?低功耗FPGA的设计与实现

    如何优化FPGA功耗?低功耗FPGA的设计与实现

    功耗是所有设计中必须要考虑的事项,对于功耗,我们应当慎之又慎。在往期文章中,DAC功耗数据等内容有所阐述。为增进大家对功耗的认识程度,本文将介绍优化FPGA功耗的设计和实现。如果你对功耗相关内容具有兴趣,不妨继续往下阅读哦。 为设计寻找“完美”FPGA 的重要性日渐升级,其中功耗已成为主要考虑因素。功耗管理在大部分应用中都非常关键。某些标准已为单卡或者单个系统设定了功耗上限。鉴于此,设计人员必须在设计过程中更早地对功耗问题加以考虑,一般来说应该从选择 FPGA 开始。 减少 FPGA 的功耗可以降低供电电压,简化电源设计和散热管理,降低对电源分配面的要求,从而简化电路板设计。低功耗还可以延长电池寿命,提高系统的可靠性(运行温度较低的系统寿命更长)。 功耗挑战 伴随每一代工艺技术的问世,晶体管的尺寸可依照摩尔定律不断缩小。但这种现象也会带来副作用,即每个晶体管内的漏电流会增大,进而导致静态功耗增大(未工作状态下 FPGA 消耗的总电流增大)。FPGA 性能的提升会提高时钟速率,使动态功耗上升。静态功耗是晶体管漏电流造成的,动态功耗则取决于可编程逻辑和 I/O 的开关频率。由于每一代 FPGA 的容量都在增大,会使两种功耗不断增加。更高的逻辑容量意味着每个器件会有更多漏电流和更多在更高速度下运行的晶体管。 鉴于这些问题的存在,设计人员必须在设计过程中尽早对电源和热管理问题有更加清楚的认识。给器件加上散热器并不足以解决这些问题。因此设计人员必须尽量减少设计中的逻辑用量。 首先来看几点指南,有助于理解在设计过程各个阶段应采取何种措施来降低FPGA的功耗。很明显,在设计过程的初期彻底理解这些问题能带来最大的收益。 图 1 说明了包括 FPGA 选择以及低功耗设计技巧在内的贯穿整个设计过程的不同设计点 系列工艺技术 在选择 FPGA 的过程中, 应谨慎考虑工艺技术,它能帮助用户判断器件的漏电流和性能。赛灵思 7 系列FPGA 采用 28 HPL (28nm 高性能低功耗)工艺,在提高性能的同时可显著降低功耗(见第 41 期《赛灵思中国通讯》的封面故事)。选择采用低漏电流的 HPL 工艺制造的器件,可以避免在FPGA 设计中使用复杂且成本高昂的静态功耗管理方案。 尽管 28 HP 工艺 FPGA 的性能并没有超越 7 系列的其它 FPGA,但其静态功耗还不到竞争对手 FPGA 静态功耗的一半,而且不会造成严重的漏电流问题。图 2 显示了 7 系列产品的全面降耗情况,整体功耗仅为上一代40nmFPGA 器件的一半。 设计人员可以在开发阶段选择较大的 FPGA,然后在生产过程中选择较小的 FPGA。选择较小的 FPGA 不仅可以降低成本,还能降低系统功耗。 所有 7 系列 FPGA 均采用统一的架构。这种统一架构便于在赛灵思 7 系列的不同 FPGA 器件之间方便地进行向上或向下迁移。如果需要从 Virtex®-6 或者 Spartan®-6 器件迁移至7 系列器件或者在 7 系列器件之间迁移,请参阅“7系列用户指南”(UG429)。 赛灵思堆叠硅片互联技术 对较大的系统来说,设计人员一般会选择多个 FPGA。这种架构往往需要在各个 FPGA 之间高速传输数据,这是一项复杂、困难的工作。选择采用赛灵思堆叠硅片互联技术制造的大型 7 系列 FPGA,比如 XC7V1500T 和XC7V2000T 器件,就可以避免这个问题。简单地说,堆叠硅片互联技术就是将多片芯片布置在具有成千上万连接关系的插入式结构中,用以制造统一的大型器件。堆叠硅片互联技术的优势之一在于,与采用标准单片电路的类似尺寸的器件相比,可显著降低静态功耗。 堆叠硅片互联技术 (SSI) 还能大幅度降低 I/O 互联功耗。与在电路板上布置多块 FPGA 的方法相比,SSI 技术有很大的优势,其 I/O 互联功耗比采用 I/O 和收发器构建的等效接口低 100 倍(带宽/W)。功耗大幅下降是因为所有连接都构建在芯片上,无需功耗将信号驱动到片外,这样可实现难以置信的高速度和低功耗。 电压扩展增强选项 赛灵思 7 系列 FPGA 提供重要的电压扩展选项。 7 系列 FPGA 为 -3L 和 -2L 器件提供扩展 (E) 温度范围(0-100 摄氏度)。由于 28 HPL 工艺提供的余量,-2LE 器件可在 1v 或 0.9v 下运行。这些器件被分别命名为 -2L (1.0V) 和 -2L(0.9V)。运行在 1.0V 下的 -2L 器件的速度性能与 -2I 和 -2C 器件相当,但静态功耗显著降低。运行在 0.9V 的 -2L 器件性能与 -1I和 -1C 器件相似,但静态和动态功耗都有所下降。 仅仅将这些器件的电压降低到0.9V 就可降低静态功耗约 30%。降低电压也会降低性能,但赛灵思根据速度和更加严格的漏电流规格对这些 -2L(0.9V) 器件进行筛选。这种筛选方法能够使器件在最劣工艺条件下的功耗比标准速度等级器件的功耗降低 55%。 选择 -2L 器件,用户还能进一步降低动态功耗。由于动态功耗与 VCCINT2成正比,VCCINT下降 10% 可带来功耗20% 的降幅。 功耗估算工具 今天的市场上有丰富的工具可供设计人员选择,用以在整个开发过程中评估 FPGA 设计的散热和电源要求。图 3是FPGA 开发过程中每个阶段可供使用的赛灵思工具。 为降低功耗,用户必须尽一切可能减少设计中使用的逻辑数量。首先是使用专用的硬件模块,而不是在 CLB 中实现相同的逻辑。 在设计初期,XPower EsTImator(XPE) 电子数据表能够在初步设计和实施之前对功耗进行早期估测。XPE 可用于架构评估和器件选择,帮助确定应用所需的合适的电源和散热管理组件。 PlanAheadTM 软件则用于估测设计电源在 RTL 级的分配情况。设计人员可以使用约束条件或者 GUI 来设定器件的运行环境、I/O 属性和默认活跃度。PlanAhead 软件随即读取 HDL 代码,估算所需的设计资源,并对每种资源的运行状态进行统计分析,得出功耗估算报告。由于能够掌握有关设计意图的更加详细的信息,因此 RTL功耗估计器的准确性优于 XPE 电子数据表,但不及Xpower Analyzer 得出的后期布局布线分析结果准确。 Xpower Analyzer (XPA) 是一种专门用于分析布局布线设计功耗的工具。它采用全面综合的GUI,可以对特定运行条件下的功耗和发热量信息进行详尽的分析。 用户可以在两种不同视图间切换,用以确认各种类型模块(时钟树、逻辑、信号、IO 模块、 BRAM 等硬 IP核或 DSP 模块)的功耗或设计层级功耗。两种视图都能让用户进行详细的功耗分析。并为确定设计中最耗电的模块或部件提供了一种非常有效的方法,从而简化了功耗优化工作。 以上便是此次小编带来的“功耗”相关内容,通过本文,希望大家对低功耗FPGA的设计与实现具备一定的了解。如果你喜欢本文,不妨持续关注我们网站哦,小编将于后期带来更多精彩内容。最后,十分感谢大家的阅读,have a nice day!

    时间:2021-01-13 关键词: 功耗 指数 FPGA

  • BittWare 发布采用英特尔® Agilex™ FPGA,并支持 oneAPI™ 统一软件编程环境的 IA-840F

    BittWare 发布采用英特尔® Agilex™ FPGA,并支持 oneAPI™ 统一软件编程环境的 IA-840F

    美国新罕布什尔州康科德 – 2021年 1月 5 日 – Molex莫仕旗下的 BittWare 公司推出 IA-840F,这是公司第一种基于英特尔® Agilex™ 的 FPGA 卡,该卡的设计在每千瓦性能方面实现了重大的改进,适合下一代的数据中心、网络及边缘计算工作量使用。Agilex 的 FPGA 性能高出 40%,或者在功率方面至多可降低 40%,具体则与应用需求有关。BittWare 利用了 Agilex 芯片独一无二的瓦式架构,针对形形色色的应用提供了双 QSFP-DD (4×100G)、PCIe Gen4x16 及三个 MCIO 扩展端口,将 I/O 功能提升至最大程度。BittWare 还宣布为英特尔的 oneAPI™ 提供支持,从而实现抽象的开发流程,在多个架构之间极大的简化代码的重用。 BittWare 公司市场副总裁 Craig Petrie 表示:“现代数据中心的工作量呈令人难以置信的多样化趋势,这就需要客户去实施一系列多种标量、矢量、矩阵及空间上的架构。IA-840F 确保客户可以快速而又方便的利用英特尔 Agilex FPGA 的各种高级功能。对于倾向于在抽象的层次上从事 FPGA 应用开发的客户,我们也在其中包含了对 oneAPI 的支持。这种新的统一软件编程环境使客户可以利用单一的代码库来为 Agilex FPGA 编程,在多个架构上都达到原生高级语言的性能。” 新型的 IA-840F 提供各种企业级的功能特点与性能,包括: § 对英特尔 oneAPI 统一软件编程环境的支持 § HDL 开发者工具包:API、PCIe 驱动、应用实例设计与自我故障诊断 § 精密的基板管理控制器 (BMC) § 热冷却选项:无源、有源或液体 § 为附加的 PCIe、存储或网络 I/O 提供多个扩展端口 为了简化跨架构的开发工作,oneAPI 中包含了数据并行 C++ (Data Parallel C++) 这种直接编程语言,以及一系列适合基于 API 的编程的库。数据并行 C++ 以 C++ 为基础,整合了来自科纳斯组织 (Khronos Group) 的 SYCL。这样在多个架构之间可极大的简化代码的重用,与此同时还为加速器的定制调谐提供了便利。 英特尔可编程解决方案集团的产品副总裁 Patrick Dorsey 表示:“英特尔的 Agilex FPGA 以及包括 oneAPI 工具包在内的跨平台工具起到了示范的作用,使得这些最新的 FPGA 及其强大的功能操作起来更加方便 – 包括 eASIC 集成、HBM 集成、BFLOAT16、优化张量计算块、Compute Express Link (CXL),以及 112 Gbps 的收发器数据速率,适合高速 1Ghz 计算解决方案及 400Gbps+ 连接解决方案使用。Agilex 平台和 oneAPI 工具可高度定制并采取了异构的设计,使 BittWare 的新型 IA-840F 加速卡之类的产品可以推动从边缘到云端的创新。” 首批 IA-840F 卡定于从 2021 年 2 季度起出货。客户可从 BittWare 的 TeraBox 系列中以戴尔或 HPE 预集成服务器的形式采购新卡,提供三年综合质保。每台 TeraBox 服务器在交货时都预安装了 FPGA 卡、操作系统、驱动程序及工具。

    时间:2021-01-05 关键词: 英特尔 BittWare FPGA

  • GPU和FPGA有何关系?谈一谈GPU和FPGA

    GPU和FPGA有何关系?谈一谈GPU和FPGA

    GPU是图形处理器,GPU在很多方面都有所应用,如手机、电脑等。前两篇文章中,小编对GPU和显卡的关系、GPU渲染等均有所介绍。为增进大家对GPU的认识,本文将对GPU和FPGA予以阐述,因为目前有很多人将二者进行对比。如果你对GPU具有兴趣,不妨继续往下阅读哦。 从峰值性能来说,GPU(10Tflops)远远高于FPGA(<1TFlops)。GPU上面成千上万个core同时跑在GHz的频率上还是非常壮观的,最新的GPU峰值性能可达10TFlops以上。GPU的架构经过仔细设计(例如使用深度流水线,reTIming等技巧),在电路实现上是基于标准单元库而在criTIcal path上可以用手工定制电路,甚至在必要的情形下可以让半导体fab依据设计需求微调工艺制程,因此可以让许多core同时跑在非常高的频率。相对而言,FPGA首先设计资源受到很大的限制,例如GPU如果想多加几个core只要增加芯片面积就行,但FPGA一旦你型号选定了逻辑资源上限就确定了(浮点运算在FPGA里会占用很多资源)。而且,FPGA里面的逻辑单元是基于SRAM-查找表,其性能会比GPU里面的标准逻辑单元差好多。最后,FPGA的布线资源也受限制(有些线必须要绕很远),不像GPU这样走ASIC flow可以随意布线,这也会限制性能。 除了芯片性能外,GPU相对于FPGA还有一个优势就是内存接口。GPU的内存接口(传统的GDDR,最近更是用上了HBM和HBM2)的带宽远好于FPGA的传统DDR接口,而众所周知服务器端机器学习算法需要频繁访问内存。 但是从灵活性来说,FPGA远好于GPU。FPGA可以根据特定的应用去编程硬件(例如如果应用里面的加法运算非常多就可以把大量的逻辑资源去实现加法器),但是GPU一旦设计完那就没法改动了,没法根据应用去调整硬件资源。目前机器学习大多数适合使用SIMD架构(即只需一条指令可以平行处理大量数据),因此用GPU很适合。但是有些应用是MISD(即单一数据需要用许多条指令平行处理,微软在2014年ISCApaper里面就举了一个MISD用于并行提取feature的例子),这种情况下用FPGA做一个MISD的架构就会比GPU有优势。不过FPGA的编程对于程序员来说并不容易,所以为了能让机器学习程序员能方便地使用FPGA往往还需要在FPGA公司提供的编译器基础上进行二次开发,这些都是只有大公司才能做。 FPGA实现的机器学习加速器在架构上可以根据特定应用优化所以比GPU有优势,但是GPU的运行速度(>1GHz)相比FPGA有优势(~200MHz)。 所以,对于平均性能,看的就是FPGA加速器架构上的优势是否能弥补运行速度上的劣势。如果FPGA上的架构优化可以带来相比GPU架构两到三个数量级的优势,那么FPGA在平均性能上会好于GPU。例如,百度在HotChips上发布的paper显示,GPU的平均性能相比FPGA在矩阵运算等标准batchdataSIMDbench上远好于FPGA;但是在处理服务器端的少量多次处理请求(即频繁请求但每次请求的数据量和计算量都不大)的场合下,平均性能会比GPU更好。 功耗方面,虽然GPU的功耗(200W)远大于FPGA的功耗(10W),但是如果要比较功耗应该比较在执行效率相同时需要的功耗。如果FPGA的架构优化能做到很好以致于一块FPGA的平均性能能接近一块GPU,那么FPGA方案的总功耗远小于GPU,散热问题可以大大减轻。反之,如果需要二十块FPGA才能实现一块GPU的平均性能,那么FPGA在功耗方面并没有优势。 能效比的比较也是类似,能效指的是完成程序执行消耗的能量,而能量消耗等于功耗乘以程序执行的时间。虽然GPU的功耗远大于FPGA的功耗,但是如果FPGA执行相同程序需要的时间比GPU长几十倍,那FPGA在能效比上就没有优势了;反之如果FPGA上实现的硬件架构优化得很适合特定的机器学习应用,执行算法所需的时间仅仅是GPU的几倍或甚至于接近GPU,那么FPGA的能效比就会比GPU强。 以上便是此次小编带来的“GPU”相关内容,通过本文,希望大家对GPU和FPGA具备一定的了解。如果你喜欢本文,不妨持续关注我们网站哦,小编将于后期带来更多精彩内容。最后,十分感谢大家的阅读,have a nice day!

    时间:2021-01-05 关键词: GPU 指数 FPGA

  • 如何用FPGA解一道初中数学题

    前几天和同事聊天,他说他上初中的儿子做出了一道很难的数学题,想考考我们这些大学生看能不能做得出来? 题目很简单: 数学题目 大家先尝试做一下?我没想出怎么算的,只是用排除法确定了a和b的范围,然后再逐个尝试。 1.对4361进行开方计算,得到结果最大为66,则a,b的值均小于等于66。 2.对4361/2进行开方计算,则得到结果为46,则a,b两者,一个是1-46,一个是46-66之间的数。 3.由平方和4361末尾为1,再根据整数平方和的几种可能,计算出仅有0+1和5+6这两种可能,而且平方之后的个位数为0/1/5/6,这样就进一步缩小了范围,通过多次计算尝试可以得出结果。 不过我懒得算了,就简单写了个C语言程序,计算出了结果: #include #include #include int main(void) { int num; int a, b, n; int result; int sqr; printf("please enter a number:");//4361 scanf("%d", &num); printf("input num: %d\n", num);     sqr = sqrt(num); for(a = 1; a 

    时间:2020-12-29 关键词: 数学 FPGA

  • 现场可编程逻辑门阵列(FPGA)赋能下一代通信和网络解决方案

    现场可编程逻辑门阵列(FPGA)赋能下一代通信和网络解决方案

    本文概要 了解网络基础设施功能迅速增长的一种便捷方法是回顾一下过去四十年的发展历程(如下图所示)。蜂窝网络技术的创新,加上新型的数据存储和搜索技术,正在转变行业的发展模式。创新的技术不仅为公司和个人提供了全新的应用场景,也使他们去认真思考如何利用那些原本不属于其产品组合的技术。也许最能说明问题的变化的是新的商业模式导致了价值从基础设施转向了服务。 联网设备正在从2G向5G演进,以支持移动应用的爆发,并为不断增长的用户群扩展连接。一个日趋成熟的行业需要一种具有竞争力的商业模式,而这种模式可以被诠释为优化带宽管理。据估计,到2023年,联网设备的数量将超过全球人口的三倍(如图1所示)。 图1:网络基础设施的演进 Voice calls: 语音通话 Analog: 模拟 9 years: 9年 Texting: 发送短信 10 years: 10年 Emails: 电子邮件 Low-Res Video: 低分辨率视频 Mobile Broadband:移动宽带 IoT: 物联网 Smart Cities: 智慧城市 Connected Car: 联网汽车 Telemedicine: 远程医疗 VR/AR: 虚拟现实/增强现实 AI/ML: 人工智能/机器学习 Cloud Gaming: 云游戏 图2:全球移动设备和连接增长(来源:思科) Billions of Devices or Connections: 数十亿的设备或连接 3G and Below (55.3%, 29.0%): 3G及以下(55.3%,29.0%) LPWA (2.5%, 14.4%): 低功耗广域技术(2.5%,14.4%) 注:此图表包括M2M。LPWA包括蜂窝LPWA(例如NB-IoT)和非蜂窝LPWA(例如LoRa) *数据(n)为2018 - 2023年网络连接类型份额 5G的兴起和数据中心的重构将更好和更多地集成和应用加速技术,这给通信和网络设计人员带来了巨大的压力,要求他们去打造每秒可处理和转发万亿字节数据的系统。这些新的系统不仅必须要具备高度可靠性,而且还需要满足人类思维级别的响应时间,以确保严格的性能保证(如图3所示),这就需要全新的架构。 尽管可编程逻辑提供了最佳的功能组合,以支持新一代通信和网络系统的复杂需求,但是传统的可编程芯片产品无法满足这些需求。为了平衡片上的处理、互连和外部I / O,必须对整个FPGA架构进行重新考虑。需要最先进的片上网络(NoC)和总线布线能力,来实现所需的带宽和性能。集成的NoC是唯一可行的方法来构建可支持高效计算、巨大数据吞吐量和深度内存层次结构的系统。大规模的并行性与FPGA独特的卸载和加速功能相结合,以实现单位功耗可实现的最高的性能和最高的性价比。 图3:5G性能指标 Quantifying the performance benefits of 5G 量化5G的性能优势 10XDecrease in latency: Delivering latency as low as 1 millisecond 延迟降低10倍:提供低至1毫秒的延迟 10XConnection density: Enabling more efficient signaling for IoT connectivity 10倍的连接密度:为物联网连接提供更高效的信令服务 3XSpectrum efficiency:Achieving even more bits per hertz with advanced antenna techniques 3倍的频谱效率:借助先进的天线技术来实现更高的比特/赫兹比率 10XExperienced throughput: Bringing more uniform, multi-Gbps peak rates 10倍的可体验吞吐量:带来更均匀的、多Gbps的峰值速率 100XTraffic capacity: Driving network hyperdensification with more small cells everywhere 100倍的数据流容量:通过遍布各地的更多小基站来推动网络超高密集化 100XNetwork efficiency: Optimizing network energy consumption with more efficient processing 100倍的网络效率:通过更高效的处理方式来优化网络能耗 不断变化的网络技术格局 对由高带宽连接提供的先进服务的需求正在重塑通信和网络领域。数据中心、边缘系统和接入设备中的新型应用正在推动对传输海量数据的需求,但同时又要满足严格的延迟要求。FPGA正在成为所有实际网络的核心,如下面的图4所示。 图4:各种实际网络中的FPGA 例如,为了支持诸如增强现实和机器人控制等应用,与之前的蜂窝无线通信技术相比,5G基站及其背后的网络设备必须保证极低的延迟。这项要求同时还与对更高的每用户吞吐量需求相伴而来,因而它们利用了多种不同的技术,包括多天线、波束成形以及作为网络密集化进程的一部分而增加使用的小基站。所有这些因素都导致了在集中式基带单元中进行更密集的处理,这些基带单元通过光纤链路与多个远程射频单元进行协同。 智能网卡(SmartNIC)的兴起 运营商已经采用了诸如软件驱动网络(SDN)和网络功能虚拟化(NFV)等技术来提高其系统的响应能力。为了运行这些服务,数据中心所有者正在为其服务器添加智能网卡(SmartNIC),以便将许多网络功能有效地卸载到加速器上。 智能网卡能够处理传入和传出服务器的大部分数据流,只有在需要处理异常情况时,才会请求核心服务器上的处理器来提供帮助。借助足够的加速功能,此类智能网卡能够以线速度执行一系列服务。这些服务范围从对传输中的数据进行压缩到详细的数据流控制,再到能够检测异常和可能的安全漏洞的深度数据包检查应用。随着智能网卡技术的成熟,正在考虑引入诸如机器学习等越来越先进的功能,以最大程度地发挥数据流和数据包分析的潜力。下面的图5显示了智能网卡的一些功能。 图5:智能网卡功能原理图 对传输高速数据和快速响应不断变化的条件的需求,要求系统能够同时处理高吞吐量和低延迟。在传统的架构中,很难同时满足这两个要求。现在,基于微处理器的架构集成了高度并行化的流水线,能够处理高带宽数据。但由于需要不断地将数据从复杂的内存体系结构中传入和传出,结果使得确保低延迟变得极其困难。即使借助于专用的卸载处理器,智能网卡也面临着由不断增加的数据速率和延迟要求所带来的挑战。 应对智能网卡设计的挑战 在传统的FPGA架构中,用户需要设计电路来连接加速器,从而导致不理想的布局和布线。更新的FPGA架构使用了一种网络,在逻辑阵列内的处理单元与各种片上高速接口和内存端口之间传输数据(如下面的图6所示)。 图6:在传统的FPGA架构中连接加速器 Status Control: 状态控制 Parameters: 参数 Accelerator: 加速器 Address decode and routing: 地址解码和布线 Back pressure: 背压 Request arbitration: 请求仲裁 Response arbitration: 响应仲裁 Response back pressure: 响应背压 Response routing: 响应布线 图7:先进的FPGA减少了所需电路的数量 硬连线架构极大地改善了处理的延迟和能效,但是缺乏应对需求变化的灵活性。对于数据压缩和加密等应用,数据中心运营商希望能够接纳算法的改进,并更加容易地应对不断变化的威胁态势。对加速器进行(重新)编程以适应这些变化的能力是一个关键的需求。一种能够实现这种重新编程的方法是通过部分重新配置,利用内置的地址转换表来简化实现(如下面的图8所示)。 图8:Speedster7t器件中的地址转换表 Memory Space: 存储空间 一种可编程逻辑架构为实现灵活的控制和数据流结构提供了坚实的基础,从而可以为诸如数据包处理等多种通信操作提供高吞吐量。但是其他FPGA架构中的传统方法仍然受到了许多限制,难以达到下一代5G和数据中心网络设备所需的性能等级。 Achronix Speedster7t系列FPGA通过一种平衡的架构克服了这些限制,其结果是在计算密度和数据传输能力上都有重大改进。 Speedster7t系列中的第一款FPGA器件AC7t1500提供了一系列高速接口,包括可分段(fracturable)以太网控制器(支持高达400G的速率)、PCI Gen 5端口和多达32个SerDes通道,其速率高达112 Gbps。AC7t1500器件是首款部署多通道GDDR6存储器接口的FPGA,它满足了需要高速缓存海量数据和存储大型查找表的通信系统的需求。除了可编程逻辑架构采用的面向位(bit-oriented)的布线结构外,这些外围设备还通过一个智能二维片上网络(NoC)进行互连。因此,Speedster7t FPGA是第一款能够实现太比特以太网(TbE)交换功能的器件,对于数据中心、网络和电信基础设施提供商来说,这是一项关键的赋能技术。 这种架构使得网络设计再向前更进一步成为了可能。例如,它集成的面向矩阵的算术单元可实现网络内机器学习。使用诸如深度学习或更简单的统计技术等技术,网络设备可以分析数据流量模式,以观察和增强通过网络的数据包流量,并对不断变化的情况作出快速反应。 针对性能而优化的Speedster7t架构 在通信和网络中,对任何FPGA的关键要求是支持最新协议的密集I / O需求。Speedster7t系列FPGA通过在器件的I / O环中实现的全套硬件I / O控制器来满足了这一需求,包括400G以太网、PCI Gen 5和GDDR6接口。 为了避免由于需要将一些核心功能置入可编程逻辑而造成的瓶颈,Speedster7t FPGA提供了完整的400 Gbps以太网MAC。这些MAC处理前向纠错(FEC),支持400G配置的4×100G和8×50G选项。但是要充分利用这些功能,FPGA架构还需要更多的东西 —— 一个能释放其全部性能的互连框架。 通常来讲,FPGA已经使用了通过可编程互连来实现的超宽总线,以使高速串行通道与内核中可编程逻辑的处理能力相匹配。互连矩阵的可任意编程性质限制了数据在逻辑模块之间的传输速度。为了弥补这种速度上的代价,从事网络类设计的FPGA用户经常采用极宽的总线——通常宽达1024位——这些总线是由面向位的互连矩阵汇聚合成。例如,在传统的FPGA架构中,为实现400Gbps所需的总线宽度将需要2048位(运行速率为642MHz),或1024位(运行速率为724MHz)。如此宽的总线难以布线,因为它们会消耗FPGA架构内大量的布线资源。其结果是,即使在最先进的FPGA中,也不太可能用所需的时钟速率来处理输入数据并实现时序收敛。 Speedster7t架构通过提供一个聚合带宽可高达20 Tbps的多级NoC层级化结构,消除了由于需要将高速I/O通道直接连接到以较低时钟速率运行的可编程逻辑所造成的瓶颈。与采用FPGA逻辑阵列实现互连方式相比,NoC不仅在速度上有了巨大的提升,而且NoC还能够在不消耗任何FPGA可编程资源的情况下传输大量的数据。内部NoC不仅提供了更高的带宽,Speedster7t系列FPGA中的智能连接机制还简化了将数据从NoC端口传输到逻辑阵列中的任务。 NoC有两个主要部分。NoC的外部设备部分负责PCIe Gen 5接口、内存控制器和核心FPGA逻辑阵列之间的数据传输。NoC的另一部分由在FPGA结构顶部运行的行和列组成。NoC提供双向的、256位宽的水平和垂直通道,这些通道在可编程集群之间运行。每个NoC行或列可以同时在相反方向上以512 Gbps的速率处理数据流。为了最大限度地利用基础架构及其在Speedster7t器件上快速分发数据的能力,NoC还直接连接到片上400G以太网控制器,并采用智能数据流分配策略,通过易于实现的256位宽接口,沿NoC通道将数据流划分为并行的可编程逻辑集群组。 NoC数据模式 为了实现400 Gbps的性能,设计人员可以使用一种称为数据包模式的全新处理模式,在这种模式下,传入以太网的数据流被重新排列(如图9所示)成四个较小的32字节的数据包。这些数据包在四条独立的256位总线上以506MHz的频率运行。这种模式的优点包括:当数据包结束时,浪费的字节更少;并且数据可以并行传输(前后相接),而不是必须等到在第一个数据包完成传输后才开始第二个数据包的传输。 对于运行在分组化数据上的典型网络应用,每个模块可以对其接收到的数据包报头进行分类和标记,并通过调用NoC接口的服务来连接片外GDDR6或DDR4存储器,将不需要进一步处理的工作负载卸载到外部存储器的缓冲区存储。对每个数据包的处理完成后,通过NoC引导来自外部和内部缓冲区的数据流,将必要的数据传送到相关的以太网出口端口。因此,许多操作并不需要调用FPGA逻辑阵列中的资源,并且可以充分利用NoC和以太网端口之间的直接连接。 图9:数据包模式(Packet Mode)下的数据总线重新排列 图10:使用数据包模式(Packet Mode)的400 Gbps以太网 通过NoC通道的数据分发也可以采用非数据包化的模式来完成,以支持目前在以太网上使用的、尽可能多样化的协议,例如5G系统中的eCPRI,并帮助设计人员避免在逻辑架构中不得已去创建超宽总线。 高速存储接口 Speedster7t的架构师对存储接口的选择反映了以太网和NoC连接可提供的巨大容量。一种可能的方法是在一系列设计中采用即将推出的HBM2接口。尽管这样的接口可以提供所需的性能水平,但HBM2价格昂贵,这将迫使客户去等待必要的组件和集成技术的出现。 与此不同,Speedster7t系列则采用了GDDR6标准,该标准为当今片外存储器提供了最高的性能。Speedster7t FPGA是市场上首款支持该接口的器件,每个片上GDDR6内存控制器可维持512 Gbps的带宽。在单个AC7t1500器件中最多可带有8个GDDR6控制器,使总的内存带宽可达到4 Tbps。 对PCIe Gen 5的支持 除了以太网和存储控制器,Speedster7t FPGA上提供的对PCIe Gen 5的支持还能够与主机处理器紧密集成,以支持诸如sidecar智能网卡(SmartNIC)设计等高性能加速器应用。PCI Gen 5控制器使其能够读取和写入存储在FPGA内存层级结构中的数据,包括许多位于逻辑架构内的块RAM,以及连接到FPGA存储控制器的外部GDDR6和DDR4 SRAM设备。在FPGA逻辑阵列中实例化的数据传输控制器(例如DMA引擎),可以类似地通过PCIe Gen 5总线访问与主机处理器共享的内存,而无需消耗FPGA逻辑阵列内的任何资源即可实现这种高带宽连接,并且设计时间几乎为零。用户只需要启用PCIe和GDDR6接口,就可以通过NoC发送事务数据。 下面的图11展示了PCIe子系统与任何GDDR6或DDR4存储接口之间的直接连接。 图11:无需消耗FPGA逻辑阵列即可实现PCIe和GDDR6之间的数据传输 112-Gbps SerDes AC7t1500器件搭载了400G以太网通道用于物理层访问,该器件可提供多达32个高速SerDes通道,它们可用于需要数据速率高达112 Gbps的其他标准,并完全支持PAM4信令。这些SerDes通道支持器件间实现极短距离(XSR)和超短距离(USR)通道,事实证明这些通道对一系列通信系统都非常重要。SerDes实现方式的灵活性加上对各种以太网速度的支持(因为已集成了一个可分解型控制器)为设计提供了现成可用的支持,这些设计将能够与任何规划的CPRI和eCPRI格式(用于5G前端传输设计)一起使用。 机器学习处理器 对于计算密集型任务,在Speedster7t FPGA上部署的Speedster7t机器学习处理器(MLP)是灵活的且可分解的算术单元。MLP是高密度乘法器阵列,带有支持多种数字格式的浮点和整数MAC模块。MLP带有集成的内存块,可以在不使用FPGA资源的情况下执行操作数和内存级联功能。MLP适用于一系列矩阵数学运算,从5G无线电控制器的波束成形计算到加速深度学习应用,诸如数据流模式和数据包内容分析。 图12:机器学习处理器原理框图 结论 从5G网络的边缘到数据中心内部的交换机,通信和网络系统对芯片的功能带来了极大的压力,以支持其所需的计算能力和数据传输速率。传统的可编程逻辑为这些系统提供了灵活性和速率的最佳组合,但是近年来却因以太网等协议的速度提高到100G和400G而面临新挑战。Speedster7t架构通过采用创新的、多层级片上网络,使数据能够在器件周围轻松传输,而不影响FPGA的逻辑阵列,从而充分保障所有已集成在内的全球最先进的I / O接口,诸如400G以太网、GDDR6和PCI Gen 5,以支持充分发挥核心的可编程逻辑结构的潜在能力。 Achronix Speedster7t系列采用了一种借助于NoC技术的创新架构,并充分利用了7nm技术来部署各种现有可用的、性能最高的控制器,提供了其他FPGA器件迄今为止所缺少的要素。基于Speedster7t FPGA的设计可以接收来自多个高速数据源的巨量数据,并将这些数据分发到可编程的片上算法和处理单元,然后以尽可能低的延迟来获得这些结果。由此带来的是一种创新的FPGA架构,可以支持目前正在设计的下一代5G、软件定义网络和数据中心系统。Speedster7t FPGA现在可以推动通信和网络应用向新一代发展。 版权所有©2020 Achronix半导体公司保留所有权利。Achronix、Speedcore、Speedster和ACE是Achronix半导体公司在美国和/或其他国家/地区的商标。所有其他商标均为其各自所有者的财产。所有规格如有更改,恕不另行通知。 免责声明 本文件中所提供的信息被认为是准确和可靠的。但是,Achronix半导体公司不对此类信息的完整性或准确性作出任何声明或担保,并且对于使用本文包含的信息不承担任何责任。Achronix半导体公司保留随时更改本文件及其所含信息的权利,恕不另行通知。所有Achronix商标、注册商标、免责声明和专利均在网站

    时间:2020-12-16 关键词: 网络 5G FPGA

  • 低功耗成为标配,三分钟了解FPGA低功耗设计技巧

    低功耗成为标配,三分钟了解FPGA低功耗设计技巧

    对于研发人员而言,大家总是在追求低功耗设计。采用低功耗设计,无疑是能够带来诸多好处。为帮助大家了解如何降低功耗,本文中,小编将对降低FPGA功耗的设计技巧加以阐述。如果你对功耗、低功耗以及相关内容具有兴趣,不妨继续往下阅读哦。 新一代 FPGA的速度变得越来越快,密度变得越来越高,逻辑资源也越来越多。那么如何才能确保功耗不随这些一起增加呢?很多设计抉择可以影响系统的功耗,这些抉择包括从显见的器件选择到细小的基于使用频率的状态机值的选择等。 为了更好地理解本文将要讨论的设计技巧为什么能够节省功耗,我们先对功耗做一个简单介绍。 功耗包含两个因素:动态功耗和静态功耗。动态功耗是指对器件内的容性负载充放电所需的功耗。它很大程度上取决于频率、电压和负载。这三个变量中的每个变量均在您的某种控制之下。 动态功耗 = 电容×电压2×频率 静态功耗是指由器件中所有晶体管的泄漏电流(源极到漏极以及栅极泄漏,常常集中为静止电流)引起的功耗,以及任何其他恒定功耗需求之和。泄漏电流很大程度上取决于结温和晶体管尺寸。 恒定功耗需求包括因终接(如上拉电阻)而造成的电流泄漏。没有多少措施可以采用来影响泄漏,但恒定功耗可以得到控制。 尽早考虑功耗 您在设计的早期阶段做出的功耗决定影响最大。决定采用什么元件对功耗具有重大意义,而在时钟上插入一个 BUFGMUX 则影响甚微。对功耗的考虑越早越好。 恰当的元件 并不是所有元件都具有相同的静止功耗。根据普遍规则,器件工艺技术尺寸越小,泄漏功耗越大。但并不是所有工艺技术都一样。例如,对于 90 nm 技术来说,Virtex-4 器件与其他 90 nm FPGA 技术之间在静止功耗方面存在显著差异, 然而,在静止功耗随工艺技术缩小而增加的同时,动态功耗却随之减小,这是由于较小的工艺有着更低的电压和电容。考虑好哪种功耗对你的设计影响更大——待机(静止)功耗还是动态功耗。 除通用切片逻辑单元外,所有Xilinx器件都具有专门逻辑。其形式有块 RAM、18×18 乘法器、DSP48 块、SRL16s,以及其他逻辑。这不仅在于专门逻辑具有更高的性能,还在于它们具有更低的密度,因而对于相同的操作可以消耗较少的功率。评估您的器件选项时,请考虑专门逻辑的类型和数量。 选择适当的 I/O 标准也可以节省功耗。这些都是简单的决定,如选择最低的驱动强度或较低的电压标准。当系统速度要求使用高功率 I/O 标准时,计划一个缺省状态以降低功耗。有的 I/O 标准(如 GTL/+)需要使用一个上拉电阻才能正常工作。因此如果该 I/O 的缺省状态为高电平而不是低电平,就可以节省通过该终接电阻的直流功耗。对于 GTL+,将50Ω终接电阻的适当缺省状态设置为 1.5V,可使每个 I/O 节省功耗 30 mA。 数据使能 当总线上的数据与寄存器相关时,经常使用片选或时钟使能逻辑来控制寄存器的使能。进一步来说,尽早对该逻辑进行“数据使能”,以阻止数据总线与时钟使能寄存器组合逻辑之间不必要的转换,如图 1 所示。红色波形表示原设计;绿色波形表示修改后的设计。 另一种选择是在电路板上而不是在芯片上进行这种“数据使能”。以尽可能减小处理器时钟周期。此概念是使用 CPLD 从处理器卸载简单任务,以便使其更长时间地处于待机模式。 让我们来看一个在状态 7 和状态 8 之间频繁进行状态转换的状态机。如果您为该状态机选择二进制编码,将意味着对于每次状态 7 和状态 8 之间的状态转换,将有四位需要改变状态,如表 1 所示。如果状态机采用格雷码而不是二进制码来设计,则这两个状态之间的转移所需的逻辑转换的数量将降至仅一位。另外,如果将状态 7 和 8 分别编码为 0010 和 0011,也可以达到同样的效果。 时钟管理 在一个设计的所有吸收功耗的信号当中,时钟是罪魁祸首。虽然一个时钟可能运行在 100 MHz,但从该时钟派生出的信号却通常运行在主时钟频率的较小分量(通常为 12% ~ 15%)。此外,时钟的扇出一般也比较高——这两个因素显示,为了降低功耗,应当认真研究时钟。 如果设计的某个部分可以处于非活动状态,则可以考虑使用一个 BUFG-MUX 来禁止时钟树翻转,而不是使用时钟使能。时钟使能将阻止寄存器进行不必要的翻转,但时钟树仍然会翻转,消耗功率。不过采用时钟使能总比什么措施也没有强。 隔离时钟以使用最少数量的信号区。不使用的时钟树信号区不会翻转,从而降低该时钟网络的负载。仔细布局可以在不影响实际设计的情况下达到此目标。 对 FPGA 显然也可以使用同一概念。虽然 FPGA 不一定拥有待机模式,但使用一个 CPLD 中途栏截总线数据并有选择地将数据馈送到 FPGA 也可以省去不必要的输入转换。 CoolRunner-II CPLD 包含一种称为“数据门控”的功能,可以禁止引脚上的逻辑转换到达 CPLD 的内部逻辑。该数据门控使能可通过片上逻辑或引脚来控制。 状态机设计 根据预测的下一状态条件列举状态机,并选择常态之间转换位较少的状态值。这样,您就能够尽可能减少状态机网络的转换量(频率)。确定常态转换和选择适当的状态值,是降低功耗且对设计影响较小的一种简单方法。编码形式越简单(一位有效编码或格雷码),使用的解码逻辑也会越少。 功耗估算工具 赛灵思提供了两种形式的功耗估算工具:一种叫做 Web Power Tools 的设计前工具和一种叫做 Xpower 的设计后工具。利用它,您可以仅凭设计利用率估计就能获得功耗评估,而无需实际设计文件。 XPower 是一种设计后工具,用于分析实际器件利用率,并结合实际的适配后 (post-fit) 仿真数据(VCD 文件格式),给出实际功耗数据。利用 Xpower,您可以在完全不接触芯片的情况下分析设计改变对总功耗的影响。 基于 Web 的功耗工具 基于 Web 的功耗估计是在设计流程的早期获得器件功耗情况的最快捷和最方便的方法。这些工具每个季度都会发布新版本,因此信息总是最新的,且不需要安装或下载,只需要拥有互联网连接和 Web 浏览器即可。您可以指定设计参数并保存和加载设计设置,免去了通过交互使用重新输入设计参数的麻烦。只要有对设计行为的估计并选定目标器件即可开始。 Xpower:集成的设计专用功耗分析 Xpower 是所有 Xilinx ISE设计工具的一个免费组件,您可以利用它对您的基于设计的功耗需求进行详细得多的估计。XPower 是在映射或布局和布线后设计的基础上对器件功耗进行估计的。 对于成熟的投产的 FPGA 和 CPLD,XPower 计算出的功耗估计的平均设计批量误差 (suite error) 小于 10%。它将把器件数据与您的设计文件结合起来综合考虑,并按照您的专门设计信息给出估计器件功耗的高精度报告。 XPower直接集成在 ISE 软件中,可提供层次化的详细的功耗显示、详细的总结报告和功耗向导,即使是新用户也可轻易上手。XPower 可接受仿真的设计活动数据,并可以 GUI 模式和批处理模式运行。 XPower 将考虑设计中的每个网络和逻辑元素。ISE 设计文件提供准确的资源使用情况;XPower 交叉参考布线信息以及特性化电容数据。于是物理资源针对电容进行特性化。设计特性化将对新器件持续进行,以给出最精确的结果。Xpower 使用了网络翻转速率和输出负载。然后 XPower 计算功耗和结温,还可以显示单个网络的功耗数据。 以上便是此次小编带来的“功耗”相关内容,通过本文,希望大家对FPGA低功耗设计具备一定的了解。如果你喜欢本文,不妨持续关注我们网站哦,小编将于后期带来更多精彩内容。最后,十分感谢大家的阅读,have a nice day!

    时间:2020-12-11 关键词: 功耗 指数 FPGA

  • Xilinx 宣布收购峰科计算,进一步提高软件可编程性并扩大开发者社区

    2020 年 12 月 2日,中国北京 —— 赛灵思公司(Xilinx, Inc.)今天宣布已收购峰科计算解决方案公司( Falcon Computing Solutions ),这是一家为软件应用的硬件加速提供高层次综合( HLS )编译器优化技术的领先私人控股公司。此次收购将通过自动化硬件感知优化增强赛灵思 Vitis™ 统一软件平台,进一步降低软件开发者应用自适应计算的门槛。 通过将 Falcon的创新编译器技术集成到 Vitis 平台上,软件开发者无需掌握硬件专业知识就能加速 C++ 应用。而借助 Falcon 的源代码转换功能,应用开发者无需对其代码进行调整或是额外添加架构专用编程指令,就能轻松实现显著的硬件加速。 赛灵思执行副总裁兼数据中心事业部总经理 Salil Raje 表示:“对自适应计算不断增长的需求,正逐渐开启数据中心和嵌入式应用广泛采用 FPGA 的新时代。Falcon的创新编译器技术和高度专业化的编译器团队将提供关键的专业知识,助力进一步提高软件编程能力,并将自适应计算的众多优势带给更多开发者。” Falcon 联合创始人兼董事长丛京生( Jason Cong )博士表示:“我们的编译器技术能够让软件开发者无需了解 FPGA 硬件架构,就能轻松实现超越 CPU 一个数量级的加速。这是因为我们的编译器具备高度自动化特性,可优化片外数据传输、片上数据复用、内存分区、并行与流水线型计算加速。这种类似于 Open-MP 的单一源代码编程风格,对于众多 C/C++ 软件开发者而言十分友好,特别是对于那些来自高性能计算和嵌入式系统社区的开发者。” Falcon 由丛京生博士于 2014 年联合创立。丛博士是加州大学洛杉矶分校计算机科学系沃尔根诺( Volgenau )卓越工程学院主席、特定域计算中心主任、ACM 和 IEEE 研究员以及国家工程学院院士。Falcon 深耕于学术与研究,始终处于新一轮 FPGA 采用浪潮的前沿。此外,丛博士联合创立的 AutoESL (现为 Vitis HLS )由赛灵思于 2010 年收购, Neptune Design Automation (现在隶属于 Vivado® )由赛灵思于 2013 年收购。Falcon总部位于加州洛杉矶,致力于为美国和中国的企业客户和学术机构提供服务。 Falcon的详细财务状况和本次收购的条款尚未披露。

    时间:2020-12-02 关键词: SoC 赛灵思 FPGA

  • 医疗设备中,FPGA扮演什么角色?

    出品 21ic中国电子网 付斌 网站:21ic.com FPGA(现场可编辑门阵列)作为赛灵思(Xilinx)的一项重要发明,以其可编程和灵活性著称。起初,FPGA只是用来仿真ASIC,再进行掩码处理和批量制造使用。不过ASIC相比FPGA来说明显在定制化上要求过高,流片量过小情况下成本反而更高,因此两者毫不冲突地“各司其职”。而后,随着加速器的出现和算力提升,目前已成为与GPU齐名的并行计算器件。 如今,FPGA已进发数据中心领域,相比CPU和GPU,FPGA所需器件更少,功耗也更优。赛灵思依靠其“数据中心优先”、“加速核心市场发展”、“驱动自适应计算”的三大战略加持下,使其ACAP平台和Alveo加速卡在数据中心市场极具竞争力。 除此之外,赛灵思曾为笔者展示过其云服务商领域的“一体化SmartNIC平台”、消费领域的“FPGA TCON”方案、工业领域的Zynq SoC系列方案。 实际上,根据赛灵思透露,医疗领域已占据赛灵思营收非常重要的比重,并且一直在11%-15%的速度增长。那么赛灵思是依靠什么FPGA产品占据的医疗市场,FPGA器件在医疗设备中扮演什么角色? 日前,赛灵思为记者介绍了近期在医疗科学和医疗设备方面的成果,21ic中国电子网记者受邀参加此次采访。 FPGA器件能用在什么地方 信息显示,全球人均医疗支出每年都在增长,随着人口老龄化加剧,消费者对医疗条件和医疗成本都有着极高的预期。另一方面,随着疫情的爆发,市场对病情的及早发现和诊断的快速分析有了更高的要求,这就需要医疗器械成本的进一步降低和算力的提升。 FPGA器件自身拥有可编程特性,借助这种优势,可避免ASIC器件前期高昂的一次性工程费用,消除最低订单数量和多芯片迭代风险和损失。医疗行业本身是与科技发展联系最为紧密的行业之一,伴随FPGA器件的不断迭代升级,更多新设备出现,引领了新的治疗方法、治疗途径、治疗理念的改变。 赛灵思医疗科学全球业务市场负责人Subh Bhattacharya 根据Subh Bhattacharya的介绍,赛灵思的FPGA器件在医疗领域的应用主要分为三类:临床、医疗成像和诊断分析。 01 临床环境 临床设备数量大种类多,因此需要灵活性极强的FPGA。需要注意的是,部分设备直接影响患者生命安全,对启动速度、安全稳定性、时延要求极高;部分设备在便携性上则有一定要求,对功耗、小尺寸有很大需求。 根据Subh的介绍,在临床方面,赛灵思的Zynq UltraScale+ MPSoC(下文简称为“ZU+ MPSoC”)是一个高度集成的平台,集成多个处理器,拥有可编程逻辑,此外还集成了信息安全和功能安全功能。Subh强调,这个技术平台的强大功能和性能非常适合在临床环境应用之中,包括从云端到边缘。 Subh为记者展示了几个利用该平台解决临床环境的实例: 其一是赛灵思与Spline.AI和AWS(亚马逊云服务)合作开发的医疗AI,利用ZU+MPSoC的ZCU104平台作为边缘设备,实现的高精度低时延的医疗X射线分型深度学习模型和参考设计。该方案可独立自主根据Chest X-Ray预测疾病,也可预测COVID-19和肺炎,也可开发定制模型供临床使用。另外,ZCU104支持开源语言PYNQ语言下开发,也可借助AWS IoT Greengrass实现进一步的扩展和部署。该方案发挥了ZU+ MPSoC的高性能和扩展性,赋予了低成本医疗设备高精度的诊断。 其二是赛灵思为奥林巴斯内窥镜核心技术提供支持。该方案发挥了ZU+ MPSoC在启动速度、功耗和低时延的特性。 其三是赛灵思为Clarius超便携高性能超声波系统。该方案发挥了ZU+ MPSoC片上双ARM处理器和FPGA的小尺寸封装特性,实现了超便携。 究其历史,Zynq SoC是赛灵思在2011年推出的全球首款集成ARM内核的产品,彼时该平台称为“可扩展的处理器平台”,主要是为了将市场扩展到嵌入式应用之中。此前FPGA多用作辅助芯片,自从引入更多功能的集成SoC平台之后,ARM GPU、数据安全处理器、功能安全处理器都被集成在单芯片之中。Subh表示,经过这样的转型之后,赛灵思从每年5%-6%的收入增长,实现了到14%-15%的收入增长,2.5倍的增长率全要归功于这样的技术平台。 除此之外,Subh还为记者展示ZU+ MPSoC在医疗安全上的解决方案。“目前,全球安装的医疗物联网设备超过1亿台,到2020年将增长到1.61亿台。医界高管认为 59%隐私问题, 55%老旧系统集成和54%安全问题,是阻碍当今医疗机构采用物联网的三大障碍。” Subh表示,赛灵思可以利用可编程平台,不断适应新的安全防护措施,这种升级囊括了软件和硬件。最终体现在SoC上的,就是认证与加密启动、安全启动、测量启动、安全应用通信、基于云的监测等功能。 02 医疗成像 大型医疗成像设备使用FPGA器件已经是基本操作,Subh为记者介绍,在医疗成像方面,主要包括CT、超声、X射线、PET、MRI扫描仪等。 对于医疗成像,Zynq UltraScale+ MPSoC同样适用。Subh表示,除此之外还有Versal ACAP,这个系列可以理解为下一代的MPSoC,Versal ACAP在成像领域具有非常大优势。 Versal ACAP除了拥有ARM多处理器集成、可编程逻辑、DSP以外,还加入了AI引擎,即SIMD、VLIW这样的单元,可以支持很多类似操作的平行处理。 Subh为记者展示了超声波图像重构与计算机辅助诊断的方案,利用赛灵思的软硬件支持,能够降低功耗和热度范围、降低解决方案成本、延长设备使用寿命、低时延边缘推断,虽然市场非常复杂,赛灵思的技术也能够大大提高生产力。 03 诊断分析 Subh表示,除了SoC和FPGA,赛灵思还提供即插即用的Alveo加速卡,正因这是一种PCle的解决方案,因此可以大大降低开发时长。根据介绍,Alveo加速卡适用于任何通用PC,既可以加速CPU的普通任务,也可以加速其他的GPU的任务,最终实现高吞吐量和超低时延。其独特的算力和灵活应变能力,可以大大加速很多的医疗应用。 联影医疗(United Imaging)是一家中国公司,这家公司在使用Alveo U200加速卡替代传统GPU时发现,Alveo的技术成本更低、功耗更低,并且无需牺牲任何性能或是开发进度。 FPGA vs. CPU&GPU 医疗设备中使用CPU或者GPU产品的方案也屡见不见,为何FPGA拥有如此卓著效果,甚至有着替代CPU和GPU的“魔力”?实际上,CPU和GPU都属于冯诺依曼结构,FPGA能够突破结构上的限制因此拥有极强的能效。 具体来说,CPU和GPU需要使用SIMD(单指令流多数据流)来执行存储器、译码器、运算器、分支跳转处理逻辑等,FPGA则在烧写时已经确定每个逻辑单元的功能,因此不需要指令;另外,CPU和GPU在内存使用中是共享的,因此就需要访问仲裁,执行单元间的私有缓存使得部件间要保持缓存一致性,同样在烧写过程中FPGA已明确通信要求,因此无需共享内存进行通信。 得益于此,FPGA拥有极强的浮点乘法运算能力,而且对比同样是浮点运算的GPU延迟更低。这是因为,FPGA同时拥有了流水线并行和数据并行,而GPU只有数据并行。 从算力上来说,赛灵思还将FPGA器件转变为了SoC进行加速和自适应。赛灵思在加速上通过标量引擎实现,包括ARM、应用处理器和实时处理器,而自适应引擎的核心便是可编程逻辑器件FPGA,另外还配备智能引擎,目前配备的是DSP。特别是,在Versal ACAP的平台上还会将会有AI引擎进行支持,进一步进行加速和自适应。 “在医疗领域,诸如内窥镜这种应用,手术中患者拥有一个共同的要求,就是时延非常低,甚至需要实时来完成。从摄像头捕捉图像,经过管线处理,再到显示屏可能不到20微妙的时间。CPU和GPU达不到FPGA如此低的时延,因此这就是FPGA相比CPU和GPU的最大优势”,Subh继续为记者介绍,从功耗、成本和集成上,赛灵思SoC的FPGA也拥有更好的优势。 “很多领域,诸如视觉化,GPU使用很多年了,FPGA并不是做不到,不过我们还是会专注在优势的领域,即在封闭空间内做数据移动,而非断断续续的内存上传的情境”,Subh坦言。 不同层面分析FPGA在医疗的应用 能够在医疗领域,兼顾拥有业界领先的AI时延与性能,生命周期延长、高质量、高可靠性、高安全性,实时、确定性控制与接口的仅赛灵思一家。 赛灵思除了提供FPGA和 SoC这样的硬件器件及平台以外,还专门为降低FPGA 开发门槛满足广泛市场应用需求量身定制了Vitis AI统一软件平台。之前笔者也曾多次介绍这款软件平台,算法工程师无需硬件设计经验,也可直接应用算法的实现。 赛灵思的医疗解决方案帮助了Illumina对重症新生儿做基因组分析,为ICU患者和重症患者加速推进eyetech的基于眼球追踪的沟通平板电脑,与迈瑞合作以抗击新冠疫情。FPGA就是在不经意间为声名增添了一份敬畏。 笔者认为,赛灵思的FPGA器件从高性能加速和自适应两方面着手,成为了其在市场立足的最大竞争力。一方面,FPGA、ARM、应用处理器、实时处理器、DSP、AI引擎利用片上系统(SoC)和软件进行高度集成,既增强了算力也增强了应用的扩展性;另一方面,FPGA本身拥有的低延时性,对于时延要求极高的医疗领域可以说是“天生一对”。 从市场上来分析,随着疫情的爆发,医疗设备市场需求持续增加,其中不乏大型数据分析和便携性要求极高的设备,这刚好吻合了FPGA SoC的特点。另一方面,医疗水平的提升和市场马太效应之下,更具能效和低功耗优势的FPGA产品需求量持续增加。 从软件上分析,赛灵思的Vitis平台适用于不同人群,包括熟练掌握HDL语言的硬件工程师,熟练掌握各大编程语言的软件工程师,也适用于熟练掌握TensorFlow、Caffe、PyTorch的算法工程师。利用这种灵活性,可以让许多有创意的初创公司有了施展拳脚的可能。 通过赛灵思的介绍,可以说无论是大型设备还是便携设备,FPGA都有其一席之地。 未来赛灵思医疗创新之路该如何发展?Subh表示,在医疗产品上赛灵思将不断提高集成度并降低封装尺寸,另一方面,将会不断发展异构计算提高效率和性能。  近期热度新闻 【1】三星“特别对待”vivo:进击的5nm手机SoC! 【2】为H3C、腾讯插翅腾飞!intel这次真的让人直呼Yes 【3】 掘金中国代工业!SK海力士把200mm晶圆产线搬到无锡 干货技能好文 【1】13款Linux实用工具推荐,个个是神器! 【2】运放电路:同相放大还是反相放大? 【3】 知识贴!为什么LED灯越用越暗?为什么会闪烁? 优质资源推荐 【1】终于整理齐了,电子工程师“设计锦囊”,你值得拥有! 【2】半导体行业的人都在关注这几个公众号 【3】 电子工程师自我“修炼宝典” 21ic独家整理! 你和大牛工程师之间到底差了啥? 加入技术交流群,与高手面对面  添加管理员微信 免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

    时间:2020-11-29 关键词: 可编程芯片 FPGA

  • 医疗设备中,FPGA扮演什么角色?

    医疗设备中,FPGA扮演什么角色?

    FPGA(现场可编辑门阵列)作为赛灵思(Xilinx)的一项重要发明,以其可编程和灵活性著称。起初,FPGA只是用来仿真ASIC,再进行掩码处理和批量制造使用。不过ASIC相比FPGA来说明显在定制化上要求过高,流片量过小情况下成本反而更高,因此两者毫不冲突地“各司其职”。而后,随着加速器的出现和算力提升,目前已成为与GPU齐名的并行计算器件。 如今,FPGA已进发数据中心领域,相比CPU和GPU,FPGA所需器件更少,功耗也更优。赛灵思依靠其“数据中心优先”、“加速核心市场发展”、“驱动自适应计算”的三大战略加持下,使其ACAP平台和Alveo加速卡在数据中心市场极具竞争力。 除此之外,赛灵思曾为笔者展示过其云服务商领域的“一体化SmartNIC平台”、消费领域的“FPGA TCON”方案、工业领域的Zynq SoC系列方案。 实际上,根据赛灵思透露,医疗领域已占据赛灵思营收非常重要的比重,并且一直在11%-15%的速度增长。那么赛灵思是依靠什么FPGA产品占据的医疗市场,FPGA器件在医疗设备中扮演什么角色? 日前,赛灵思为记者介绍了近期在医疗科学和医疗设备方面的成果,21ic中国电子网记者受邀参加此次采访。 FPGA器件能用在什么地方 信息显示,全球人均医疗支出每年都在增长,随着人口老龄化加剧,消费者对医疗条件和医疗成本都有着极高的预期。另一方面,随着疫情的爆发,市场对病情的及早发现和诊断的快速分析有了更高的要求,这就需要医疗器械成本的进一步降低和算力的提升。 FPGA器件自身拥有可编程特性,借助这种优势,可避免ASIC器件前期高昂的一次性工程费用,消除最低订单数量和多芯片迭代风险和损失。医疗行业本身是与科技发展联系最为紧密的行业之一,伴随FPGA器件的不断迭代升级,更多新设备出现,引领了新的治疗方法、治疗途径、治疗理念的改变。 赛灵思医疗科学全球业务市场负责人Subh Bhattacharya 根据Subh Bhattacharya的介绍,赛灵思的FPGA器件在医疗领域的应用主要分为三类:临床、医疗成像和诊断分析。 01、临床环境 临床设备数量大种类多,因此需要灵活性极强的FPGA。需要注意的是,部分设备直接影响患者生命安全,对启动速度、安全稳定性、时延要求极高;部分设备在便携性上则有一定要求,对功耗、小尺寸有很大需求。 根据Subh的介绍,在临床方面,赛灵思的Zynq UltraScale+ MPSoC(下文简称为“ZU+ MPSoC”)是一个高度集成的平台,集成多个处理器,拥有可编程逻辑,此外还集成了信息安全和功能安全功能。Subh强调,这个技术平台的强大功能和性能非常适合在临床环境应用之中,包括从云端到边缘。 Subh为记者展示了几个利用该平台解决临床环境的实例: 其一是赛灵思与Spline.AI和AWS(亚马逊云服务)合作开发的医疗AI,利用ZU+MPSoC的ZCU104平台作为边缘设备,实现的高精度低时延的医疗X射线分型深度学习模型和参考设计。该方案可独立自主根据Chest X-Ray预测疾病,也可预测COVID-19和肺炎,也可开发定制模型供临床使用。另外,ZCU104支持开源语言PYNQ语言下开发,也可借助AWS IoT Greengrass实现进一步的扩展和部署。该方案发挥了ZU+ MPSoC的高性能和扩展性,赋予了低成本医疗设备高精度的诊断。 其二是赛灵思为奥林巴斯内窥镜核心技术提供支持。该方案发挥了ZU+ MPSoC在启动速度、功耗和低时延的特性。 其三是赛灵思为Clarius超便携高性能超声波系统。该方案发挥了ZU+ MPSoC片上双ARM处理器和FPGA的小尺寸封装特性,实现了超便携。 究其历史,Zynq SoC是赛灵思在2011年推出的全球首款集成ARM内核的产品,彼时该平台称为“可扩展的处理器平台”,主要是为了将市场扩展到嵌入式应用之中。此前FPGA多用作辅助芯片,自从引入更多功能的集成SoC平台之后,ARM GPU、数据安全处理器、功能安全处理器都被集成在单芯片之中。Subh表示,经过这样的转型之后,赛灵思从每年5%-6%的收入增长,实现了到14%-15%的收入增长,2.5倍的增长率全要归功于这样的技术平台。 除此之外,Subh还为记者展示ZU+ MPSoC在医疗安全上的解决方案。“目前,全球安装的医疗物联网设备超过1亿台,到2020年将增长到1.61亿台。医界高管认为 59%隐私问题, 55%老旧系统集成和54%安全问题,是阻碍当今医疗机构采用物联网的三大障碍。” Subh表示,赛灵思可以利用可编程平台,不断适应新的安全防护措施,这种升级囊括了软件和硬件。最终体现在SoC上的,就是认证与加密启动、安全启动、测量启动、安全应用通信、基于云的监测等功能。 02、医疗成像 大型医疗成像设备使用FPGA器件已经是基本操作,Subh为记者介绍,在医疗成像方面,主要包括CT、超声、X射线、PET、MRI扫描仪等。 对于医疗成像,Zynq UltraScale+ MPSoC同样适用。Subh表示,除此之外还有Versal ACAP,这个系列可以理解为下一代的MPSoC,Versal ACAP在成像领域具有非常大优势。 Versal ACAP除了拥有ARM多处理器集成、可编程逻辑、DSP以外,还加入了AI引擎,即SIMD、VLIW这样的单元,可以支持很多类似操作的平行处理。 Subh为记者展示了超声波图像重构与计算机辅助诊断的方案,利用赛灵思的软硬件支持,能够降低功耗和热度范围、降低解决方案成本、延长设备使用寿命、低时延边缘推断,虽然市场非常复杂,赛灵思的技术也能够大大提高生产力。 03、诊断分析 Subh表示,除了SoC和FPGA,赛灵思还提供即插即用的Alveo加速卡,正因这是一种PCle的解决方案,因此可以大大降低开发时长。根据介绍,Alveo加速卡适用于任何通用PC,既可以加速CPU的普通任务,也可以加速其他的GPU的任务,最终实现高吞吐量和超低时延。其独特的算力和灵活应变能力,可以大大加速很多的医疗应用。 联影医疗(United Imaging)是一家中国公司,这家公司在使用Alveo U200加速卡替代传统GPU时发现,Alveo的技术成本更低、功耗更低,并且无需牺牲任何性能或是开发进度。 FPGA vs. CPU&GPU 医疗设备中使用CPU或者GPU产品的方案也屡见不见,为何FPGA拥有如此卓著效果,甚至有着替代CPU和GPU的“魔力”?实际上,CPU和GPU都属于冯诺依曼结构,FPGA能够突破结构上的限制因此拥有极强的能效。 具体来说,CPU和GPU需要使用SIMD(单指令流多数据流)来执行存储器、译码器、运算器、分支跳转处理逻辑等,FPGA则在烧写时已经确定每个逻辑单元的功能,因此不需要指令;另外,CPU和GPU在内存使用中是共享的,因此就需要访问仲裁,执行单元间的私有缓存使得部件间要保持缓存一致性,同样在烧写过程中FPGA已明确通信要求,因此无需共享内存进行通信。 得益于此,FPGA拥有极强的浮点乘法运算能力,而且对比同样是浮点运算的GPU延迟更低。这是因为,FPGA同时拥有了流水线并行和数据并行,而GPU只有数据并行。 从算力上来说,赛灵思还将FPGA器件转变为了SoC进行加速和自适应。赛灵思在加速上通过标量引擎实现,包括ARM、应用处理器和实时处理器,而自适应引擎的核心便是可编程逻辑器件FPGA,另外还配备智能引擎,目前配备的是DSP。特别是,在Versal ACAP的平台上还会将会有AI引擎进行支持,进一步进行加速和自适应。 “在医疗领域,诸如内窥镜这种应用,手术中患者拥有一个共同的要求,就是时延非常低,甚至需要实时来完成。从摄像头捕捉图像,经过管线处理,再到显示屏可能不到20微妙的时间。CPU和GPU达不到FPGA如此低的时延,因此这就是FPGA相比CPU和GPU的最大优势”,Subh继续为记者介绍,从功耗、成本和集成上,赛灵思SoC的FPGA也拥有更好的优势。 “很多领域,诸如视觉化,GPU使用很多年了,FPGA并不是做不到,不过我们还是会专注在优势的领域,即在封闭空间内做数据移动,而非断断续续的内存上传的情境”,Subh坦言。 不同层面分析FPGA在医疗的应用 能够在医疗领域,兼顾拥有业界领先的AI时延与性能,生命周期延长、高质量、高可靠性、高安全性,实时、确定性控制与接口的仅赛灵思一家。 赛灵思除了提供FPGA和 SoC这样的硬件器件及平台以外,还专门为降低FPGA 开发门槛满足广泛市场应用需求量身定制了Vitis AI统一软件平台。之前笔者也曾多次介绍这款软件平台,算法工程师无需硬件设计经验,也可直接应用算法的实现。 赛灵思的医疗解决方案帮助了Illumina对重症新生儿做基因组分析,为ICU患者和重症患者加速推进eyetech的基于眼球追踪的沟通平板电脑,与迈瑞合作以抗击新冠疫情。FPGA就是在不经意间为声名增添了一份敬畏。 笔者认为,赛灵思的FPGA器件从高性能加速和自适应两方面着手,成为了其在市场立足的最大竞争力。一方面,FPGA、ARM、应用处理器、实时处理器、DSP、AI引擎利用片上系统(SoC)和软件进行高度集成,既增强了算力也增强了应用的扩展性;另一方面,FPGA本身拥有的低延时性,对于时延要求极高的医疗领域可以说是“天生一对”。 从市场上来分析,随着疫情的爆发,医疗设备市场需求持续增加,其中不乏大型数据分析和便携性要求极高的设备,这刚好吻合了FPGA SoC的特点。另一方面,医疗水平的提升和市场马太效应之下,更具能效和低功耗优势的FPGA产品需求量持续增加。 从软件上分析,赛灵思的Vitis平台适用于不同人群,包括熟练掌握HDL语言的硬件工程师,熟练掌握各大编程语言的软件工程师,也适用于熟练掌握TensorFlow、Caffe、PyTorch的算法工程师。利用这种灵活性,可以让许多有创意的初创公司有了施展拳脚的可能。 通过赛灵思的介绍,可以说无论是大型设备还是便携设备,FPGA都有其一席之地。 未来赛灵思医疗创新之路该如何发展?Subh表示,在医疗产品上赛灵思将不断提高集成度并降低封装尺寸,另一方面,将会不断发展异构计算提高效率和性能。

    时间:2020-11-26 关键词: Xilinx 赛灵思 FPGA

  • 拆解FPGA芯片,带你深入了解其原理

    现场可编程门阵列(FPGA)可以实现任意数字逻辑,从微处理器到视频生成器或加密矿机,一应俱全。FPGA由许多逻辑模块组成,每个逻辑模块通常由触发器和逻辑功能以及连接逻辑模块的路由网络组成。FPGA的特殊之处在于它是可编程的硬件:您可以重新定义每个逻辑块及其之间的连接,用来构建复杂的数字电路,而无需物理上连接各个门和触发器,也不必花费设计专用集成电路的费用。 内部裸片显微照片  FPGA是由Ross Freeman发明的,他在1984年共同创立了Xilinx,并推出了第一款FPGA——XC2064。这种FPGA比现代FPGA简单得多,它只包含64个逻辑块。而现代FPGA中的逻辑块有几千个或数百万个,但它导致了目前价值数十亿美元的FPGA产业。由于其重要性,XC2064被列入芯片名人堂。在这篇文章中,我们对Xilinx的XC2064进行了逆向工程,解释了它的内部电路(上图)以及 "比特流 "是如何对它进行编程的。 第一款FPGA芯片-Xilinx XC2064 如今,FPGA是采用Verilog或VHDL之类的硬件描述语言编程的,但当时Xilinx提供了他们自己的开发软件XACT,运行在MS-DOS操作系统之下,价格高达12,000美元。XACT自然无法与现在的FPGA开发工具相比,XACT通过用户定义了每个逻辑块的功能(如下面的屏截图所示)以及逻辑块之间的连接,对连接进行布线连接,并生成可加载到FPGA中的比特流文件。 XACT的屏幕截图 两个查找表F和G在屏幕底部实现逻辑运算,上面部分显示该逻辑的卡诺图 通过位流(具有专有格式的位序列)配置FPGA。如果您查看XC2064的比特流(如下所示),那是令人费解的混合模式,这些模式不规则地重复,并散布在比特流中。XACT中的功能定义与位流中的数据之间没有明确的联系。但是,研究FPGA的物理电路可以揭示比特流数据的结构,并且可以理解。 通过位流(具有专有格式的位序列)配置FPGA。如果您查看XC2064的比特流(如下所示),那是令人费解的混合模式,这些模式不规则地重复,并散布在比特流中。XACT中的函数定义与位流中的数据之间没有明确的联系。但是,研究FPGA的物理电路可以揭示比特流数据的结构,并且可以理解。 XC2064的比特流 FPGA如何工作 下图来自原始FPGA专利,显示了FPGA的基本结构。在此简化的FPGA中,有9个逻辑块(蓝色)和12个I/O引脚。互连网络将组件连接在一起。通过设置互连上的开关(对角线),逻辑块相互连接并连接到I/O引脚。每个逻辑元素都可以使用所需的逻辑功能进行编程。其结果是一个高度可编程的芯片,可以实现任何适合可用的电路。 FPGA专利显示通过互连连接的逻辑块(LE) CLB:可配置逻辑块 虽然上图显示了九个可配置逻辑块(CLB),但XC2064有64个CLB。下图显示了每个CLB的结构。每个CLB有四个输入(A、B、C、D)和两个输出(X和Y)。两者之间是组合逻辑,可以使用任何所需的逻辑功能进行编程。CLB还包含一个触发器,允许FPGA实现计数器、移位寄存器、状态机和其他有状态电路。梯形是多路复用器,可以编程通过其任何输入。多路复用器允许为特定任务配置CLB,为触发器控件和输出选择所需的信号。 XC2064中的可配置逻辑块 那么,组合逻辑如何实现任意逻辑功能?它会采用与门、或门、异或门等逻辑吗? 不,它使用一种称为查找表(LUT)的巧妙技巧,实际上它包含的是逻辑功能的真值表。例如,三个变量的功能由其真值表中的8行定义。LUT由8位内存以及多路复用电路组成,以选择正确的值。通过将值存储在这8位内存中,可以实现任何3输入逻辑功能。  互 连 FPGA的第二个关键部分是互连,可以对其进行编程以不同方式连接CLB。互连相当复杂,但是粗略的描述是每个CLB之间有几个水平和垂直线段。CLB互连点允许在水平线和垂直线之间建立连接,从而可以创建任意路径。 更复杂的连接通过“交换矩阵”(switchmatrices)完成。每个开关矩阵都有8个引脚,可以(几乎)任意方式将它们连接在一起。下图显示了XC2064的互连结构,提供了到逻辑块(青色)和I / O引脚(黄色)的连接。该图显示了路由功能的特写。绿色框是8针开关矩阵,而小方块是可编程的互连点。 XC2064 FPGA具有一个8x8的CLB网格 每个CLB都有从AA到HH的字母名称。互连可以将例如块DC的输出连接到块DE的输入,如下所示。红线表示路由路径,红色小方块表示已激活的路由点。离开模块DC后,信号由第一个路由点定向到8针开关(绿色),该信号将其引导到另外两个路由点和另一个8针开关。(未显示未使用的垂直和水平路径。)请注意,布线相当复杂;即使是这条短路径,也使用了四个路由点和两个开关。 从块DC的输出路由到块DE的信号示例 下面的屏幕截图显示了 XACT 程序中的路由外观。黄线指示逻辑块之间的路由。随着信号的加入,挑战在于如何有效地路由而不使路径发生冲突。XACT 软件包执行自动路由,但也可以手动编辑路由。 XACT程序的屏幕截图 此MS-DOS程序通过键盘和鼠标进行控制 Implementation 本文的其余部分讨论了XC2064的内部电路,从裸片照片中的反向工程。  下图显示了XC2064芯片的布局。FPGA的主要部分是8×8的网格。每个图块包含一个逻辑块和相邻的路由电路。尽管图片显示将逻辑块(CLB)显示为与围绕它们的路由不同的实体,但这并不是  FPGA的实现方式。取而代之的是,每个逻辑块和相邻路由都实现为单个实体,即图块。(具体来说,图块包括每个CLB上方和左侧的路由。) XC2064芯片的布局 I/O模块围绕集成电路的边缘提供与外界的通信。它们连接到小的绿色方形焊盘,该焊盘连接到芯片的外部引脚。裸片被缓冲区(绿色)划分:两个垂直和两个水平。这些缓冲器可放大在电路中传播很长距离的信号,从而减少延迟。垂直移位寄存器(粉红色)和水平列选择电路(蓝色)用于将比特流加载到芯片中,如下所述。 Tile的内部结构 下图显示了XC2064中单个Tile的布局;如上图所示,该芯片包含64个这样的Tile挤在一起。每个Tile约有40%的面积被保存配置位的内存单元(绿色)所占据。顶部三分之一处通过两个交换矩阵和许多单独的路由交换处理互连路由,下面是逻辑块。逻辑块的关键部分是输入的多路复用器、触发器和查找表(LUT)。每个块通过垂直和水平布线连接到相邻的块,以实现互连,电源和接地。配置数据位被水平地馈送到存储单元,而垂直信号选择要加载的存储单元的特定列。 XC2064中单个Tile的布局 晶体管 FPGA由CMOS逻辑实现,该逻辑由NMOS和PMOS晶体管构建。晶体管在FPGA中具有两个主要作用。首先,可以将它们组合以形成逻辑门。其次,晶体管被用作信号通过的开关,例如以控制路由。在此作用下,该晶体管称为传输晶体管。 MOSFET的结构 下面的裸片照片特写显示了在显微镜下晶体管的外观。多晶硅栅极是两个掺杂硅区域之间的蛇形线。 FPGA中的MOSFET 比特流和配置存储 XC2064 中的配置信息存储在配置内存单元中。FPGA 的内存不是使用 RAM 块进行存储,而是分布在 160×71 网格中的芯片上,确保每个位都位于它控制电路旁边。下图显示了配置比特流如何加载到 FPGA 中。比特流被送入从芯片中心(粉红色)向下运行的移位寄存器中。将 71 位加载到移位寄存器中后,列选择电路(蓝色)将选择特定的内存列,并并行加载到此列中。然后,将接下来的 71 位加载到移位寄存器中,左侧的下一列将成为所选列。此过程将重复 FPGA 的所有 160 列,将整个比特流加载到芯片中。使用移位寄存器可避免大量内存寻址电路。 比特流如何加载到FPGA中 重要的是,比特流的分布与文件中的分布完全相同:比特流文件中的比特布局与芯片上的物理布局匹配。如下所示,每个位都存储在FPGA控制电路的旁边。因此,比特流文件格式直接由硬件电路的布局确定。例如,当由于缓冲电路而在FPGA切片之间存在间隙时,相同的间隙会出现在位流中。比特流的内容不是围绕字段,数据表或配置块之类的软件概念来设计的。了解比特流取决于从硬件角度而非软件角度进行思考。 如下所示实现配置存储器的每一位。每个存储单元均包含两个以环路连接的反相器。该电路具有两个稳定状态,因此可以存储一个位:顶部反相器为1,底部反相器为0,反之亦然。为了写入该单元,左侧的传输晶体管被激活,使数据信号通过。数据线上的信号只会使逆变器过载,从而写入所需的位。(您也可以使用相同的路径从FPGA中读取配置数据。)Q和反相Q输出控制FPGA中所需的功能,例如关闭路由连接,为查找表提供位,或控制锁存器电路。(在大多数情况下,仅使用Q输出。) 从数据表中显示一个位配置内存的示意图 上方的Q是输出,下方的Q是倒置输出 下图显示了存储单元的物理布局。左图显示了八个存储单元,其中一个单元高亮显示。每条水平数据线馈入该行中的所有存储单元。每列选择行选择该列中的所有存储单元以进行写入。中间照片放大了一个存储单元的硅和多晶硅晶体管。 存储单元的物理布局 查找表多路复用器 如前所述,FPGA通过使用查找表来实现任意逻辑功能。下图显示了如何在XC2064中实现查找表。左侧的八个值存储在八个存储单元中。四个多路复用器根据A 输入值选择每对值中的一个  。如果  A 为0,则选择最高值;如果  A 为1,则选择最低值。接下来,较大的多路复用器根据B 和  选择四个值之一  C。在这种情况下,结果是所需的值  A XOR B XOR C。通过在查找表中放置不同的值,可以根据需要更改逻辑功能。 使用查找表实现XOR 每个多路复用器都是通过晶体管来实现的。根据控制信号,其中一个传递晶体管被激活,将该输入传递到输出。下图显示了LUT电路的一部分,多路复用了其中的两个比特。右边是两个存储器单元。每一个比特都要经过一个反相器进行放大,然后经过中间的多路复用器的传递晶体管,选择其中的一个比特。 LUT实现中的电路特写 锁存器 每个CLB包含一个触发器,允许FPGA实现锁存器,状态机和其他有状态电路。下图显示了触发器的实现。它使用主/辅助设计。当时钟为低电平时,第一个多路复用器让数据进入主锁存器。当时钟变高时,多路复用器关闭第一个锁存器的环路,并保持该值。(该位通过“或”门,“与非”门和反相器两次反转,因此保持不变。)同时,当时钟变高时,辅助锁存器的多路复用器从第一个锁存器接收该位(请注意,时钟已反转)。该值成为触发器的输出。当时钟变低时,次级的多路复用器关闭环路,从而锁存该位。因此,触发器是边缘敏感的,在时钟的上升沿锁存该值。置位和复位线强制触发器为高电平或低电平。 触发器的实现,箭头指出了第一个多路复用器和两个OP-NAND门 8-pin交换矩阵 交换矩阵是一个重要的路由元件。每个开关有八个"引脚"(每侧两个),几乎可以连接任意引脚组合在一起。这允许信号比单个路由节点更灵活地转动、拆分或交叉。下图显示了四个 CLB (cyan)之间的路由网络的一部分。交换矩阵(绿色)可与右侧连接的任意组合连接。请注意,每个引脚可以连接到其他 7 个引脚中的 5 个。例如,引脚 1 可以连接到引脚 3,但无法连接到引脚 2 或 4。这使得矩阵几乎是一个横栏,有20个潜在的连接,而不是28个。 基于Xilinx可编程门阵列数据手册 开关矩阵由一排传输晶体管实现,该传输晶体管由上方和下方的存储单元控制。晶体管的两侧是可以通过该晶体管连接的两个开关矩阵引脚。因此,每个开关矩阵具有20个相关联的控制位。 每个图块两个矩阵,即每个图块产生40个控制位。下图显示了其中一个存储单元,该存储单元连接到下面的传输晶体管的长弯曲栅极。该晶体管控制引脚5和引脚1之间的连接。 其中一个存储单元 因此,与该存储单元相对应的位流中的位控制引脚5和引脚1之间的开关连接。同样,其他存储单元及其相关晶体管控制其他开关连接。请注意,这些连接的顺序不遵循特定的模式。因此,位流位和开关引脚之间的映射是随机的。 输入路由 CLB的输入在位流中使用不同的编码方案,这由硬件实现方式解释。在下图中,八个圆圈的节点是CLB框DD的潜在输入。 CLB的输入在位流中使用的编码方案示意图 最多只能将一个节点配置为输入,因为将两个信号连接到同一输入将使它们短路。使用多路复用器选择所需的输入。一个简单的解决方案是使用8路多路复用器,其中3个控制位选择8个信号之一。另一个简单的解决方案是使用8个通过晶体管,每个晶体管都有自己的控制信号,其中一个选择所需的信号。但是,FPGA使用一种混合方法,该方法避免了第一种方法的解码硬件,但使用了5个控制信号,而不是第二种方法所需的8个控制信号。 FPGA使用多路复用器选择八个输入之一 上面的示意图显示了FPGA中使用的两级多路复用器方法。在第一阶段,控制信号之一被激活。第二阶段从顶部或底部选择信号作为输出。例如,假设控制信号  B/F 发送到第一级,“ ABCD”发送到第二级;输入B是唯一将传递到输出的B。因此,选择八个输入之一需要在比特流中使用5位,并使用5个存储单元。 结 论 XC2064使用各种高度优化的电路来实现其逻辑块和路由。该电路需要紧凑的布局,以适合芯片。即使这样,XC2064还是一个非常大的芯片,比当时的微处理器还大,因此一开始很难制造,而且要花费数百美元。与现代FPGA相比,XC2064的单元数量非常少,但是即使如此,它也引发了革命性的新产品线。 了解XC2064比特流的关键是两个概念。首先,FPGA由64个块组成,这些块是将逻辑块和路由结合在一起的重复块。尽管FPGA被描述为具有被路由包围的逻辑块,但这并不是实现它们的方式。 第二个概念是,比特流中没有抽象。它直接映射到FPGA的二维布局中。因此,只有考虑FPGA的物理布局,比特流才有意义。 免责声明:本文系网络转载,版权归原作者所有。如有问题,请联系我们,谢谢! 免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

    时间:2020-11-25 关键词: 可编程芯片 FPGA

  • 全新英特尔开放式FPGA开发堆栈使定制平台开发变得更轻松

    全新英特尔开放式FPGA开发堆栈使定制平台开发变得更轻松

    在英特尔FPGA技术大会上,英特尔发布了最新的英特尔®开放式FPGA开发堆栈(英特尔®OFS)。通过可拓展的硬件,以及可访问的git源代码库的软件框架,英特尔®开放式FPGA开发堆栈(英特尔®OFS)让软硬件及应用开发人员能更轻松地创建定制加速平台与解决方案。此外,英特尔®OFS提供标准接口和API,实现更高的代码可重用率,加速了开发与快速部署。 图注:查看更多英特尔®OFS产品详情 英特尔公司副总裁、可编程解决方案事业部总经理Dave Moore表示:“FPGA一如既往地为开发人员创建定制化硬件提供支持, 为从边缘到云端的工作负载提供卓越的性能、功耗效率及总体拥有成本。今天,我们激动地宣布推出英特尔®开放式FPGA开发堆栈。经过早期客户的成功案例验证了英特尔®开放式FPGA开发堆栈能够大幅降低研发周期,同时提升代码和硬件设计的重用率,对于希望加速工作负载的客户和合作伙伴而言是理想之选。” 对于任何新的基于FPGA加速平台的开发,包括FPGA硬件设计、英特尔® 至强®可扩展处理器就绪的软件堆栈以及应用工作负载等,都会遇到一个核心挑战,那就是如何分配从零开发和代码重用或IP授权之间的比例。 英特尔®OFS为Linux内核提供定制化的软硬件基础设施,解决了软硬件及应用开发人员面临的许多痛点,包括开发FPGA设计(“拿来与定制”)所需的模块化、可组合代码,以及开源上游代码,从而让开源分销商能够为第三方和专有英特尔-OFS平台提供本地支持。简而言之,英特尔®OFS为硬件、应用和软件开发人员带来的价值分别是定制化、在整个英特尔FPGA平台的便利的可移植性以及主要操作系统厂商分销的本地支持。 现在,主板开发人员、原始设计制造商和客户都可以利用具有标准接口的统一基础设施开始他们的FPGA硬件开发。应用开发人员可以通过基于英特尔®OFS的不同平台之间更强大的可移植性实现更高的开发回报。由于可以使用英特尔的开源和上游代码,领先的开源软件厂商不仅能根据现有的或新的结合提供CPU和GPU拓展支持,还能提供FPGA拓展支持,从而满足客户需求。 有兴趣在新项目中尝试使用全新英特尔®OFS或了解早期使用计划(EAP)的开发人员可与英特尔销售代表取得联系。英特尔®OFS产品的EAP计划将于2021年大部分时间开放。 关于英特尔FPGA技术大会:这个历时一天的线上大会于2020年11月18日举办,邀请英特尔高管、合作伙伴与客户共同参与,通过一系列的主旨演讲、网络讲座与演示环节展示英特尔最新可编程产品与解决方案。点此回看大会录制内容。

    时间:2020-11-18 关键词: 英特尔 ofs FPGA

  • FPGA开发基本流程

    FPGA是可编程芯片,因此FPGA的设计方法包括硬件设计和软件设计两部分。硬件包括FPGA芯片电路、 存储器、输入输出接口电路以及其他设备,软件即是相应的HDL程序以及最新才流行的嵌入式C程序。 目前微电子技术已经发展到SOC阶段,即集成系统(Integrated System)阶段,相对于集成电路(IC)的设计思想有着革命性的变化。SOC是一个复杂的系统,它将一个完整产品的功能集成在一个芯片上,包括核心处理器、存储单元、硬件加速单元以及众多的外部设备接口等,具有设计周期长、实现成本高等特点,因此其设计方法必然是自顶向下的从系统级到功能模块的软、硬件协同设计,达到软、硬件的无缝结合。 这么庞大的工作量显然超出了单个工程师的能力,因此需要按照层次化、结构化的设计方法来实施。首先由总设计师将整个软件开发任务划分为若干个可操作的模块,并对其接口和资源进行评估,编制出相应的行为或结构模型,再将其分配给下一层的设计师。这就允许多个设计者同时设计一个硬件系统中的不同模块,并为自己所设计的模块负责;然后由上层设计师对下层模块进行功能验证。 自顶向下的设计流程从系统级设计开始,划分为若干个二级单元,然后再把各个二级单元划分为下一层次的基本单元,一直下去,直到能够使用基本模块或者IP核直接实现为止,流行的FPGA开发工具都提供了层次化管理,可以有效地梳理错综复杂的层次,能够方便地查看某一层次模块的源代码以修改错误。 在工程实践中,还存在软件编译时长的问题。由于大型设计包含多个复杂的功能模块,其时序收敛与仿真验证复杂度很高,为了满足时序指标的要求,往往需要反复修改源文件,再对所修改的新版本进行重新编译,直到满足要求为止。这里面存在两个问题:首先,软件编译一次需要长达数小时甚至数周的时间,这是开发所不能容忍的;其次,重新编译和布局布线后结果差异很大,会将已满足时序的电路破坏。因此必须提出一种有效提高设计性能,继承已有结果、便于团队化设计的软件工具。FPGA厂商意识到这类需求,由此开发出了相应的逻辑锁定和增量设计的软件工具。例如,赛灵思公司的解决方案就是PlanAhead。 Planahead允许高层设计者为不同的模块划分相应FPGA芯片区域,并允许底层设计者在所给定的区域内独立地进行设计、实现和优化,等各个模块都正确后,再进行设计整合。如果在设计整合中出现错误,单独修改即可,不会影响到其它模块。Planahead将结构化设计方法、团队化合作设计方法以及重用继承设计方法三者完美地结合在一起,有效地提高了设计效率,缩短了设计周期。 不过从其描述可以看出,新型的设计方法对系统顶层设计师有很高的要求。在设计初期,他们不仅要评估每个子模块所消耗的资源,还需要给出相应的时序关系;在设计后期,需要根据底层模块的实现情况完成相应的修订。 4.1 典型FPGA开发流程与注意事项 FPGA的设计流程就是利用EDA开发软件和编程工具对FPGA芯片进行开发的过程。典型FPGA的开发流程一般如图4.1.1所示,包括功能定义/器件选型、设计输入、功能仿真、综合优化、综合后仿真、实现、布线后仿真、板级仿真以及芯片编程与调试等主要步骤。 1、功能定义/器件选型 在FPGA设计项目开始之前,必须有系统功能的定义和模块的划分,另外就是要根据任务要求,如系统的功能和复杂度,对工作速度和器件本身的资源、成本、以及连线的可布性等方面进行权衡,选择合适的设计方案和合适的器件类型。一般都采用自顶向下的设计方法,把系统分成若干个基本单元,然后再把每个基本单元划分为下一层次的基本单元,一直这样做下去,直到可以直接使用EDA元件库为止。 2、 设计输入 设计输入是将所设计的系统或电路以开发软件要求的某种形式表示出来,并输入给EDA工具的过程。常用的方法有硬件描述语言(HDL)和原理图输入方法等。原理图输入方式是一种最直接的描述方式,在可编程芯片发展的早期应用比较广泛,它将所需的器件从元件库中调出来,画出原理图。这种方法虽然直观并易于仿真,但效率很低,且不易维护,不利于模块构造和重用。更主要的缺点是可移植性差,当芯片升级后,所有的原理图都需要作一定的改动。目前,在实际开发中应用最广的就是HDL语言输入法,利用文本描述设计,可以分为普通HDL和行为HDL。普通HDL有ABEL、CUR等,支持逻辑方程、真值表和状态机等表达方式,主要用于简单的小型设计。而在中大型工程中,主要使用行为HDL,其主流语言是Verilog HDL和VHDL。这两种语言都是美国电气与电子工程师协会(IEEE)的标准,其共同的突出特点有:语言与芯片工艺无关,利于自顶向下设计,便于模块的划分与移植,可移植性好,具有很强的逻辑描述和仿真功能,而且输入效率很高。除了这IEEE标准语言外,还有厂商自己的语言。也可以用HDL为主,原理图为辅的混合设计方式,以发挥两者的各自特色。 3、 功能仿真 功能仿真也称为前仿真是在编译之前对用户所设计的电路进行逻辑功能验证,此时的仿真没有延迟信息,仅对初步的功能进行检测。仿真前,要先利用波形编辑器和HDL等建立波形文件和测试向量(即将所关心的输入信号组合成序列),仿真结果将会生成报告文件和输出信号波形,从中便可以观察各个节点信号的变化。如果发现错误,则返回设计修改逻辑设计。常用的工具有Model Tech公司的ModelSim、Sysnopsys公司的VCS和Cadence公司的NC-Verilog以及NC-VHDL等软件。 4、 综合优化 所谓综合就是将较高级抽象层次的描述转化成较低层次的描述。综合优化根据目标与要求优化所生成的逻辑连接,使层次设计平面化,供FPGA布局布线软件进行实现。就目前的层次来看,综合优化(Synthesis)是指将设计输入编译成由与门、或门、非门、RAM、触发器等基本逻辑单元组成的逻辑连接网表,而并非真实的门级电路。真实具体的门级电路需要利用FPGA制造商的布局布线功能,根据综合后生成的标准门级结构网表来产生。为了能转换成标准的门级结构网表,HDL程序的编写必须符合特定综合器所要求的风格。由于门级结构、RTL级的HDL程序的综合是很成熟的技术,所有的综合器都可以支持到这一级别的综合。常用的综合工具有Synplicity公司的Synplify/Synplify Pro软件以及各个FPGA厂家自己推出的综合开发工具。 5、 综合后仿真 综合后仿真检查综合结果是否和原设计一致。在仿真时,把综合生成的标准延时文件反标注到综合仿真模型中去,可估计门延时带来的影响。但这一步骤不能估计线延时,因此和布线后的实际情况还有一定的差距,并不十分准确。目前的综合工具较为成熟,对于一般的设计可以省略这一步,但如果在布局布线后发现电路结构和设计意图不符,则需要回溯到综合后仿真来确认问题之所在。在功能仿真中介绍的软件工具一般都支持综合后仿真。 FPGA典型设计流程 6、 实现与布局布线 布局布线可理解为利用实现工具把逻辑映射到目标器件结构的资源中,决定逻辑的最佳布局,选择逻辑与输入输出功能链接的布线通道进行连线,并产生相应文件(如配置文件与相关报告),实现是将综合生成的逻辑网表配置到具体的FPGA芯片上,布局布线是其中最重要的过程。布局将逻辑网表中的硬件原语和底层单元合理地配置到芯片内部的固有硬件结构上,并且往往需要在速度最优和面积最优之间作出选择。布线根据布局的拓扑结构,利用芯片内部的各种连线资源,合理正确地连接各个元件。目前,FPGA的结构非常复杂,特别是在有时序约束条件时,需要利用时序驱动的引擎进行布局布线。布线结束后,软件工具会自动生成报告,提供有关设计中各部分资源的使用情况。由于只有FPGA芯片生产商对芯片结构最为了解,所以布局布线必须选择芯片开发商提供的工具。 7、 时序仿真 时序仿真,也称为后仿真,是指将布局布线的延时信息反标注到设计网表中来检测有无时序违规(即不满足时序约束条件或器件固有的时序规则,如建立时间、保持时间等)现象。时序仿真包含的延迟信息最全,也最精确,能较好地反映芯片的实际工作情况。由于不同芯片的内部延时不一样,不同的布局布线方案也给延时带来不同的影响。因此在布局布线后,通过对系统和各个模块进行时序仿真,分析其时序关系,估计系统性能,以及检查和消除竞争冒险是非常有必要的。在功能仿真中介绍的软件工具一般都支持综合后仿真。 8、 板级仿真与验证 板级仿真主要应用于高速电路设计中,对高速系统的信号完整性、电磁干扰等特征进行分析,一般都以第三方工具进行仿真和验证。 9、 芯片编程与调试 设计的最后一步就是芯片编程与调试。芯片编程是指产生使用的数据文件(位数据流文件,Bitstream Generaon),然后将编程数据下载到FPGA芯片中。其中,芯片编程需要满足一定的条件,如编程电压、编程时序和编程算法等方面。逻辑分析仪(Logic Analyzer,LA)是FPGA设计的主要调试工具,但需要引出大量的测试管脚,且LA价格昂贵。目前,主流的FPGA芯片生产商都提供了内嵌的在线逻辑分析仪(如Xilinx ISE中的ChipScope、Altera QuartusII中的SignalTapII以及SignalProb)来解决上述矛盾,它们只需要占用芯片少量的逻辑资源,具有很高的实用价值。 -END- | 整理文章为传播相关技术,版权归原作者所有 | | 如有侵权,请联系删除 | 【1】知名半导体MCU大厂软件开发C代码规范 【2】工业项目,用MCU还是PLC? 【3】为什么嵌入式工程师会对8位MCU有误解? 【4】RGB 接口和 MCU 接口有什么不一样? 【5】8位微控制器(MCU)的隐形成本 免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

    时间:2020-10-28 关键词: 可编程芯片 FPGA

首页  上一页  1 2 3 4 5 6 7 8 9 10 下一页 尾页
发布文章

技术子站

更多

项目外包