当前位置:首页 > FPGA
  • Achronix宣布其业界性能最高的Speedster7t FPGA器件现已开始供货

    中国深圳市,2021年4月 – 高性能现场可编程逻辑门阵列(FPGA)和嵌入式FPGA(eFPGA)半导体知识产权(IP)的领导性企业Achronix半导体公司今日宣布:公司已开始提前向客户交付其采用7nm工艺的Speedster®7t AC7t1500 FPGA芯片。Speedster7t系列产品是专为处理人工智能/机器学习(AI/ML)、5G基础设施、网络处理、计算存储、测试和测量等一系列多样化应用中的高带宽工作负载而设计;在这些应用中,Speedster7t FPGA消除了传统FPGA具有的关键性能瓶颈。 Speedster7t FPGA系列产品采用了台积电(TSMC)的7纳米工艺技术,为网络处理、存储和计算加速等应用提供业界最高的性能。Achronix首席执行官Robert Blake表示:“Achronix的Speedster7t FPGA芯片为客户提供了当今可用的FPGA芯片所能提供的最高带宽,并包含创新性的架构特性,从而使其成为数据加速应用的理想选择。” “我对Achronix团队所取得的成就感到非常自豪。该器件的运行符合我们的预期,同时首批芯片的硬件验证也提前完成,使得我们能够将该产品的上市时间从数月缩短至数周,这得益于我们的代工合作伙伴台积电(TSMC)领先的工艺技术和在制造领域内的专业性。” AC7t1500 FPGA芯片为高带宽应用进行了优化,它包括业界首个双向带宽容量超过20 Tbps的二维片上网络(2D NoC),以及112 Gbps SerDes、PCIe Gen5、400G以太网和外部存储器带宽为4 Tbps的GDDR6接口;它还包括一个全新的、创新性的机器学习处理器(MLP)模块阵列,该模块阵列非常适合AI / ML应用中所需的各种高性能工作负载。Speedster7t FPGA由Achronix的工具套件提供支持,该套件包括Synplify Pro综合工具以及ACE布局布线和时序工具。这些经过行业验证的设计工具现已可供客户使用来评估和设计Speedster7t FPGA器件。 Speedster7t FPGA的主要架构性创新之一是拥有业界首个2D NoC片上网络。2D NoC覆盖了整个FPGA逻辑阵列并提供专用的高带宽路径,从而使所有的功能单元模块和外围I/O之间以及其与FPGA逻辑阵列之间可以实现互连。2D NoC消除了传统FPGA中存在的复杂的布线瓶颈,并且可以在遍布整个FPGA中的80个节点的每个节点上发送或接收512Gbps的带宽,从而产生大于20Tbps的双向总带宽。这种结构简化了布局布线并加快了时序收敛,从而支持设计人员去使用所有可用的逻辑处理和存储器资源,以在其设计中实现差异化。 供货计划 目前正在向客户提供AC7t1500 FPGA的工程样片。Achronix预计将在2021年下半年完成对FPGA逻辑阵列、硬IP和外部接口的全器件验证,并将在2021年底前开始出货量产器件。 2021年1月,Achronix与ACE Convergence Acquisition Corp.达成了最终合并协议,使得Achronix在纳斯达克上市。预计该交易将于2021年上半年完成。

    时间:2021-04-29 关键词: Achronix FPGA 人工智能

  • FPGA电源系统管理

    FPGA电源系统管理

    简介 现场可编程门阵列(FPGA)的起源可以追溯到20世纪80年代,从可编程逻辑器件(PLD)演变而来。自此之后,FPGA资源、速度和效率都得到快速改善,使FPGA成为广泛的计算和处理应用的首选解决方案,特别是当产量不足以证明专用集成电路(ASIC)的开发成本合理有效时。FPGA取得快速发展,并广泛用于大规模部署。例如,继2013年试点项目中使用FPGA成功加快Bing搜索引擎的速度之后,Microsoft®将配备FPGA的服务器使用范围扩展到云数据中心。 FPGA电源系统要求 FPGA需要几个不同的低压供电轨,每个供电轨都有自己的电压和电流规格,以便为其内核逻辑、I/O电路、辅助逻辑、收发器和存储器供电。这些供电轨可能需要按特定的顺序开启和关闭,以避免损坏FPGA。负载点(POL)稳压器将电路板较高的输入电源电压降低为FPGA所需的多个输入电压。当功率转换效率至关重要时,开关稳压器可用作POL稳压器,而线性稳压器(例如低压差(LDO)稳压器)则用于噪声敏感型电路,例如PLL和收发器。 典型的电路板输入电压为5 V、12 V、24 V和48 V,FPGA的输入电压范围则为低于1 V至约3 V。对于高输入电压(12 V、24 V、48 V),可能需要使用额外的降压稳压器来生成馈送给POL稳压器的中间总线电压(参见图1)。在FPGA供电轨中,核电压需要最低的电压(约等于或低于1 V)和最高的精度(±3%或更优),电流电平约为几十安培,具体取决于FPGA资源的利用率。为了防止出现逻辑错误,不仅在直流条件下,而且在FPGA电流瞬态期间,电压波动都需要按照FPGA供电轨公差规格要求控制在几十毫伏之内。电源的直流精度越差,在瞬态条件下维持可用电源电压所需的旁路电容就越多。例如,假设采用±3%内核电压公差规格。使用精度为±1%的直流电源时,对应的瞬态公差为±2%。直流电源的精度较低(±2%)时,瞬态公差会更严格(±1%),相比之前的示例,需要更多的旁路电容。 图1.一种可行的FPGA电源树设计:高压输入电源(例如12 V、24 V或48 V)降至中间总线电压, 然后馈送给为FPGA供电的POL稳压器。 在最终进行设计变更、在另一种应用中重用设计、实施板裕量测试,以及在开发或现场运行期间动态优化系统功耗时,都需要基于默认的设定点调整或微调FPGA电源电压电平。在这种情况下,在电源反馈网络中采用多个不同电阻并联不是最快或最可行的解决方案。实现电压微调的一种方法是使用数模转换器(DAC)来驱动稳压器的反馈网络(参见图2)。需要为微调程序编写软件代码,从模数转换器(ADC)获取电源电压测量数据,以计算正确的DAC代码,然后缓慢将DAC输出调节至计算出的数字码,逐步稳定提高电源电压,在不会产生毛刺或过冲的情况下达到目标电压电平。这种微调程序需要重复实施,以确保不会因为组件随时间或温度变化出现偏移,进而导致电源偏离目标电压。 图2.使用DAC和ADC将POL电源输出电压微调至目标电压。 监测FPGA电源电压、电流和故障条件,对于理解系统在不同场景下的健康状况和功耗至关重要,这是因为,FPGA是整个电子系统的核心。将这种理解和微调功能结合起来,可以避免为最坏的情况设计电源,从而节省成本和功率。此外,潜在的系统故障可能表现为FPGA功耗异常,从而在电路板或系统发生故障之前让主机控制器或维修人员及早发现问题。电压监测需要使用ADC,而电流监测还需要使用电平偏移电路将高电平电流检测电压转换为接地基准电压;例如,如图3所示,通过使用跨导放大器。 图3.用于监测POL电源输出电压、电流和功率的一种分立式电路可行方案。 虽然我们还未探讨故障管理,但看了这一长串要求之后,您可能已头晕脑胀。当POL输出出现欠压或过压时,即在有效的电压窗口范围外时,会出现什么情况?应该只关闭故障电源?还是应该也关闭其他电源?如何消除导致系统板关断的故障? 我们可以看到,FPGA的电源系统管理很快会变得非常复杂,从而分散对基本的FPGA应用的关注。注意,FPGA的电源树只是数字处理电路板上整个电源系统的一部分。上述大部分要求也适用于其他数字器件,例如ASIC、DSP、GPU、SoC和微处理器。我们所需的是一个简单、可扩展且灵活的电源系统管理解决方案。 数字电源系统管理 ADI公司提供数字电源系统管理(DPSM)器件产品,以满足数字处理电路板中复杂的电源系统要求。DPSM器件可提供或不提供集成DC/DC转换,以替代POL稳压器,或者与现有的POL稳压器配合使用。电源系统管理器不提供DC/DC转换,对于由开关或LDO稳压器构成的现有模拟电源系统,可增加数字监测和控制功能。使用单个器件(例如LTC2980),可对16个POL稳压器实施微调、裕量调节、监测、时序控制、电源监控、故障记录和故障管理。可以混合和匹配使用不同通道数器件(2、4、8或16个通道),以管理数百个供电轨。双通道LTC2972 是该系列的最新产品,它提供了一种简单的入门解决方案,可监测和控制此类电源系统中两个最重要的供电轨; 例如,FPGA内核供电轨和辅助供电轨。 双通道电源系统管理器 LTC2972是一款双通道电源系统管理器,为FPGA、ASIC和处理器电路板增加了基于软件的全面监测、控制和黑盒故障记录功能,可加快产品上市,提升系统可靠性,以及优化电路板功耗(图4)。使用出色的16位ADC对POL电源输出电压实施微调、裕量调节和监测,总非调整误差(TUE)为0.25%,以提升电路板的功率和长期性能。因为能够严格控制POL输出电压,实现±0.25%的精度,所以在负载瞬态(在±3% FPGA供电轨规格下,精度为±2.75%)期间有很大的裕量,从而大幅减少所需的旁路电容并释放电路板空间。电源输出电流使用检测电阻、电感DCR,或者电源的IMON输出进行测量。电压和电流测量值在内部进行乘法运算,提供POL输出功率读数。 图4.LTC2972是一款双通道电源系统管理器,提供中间总线电源监测和POL输出功率监测 LTC2972内置电源时序控制、监控和EEPROM故障记录功能。通过将时间延迟写入内部寄存器或使用级联电源良好信号来完成时序控制。当POL输入电压、输出电压和温度以数字方式偏离可设置阈值上下限时,专用快速比较器发出故障信号。故障触发EEPROM黑盒记录,简化故障分析,并提供有关未来系统改进的相关见解。第一个故障命令提供关于系统故障原因的更多信息。故障信息可灵活传播到其他电源或其他DPSM器件。 LTC2972支持对POL转换器的中间总线输入实施电压、电流、功率和电能监控。为了管理、优化和降低电路板功耗,进而降低服务器和数据中心的散热和公用设施成本,必须监测电路板功率和电能使用状况。LTC2972通过PMBus接口(与电源管理和转换器件通信的行业标准)方便地提供输出电能(单位:焦耳)和运行时间,以减少繁重的轮询和计算任务。将LTC2972与POL输出电压、电流和功率这些数字测量值结合使用,就可以长期监测电源系统的转换效率。 每个通道都配有可编程电源良好引脚或通用输入/输出(GPIO)引脚。LTC2972与其他电源系统管理器连接,可实现两个以上供电轨的时序和故障管理。使用通过I2C/SMBus接口传输的兼容PMBus命令,可对电源系统实施灵活编程和数据回读。配置在支持ADI所有DPSM产品的LTpowerPlay®开发环境下完成(参见图5)。采用所需的应用特定配置进行内部EEPROM编程后,就无需为实现自动运行而编写软件代码。 图5.适用于DPSM产品的LTpowerPlay开发环境:无需为实现自动运行而编写代码。 结论 FPGA广泛应用于各种电子系统,甚至取代ASIC,但其周围具有复杂的电源系统。ADI公司提供多种DPSM产品来帮助简化电源系统管理。如果您以前从未用过DPSM,您可以试试LTC2972,这是一款入门级产品,能够解决数字处理电路板上复杂的电源系统问题。

    时间:2021-04-27 关键词: 电源系统 ADI FPGA

  • 安路科技助力口罩机换芯,工业控制FPGA国产替代加速

    2020年初,一场突如其来的疫情彻底打碎了春节的喜庆气氛,这场疫情使得今年成为充满机遇与挑战的一年。疫情也让鲜有人问津的口罩“洛阳纸贵”,作为高科技产品的全自动口罩机一时间更是供不应求。今年2月份,中国石化发出“英雄帖”《我有熔喷布,谁有口罩机》,暗指口罩机“一机难求”。出现这种现象的主要原因是海外疫情肆虐,原本主要依赖进口的口罩机零部件出现供应链不顺畅,产能不足矛盾凸显,其中工业级FPGA芯片供应紧张导致许多口罩机订单不得不延期交付。 自然而然,口罩机的零部件缺口转而寄希望于国产器件。安路科技,在此十万火急的危机时刻,调动公司上下所有的力量鼎力支持口罩机的生产,为国内外“口罩荒”问题做出了重大的贡献。当前国内新上市的80%口罩机都采用了安路的FPGA器件。 面临口罩荒,而口罩机供应链却临时中断 在海内外疫情肆虐期间,口罩资源全球稀缺。从需求端来看,海外疫情滞后于中国,疫情严重地区口罩脱销。从供给端来看,中国正成为解决“口罩荒”的最大希望,我国是世界最大的口罩生产和出口国,年产量约占全球50%,为满足国内市场需求和增加对外出口,国内还需持续增加口罩产能。 目前市场上供应的全自动口罩机,一般分为平面口罩机、杯型口罩机、折叠口罩机、异型口罩机等。现代化自动口罩机集进料、成型、热合成、计数等功能于一体,需要集成网络管理的伺服系统。但无论何种类型的口罩机,都离不开FPGA芯片。 在此简单科普下,口罩机的核心是自动化控制器,控制器的核心是PLC和伺服驱动器组成,而FPGA器件是PLC和伺服驱动器的核心部件。在PLC中FPGA作为控制核心,负责IO管理和总线通信功能;在伺服驱动器,FPGA负责快速运动控制算法和总线通信功能。 工业自动化控制器对长期工作可靠性要求非常高,之前关键零部件大多依赖进口,然而在这紧要关头,国外疫情加重,多种进口零部件面临交货期长、运输困难等问题,FPGA正是其中关键的一个缺少部件,致使国内口罩机生产商新订单交付周期拉长到6个月,完全无法满足口罩机暴增的紧急需求。 供应链的突然中断,也导致口罩机价格高涨,甚至被夸大为“口罩机就是印钞机”。为拿到一台口罩机现货,不少企业主甚至蹲在口罩机厂门口等出货。一些上市公司也改造生产线,紧急转产口罩机,如比亚迪和五菱等。彼时,供应链问题导致的口罩机难以生产已成为众多口罩机生产商的刺痛。 2-3周实现零部件全系列更换国产!口罩机成功交付 在口罩机最稀缺的那段时间,国内众多口罩机生产商加班加点,满负荷复工复产,同时也在积极寻求国产器件的帮助。在口罩机关键核心部件FPGA这一环上,上海安路提供了重要支持,为抗疫做出了不可磨灭的贡献。 借用华为任总“关于CFO定位的讲话”中的一句话:“有人说我要休息,那你就把官位让给别人吧,有的是人愿意冲锋”。安路一直都是那个冲锋陷阵的人!在深夜接到某国内口罩机生产商采购部门求助的电话时,安路销售部门连夜赶赴现场,积极协同库存和生产计划,经过审慎、快速的评估后,当天便做出了短期急单和中期物料支持方案计划。 次日上午,安路高层在做好防护措施的情况下,奔赴客户现场进行计划细节洽谈,在紧张愉快的交流结束后,双方一致决定将进口的各种领先的国外FPGA不同系列全线换为安路的全系列器件。 做出这个决定对于一个长期采用进口零部件的口罩机厂商来说,难度很大。毕竟核心器件使用国产替换,没有时间做小批量试验,直接更换量产,在过去这是个难以想象的问题,会不会出问题?国产器件是否可靠?即便安路已经在国内工控领域大规模量产两三年了,客户内心还是会忐忑不安。安路质量控制部门及时提供了大量的可靠性试验数据、严格的质量管控体系和完备的技术支持文档之后,客户才慢慢放下疑虑。 当双方高层确定好全面采用安路芯片后,口罩机厂要求两周内完成替换物料的技术验证。这项工作量巨大,客户的研发部门全力启动,安路科技几位副总带着各自团队,周末赶赴现场支持,协助客户进行物料替换的细节。 双方的合作采用的是一种火线救援的模式。比如,在客户替换过程中,遇到一起芯片适配性问题,批量生产后发现有个引脚上电时序异常,这可能会影响后续运动控制器功能,因此紧急求助安路,要求快速解决,否则可能会导致生产线停产。安路迅速组织技术专家进行异常分析,同时技术支持总监临时买机票紧急奔赴工厂查看问题,在双方的共同努力下,在安路接到问题报告的当天晚上10点便定位到问题所在,次日早晨给出了解决方案,使得产线快速恢复正常,至此,双方悬着的心终于放下。 在整个合作过程中,安路都让客户体验了安路风格的无微不至的支持和及时响应的速度,精诚所至,金石为开。在大家的共同艰苦奋斗下,接下来的2-3周时间内,客户顺利完成了产线彻底采用安路FPGA器件的部署,口罩机也得以顺利大量生产。 安路所提供的口罩机方案具有无以伦比的精确性和可靠性,再一次演示了中国制造之威。如今国内80%的口罩产能都有安路的器件在背后默默支持。 此次,安路助力客户口罩机成功生产,不仅解决了口罩稀缺的问题,还再次展示了国产FPGA也能在工业核心领域可靠地、大规模地应用,具有行业标杆的意义。 目前中国IC厂商在FPGA这个细分领域和国外巨头的差距远远比其他领域要大,其中最大的原因就是FPGA技术门槛非常高,核心技术只掌握在极少数公司手上。目前国产FPGA已进入部分主流行业,实现了中小容量器件可替代大部分进口器件。据统计,国产FPGA应用最为广泛的是通信行业,占比为35%,第二大应用市场就是工业控制,占比为28%。 相比通信客户的集中,工业领域的FPGA应用分散,对产品的可靠性和质量要求同样非常严格。安路FPGA在过去两年,在工业控制领域经历了从细分应用与边缘应用切入到主力核心应用的摸索前进过程,已经积累了足够的自信来全面支撑更为广阔的工控应用。 此次口罩机成功国产化案例,也凸显出国内企业在服务及时性和质量保障性上的优势;同时国内企业还拥有丰富的供应链资源,可以很好的解决零部件货源问题;最重要的是,我们欣喜地看到国内工业客户加快了国产芯片的导入步伐,为中国芯片设计业的健康发展提供了市场机会。

    时间:2021-04-18 关键词: 工业控制 FPGA

  • 安路科技荣获“2020年度硬核中国芯·最佳国产FPGA产品奖 ”

    2020年11月3日,由芯师爷主办的“2020年度硬核中国芯领袖峰会暨评选颁奖盛典”圆满落幕。在“2020年硬核中国芯”评选中,安路科技EAGLE系列FPGA凭借其卓越的产品性能以及优异的市场表现,一举斩获“2020年度最佳国产FPGA产品奖 ”。 “2020 硬核中国芯”评选活动获得近150家半导体企业积极参评;评选期间共计40万电子工程师、近40位业内专家评委参与评分,力争评选出2020年最具代表性的中国芯片企业和产品,以表彰国内优秀半导体企业,激励国产企业加大IC产品与技术研发力度。 EAGLE系列 FPGA: EAGLE系列FPGA芯片针对客户需求做了诸多行业领先的创新设计,实现了中国FPGA器件从跟随到创新的突破。 EAGLE-20器件集成了多通道12bit 1Msps ADC,集成专用电源管理功能,提供可靠性电源监控方案;集成4路PLL,灵活的带宽配置,支持SSC扩频时钟输入功能;集成64bit芯片DNA,确保用户代码安全。 相比同等规模国外器件,EAGLE将提供给客户更好的性价比、更多逻辑资源、更多的灵活性。同时创新提供多种集成SDRAM /DDR等不同存储器的SIP FPGA器件,帮助用户提高系统性能和集成度,降低用户成本。 EAGLE-20目前已成功突破国内工业市场,在2020疫情中支持国内80%口罩机的生产。此外,还能广泛应用在工业控制、显示控制、通信接口等多个领域。

    时间:2021-04-18 关键词: 中国芯 FPGA

  • 快来,为你的FPGA应用设计一款优秀的电源管理解决方案吧~

    免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

    时间:2021-04-02 关键词: 电源设计 FPGA

  • Achronix宣布其Speedcore eFPGA IP核出货量超千万个

    中国深圳市,2021年3月 — Achronix日前宣布:其Speedcore嵌入式FPGA(eFPGA)硅知识产权(IP)内核的出货量已经超过1000万个,这些eFPGA IP产品搭载于多家客户的不同ASIC中。Achronix是唯一同时提供高性能独立FPGA芯片和eFPGA IP的高端FPGA供应商。 Speedcore eFPGA IP已针对5G无线基础设施、网络设备、计算性存储和汽车驾驶员辅助系统等应用进行了优化。 Achronix Speedcore eFPGA IP使客户公司能够将FPGA功能集成到其ASIC或SoC器件中。 Speedcore eFPGA具有可变换的架构,它可让客户根据需求去定义eFPGA IP的FPGA逻辑阵列、存储器和DSP处理能力。与独立FPGA芯片解决方案相比,eFPGA可以将器件成本降低90%,功耗降低75%,同时将接口带宽提高10倍,并将延迟降低100倍。通过将灵活的eFPGA IP内核嵌入到ASIC设计中,可延长产品生命周期,快速开发产品的更新版本,并给ASIC带来了灵活的、可修改的功能以支持不断变化的算法。 Achronix销售与市场营销副总裁Steve Mensor表示:“Speedcore eFPGA IP已经在需要集成灵活性并支持新兴AI工作负载的高性能数据加速应用中得到广泛的采用,搭载该eFPGA IP核的芯片产品的交付量已经超过1000万颗,这表明了eFPGA IP技术的快速增长以及Achronix的Speedcore eFPGA IP解决方案的高质量。” 客户在其芯片开发过程中可采用类似于标准ASIC IP模块的设计过程来引入Speedcore eFPGA IP。Achronix已优化了支持客户的开发流程,以快速交付eFPGA设计文件,并可以帮助客户去选择ASIC设计公司,以进一步加快ASIC交付。Speedcore eFPGA IP设计人员使用与独立FPGA器件设计相同的Achronix ACE设计工具,从而缩短了上市时间,并支持使用独立Speedster7t FPGA器件进行早期原型开发。 2021年1月,Achronix与ACE Convergence Acquisition Corp.(纳斯达克股票代码:ACEV)达成了最终合并协议,使得Achronix在纳斯达克上市,预计该交易将于2021年上半年完成。 产品供货情况 目前,Speedcore eFPGA IP已可以用在台积电(TSMC)的多个制程中,包括16FFC、12FFC、N7以及N5等。Achronix还可以根据客户要求,将Speedcore eFPGA移植到其他工艺节点上。

    时间:2021-03-25 关键词: IP Achronix FPGA

  • 莱迪思Propel帮助设计人员快速创建基于处理器的系统

    莱迪思Propel帮助设计人员快速创建基于处理器的系统

    几乎所有的电子设计师和嵌入式系统开发人员都听过现场可编程门阵列(FPGA)。对于实际的FPGA器件,设计人员和开发人员都知道它拥有可编程架构,能够对其进行配置来而执行想要的功能,但他们的了解可能仅限于此。同样,当涉及创建一个可以在FPGA上实现的设计时,他们可能听过硬件描述语言(HDL)和寄存器转换级电路(RTL)之类的术语,但可能并未充分理解它们的含义。 与Verilog或VHDL相似,HDL能让FPGA设计人员描述设计意图,正如软件开发人员使用C++或者C++等编程语言一样。理解HDL的方式之一就是它可以用来描述同时发生的事物,这也是现实世界中硬件工作的方式。相比之下,软件编程语言通常用于描述顺序发生的事。 同时,RTL是常用于逻辑综合引擎输入的抽象级电路。该工具将RTL转换到逻辑元件和互连网络,然后在FPGA的可编程逻辑内实现。逻辑综合引擎可以比作软件开发者的编译器,后者采用高级程序作为输入,并将其转换为由处理器执行的机器代码。 FPGA的可编程结构可用于构建硬件加速器,以低功耗执行数据处理任务。可编程结构经过配置后可创建一个或多个更适合处理决策任务的软核处理器,这些处理器还可以控制硬件加速器,包括向其提供数据并根据结果采取相应措施。 RISC-V就是这样一种处理器,它是一种开源指令集架构(ISA),可以通过开源许可免费获得。RISC-V开源硬件概念的创造者受到Linux开源软件成功的启发。RISC-V的一大优势是在各类设计实现中都有出色的软件兼容性,并且目前这些处理器的使用急剧增长。 然而,对于想要使用这种处理器的非FPGA设计人员而言,问题在于他们缺乏有关FPGA设计语言、工具和流程的专业知识。为了解决这个问题,低功耗可编程FPGA的领先供应商莱迪思半导体开发了名为LatTIcePropel™的工具,这是一款基于图形用户界面(GUI)的设计环境,任何用户(无论是否具有FPGA专业知识)都能使用它以拖放的方式快速设计基于RISC-V处理器的系统。 Propel输出的是RTL文件,可以发送到综合引擎,生成可载入FPGA的配置文件。之后软件开发人员可以在基于FPGA的RISC-V设计实现上运行他们的RISC-V可执行文件,正如在其他任何RISC-V处理器上运行一样。莱迪思为其FPGA客户免费提供RISC-VIP核。 基于FPGA的解决方案 数据处理要求有合适的计算引擎。开发者拥有诸多不同选择,包括微处理器(MPU)、微控制器(MCU)、图形处理器(GPU)、FPGA和SoC等器件。 MPU和MCU在执行决策任务时效率很高,但是在实现原始数据处理算法时,无论是处理时间还是功耗都不太理想。SoC能以最低的功耗实现最高性能,但缺点是开发起来价格昂贵、耗费资源且十分耗时,并且在此类芯片架构中实现的算法基本上都是固定无法更改的,而系统采用的协议和标准会不断变化,因此会带来很多问题。 某些数据处理任务(包括许多AI/ML算法)非常适合并行处理。FPGA的可编程架构(图1a)经配置可实现硬件加速器(HA)功能,以大规模并行方式执行任务(图1b),从而显著提高性能,同时降低功耗。 许多情况下还需要数据协处理功能,使用中央处理器(CPU)来强化硬件加速器,处理器可以执行高级决策和控制功能。不同于直接在芯片中实现的硬核CPU,FPGA的可编程架构能够实现软核CPU以及相关的总线结构(地址、数据、控制)和任何所需的外设IP功能(图1c)。 图1.结构化总线的方法广泛适用于各类应用,包括嵌入式视觉、安防和人工智能。 需要注意的是,根据FPGA器件和用户的要求,额外的可编程逻辑功能和外围通信功能(例如USB、MIPI、I2C、SPI、CAN和UART)可以通过硬核和/或软核实现。文章篇幅有限此处不作赘述。 使用软核CPU有诸多优点,包括能够配置处理器的操作及许多可选功能,如动态内存访问(DMA)控制器,从而对其精确调整,高效地满足目标应用的要求。此外,如有需要,可以配置可编程结构实现其他外设IP功能。如在人工智能应用中,可以使用可编程逻辑资源来创建简单的人工神经网络,用于推理之类的任务。 RISC-V 如前所述,RISC-V是基于已有的精简指令集计算机(RISC)原则的开源指令集架构,可通过开源许可获得。此外,许多公司目前提供支持RISC-V的RISC-V硬核或开源操作系统,并且几种主流的软件工具链均支持该指令集。 RISC-V的模块化设计包括基础指令集和其他的扩展指令集。在行业、技术界和教育机构的共同努力下,两者已得到长足的发展。基础指令集规定了指令(及其编码)、控制流、寄存器(及其大小)、存储器和寻址、逻辑(即整数)操作以及辅助功能。仅基础指令集就能实现具有全面软件支持(包括通用编译器)的通用计算机。 还可以通过可选拓展指令集实现额外功能,从而让设计人员灵活选择其应用所需的功能。RISC-V定义了许多扩展指令集,包括A(原子)、F(单精度浮点)、D(双精度浮点)、Q(四精度浮点)和C(压缩的16位指令以减少代码尺寸,用于存储空间有限的系统)。上述指令集均可灵活选择。 图2.莱迪思是首个支持RISC-V的基于闪存和SRAM的FPGA供应商。 与作为专用处理器的硬核实现相比,基于FPGA的软核RISC-V拥有的巨大优势在于FPGA可重新配置的巨大潜力能够满足各种扩展需求。 莱迪思RISC-V软核IP套件拥有32位RISC-V处理器核以及可选的定时器和可编程中断控制器(PIC)子模块。该CPU核支持RV32I指令集、外部中断和符合JTAGIEEE1149.1规范的调试。 定时器子模块是一个64位实时计数器,它将实时寄存器与另一个寄存器进行比较以触发定时器中断。PIC子模块最多将八个外部中断输入聚合为一个外部中断。处理器核通过使用行业标准的32位AHB-L总线接口访问子模块寄存器。 莱迪思Propel 许多嵌入式系统的设计人员都对使用FPGA很感兴趣,但是一想到要使用传统的FPGA设计工具和HDL就望而却步。为了解决这一问题,莱迪思Propel采用了基于图形用户界面(GUI)的设计环境,任何用户(无论是否具有FPGA专业知识)都能使用其拖放的设计方式快速构建和配置基于RISC-V处理器的设计。 Propel输出的是使用VerilogHDL语言的RTL文件,可以将其发送到综合引擎,生成可载入FPGA的配置文件。该配置文件可用于莱迪思CrossLink™-NX(面向嵌入式视觉应用)、Certus™-NX(通用FPGA)以及MachXO3D™和Mach™-NXFPGA(安全系统控制)系列产品。FPGA配置完成后,软件开发人员可以在基于FPGA的RISC-V设计实现上运行他们的RISC-V可执行文件,正如在其他任何RISC-V处理器上运行一样。 图3.Propel界面直观、易于使用、功能强大。 除了拖放IP实例化,PropelBuilder还能自动进行引脚连接,通过向导配置和设置参数以及采用按构造逐步校正进行IP集成。 其次是莱迪思PropelSDK(软件开发套件),可提供无缝的软件开发环境。它拥有行业标准的集成开发环境(IDE)和工具链。SDK还为PropelBuilder定义的系统提供软件/硬件调试功能以及软件库和板级支持包(BSP)。 需要注意的重要一点是,Propel可以很好地对接下游工具,并且它也是一个独立的程序,且其大小仅为0.5GB,可以快速轻松地下载和安装。同样令人感兴趣的是,Propel的所有命令都可以用Tcl编写,从而提高了设计效率并将其快速集成到用户自己的设计环境中。 图4.无论是简单的“HelloWorld”应用还是复杂的嵌入式控制和数据处理系统,Propel都能让用户快速完成设计 对于硬件设计,Propel是那些需要FPGA优势但缺乏FPGA硬件设计经验的团队的理想选择。此外,如果团队成员确实具有FPGA设计经验,那么他们还可以根据需要对设计做更为精确的控制。对于软件设计,Propel提供行业标准的C/C++开发环境。软件开发人员似乎更多地使用现成的微控制器。 设计人员可以使用Propel在CrossLink-NX、Certus-NX和Mach-NXFPGA中快速轻松地生成基于RISC-V软软核的处理器系统,从而提供复杂的视频处理、系统控制和系统安全功能,其延迟远远低于通过外部独立处理器实现的设计。 总结 除了拥有以低功耗执行高性能数据处理任务的逻辑功能和硬件加速器外,FPGA内部的可编程架构还可用于实现一个或多个更适合决策任务的软核处理器,以及用于诸如硬件加速器之类的控制功能,包括向它们提供数据并根据结果采取措施。 RISC-V就是这样一种处理器,它是一种开源指令集架构(ISA),可以通过开源许可免费获得。莱迪思是首个支持RISC-V以及为其FPGA客户免费提供RISC-VIP核的基于闪存和SRAM的FPGA供应商。 对于想要使用这种处理器的非FPGA设计人员而言,问题在于他们缺乏有关FPGA设计语言、工具和流程的专业知识。为了解决这个问题,莱迪思提供了Propel来简化设计流程,让开发人员能够快速设计基于RISC-V处理器的系统。

    时间:2021-03-24 关键词: ARM 视频采集处理系统 FPGA

  • 用于先进视频处理解决方案的现场可编程逻辑门阵列(FPGA)产品与技术

    用于先进视频处理解决方案的现场可编程逻辑门阵列(FPGA)产品与技术

    部署先进的网络基础设施不仅可以解决数据传输量激增的问题,而且还能在诸如边缘、核心和云端等网络的不同部分进行数据处理。不足为奇的是大部分数据要么是视频,要么是图像,并且这些数据正以指数级速度增长,并将在未来几年内保持持续增长。因此,需要更多的计算资源来应对数据的大量增长(如图1所示)。 由于应用的类型多种多样,因此在数据中心中存在着各种各样的视频或图像处理工作负载。基于专用集成电路(ASIC)的解决方案通常可提供更高的性能,但是无法进行升级以支持未来的算法;基于中央处理器(CPU)的解决方案要比其更加灵活,但其时钟主频已经固定,而且已不再可能大幅提升处理器性能;图形处理器(GPU)是提供视频/图像处理解决方案的另一种候选方案,但其功耗明显高于基于现场可编程逻辑门阵列(FPGA)的解决方案。FPGA在视频处理和压缩领域内,是一种具有吸引力的选择,因为它们提供了实现创新视频处理算法所需的、平衡的资源。此外,FPGA提供了一种灵活的解决方案,可以缩短产品上市时间,并能在解决方案的整个生命周期内实现持续升级和部署新的功能。 表1:互联网用户和数据流的增长 来源:思科(Cisco)公司 图1:全球互联网视频数据流(来源:思科) 33% CAGR 2017-2022:2017-2022年间的复合年增长率33% Exabytes per Month:每月的Exabytes数量 基于FPGA的视频解决方案的示例 本白皮书将介绍三种典型的视频应用,以展示基于FPGA的解决方案在广播行业中的优势。这些优势包括缩短处理时间、降低功耗,以及为服务提供商和终端用户节省成本。 本白皮书将介绍基于FPGA的解决方案在以下三种应用中的优势: · 视频流 · 使用视频编辑软件来创作视频内容 · 人工智能(AI)和深度学习–图像识别是该应用的主要部分,其需要高性能的计算资源 视频流传送 为了使媒体流变得快速和高效,对视频进行转码的需求已急剧增加。目前大多数产品都采用了一种基于软件的方法,但该方法无法满足高带宽、广播级视频流的处理要求。视频流和/或云服务提供商面临着由基于软件的解决方案所带来的低吞吐量、高功耗、长延迟和占用空间大等挑战。根据思科的一份题为《思科可视网络指数:预测与趋势——2017-2022年白皮书》的报告,视频流数据流量正在增加,并且到2022年时将占据整个互联网数据流的82%。在包括视频点播、流媒体直播和视频监控等所有应用中,视频数据流量将逐年稳步增长。 诸如Netflix和YouTube等视频流应用的兴起推动了对视频转码的需求。传统广播和视频流媒体之间最显著的区别在于内容量和频道数。为了支持从电脑到智能手机等各种接收设备,内容必须被转码成不同的分辨率和压缩格式。因此,视频流将消耗大量的计算资源。 图2:视频转码工作流程 Acquisition:获取 content creator dramatically growing:内容创作者的数量在急剧增加 Editing:编辑 Uploading:上传 Streaming Company:流媒体公司 Cloud Service Provider:云服务提供商 Transcoding:转码 different compression:不同的压缩率 different resolution:不同的分辨率 different bitrates:不同的比特率 Distribution:发布 iPhone:iPhone手机 Andriod:安卓手机 PC Browser:电脑浏览器 流媒体和云服务提供商需要一种解决方案来缓解对计算需求的压力。Achronix Speedster®7t系列FPGA器件中搭载了IBEX这种最先进的视频处理半导体知识产权(IP)能够解决这一重大问题。这种基于FPGA的解决方案可以提供高吞吐量的、低功耗的和占用空间小的系统,而且无需牺牲灵活性。尽管基于ASIC的解决方案功能强大,但只能支持在设计时定义的功能集,而不能支持现场更新。 视频内容创作 在过去,高清分辨率(HD)格式在视频内容创作中占据主导地位。最近,标准分辨率已被提升至4K,甚至到8K,这使得视频编码或解码面临挑战。用于这些较高分辨率的压缩格式主要有Apple ProRes、Avid DNx和SONY XAVC。由于这些压缩格式是专有的,因此ASIC或GPU并不能原生支持这些格式,而且CPU提供的性能也不佳。因此,在较高分辨率下创作视频内容时,FPGA是最佳的解决方案。 图3:视频编辑工作流程 Import:导入 Editing Software:编辑软件 Import(Decode):导入(解码) Export(Encode):导出(编码) Remote Edit:远程编辑 Export:导出 在新的趋势下,远程后期制作的概念正变得越来越普遍。然而,现有的电脑并没有足够的能力来实时处理高分辨率的内容(例如8K)。因此,编辑人员开始借助云基础设施来获得更好的计算性能。此外,由于需要保持社交距离,新冠肺炎疫情也加速了这一趋势。基于云和FPGA的解决方案为编辑人员提供了巨大的好处。Achronix Speedster7t系列FPGA器件进行架构创新,例如二维片上网络(NoC),使其特别适合于加速编码和解码算法。 人工智能与深度学习 人工智能、机器学习和深度学习是众所周知的领域,它们在过去几年中得到了迅速的发展。除了这些领域,图像识别也逐渐成为一个全新的重要领域,这得益于人工智能/机器学习(AI / ML)的创新。例如,先进驾驶员辅助系统(ADAS)使用深度学习算法来处理捕获的图像。安装在车上的行车记录仪使用H.264压缩技术记录视频,然后将视频流转码为诸如JPEG或PNG等合适的图像格式,以用于深度学习图像识别。根据应用场景,可以同时完成丢帧、更改分辨率或其他图像处理任务。 在零售业的安全摄像头或物流业的包裹分拣中也有类似的应用案例,其数据流与上述示例相同 —— 这些应用中的摄像头使用H.264或H.265等压缩比相对较高的压缩格式记录视频,然后将编码的视频流传输到云端或数据中心。在云端,视频流由原始格式转码为适合深度学习的格式,将视频文件转换为图像资料库。 图4:典型的深度学习图像数据流 Transcoding:转码 Different compression:不同的压缩率 Video=Image:视频=图像 AI:人工智能 Deep Learning:深度学习 Image Recognition:图像识别 从历史来看,FPGA一直擅长将电影转码为图像。此外,使用FPGA中的深度学习算法对图像预先进行预处理,不仅可以提高吞吐量,而且还能减少系统级的数据事务量。Achronix Speedster7t的创新架构及其带有的专用机器学习处理器(MLP),使之成为实现定制的和既定的深度学习算法的理想选择。 FPGA代表性视频用例的性能 我们分别使用FPGA和CPU来实现上述三个典型应用案例,并对一些关键指标进行对比,如下表所示。 表2:FPGA与CPU的性能比较 表注 ↑ FPGA提供更佳的性能。 ↔ FPGA和CPU提供同等的性能,但FPGA是卸载CPU负担的首选解决方案。 ↓ FPGA和CPU提供同等的性能,但CPU是首选解决方案。 视频流传输 在视频流传输应用中,常用的压缩格式是H.264或H.265,因为终端(接收端)设备原生支持这些格式。诸如位深或色度和分辨率等参数通常为8位、4:2:0和1920×1080或1280×720。在解码器方面,基于FPGA的实现比基于CPU的系统提供更高的吞吐量。在数据层面,FPGA效率更高,因为如果将CPU用于纯数据处理之外的其他任何与数据相关的任务时,它通常都没有得到充分的利用。然而在编码器方面,硬化的CPU编码器内核是专门针对这些典型参数而设计的,并提供了足够的性能。 为了获得两全其美的效果,将FPGA和CPU解决方案相结合,并由FPGA来处理繁重的工作负载是理想的解决方案。FPGA上的高效功能可以被移植到可重新配置的硬件上去运行。例如,运动估计算法是一种适合FPGA的工作负载。另一方面,CPU更适合处理比特率控制算法。 一些服务提供商要求在软件解决方案中实现与x264相同的视频质量和流媒体格式。FPGA和CPU的组合解决方案可以有效地满足这些要求。使用这种方法,每种功能都被合理地分配,较繁重的处理负载被转移到FPGA,与纯软件解决方案相比,这种方法能提供类似或更好的视频质量和流媒体格式,而且编码时间显著减少。 下表列出了使用这种方法的x264评测结果,第一行显示了在FPGA上的运动估计函数(x264_8_me_search_erf)的结果。运动估计是CPU最繁重的工作负载之一,占据总处理时间的21.2278%。 表3:x264评测结果(通过评测软件获得) 视频内容创作 用于内容创作的视频编辑软件支持多种压缩格式,其中包括Apple ProRes、Avid DNx、Sony XAVC和Panasonic AVC-Intra,这些格式都带有基于内帧结构的专有压缩方案。此外,还有一些支持RAW模式的格式,诸如Apple ProRes RAW、RED RAW、ARRI RAW和Blackmagic RAW,这些格式都得到了摄像机制造商的支持。由于这些格式(以及新型的和不断出现的格式)具有不断变化的特性,因此基于ASIC的解决方案并不实用,而需要基于FPGA的解决方案。 在过去,主要的分辨率为HD/2K,CPU具有足够的速度来处理这些视频流。但是,随着4K或8K分辨率变得越来越普遍,仅靠CPU加软件的解决方案不能够提供实时处理。另一方面,基于FPGA的解决方案可以轻松地实时处理4K和8k分辨率视频。 内部基准测试表明,即使与中级FPGA芯片相比,基于FPGA解决方案的处理速度也比最新的CPU加软件解决方案快五倍。虽然GPU可以提供与FPGA类似的性能,但其功耗更高、解决方案占用空间更大。 图5:仅使用CPU(无FPGA卸载)的处理方案性能 FPGA解决方案的好处不仅仅在于加速,而且还能降低CPU的繁忙程度。在只有CPU的解决方案中,所有CPU周期都被4K或8K内容的编码所消耗,而使用FPGA来卸载编码任务可以释放CPU周期。因此,FPGA加速器为该应用提供了最佳的解决方案,通过减少4K和8K视频制作所需的处理时间,来提高视频编辑人员的创作效率。 图6:使用FPGA卸载的CPU利用率 人工智能与深度学习 如前所述,在处理H.264/H.265解码方面,FPGA提供了与CPU相当或更高的性能。如果解码器和内帧编码器(例如JPEG或PNG)都位于同一FPGA中,那么基于FPGA的解决方案将提供比CPU更佳的性能。此外,在深度学习应用中,在将图像数据发送到深度学习处理之前,通常会进行一些图像预处理。在同一个FPGA上可以执行所有的处理,包括解码、图像处理和编码等(如图7所示),并且与CPU相比,FPGA可以提供高吞吐量、低延迟和更少的数据事务。深度学习技术在现在和未来都将被广泛应用于各个行业或领域,而基于FPGA的解决方案将助力这一发展。 图7:使用深度学习进行视频和图像处理的典型数据流 Decoding:解码 Image Processing:图像处理 Encoding:编码 针对性能而优化的Speedster7t架构 Speedster7t FPGA是专为满足最高性能的数据加速应用而设计的,该架构非常适合解决本白皮书中提到的所有应用挑战。具体而言,Achronix开发了一种全新的创新型二维片上网络,它力助在I/O带宽、外部存储带宽和片上性能之间提供一种平衡架构,以确保总体最高的吞吐量。在传统的FPGA架构中,用户需要设计电路来连接加速器,从而导致并不理想的布局和布线。现在更新的FPGA架构使用一种网络,在逻辑阵列内的处理单元与各种片上高速接口和存储器端口之间传输数据流(如图8所示)。 图8:在传统的FPGA架构中连接加速器 Status Control:状态控制 Parameters:参数 Address decode and routing:地址解码和布线 Back pressure:背压 Request arbitration:请求仲裁 Response arbitration:响应仲裁 Response back pressure:响应背压 Response routing:响应布线 Accelerator:加速器 图9:先进的FPGA减少了所需的电路数量 硬连线架构极大地改善了处理的延迟和能效,但是缺乏应对需求变化的灵活性。Speedster7t系列FPGA器件中的第一款芯片AC7t1500提供了一系列高速接口,包括可分配的(fracturable)以太网控制器(支持高达400G的速率)、PCI Gen 5端口和多达32个SerDes通道,速率高达112 Gbps。AC7t1500器件是首款部署多通道GDDR6存储器接口的FPGA,它满足了需要高速缓存海量数据的编码器的需求。除了在可编程逻辑阵列中采用的面向位的布线结构外,这些外围设备还通过一个智能二维片上网络进行互连。因此,Speedster7t FPGA是第一款能够实现上述视频处理用例的器件,该FPGA器件利用一种平衡架构,在计算密度和数据传输能力方面带来重大改进。 Speedster7t架构通过提供总带宽超过20 Tbps的多级片上网络(NoC)层级化结构,消除了由于需要将高速I/O通道直接连接到以较低时钟速率运行的可编程逻辑所造成的瓶颈。与采用FPGA逻辑阵列实现互连方式相比,NoC不仅在速率上有了大幅的提升,而且NoC还能在不消耗任何FPGA可编程资源的情况下传输大量数据。内部NoC不仅提供了更高的带宽,而且Speedster7t FPGA中的智能连接机制也简化了将数据从NoC端口传输到逻辑阵列中的任务。 这种架构可支持进一步的设计创新,例如支持上述机器学习用例的面向矩阵的算术单元。通过使用诸如深度学习或较为简单的统计方法等技术,设备可以分析数据流的模式,以观察和增强数据包在网络中的传输,并对不断变化的情况做出快速反应。概括而言,以下三项Speedster7t的架构创新为上述用例提供了更好的FPGA设计: 高速存储接口 Speedster7t架构师对存储接口的选择反映出了以太网和NoC连接可提供的巨大带宽。一种可能的方法是在一系列产品设计中采用即将推出的HBM2接口。尽管这样的接口可以提供所需的性能等级,但HBM2是一种价格昂贵的选择,这将迫使客户去等待必要的组件和集成技术进入市场。 与此不同,Speedster7t系列则采用了GDDR6标准,该标准为当今片外存储器提供了最高的性能。Speedster7t FPGA是市场上首款支持该接口的器件,每个片上GDDR6存储控制器可维持512 Gbps的带宽。在单个AC7t1500器件中最多可带有八个GDDR6控制器,因此一个Speedster7t FPGA器件可提供高达4 Tbps的总存储带宽。 对PCIe Gen 5的支持 除了以太网和存储控制器,Speedster7t FPGA上提供的对PCIe Gen 5的支持还能够与主机处理器紧密集成,以支持高性能加速器应用。PCI Gen 5控制器使其能够读取和写入存储在FPGA存储层级结构中的数据,包括许多位于逻辑阵列内的块RAM,以及连接到FPGA存储控制器的外部GDDR6和DDR4 SRAM。在FPGA逻辑阵列中实例化的数据传输控制器(例如DMA引擎),可以类似地通过PCIe Gen 5总线访问与主机处理器共享的内存。无需消耗FPGA逻辑阵列内的任何资源即可实现这种高带宽连接,并且设计时间几乎为零。用户只需启用PCIe和GDDR6接口,即可通过NoC发送事务数据。 PCIe子系统与任何GDDR6或DDR4存储接口之间的直接连接如下图10所示。 图10:无需消耗FPGA逻辑阵列即可实现PCIe和GDDR6之间的数据传输 机器学习处理器(MLP) 对于计算密集型任务,在Speedster7t FPGA上部署的Speedster7t机器学习处理器(MLP)是灵活的且可分配的算术单元。机器学习处理器是高密度乘法器阵列,带有支持多种数字格式的浮点和整数MAC模块。机器学习处理器带有集成的存储模块,可以在不使用任何FPGA资源的情况下执行操作数和存储级联功能。机器学习处理器适用于一系列矩阵数学运算,从5G无线电控制器的波束成形计算到加速深度学习应用,如视频处理系统所需的数据流模式和数据包内容分析。 图11:机器学习处理器原理框图 结论 虽然ASIC的性能通常很高,但它只支持设计时设想的功能集,不能进行现场升级;CPU是最灵活且最易于设计的,但是其时钟频率已经难以提升,其性能大幅提升的时代已经结束;随着工作负载逐年增加,CPU已无法满足需求。FPGA在性能和灵活性之间提供了良好的平衡。由于需要大量的并行处理,因此视频编码、解码和图像处理算法都更适合于用FPGA来实现。总之,基于FPGA的解决方案可以缩短上市时间,具有高度的可定制性,并且可以有效地用于实现不断发展的算法。

    时间:2021-03-22 关键词: 视频处理 MLP FPGA

  • 深入浅出带你了解FPGA架构

    深入浅出带你了解FPGA架构

    数字集成电路有两种类型:ASIC和FPGA(现场可编程门阵列)。专用集成电路(ASIC)有一个预先定义的特定硬件功能,在生产后不能重新编程。但FPGA可以在制造后可无限编程。 FPGA是一种集成电路,一种可编程芯片,它允许工程师对定制的数字逻辑进行编程,可以根据程序改变其硬件逻辑。主要目的是允许工程师重新设计和重新配置他们的芯片更快,更便宜,只要他们想要,然而世界上没有什么理想的,FPGA芯片也有局限性! FPGA最早出现于20世纪80年代,其最初的应用是允许工程师拥有通用可编程逻辑芯片。然而,这需要大量的编程才能执行简单的功能,所以工程师们尽量避免使用这些功能。但是,虽然在1980年的FPGA是一个简单的接口设备,主要针对难以用于设计复杂系统的胶水逻辑,但它成为了一个系统级集成电路,具有自己的内存块、微处理器和接口,允许设计重要的系统。 基本特点 1) 采用FPGA设计ASIC电路(专用集成电路),用户不需要投片生产,就能得到合用的芯片。 2) FPGA可做其它全定制或半定制ASIC电路的中试样片。 3) FPGA内部有丰富的触发器和I/O引脚。 4) FPGA是ASIC电路中设计周期最短、开发费用最低、风险最小的器件之一。 5) FPGA采用高速CMOS工艺,功耗低,可以与CMOS、TTL电平兼容。 6)使工程师能够精确地构建所需硬件,而不必使用标准集成电路,或花费与ASIC设计相关的时间、成本和风险。 7)与微处理器或微控制器相比,它们以更快、更节能和更简单的方式进行操作。 8)FPGA功能可以像任何其他软件代码一样更新,即使硬件已经离开了生产点。这可以帮助修复bug或添加新特性。 可以说,FPGA芯片是提高系统集成度、可靠性的最佳选择之一。FPGA是由存放在片内RAM中的程序来设置其工作状态,因此,工作时需要对片内RAM进行编程。用户可以根据不同的配置模式,采用不同的编程方式。加电时,FPGA芯片将EPROM中数据读入片内编程RAM中,配置完成后,FPGA进入工作状态。掉电后,FPGA恢复成白片,内部逻辑关系消失,因此,FPGA能够反复使用。FPGA的编程无须专用的FPGA编程器,只须用通用的EPROM、PROM编程器即可。当需要修改FPGA功能时,只需换一片EPROM即可。这样,同一片FPGA,不同的编程数据,可以产生不同的电路功能。因此,FPGA的使用非常灵活。 CPLD和FPGA CPLD是复杂可编程逻辑器件,也是一种制造后可重新编程的器件。在这个意义上,它们类似于FPGA。然而,也有显著的差异。FPGA由多个逻辑单元组成,而CPLD由较少的逻辑单元组成。由于它们的尺寸,CPLD通常更便宜和更快。然而,CPLD的功能非常有限,它们不能用于构建复杂的系统,它们通常用于简单的设计,如胶合逻辑[1]。 各个厂家叫法不尽相同。PLD(Programmable Logic Device)是可编程逻辑器件的总称,早期多EEPROM工艺,基于乘积项结构。FPGA最早由Xilinx公司发明。多为SRAM 工艺,基于查找表(Look Up Table)结构,要外挂配置用的EPROM。Xilinx把SRAM工艺,要外挂配置用的EPROM的PLD叫FPGA,把Flash工艺(类似EEPROM工艺),乘积项结构的PLD叫CPLD;Altera把自己的PLD产品:MAX系列(EEPROM工艺),FLEX/ACEX/APEX系列(SRAM工艺)都叫作CPLD,即复杂PLD(Complex PLD)。 FPGA的应用 目前FPGA的应用有很多。当我们在生产过程中不确定我们的需求,或者需求会随着时间而改变。FPGA是最快、最便宜的原型制作方法之一,但它并不局限于此。它被用于不同的目的:从灵活的设计和机器学习训练到快速交易和加密挖掘。服务器应用是FPGA设备最新的案例。 然而,它们也有缺点: 硬件成本 速度要求 FPGA的架构 FPGA由构建块组成,这些构建块就像可以用来构建系统的乐高积木。它有一个基本的逻辑构建块称为逻辑单元(CLB),但也可以包含更大的其他块,如PLL、接口、内存等。单个FPGA芯片将拥有数十万个逻辑单元。除了CLB,芯片还有输出输入模块IOB(Input Output Block)和内部连线(Interconnect)。 我们有一个查找表(LUT)作为FPGA逻辑块的核心。本质上就是一个RAM。它把数据事先写入RAM后,每当输入一个信号就等于输入一个地址进行查表,找出地址对应的内容,然后输出。构建块的输出是多路复用的。多路复用器的一个输入是LUT的直接输出,用于纯组合逻辑,如NAND, NOR, XOR或其他逻辑门。多路复用器的另一个输入是经过d型触发器并与时钟同步存储的LUT的注册输出。 一个逻辑单元本身是一个简单的电路,不能做太多的事情,但当有很多逻辑单元时,我们可以实现任何我们想要的功能。为了做到这一点,逻辑单元被连接到一个阵列的其他逻辑单元。 CLB块之间的橙色矩形是可编程开关,它可以将逻辑单元的输出路由到任何地方。这是一个非常简单的图表;事实上,比这里显示的更多的电线和互连线。 注意携带和携带引脚。每个加法器只有一位宽,而使用进位/进位引脚,可以非常快速和有效地创建大的加法器和计数器。拥有快速、专用的携带链是FPGA相对于其他可编程逻辑器件(如CPLD)的最大优势之一。 在FPGA中,时钟可以实现所有触发器,因为没有时钟的数字设计几乎不可想象。FPGA有非常高级的时钟资源,包括内置的可配置PLL(锁相环)和DLL(延迟锁环)。由于几乎所有的现代数字设计都需要多个具有不同频率和相位延迟的时钟,因此时钟管理非常重要。 FPGA也有用于读取和输出数据的输入输出块。除了标准的I/O块,大多数FPGA有以下I/O特性: 触发器输出同步I/O 微分信号 双数据速率(DDR) 序列化器和反序列化器(SERDES) 上拉、下拉和三态I/O 回转速度可调,驱动强度可调 就像内存中内置的RAM块一样,分布式RAM可以在100Kb和100Mb之间变化。最新一代的FPGA设备也有DSP乘法器片,主要用于DSP应用(数字信号处理)。大多数FPGA有其他内置块: ADC和DAC 外部存储器控制器,如DRAM, DDR, DDR2。 串行总线控制器 以太网MAC 专用的先进先出[2] 高速收发器 这些块在FPGA设备上设计为“硬块”,而不是在制造过程后由逻辑块和开关构建,因为它们通常是所有复杂系统都需要的。因为它们存在于所有的系统中,并且使用得非常频繁,所以我们希望它们能够存在以节省时间(总使用clb和开关从头开始设计它们没有意义,相反我们将它们设计为单独的可配置块,以便设计师能够更改它们的参数),但更重要的是,我们希望它们具有非常好的特性,非常高效地工作并占用更少的空间。此外,这些模块中有一些模拟部件需要手工设计,不能仅通过数字单元来构建。 如何对FPGA进行编程和配置 为了配置FPGA,我们需要对它进行编程。我们可以使用Verilog、System Verilog和VHDL等FPGA硬件描述语言进行编程。这些语言有一些区别,这里便不再赘述。使用FPGA定义硬件的工作流程如下: 每个步骤都需要一些工具集。大多数FPGA制造商都提供了具备所有所需工具的编程环境。 高手玩家 FPGA市场前景诱人,但是门槛之高在芯片行业里无出其右。全球有60多家公司先后斥资数十亿美元,前赴后继地尝试登顶FPGA高地,其中不乏英特尔、IBM、德州仪器、摩托罗拉、飞利浦、东芝、三星这样的行业巨鳄,但是最终登顶成功的只有位于美国硅谷的四家公司:Xilinx(赛灵思)、Altera、Lattice(莱迪思)、Microsemi,其中,Xilinx与Altera这两家公司共占有近90%的市场份额,专利达到6000余项之多,如此之多的技术专利构成的技术壁垒高不可攀。 Xilinx Xilinx公司成立于 1984年,Xilinx首创了现场可编程逻辑阵列(FPGA)这一创新性的技术,并于1985年首次推出商业化产品,是全球领先的可编程逻辑完整解决方案的供应商,也是目前排名第一的FPGA解决方案提供商。 产品系列包括: Spartan系列:定位于低端市场,目前最新器件为采用28nm工艺的Spartan7; Artix系列:定位于低端Spartan和高端Kintex之间的中端市场,目前在售的主流产品为采用28nm工艺的Artix-7; Kintex系列:定位于高端市场,包含有28nm工艺的Kintex7系列,20nm的Kintex7 Ultrascale系列,还有16nm的Kintex7 Ultrascale+系列; Virtex系列:定位于高端市场,包含有采用28nm工艺的Virtex7系列,20nm的Virtex7 Ultrascale系列,还有16nm的Virtex7 Ultrascale+系列; 全可编程 SoC 和 MPSoC系列:包括有Zynq-7000和Zynq UltraScale+ MPSoC系列FPGA、内嵌有ARM Cortex系列CPU; AI Engine系列:Versal ACAP、Alveo系列等。 Intel(Altera) 与Xilinx齐名的FPGA供应商,2015年被CPU届的大佬Intel收购。 产品系列包括: MAXII系列:实质上是CPLD; Cyclone系列:定位于中低端市场,类似于Xilinx 公司的Spartan系列和Artix系列,最新产品为Cyclone10。 Stratix系列:定位于高端市场,与Xilinx的Kintex、Virtex系列竞争,最新产品为Stratix10; Arria系列:SOC系列FPGA, 内置ARM Cotex A9的核; Intel Arria 10系列:支持DDR4存储器接口的FPGA,硬件设计人员可以使用Quartus II 软件v14.1,在Arria 10 FPGA和SoC设计中实现666 Mbps DDR4存储器数据速率; Agilex系列:面向数据中心等高端市场,采用10nm工艺,异构 3D 系统级封装 (SiP) 技术的一款FPGA产品。 Microchip(Microsemi) Microsemi并购了Actel,专注于美国军工和航空领域,产品为反熔丝结构FPGA和基于Flash的FPGA为主,具有抗辐照和可靠性高的优势,Microsemi又被Microchip(微芯)并购。 产品系列包括: 基于FLASH的通用FPGA系列:包括PolarFire Mid-Range FPGAs、RTG4 Radiation-Tolerant FPGAs、IGLOO2 Low-DensityFPGAs三个高、中、低端系列。 Lattice CPLD的发明者,著名的可编程逻辑解决方案供应商,仅次于Xilinx和Altera。 产品系列包括: ECP系列:为Lattice自己的开发的FPGA系列,提供低成本,高密度的FPGA解决方案,而且还有高速Serdes等接口,适用于民品解决方案居多; ICE系列:为收购SilioncBlue的超低功耗FPGA,曾用在iPhone7里面,实现了FPGA首次在消费类产品中应用; Mach系列:替代CPLD,实现粘合逻辑的最佳选择。 QuickLogic Corp QuickLogicCorporation 诞生于1988年,是一家超低功耗嵌入式现场可编程门阵列 (eFPGA) IP、多核语音识别 SoC、显示器桥接和可编程序逻辑解决方案开发公司。 eFPGA产品系列包括:采用65nm和40nm工艺的ArcticPro系列和采用GF-22工艺的ArcticPro 2 eFPGA。 Achronix Achronix 作为后起之秀,早期推出了eFPGA IP,但是限于IP产品的变现速度太慢,随后推出了FPGA芯片,今年5月发布的新品叫Speedater7t。 EFINIX EFINIX可以说是后起之秀,它改变了传统FPGA的设计理念: eXchangeable Logic and Routing (XLR) cell 我们将逻辑资源比作一个城市。随着城市的扩大,就必须建立更宽的道路,道路间要建立不少的立交,而且这些立交的层次都可能很复杂,还需要更多的交通灯,以及匝道来汇聚和分开车流。这些实际上和一块FPGA的结构非常类似,你可以自然联想到,芯片规模越大,就只有两个办法来完成逻辑之间的互联互通。要不就是把走线的资源增加很多层,要不就是把芯片做到更大的面积来增加布线。甚至两个方面都要加强。 传统的FPGA中的运算单元LE(Logic Element)和互连资源Routing Switch在功能上各司其职,而数量和位置都是固定的。因此,如果你的设计中有很多Logic,那么很可能片上的LE不够用,而互连资源会有很多富裕;而如果你的设计中需要很多的连线,比如复杂的总线,大量的Mux,那么很可能互连资源成为瓶颈。 Efinix的想法就是设计一种新的Cell,XLR,它既可以作为运算资源,又可以作为互连资源。 国内主要玩家 [1] gule logic的中文含意是“胶合逻辑”,它是连接复杂逻辑电路的简单逻辑电路的统称。例如,一个ASIC芯片可能包含许多诸如微处理器、存储器功能块或者通信功能块之类的功能单元,这些功能单元之间通过较少的粘合逻辑连接起来。在印制板(PCB)层,粘合逻辑可以使用具有较少逻辑门的“粘合芯片”实现,例如PAL、GAL、CPLD等。 [2] 先进先出(FIFO,first-in,first-out)为处理从队列或堆栈发出的程序工作要求的一种方法,它使最早的要求被最先处理。

    时间:2021-03-22 关键词: Intel CPLD FPGA

  • FPGA在先进视频处理方面的优异表现

    FPGA在先进视频处理方面的优异表现

    部署先进的网络基础设施不仅可以解决数据传输量激增的问题,而且还能在诸如边缘、核心和云端等网络的不同部分进行数据处理。不足为奇的是大部分数据要么是视频,要么是图像,并且这些数据正以指数级速度增长,并将在未来几年内保持持续增长。因此,需要更多的计算资源来应对数据的大量增长(如图1所示)。 由于应用的类型多种多样,因此在数据中心中存在着各种各样的视频或图像处理工作负载。基于专用集成电路(ASIC)的解决方案通常可提供更高的性能,但是无法进行升级以支持未来的算法;基于中央处理器(CPU)的解决方案要比其更加灵活,但其时钟主频已经固定,而且已不再可能大幅提升处理器性能;图形处理器(GPU)是提供视频/图像处理解决方案的另一种候选方案,但其功耗明显高于基于现场可编程逻辑门阵列(FPGA)的解决方案。FPGA在视频处理和压缩领域内,是一种具有吸引力的选择,因为它们提供了实现创新视频处理算法所需的、平衡的资源。此外,FPGA提供了一种灵活的解决方案,可以缩短产品上市时间,并能在解决方案的整个生命周期内实现持续升级和部署新的功能。 图1:全球互联网视频数据流(来源:思科) 33% CAGR 2017-2022:2017-2022年间的复合年增长率33% Exabytes per Month:每月的Exabytes数量 基于FPGA的视频解决方案的示例 本白皮书将介绍三种典型的视频应用,以展示基于FPGA的解决方案在广播行业中的优势。这些优势包括缩短处理时间、降低功耗,以及为服务提供商和终端用户节省成本。 本白皮书将介绍基于FPGA的解决方案在以下三种应用中的优势: 视频流 使用视频编辑软件来创作视频内容 人工智能(AI)和深度学习–图像识别是该应用的主要部分,其需要高性能的计算资源 视频流传送 为了使媒体流变得快速和高效,对视频进行转码的需求已急剧增加。目前大多数产品都采用了一种基于软件的方法,但该方法无法满足高带宽、广播级视频流的处理要求。视频流和/或云服务提供商面临着由基于软件的解决方案所带来的低吞吐量、高功耗、长延迟和占用空间大等挑战。根据思科的一份题为《思科可视网络指数:预测与趋势——2017-2022年白皮书》的报告,视频流数据流量正在增加,并且到2022年时将占据整个互联网数据流的82%。在包括视频点播、流媒体直播和视频监控等所有应用中,视频数据流量将逐年稳步增长。 诸如Netflix和YouTube等视频流应用的兴起推动了对视频转码的需求。传统广播和视频流媒体之间最显著的区别在于内容量和频道数。为了支持从电脑到智能手机等各种接收设备,内容必须被转码成不同的分辨率和压缩格式。因此,视频流将消耗大量的计算资源。 图2:视频转码工作流程 Acquisition:获取 content creator dramatically growing:内容创作者的数量在急剧增加 Editing:编辑 Uploading:上传 Streaming Company:流媒体公司 Cloud Service Provider:云服务提供商 Transcoding:转码 different compression:不同的压缩率 different resolution:不同的分辨率 different bitrates:不同的比特率 Distribution:发布 iPhone:iPhone手机 Andriod:安卓手机 PC Browser:电脑浏览器 流媒体和云服务提供商需要一种解决方案来缓解对计算需求的压力。Achronix Speedster®7t系列FPGA器件中搭载了IBEX这种最先进的视频处理半导体知识产权(IP)能够解决这一重大问题。这种基于FPGA的解决方案可以提供高吞吐量的、低功耗的和占用空间小的系统,而且无需牺牲灵活性。尽管基于ASIC的解决方案功能强大,但只能支持在设计时定义的功能集,而不能支持现场更新。 视频内容创作 在过去,高清分辨率(HD)格式在视频内容创作中占据主导地位。最近,标准分辨率已被提升至4K,甚至到8K,这使得视频编码或解码面临挑战。用于这些较高分辨率的压缩格式主要有Apple ProRes、Avid DNx和SONY XAVC。由于这些压缩格式是专有的,因此ASIC或GPU并不能原生支持这些格式,而且CPU提供的性能也不佳。因此,在较高分辨率下创作视频内容时,FPGA是最佳的解决方案。 图3:视频编辑工作流程 Import:导入 Editing Software:编辑软件 Import(Decode):导入(解码) Export(Encode):导出(编码) Remote Edit:远程编辑 Export:导出 在新的趋势下,远程后期制作的概念正变得越来越普遍。然而,现有的电脑并没有足够的能力来实时处理高分辨率的内容(例如8K)。因此,编辑人员开始借助云基础设施来获得更好的计算性能。此外,由于需要保持社交距离,新冠肺炎疫情也加速了这一趋势。基于云和FPGA的解决方案为编辑人员提供了巨大的好处。Achronix Speedster7t系列FPGA器件进行架构创新,例如二维片上网络(NoC),使其特别适合于加速编码和解码算法。 人工智能与深度学习 人工智能、机器学习和深度学习是众所周知的领域,它们在过去几年中得到了迅速的发展。除了这些领域,图像识别也逐渐成为一个全新的重要领域,这得益于人工智能/机器学习(AI / ML)的创新。例如,先进驾驶员辅助系统(ADAS)使用深度学习算法来处理捕获的图像。安装在车上的行车记录仪使用H.264压缩技术记录视频,然后将视频流转码为诸如JPEG或PNG等合适的图像格式,以用于深度学习图像识别。根据应用场景,可以同时完成丢帧、更改分辨率或其他图像处理任务。 在零售业的安全摄像头或物流业的包裹分拣中也有类似的应用案例,其数据流与上述示例相同 —— 这些应用中的摄像头使用H.264或H.265等压缩比相对较高的压缩格式记录视频,然后将编码的视频流传输到云端或数据中心。在云端,视频流由原始格式转码为适合深度学习的格式,将视频文件转换为图像资料库。 图4:典型的深度学习图像数据流 Transcoding:转码 Different compression:不同的压缩率 Video=Image:视频=图像 AI:人工智能 Deep Learning:深度学习 Image Recognition:图像识别 从历史来看,FPGA一直擅长将电影转码为图像。此外,使用FPGA中的深度学习算法对图像预先进行预处理,不仅可以提高吞吐量,而且还能减少系统级的数据事务量。Achronix Speedster7t的创新架构及其带有的专用机器学习处理器(MLP),使之成为实现定制的和既定的深度学习算法的理想选择。 FPGA代表性视频用例的性能 我们分别使用FPGA和CPU来实现上述三个典型应用案例,并对一些关键指标进行对比,如下表所示。 表注 ↑ FPGA提供更佳的性能。 ↔ FPGA和CPU提供同等的性能,但FPGA是卸载CPU负担的首选解决方案。 ↓ FPGA和CPU提供同等的性能,但CPU是首选解决方案。 视频流传输 在视频流传输应用中,常用的压缩格式是H.264或H.265,因为终端(接收端)设备原生支持这些格式。诸如位深或色度和分辨率等参数通常为8位、4:2:0和1920×1080或1280×720。在解码器方面,基于FPGA的实现比基于CPU的系统提供更高的吞吐量。在数据层面,FPGA效率更高,因为如果将CPU用于纯数据处理之外的其他任何与数据相关的任务时,它通常都没有得到充分的利用。然而在编码器方面,硬化的CPU编码器内核是专门针对这些典型参数而设计的,并提供了足够的性能。 为了获得两全其美的效果,将FPGA和CPU解决方案相结合,并由FPGA来处理繁重的工作负载是理想的解决方案。FPGA上的高效功能可以被移植到可重新配置的硬件上去运行。例如,运动估计算法是一种适合FPGA的工作负载。另一方面,CPU更适合处理比特率控制算法。 一些服务提供商要求在软件解决方案中实现与x264相同的视频质量和流媒体格式。FPGA和CPU的组合解决方案可以有效地满足这些要求。使用这种方法,每种功能都被合理地分配,较繁重的处理负载被转移到FPGA,与纯软件解决方案相比,这种方法能提供类似或更好的视频质量和流媒体格式,而且编码时间显著减少。 下表列出了使用这种方法的x264评测结果,第一行显示了在FPGA上的运动估计函数(x264_8_me_search_erf)的结果。运动估计是CPU最繁重的工作负载之一,占据总处理时间的21.2278%。 视频内容创作 用于内容创作的视频编辑软件支持多种压缩格式,其中包括Apple ProRes、Avid DNx、Sony XAVC和Panasonic AVC-Intra,这些格式都带有基于内帧结构的专有压缩方案。此外,还有一些支持RAW模式的格式,诸如Apple ProRes RAW、RED RAW、ARRI RAW和Blackmagic RAW,这些格式都得到了摄像机制造商的支持。由于这些格式(以及新型的和不断出现的格式)具有不断变化的特性,因此基于ASIC的解决方案并不实用,而需要基于FPGA的解决方案。

    时间:2021-03-22 关键词: 云服务 图形处理器 FPGA

  • 基于FPGA和ARM的视频采集处理系统

    基于FPGA和ARM的视频采集处理系统

    近年来,视频技术的飞速发展,使得视频产品越来越普及。视频信号采集是整个视频应用的前端部分,扮演着极其重要的作用。传统的图像采集卡面向计算机应用,体积大,可靠性有待进一步提高,于是便产生了一些新的视频采集方法,这些方案有的基于FPGA和DSP,有的基于ARM和编码芯片,在实时性、灵活性、 可维护性方面各有千秋。本文针对FPGA在数字信号处理速度上的优势以及ARM在控制方面的长处,设计了一种全数字化的实时视频采集系统,具有很实用的参考价值。 1 系统构成 本系统的结构框图如图1所示,图像传感器模块负责图像采集,FPGA产生I2 C时序控制CMOS图像传感器芯片,并将采集到的图像数据进行相应处理后送到压缩芯片ZR36060进行压缩;ARM负责压缩芯片的驱动、以太网芯片的控制和UDP/IP协议的实现,以及视频采集系统的指令控制和数据传输, 以太网模块主要实现以太网数据传输。SDRAM做数据暂存与ARM存储空间的扩展,采集到的视频图像以帧为单位通过网卡芯片传送到网络。 图 1 2 硬件设计 2.1 图像传感器 图像传感器采用MICRON公司的MT9M131。它是一种彩色CMOS图像传感器,可支持SXVGA、VGA、QVGA等显示格式,I2 C总线接口,最大支持分辨率1280*1024,在VGA格式下可达到30帧/每秒的采集速度,并具有自动曝光控制、自动增益控制、自动白平衡、自动带通滤波、自动黑级校准等功能。本系统采用VGA格式,CMOS传感器的控制时序由FPGA产生。 2.2 FPGA器件 FPGA器件的主要功能包括图像传感器的控制、采集后的图像数据处理和格式转换,为了采集到质量更好的图像,将来还会在此部分加入一些相应的处理算法。因此,为保证系统的实时性,系统选用了Altera公司Cyclone II系列的EP2C35F672C6。该芯片具有35000个逻辑单元、672个引脚、475个用户自定义I/O接口、35个嵌入式乘法器和4个锁相环,完全可以满足系统要求。 2.3 ARM处理器和网卡芯片 ARM处理器选用三星公司的S3C2410,该处理器拥有独立的16KB指令Cache和16KB数据Cache,MMU,支持TFT的LCD控制器,NAND闪存控制器,3路串口,4路DMA,4路带PWM的时钟,最高可运行在203MHz。系统采用的网卡芯片是CS8900A,它是用于嵌入式设备的低成本以太局域网控制器。它的高度集成设计使其不再需要其它以太网控制器所必需的昂贵外部器件。 CS8900A包括片上RAM,10Base-T传输和接收滤波器,以及带24毫安驱动的直接ISA-总线接口。除了高度集成,CS8900A还提供其它性能和配置选择。它独特的PacketPage结构可自动适应网络通信量模式的改变和现有系统资源,从而提高系统效率。图2为网卡芯片与S3C2410的接口示意图。 图 2 2.4 视频压缩芯片 JPEG编解码芯片ZR36060是专为视频采集与编辑应用而设计的,可以方便地实现对视频信号的实时压缩和解压缩。在进行压缩时,ZR36060接受 YUV4:2:2数字视频信号,将其编码为JPEG码流输出。ZR36060对像素块和CCIR视频信号可实现高达25~30帧/秒的压缩;灵活的数据接口,支持三种YUV视频接口模式,即8位主模式、16位从模式和8位从模式;3种不同的比特率控制模式用于静止和运动视频的压缩;可以和多种常用视频解码器实现无缝连接[1]。据统计,JPEG格式的压缩比例约为70~80:1,而本系统中采用的分辨率并不高(640*480),直接使用ZR36060进行帧内编码压缩可以满足要求,同时也减少了FPGA部分的开发工作量。 3 关键模块的工作原理 3.1 图像传感器驱动 MT9M131是标准的I2 C总线器件,接口简单,传感器工作时只有6个控制信号。其中MCLK由FPGA产生,是传感器工作时钟输入;FVAL是帧有效信号,它的上升沿表示一帧数据的开始。在FVAL信号的有效期间内包含了480个行有效信号LVAL,而每个LVAL信号的高电平期间包含了数据总线上640个像素数据的输出。所以,在FVAL一个周期内,图像传感器正好输出了完整的一帧图像。分辨率为640×480。仅当FVAL和LVAL信号同时为高电平时,传感器输出数据 D[9:0]有效,FPGA在每个像素时钟PIXCLK上升沿时将有效数据读入。经实测,传感器正常工作时,SCLK,LVAL频率约为7.56kHz和 14.2kHz。 本系统采用Verilog HDL语言来编写CMOS图像传感器的时序驱动。在实际设计中,把控制模块分成两部分:I2C_Config模块根据设定的曝光时间来发生I2 C总线SCLK和SDAT时序,而Capture模块则负责与传感器的数据接口,读入10位的图像数据,并送到下一级模块进行相应处理。以下是 Capture模块部分代码: always@(posedge iCLK or negedge iRST) begin if(!iRST) ……… //各信号清零复位 else begin Pre_FVAL <= iFVAL; if( ({Pre_FVAL,iFVAL}==2'b01) && mSTART ) //当前帧有效且前一帧处理完 mCMOS_FVAL <= 1; else if({Pre_FVAL,iFVAL}==2'b10) //正 在处理前一帧 mCMOS_FVAL <= 0; mCMOS_LVAL <= iLVAL; mCMOS_DATA <= iDATA; //读取数据送入FPGA if(mCMOS_FVAL) //帧有效 begin if(mCMOS_LVAL) //行有效 begin if(X_Cont<639) X_Cont <=X_Cont+1; else begin X_Cont <=0; Y_Cont < = Y _ Cont+1; //计算像素坐标,方便后续模块显示 图 3 3.2 格式转换模块 从数字图像传感器传来的原始图像质量,在整个系统的性能影响中占主要地位,对后续的视频压缩和传输速度有着非常重要的影响。后期将会在采集前端加入相应的图像处理算法。而大多数处理算法都是基于RGB颜色空间的,为了进行视频压缩以减小数据量,就需要进行RGB到YUV的颜色转换。 YCbCr是YUV属于颜色空间的一种储存格式,适用于MPEG、JPEG等格式的编码。相比RGB色彩空间,YCbCr色彩空间有一个显著的优点。Y的存储可以采用和原来画面一样的分辨率,但是Cb,Cr的存储可以使用更低的分辨率。这样可以占用更少的数据量,并且在图像质量上没有明显的下降。所以,将色彩信息以低于量度信息的分辨率来保存是一个简单有效的图像压缩方法。 在ITU-R BT.601标准中,建议在计算Y时,权重选择为kr=0.299,kg=0.587,kb=0.114。于是常用的转换公式如下: Y=0.299R+0.587G+0.114B Cb=0.564(B-Y) Cr=0.713(R-Y) 采用硬件描述语言进行编程之前,需要消除浮点数运算。合理利用硬件资源是编写代码时要充分考虑的。对于常系数乘法单元,其占用的LEs(Logic Elements)与系数大小有关。为了避免出现负数和溢出问题,最终采用的转换公式如下: Y = [CA*27] *(R - G)+ G + [CB*27] *(B - G)+ YOFFSET Cb = [CC*27] *(B – Y)+ COFFSET Cr = [CD*27] *(R – Y)+ COFFSET ([ ]符号表示取整运算) 各参数的取值见表1[2]。 表1 各参数值 CA0.299 CC0.492 CB 0.114CD0.877 YOFFSET 16 COFFSET 128 3.3 图像压缩控制 ZR36060的控制接口示意图如图3所示,VCLK和VCLK2是需要外部提供的时钟信号,由FPGA产生的PIXCLK为25MHZ,满足系统要求。 VCLK是VCLK2的分频,并要求与VCLK2同步。 本系统选择ZR36060工作状态为:8位代码从模式,视频同步从模式,8位视频总线宽度。ZR36060的接口可分为视频接口、主机接口和代码接口三部分。视频信号由视频接口Y[7:0]输入,主机接口通过DATA[7:0]对芯片内部寄存器设置,控制工作状态,压缩后的码流通过代码接口 CODE[7:0]输出到存储器中缓存。8位代码从模式下,主控制器的数据总线DATA[7:0]通过读写HostData对ZR36060的内部寄存器进行设置和读取,代码总线CODE[7:0]从CODEFIFO读写JPEG数据。行同步信号HSYNC接到图像传感器的LVAL引脚,场同步信号 VSYN接到传感器的FVAL引脚。奇偶场指示信号由FPGA给出,每采集到FVAL的上升沿,IND信号翻转一次,以指示奇偶场。 3.4 以太网数据传输 本系统采用UDP/IP协议来实现图像数据的网络传输。压缩后的图像数据经ARM进行UDP数据打包后,存储在SDRAM中。一个完整的数据帧格式包括以太网头、IP头、UDP头和一行图像数据,其系统工作流程图见图4所示。ZR36060 每压缩完成一帧,就由S3C2410读取并写到SDRAM中,然后判断是否读完一帧图像数据,读完后则发送UDP包,将图像数据通过以太网发送到网络。 4 小结 本文提出了一种基于FPGA和ARM的视频采集处理系统,其特点在于设备接口和视频信号处理的全数字化,系统结构紧凑,体积小巧、响应快速;基于FPGA的前端处理更增加了图像处理算法升级的灵活性,适用于工业远程监控等多种场合。后期还可在采集端加入相应的图像处理算法,以提高图像质量。 参考文献: [1] 陈晓敏, 王学进, 王志华, 张利. JPEG 编解码芯片ZR36060在远程视频监视系统中的应用[J]. 电子技术应用, 2006. 10. [2] 魏博, 肖文, 王丛琳, 戎路. 基于FPGA 的CMOS 图像传感器的驱动开发[J]. 光学与光电技术, 2008, 10: 56-58. [3] Gabor Szedo. Color-Space Converter: RGB to YCrCb. Xilinx Corp, 2006. [4] 吴继华, 王诚. Altera FPGA/CPLD设计[M]. 人民邮电出版社, 2005.

    时间:2021-03-18 关键词: ARM 视频采集处理系统 FPGA

  • Achronix和Mobiveil宣布携手提供高速控制器IP和FPGA工程服务

    美国加州圣克拉拉市,2021年3月 – 高性能现场可编程逻辑门阵列(FPGA)和嵌入式FPGA(eFPGA)半导体知识产权(IP)的领导性企业Achronix半导体公司,与专注于为存储、网络、人工智能(AI)和企业级市场开发硅知识产权(SIP)、平台和解决方案的、快速发展的技术公司Mobiveil日前宣布合作:双方将向基于Achronix器件的设计人员提供Mobiveil的软IP产品组合。 作为唯一一家能够同时提供高端独立FPGA芯片和eFPGA IP技术的高端独立FPGA半导体公司,Achronix已建立了独特的优势去满足那些需要可编程硬件加速器的高性能应用的需求。人工智能、云、5G和先进驾驶员辅助系统(ADAS)等高增长市场的快速扩张,推动了对基于FPGA的数据加速器的需求。Achronix的产品组合以规模近100亿美元的数据加速市场为目标,预计到2025年,该市场的复合年增长率将达到两位数。(数据来源:Semico Research) 与基于中央处理器(CPU)和图形处理器(GPU)的解决方案相比,Achronix的数据加速解决方案提供了最佳的每瓦性能效率,此外还兼具硬件灵活性这一优势,可支持不断变化的加速工作负载。由于现在对计算性能的需求在短短三到四个月内就会增加一倍,因此对基于FPGA的专用硬件加速器的需求也在迅速增长。 “通过与Mobiveil建立合作伙伴关系,我们为存储、网络和计算应用提供经过验证的互连解决方案,从而使客户能够显著加快其FPGA开发速度。”Achronix市场营销副总裁Steve Mensor表示,“此外,Mobiveil在设计服务领域内的专长能够使客户接触到一流的专家,来针对Achronix FPGA器件创建定制化的、优化的解决方案。” Mobiveil凭借其数十年的经验,可为全球领先的客户提供高质量的、经过量产验证的高速串行互连SIP内核,以及定制的和标准外形尺寸的硬件板。Mobiveil最近宣布推出了面向数据中心应用的CXL 2.0设计IP(COMPEX)。针对基于PCI Express的闪存市场,Mobiveil开发了一个基于FPGA的NVMe SSD平台,该平台由PCI Express Gen5控制器(GPEX)、NVM Express控制器(UNEX)、通用存储控制器(UMMC)、低密度奇偶校验(LDPC)编码器/解码器以及闪存控制器(ONFI/Toggle)组成。 Mobiveil首席执行官Ravi Thummarukudy表示:“我们与Achronix的合作伙伴关系具有巨大的潜力,可以帮助我们共同的客户加速产品开发。Mobiveil基于FPGA的CXL、SSD和人工智能应用平台可以轻松启动客户的产品开发。此外,我们的产品工程服务包括FPGA设计、板卡/系统设计和软件开发,可以以经济高效的方式增强客户的工程团队。”

    时间:2021-03-17 关键词: Mobiveil Achronix FPGA

  • 赛灵思:下一代数据中心将会注重可组合性

    赛灵思:下一代数据中心将会注重可组合性

    “摩尔定律放缓”甚至激进派的”摩尔定律已死”这种说法自从十几年前就广为“传颂”,面对这种瓶颈,主流厂商所走的路一条是异构计算,另一条则是“小芯片”或名为“芯粒”(Chiplet)。由此,数据中心所引发的新一轮计算革命掀起。 事实上,观察行业巨头“小芯片”的行径,最终走向总归是组合化的。“小芯片”正是因为像搭积木一样,将预设特定功能芯片裸片进行封装复用以构建新IP,这种集成系统能够成为一种新型“超异构系统”,这种灵活性不失为延续摩尔定律的“组合拳”。 这种组合式的思路不仅适合于芯片发展,同样也适用于数据中心。“我们相信下一代的数据中心,会对组合性有非常高的要求,从基础设施一直到器件这个层面,都会要求可组合性”,日前,赛灵思(Xilinx)数据中心事业部网络与存储产品管理总监Kartik Srinivasan在赛灵思的2021春季新品发布会上如是说,围绕可组合性数据中心也推出了三个具体的解决方案。 可组合的SmartNIC 去年三月同期,赛灵思宣布推出业界首款一体化SmartNIC平台Alveo U25,旨在卸载数据中心内部横向流量的问题,防止挤占CPU资源。彼时该款产品拥有2个25Gb以太网端口,且是ZYNQ级器件,拥有超过52万+LUT。 今年三月,赛灵思继续推出Alveo SN1000(下文简称SN1000),这是业界首款硬件可组合式SmartNIC。该款产品最大的亮点是其可组合性,支撑SN1000的是三个坚实的“地基”: 其一,SN1000基于UltraScale+ FPGA架构,拥有赛灵思FPGA的灵活应变能力,是保障其性能的“底气”;其二,拥有控制面与数据面分离的特性,是赋能硬件可组合的充要条件;其三,拥有vitis Networking软件,让用户充分利用可组合式功能,进行软件定义硬件加速,软件不仅支持P4高级语言编程,也支持C/C++对Arm进行控制和流量管理。 在参数上,以太网端口升级成2个100Gb,拥有1M LUT、2x QSFP28的封装尺寸和75W的低功耗,搭载核Arm SoC的NXP LX2162 16-core A72。 Kartik Srinivasan为记者介绍,SN1000是一款开箱即用且即插即用的产品,其背后的秘诀是赛灵思预先对硬件进行了OVS加速、网络虚拟化安全加速和存储加速等。 对于其重点可组合性上,Kartik Srinivasan介绍表示,SN1000支持客户根据不同要求进行灵活组合和加速,这归功于内存既支持数据面也支持控制面,通过这样的双向支持能够让数据面实现管理和加速,在控制面实现ARM的CPU进行加速,以达到高效便捷的安全分离和迁移,是行业积极拥抱异构计算的典范。 专家预测2024年可编程的SmartNIC将占市场的70%,那么以FPGA为核心的SmartNIC有什么不同?Kartik Srinivasan表示,从传统或标准的NIC到卸载NIC再到可编程SmartNIC,最早采用SmartNIC技术的是超大规模的数据中心和云服务提供商,包括百度、阿里、腾讯,这些提供商在快节奏的变革和多样化网络功能中,拥有很多要求,特别是线速性能的数据包处理方面,以实现加速网络、安全和存储卸载这三个功能。 SmartNIC主要包括FPGA、ASIC、CPU/SoC三种,但ASIC的实现方案缺乏定制能力,很难跟上每间隔12-18个月就产生很大变化的速度演进,CPU/SoC又难以实现硬件加速的要求和性能。因此,FPGA的灵活性和强大的加速能力成为了首选。 在SN1000这一“萌新降生”后,目前Xilinx在NIC系列上拥有X2、U25、SN1000三个平台,分别应对不同对场景和供客户选择。 可组合的AI视频分析 本次发布会,赛灵思还发布了赛灵思智能世界视频分析平台Xilinx Smart World,之所以发力这一方面是AI视频分析对时延和算法复杂性拥有极高要求,诸如口罩检测、人员计数、病患监控、工业安全、零售分析、门禁控制等方面均有强劲需求。 根据赛灵思数据中心部亚太区数据中心战略营销经理Guruprasad M. Parthasarathy的介绍,该解决方案着重两个关注点:其一,去掉FPGA硬件开发,客户只需相关应用开发即可;其二,赛灵思联合生态合作伙伴提供了随时可部署的视频分析解决方案,方案支持智慧城市、智能医疗、智能零售等重要领域部署。 赛灵思智能世界坚实的后盾是其Alveo器件系列,方案拥有两个优势:其一,拥有总拥有成本(TCO)优势,据Guruprasad介绍,与其竞品英伟达T4 GPU相比,能够降低30%的总拥有成本;其二,拥有时延优势,与其竞品英伟达T4 GPU相比能够在16流上提速77%,32流上提供71%。 值得一提的是,赛灵思智能世界应用将可在VMSS平台上直接进行应用的开发,这是一个高度可扩展的平台,该平台不仅拥有极低的时延,还拥有极强的扩展性,在机器学习和人工智能算法复杂性增时也可同时并行多种模型和算法,不会影响端到端的性能。 Guruprasad表示,平台拥有许多合作伙伴,包括Mipsology、deepAI、Aupera,这些伙伴开发的视频解决方案能够成功帮助客户应用搭建,并且各个伙伴的视频解决方案各具特色,可供客户按需选取。 Guruprasad列举了腾讯WeLink的智能楼用例,该方案采用了合作伙伴的Aupera的解决方案,采用方案之前视频流和互联网数据都会放腾讯云汇总进行处理,这不仅拥有极高的成本也过度消耗了云计算。在采用Aupera方案后,实现在本地边缘推断,大大降低了时延,同时使得带宽的成本降低了90%,目前方案已成功部署5000个摄像头,实现了人脸识别、口罩检测等功能。 通过该方案可以看出,赛灵思智能世界的核心是开箱即用和即插即用,赛灵思正在赋能Alveo加速卡在应用层面的可组合,以充分发挥其成本和低时延特性。 赛灵思加速算法交易 赛灵思还推出了赛灵思加速算法交易,这一解决方案的核心概念也是开箱即用和即插即用,即在应用开发上的可组合。不过赛灵思智能世界聚焦的是AI视频分析,赛灵思加速算法交易则着重“算法交易”或“HFT高频交易”领域。 据赛灵思数据中心市场营销总监Ed Wright介绍,当今的算法交易其实主要存在硬件算法交易和软件算法交易两种,二者在能力和性能上拥有重大鸿沟,且软件算法交易如若想转换成硬件算法交易的门槛是极高的,需要专门的硬件开发商在IT进行架构和设计。这样势必拥有极高的成本和极长的交付期,伴随而来的风险是极高的。 赛灵思加速算法交易便可在无需硬件开发情况下,实现非常复杂的策略,且让交易者能以少于微秒(sub-microsecond)的时延实施先进策略。 Ed Wright表示,在赛灵思的vitis平台上,开发者可用模块化的方式构建部署基于FPGA的Alveo加速卡,平台不仅支持库的自由组合,还支持非常广泛的算法交易用力,在此层级上可继续部署算法交易的框架和IP。 在算法交易市场上,之前多是CPU驱动,但相比FPGA使用CPU仍然拥有较长的交付期和较高的成本。值得一提的是,CPU驱动的算法交易缺乏市场竞争,在FPGA突入这样的市场空白之下,既能够缩短上市时间还能提供强力有力的竞争。 赛灵思加速算法交易适用于经纪人、交易所、市场数据厂商、销售侧厂商、自营交易商等不同机构用户,能够为其提供算法迥异、智能订单路由、市场数据门户、FIX门户、进行交易、交易前风险、会场数据加速器等服务。 部署赛灵思加速算法交易也非常便捷,只需通过赛灵思渠道的经销商和分销商购置Alveo U50或Alveo U250,从Xilinx.com下载开源算法,无需任何许可证费用即可立即使用赛灵思加速算法交易。 总结 在可组合上,本次赛灵思2021年春季发布推出了Alveo SN1000 SmartNIC、赛灵思智能世界、赛灵思加速算法交易三款可组合式数据中心平台产品,聚焦于软件定义和硬件加速。 除此之外,Xilinx App Store也一并被发布,根据Ed Wright的介绍,该应用商店不仅能够方便地消费选择应用,还能方便地将方案推给客户,预计赛灵思应用商店将成为客户优选的购买和部署加速应用的新方式。 在可组合概念逐渐深化之下,行业掀起一股新的浪潮,赛灵思的三款平台产品也拉开了可组合性数据的序幕。通过赛灵思的部署来看,三款新平台的核心除了可组合,还聚焦了开箱即用和即插即用这一概念。彼时,FPGA开发因其入门难度抵挡了许多开发者的脚步,赛灵思着重降低硬件开发的比重,从而让开发应用成为“主战场”。 记者认为,当FPGA普适于不同层级的开发者,开发重点愈发趋向应用本身,FPGA的低延时、高性能、灵活性和总拥有成本的优势将逐渐填补传统计算领域空白,使得开发者有更广的选择空间。

    时间:2021-03-10 关键词: Xilinx 数据中心 加速卡 FPGA

  • JTAG到底是什么?如何确定JTAG好坏?

    在FPGA研发及学习过程中,有一个关键步骤就是下板实现,做硬件“硬现”很重要,一般来说用JTAG口比较常见一些,因此相信肯定有些大侠遇到过JTAG口失灵或者损坏无法使用的事情。 最近我就遇到了这类事情,FPGA的JTAG口突然就不能下载程序了,而且这种事情已经不是第一次了,之前在做项目的时候也出现过,而且出现的形式也极其相似,之前还用的好好的,第二天就不行了,真是让人郁闷。 为此,本人也是去尝试了很多解决办法,一开始也没有去设想是JTAG口坏了,于是乎,本人换了usb-blaster,可一点反应也没有。 难道真的是JTAG口坏了?于是,本人就去查阅相关资料去搞清楚问题的本质在哪里,下面就是本人的一些收获,分享出来,仅供各位大侠参考,一起交流学习。 END 来源:大鱼机器人 免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

    时间:2021-03-03 关键词: JTAG JTAG口 FPGA

  • 关于JTAG口,你了解多少?

    在FPGA研发及学习过程中,有一个关键步骤就是下板实现,做硬件“硬现”很重要,一般来说用JTAG口比较常见一些,因此相信肯定有些大侠遇到过JTAG口失灵或者损坏无法使用的事情。最近我就遇到了这类事情,FPGA的JTAG口突然就不能下载程序了,而且这种事情已经不是第一次了,之前在做项目的时候也出现过,而且出现的形式也极其相似,之前还用的好好的,第二天就不行了,真是让人郁闷。为此,本人也是去尝试了很多解决办法,一开始也没有去设想是JTAG口坏了,于是乎,本人换了usb-blaster,可一点反应也没有。难道真的是JTAG口坏了?于是,本人就去查阅相关资料去搞清楚问题的本质在哪里,下面就是本人的一些收获,分享出来,仅供各位大侠参考,一起交流学习。 根据查阅资料及本人的一些实践经验所得,在使用JTAG下载接口的过程中,请不要随意带电插拔,否则会损坏FPGA芯片的JTAG口信号管脚。那么如何去确认JTAG口已经损坏了呢。首先你要去排除基本的几项因素,一是,是否匹配连接,有很多设备会对应很多接口,在实际条件下要匹配正确,否则也会出现上述情况;二是,排除下载线的问题,如果是下载线坏了,可以使用多根下载线去尝试,排除这类问题。如果还是不能访问FPGA的JTAG口,那么很有可能你的FPGA芯片的JTAG口已经损坏。此时请用万用表检查TCK,TMS,TDO和Tdi是否和GND短路,如果任何一个信号对地短路则表示JTAG信号管脚已经损坏。 至于JTAG口是什么,这里我们也来探讨一下,JTAG英文全称是 Joint Test Action Group,翻译过来中文就是联合测试工作组。 JTAG是一种IEEE标准用来解决板级问题,诞生于20世纪80年代。今天JTAG被用来烧录、debug、探查端口。当然,最原始的使用是边界测试。 1、边界测试 举个例子,你有两个芯片,这两个芯片之间连接了很多很多的线,怎么确保这些线之间的连接是OK的呢,用JTAG,它可以控制所有IC的引脚。这叫做芯片边界测试。 2、JTAG引脚 JTAG发展到现在已经有脚了,通常四个脚:TDI,TDO,TMS,TCK,当然还有个复位脚TRST。对于芯片上的JTAG的脚实际上是专用的。 TDI:测试数据输入,数据通过TDI输入JTAG口; TDO:测试数据输出,数据通过TDO从JTAG口输出; TMS:测试模式选择,用来设置JTAG口处于某种特定的测试模式; TCK:测试时钟输入; TRST:测试复位。 CPU和FPGA制造商允许JTAG用来端口debug;FPGA厂商允许通过JTAG配置FPGA,使用JTAG信号通入FPGA核。 3、JTAG如何工作 PC控制JTAG:用JTAG电缆连接PC的打印端口或者USB或者网口。最简单的是连接打印端口。 TMS:在每个含有JTAG的芯片内部,会有个JTAG TAP控制器。TAP控制器是一个有16个状态的状态机,而TMS就是这玩意的控制信号。当TMS把各个芯片都连接在一起的时候,所有的芯片的TAP状态跳转是一致的。下面是TAP控制器的示意图: 改变TMS的值,状态就会发生跳转。如果保持5个周期的高电平,就会跳回test-logic-rest,通常用来同步TAP控制器;通常使用两个最重要的状态是Shift-DR和Shift-IR,两者连接TDI和TDO使用。 IR:命令寄存器,你可以写值到这个寄存器中通知JTAG干某件事。每个TAP只有一个IR寄存器而且长度是一定的。 DR:TAP可以有多个DR寄存器,与IR寄存器相似,每个IR值会选择不同的DR寄存器。(很迷) 4、JTAG链相关疑问 计算JTAG链中的IC数目: 一个重要的应用是IR值是全一值,表示BYPASS命令,在BYPASS模式中,TAP控制器中的DR寄存器总是单bit的,从输入TDI到输出TDO,通常一个周期,啥也不干。 可用BYPASS模式计算IC数目。如果每个IC的TDI-TDO链的延迟是一个时钟,我们可以发送一些数据并检测它延迟了多久,那么久可以推算出JTAG链中的IC数目。 得到JTAG链中的器件ID: 大多数的JTAG IC都支持IDCODE命令。在IDCODE命令中,DR寄存器会装载一个32bit的代表器件ID的值。不同于BYPASS指令,在IDCODE模式下IR的值没有标准。不过每次TAP控制器跳转到Test-Logic-Reset态,它会进入IDCODE模式,并装载IDCODE到DR。 5、边界扫描: TAP控制器进入边界扫描模式时,DR链可以遍历每个IO块或者读或拦截每个引脚。在FPGA上使用JTAG,你可以知晓每个引脚的状态当FPGA在运行的时候。可以使用JTAG命令SAMPLE,当然不同IC可能是不同的。 如果JTAG口已经损坏了,那只能“节哀顺变”了,但是也不要只顾着伤心,最重要的是分析其中的原因,做其他事情也是一样的道理。那我们就来分析分析,我们在使用的过程中,可能经常为了方便,随意插拔JTAG下载口,在大多数情况下不会发生问题。但是仍然会有很小的机率发生下面的问题,因为热插拔而产生的JTAG口的静电和浪涌,最终导致FPGA管脚的击穿。至此,也有人怀疑是否是盗版的USB Blaster或者ByteBlasterII设计简化,去除了保护电路导致的。但经过很多实际情况的反馈,事实证明原装的USB Blaster 也会发生同样的问题。也有人提出质疑是否是ALTERA的低端芯片为了降低成本,FPGA的IO单元没有加二极管钳位保护电路。这类质疑其实都不是解决问题的本质,最重要的是我们要规范操作,尽可能的去减少因为实际操作不当导致一些硬件设备、接口等提前结束寿命或“英年早逝”,那重点来了,关于JTAG下载口的使用,我们需要如何去规范操作呢。 上电时的操作流程顺序: 1.在FPGA开发板及相关设备断电的前提下,插上JTAG下载线接口; 2.插上USB Blaster或者ByteBlasterII的电缆; 3.接通FPGA开发板的电源。 下电时的操作流程顺序: 1.断开FPGA开发板及相关设备的电源; 2.断开USB Blaster或者ByteBlasterII的电缆; 3.拔下JTAG下载线接口,并放置适宜地方存储。 虽然上述的操作步骤有点繁琐,有时我们在使用的时候也是不以为然,但是为了保证芯片不被损坏,建议大家还是中规中矩的按照上述的步骤来操作。本人上述出现的问题,经过检测后就是TCK跟GND短路了,虽然发生的概率不是很大,但是为了能够更合理更长久的的使用硬件相关设备,还是建议大家在实操过程中,不要担心繁琐,中规中矩操作,换个角度思考,“多磨多练”也是对自己有好处的。最后,还是给各位唠叨一句,关于JTAG下载口的使用最好不要带电热插拔,起码可以让JTAG口“活”的久一些,毕竟长情陪伴也是挺不错的,不要等到失去了才知道惋惜。 免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

    时间:2021-03-02 关键词: JTAG FPGA

  • 如何确定JTAG好坏?JTAG到底是什么?

    素材来源:FPGA资源侠客 在FPGA研发及学习过程中,有一个关键步骤就是下板实现,做硬件“硬现”很重要,一般来说用JTAG口比较常见一些,因此相信肯定有些大侠遇到过JTAG口失灵或者损坏无法使用的事情。 最近我就遇到了这类事情,FPGA的JTAG口突然就不能下载程序了,而且这种事情已经不是第一次了,之前在做项目的时候也出现过,而且出现的形式也极其相似,之前还用的好好的,第二天就不行了,真是让人郁闷。 为此,本人也是去尝试了很多解决办法,一开始也没有去设想是JTAG口坏了,于是乎,本人换了usb-blaster,可一点反应也没有。 难道真的是JTAG口坏了?于是,本人就去查阅相关资料去搞清楚问题的本质在哪里,下面就是本人的一些收获,分享出来,仅供各位大侠参考,一起交流学习。 免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

    时间:2021-02-24 关键词: JTAG FPGA

  • 网友:国产FPGA,长点心吧

    FPGA作为嵌入式必备的一个硬件,国产的产品也正在逐渐渗透工程师的生活之中。不过tzgok认为,目前国产FPGA还有几个问题非常令人困扰,并发出评论表示“国产FPGA,长点心吧”: 1、开发板: 居然价格贵的离谱,本末倒置。开发板对于厂家而言,开发板目的是什么?100来元成本的开发板(准确应该叫演示板,因为没有任何配套代码),你卖1000多元,图啥?你不是卖IC的吗? 2、买货渠道: 都什么年代了,网店不开,买点样品,又是电话又是合同,效率低下。而且价格还神秘得很,买国产不就图你便宜吗?你价格好有什么不敢说的? 3、技术支持: 官网没有自己的社区或论坛,新入手遇到问题,只能打电话,然后各种电话转接,各种人口调查,各种上门拜访,哥啊,只是问个问题而已。谁有耐心这么来回折腾。 4、手册软件问题: 也是各种乱七八糟。甚至连个PCB封装都懒得提供。 5、基础工作: 让多少试图支持国产fpga的兄弟寒心。 一位代理国产FPGA的网友回复表示,看到楼主发的帖子,先自省一下。高云的FPGA开发板是免费借用的,目前还好。我们自己也有一款开发板,新的开发板也正在做。自己之前不是做FPGA的,很多问题也需要同事或者原厂技术来帮忙解决,有时候也真怕耽误或者误导客户。 用户zwwoshi 表示,“这个基本是国产芯片的问题,以前找一款芯片选了一个国产的,后面开发板和烧录器加起来2000多,询问可不可以借,借可以需要走流程,很多合同传真,公司采购那边觉得太麻烦就PASS了! ” 用户512870372则认为,这是很正常的流程。“别人要把关渠道的,你一个买散片的人家压根没兴趣陪你玩。你没买过国外大厂的开发板吧,这个东西从来都是能借不买的,贵的离谱。 ” 国产FPGA正在面临挑战 FPGA(现场可编辑门阵列)是著名厂商赛灵思(Xilinx)的一项重要发明,以其可编程和灵活性著称。 信息来源:头豹研究院 起初,FPGA只是用来仿真ASIC,再进行掩码处理和批量制造使用。不过ASIC相比FPGA来说明显在定制化上要求过高,流片量过小情况下成本反而更高,因此两者毫不冲突地“各司其职”。 信息来源: 头 豹 研究院 而后,随着加速器的出现和算力提升,目前已成为与GPU齐名的并行计算器件。如今,FPGA甚至已进入了数据中心领域,相比CPU和GPU,FPGA所需器件更少,功耗也更优。 与此同时,FPGA也是通信、航天、军工等领域的关键核心器件,也战略安全的重要支撑基础一环。 信息来源: 头 豹 研究院 长期以来,FPGA市场都处于美国的垄断之下,在经过种种制裁之下,毫无疑问将是一个重大的隐患。 为了满足经济发展和国防需求,打破垄断的窘境,中国多年来已经投入了数百亿科研经费,通过逆向工程方式仿制FPGA产品。但由于知识产权、生产工艺和软件技术等多方面的限制,仿制品种有限,技术无法突破。 国内FPGA厂商包括,紫光同创、复旦微电子、华微电子、中电科58所、航天772所所、京微雅格、高云半导体、上海安路、西安智多晶、上海遨格芯等。 著名工程师Hello Panda表示,FPGA属高大上的行业,国产才刚刚起步,主要存在以下三个发展瓶颈: (1)专业壁垒: 美国几乎持有所有的FPGA核心专利; (2)人才问题: EDA核心工具专业人才,特别是布局布线的算法高级人才几乎没有; (3)生态环境: 当前基本都是Xilinx、Intel(Altera)、Achronix和Lattice等的生态,后进市场者从头开始建立谈何容易,IP资源圈、开发资源圈都得从头建设。 如何选择国产化替代FPGA产品 “先弄清楚自已的任务要求,才能考虑FPGA的规模大小,最后才是寻找国产替代品.若清楚原有FPGA型号,先弄清样品规模,才好有的放矢找”,用户tyw这样告诉网友。 1、根据需求先选择资源足够的芯片,估算使用的资源,资源包括LUT、RAM、DSP和GTP等,记得留余量,我是留40%~50%,资源用太多容易出现问题。 2、根据系统时钟频率选择一个系列,频率高的就选择中端以上的FPGA,速度等级一般先-2。 3、根据IO需求选择封装,IO规划是最麻烦的,一定要仔细看DATASHEET。 4、根据芯片选择的文档,对比一下就知道选哪个了。当然要考虑价格,冷门或新出的芯片都非常贵,尽量选容易买到的,货期快,替换方便。 在国产FPGA的技术选型上,用户sleepybear表示选型主要看两方面:接口和容量。 1、接口: 要看你外接的数据口是什么类型,速度高低。一个很现实的问题是:普通并行口就可以,还是需要用到高速Serdes?国产FPGA在高速Serdes这方面貌似做的还没到特别高的速度级别。另一端,就是FPGA和DSP/ARM的接口是什么。 2、容量: 无非就是你需要多少资源?这个可以先选一个Xilinx或者Intel(Altera)的,在软件环境下估一下,再横向比较国产FPGA的型号,是否有满足要求的。 如果自己要做的处理算法还没有做或者没概念,也可以去这两家网站上找一找差不多同等规模的算法应用示例(图像处理的应该有不少),把代码和工程环境下载下来跑一跑,估一下大概的资源量级。 还有一个比较快的方法,尽早和相关厂商FAE取得联系,让他们帮忙推荐。一般来说,应用范围广的东西客户的资源会比较多,应该有同类型应用的其他客户,参考着推荐会准一些。 3、其他: 是不是需要外扩RAM,这个其实也属于接口问题。这个取决于你们的工作模式,以及你们的处理算法,是否需要前后帧间运算或者有没有同步要求。有帧间运算,就需要帧缓存,一般FPGA的片上RAM是不够的,需要外扩。 同步要求也一样,如果接口和内部是不同的时钟域,可能需要定期丢帧、加帧,也需要存帧队列,同样需要外扩RAM。 你在使用哪家的FPGA产品?你怎么看待国产FPGA产品,国产FPGA的路还有多远? 免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

    时间:2021-02-19 关键词: 国产 嵌入式 FPGA

  • Teledyne SP Devices宣布推出持续数据传输速率为7 GB/s的12位数字化仪

    Teledyne SP Devices宣布推出持续数据传输速率为7 GB/s的12位数字化仪

    2021年2月9日,瑞典林雪平市——Teledyne技术公司的业务部门Teledyne SP Devices今天宣布发布ADQ32和ADQ33,这是针对高通量应用进行了优化的第四代模块化数据采集板。凭借板载开放式现场可编程门阵列(FPGA)和高速数据流的结合,即使在对于计算要求最苛刻的应用环境下,ADQ32和ADQ33堪称是理想的选择。 ADQ32双通道12位数字转换器支持每通道2.5 Gb/s的同步采样,而ADQ33则支持每通道1 GS/s的同步采样,并具有开放的Xilinx Kintex Ultrascale KU040现场可编程门阵列(FPGA) 。这两款数字化仪为高容量应用而优化,因此适合原始设备制造商(OEM)在扫描源光学相干层析成像(SS-OCT)、飞行时间质谱(ToF-MS)和分布式光纤传感(DOFS)等领域进行集成。ADQ33不受出口管制,因此不需要任何许可证。 使用者可在板载FPGA中实时执行定制的专用数字信号处理(DSP),以表征信号并提取有价值的信息。它还可用于执行数据缩减,以便输出速率与PCI Express接口的7 G/s持续传输容量相匹配。接着,可以在主PC的中央处理单元(CPU)上对数据进行后处理,或通过点对点传输到图形处理单元(GPU)。 这种体系结构提供了极大的灵活性,允许设计者在委派的任务中,使用最合适的处理资源类型。专用DSP的示例包括用于SS-OCT的快速傅立叶变换(FFT)和k空间重映射,以及用于ToF MS的波形平均和零抑制。 除了高流率和计算灵活性之外,ADQ32还具有出色的模拟性能,包括有效位数(ENOB),无杂散动态范围(SFDR)等。硬件触发、内部/外部时钟选择和通用输入/输出(GPIO)简化了系统级集成。有关完整规格,请参阅资料表。

    时间:2021-02-09 关键词: 数字化仪 数字信号处理 FPGA

  • Microchip的PolarFire SoC FPGA在贸泽开售,率先采用RISC-V处理器 性能大幅提升

    Microchip的PolarFire SoC FPGA在贸泽开售,率先采用RISC-V处理器 性能大幅提升

    2021年2月5日 – 专注于引入新品并提供海量库存的电子元器件分销商贸泽电子 (Mouser Electronics) 即日起开始备货Microchip Technology的PolarFire™ SoC FPGA系列产品。PolarFire片上系统 (SoC) 现场可编程门阵列 (FPGA) 拥有低功耗、防御级安全性以及热效率,是物联网 (IoT) 器件等互连系统和智能应用的理想之选。 贸泽电子备货的Microchip PolarFire SoC FPGA内含一个基于RISC-V指令集体系结构 (ISA) 且支持五核Linux的处理器子系统,以及一个灵活的大容量L2存储器子系统。PolarFire SoC FPGA具有优异的低功耗性能,与同类FPGA相比功耗可降低高达50%。此外,此器件还具有12.7Gbps收发器以及25k到460k个逻辑单元。 基于RISC-V的SoC FPGA属于Microchip RISC-V生态系统,这是支持各种操作系统和生态系统合作伙伴的工具套件和设计资源组合。此高性能SoC FPGA支持各种应用,包括影像和机器学习、工业自动化、国防、汽车和通信系统。 PolarFire SoC FPGA还具有配套的PolarFire SoC FPGA Icicle套件。此低成本开发平台采用板载存储器(包括LPDDR4、QSPI和eMMC闪存),可立即运行Linux系统。除了板载PolarFire SoC FPGA外,Icicle套件还包括一个用于监视各种电源域的多轨电源传感器,以及PCIe根端口、mikroBUS和Raspberry Pi扩展端口。PolarFire SoC FPGA Icicle套件支持一系列有线连接选项,有助于快速实现原型设计,加速产品上市。

    时间:2021-02-05 关键词: Microchip 处理器 FPGA

  • 贸泽开售用于PCIe 4.0 设计的Intel Agilex F系列FPGA开发套件

    贸泽开售用于PCIe 4.0 设计的Intel Agilex F系列FPGA开发套件

    2021年2月4日 – 专注于引入新品推动行业创新的电子元器件分销商贸泽电子 (Mouser Electronics) 即日起开售Intel® Agilex™ F系列现场可编程门阵列 (FPGA) 开发套件。套件中的PCI-SIG兼容开发板让工程师能够使用板载Agilex F系列FPGA来开发和测试PCI Express (PCIe) 4.0设计。该套件提供配备所有软硬件的完整设计环境,能够使用硬件处理器系统 (HPS) 评估SoC功能和性能。 贸泽电子供应的Intel Agilex F系列FPGA开发套件搭载Agilex F系列FPGA,含1400 KLE,并采用2486 球的BGA封装。这个多功能开发套件包含四个DDR4 DIMM插槽和两个DDR4 DIMM模块。该套件的HPS接口支持UART、以太网、SD卡插槽、eMMC和Mictor连接器。另外该套件还配有PCIe x16 Gen 4金手指,连接到P-Tile收发器。该套件内含完整的软件资产,包括设计示例、电路板设计文件、说明文档以及Intel Quartus®Prime Pro Edition软件。 Agilex系列FPGA和SoC将于近期推出,提供定制化解决方案,解决网络、嵌入式和数据中心等市场上以数据为中心的业务挑战。高性能Agilex系列采用异构3D系统级封装技术,集成基于10nm工艺技术的FPGA架构。FPGA和SoC具有众多特色,包括强大的存储器集成、强化的协议支持、第二代Intel Hyperflex™ FPGA架构以及可配置的DSP引擎。

    时间:2021-02-04 关键词: 贸泽 现场可编程门阵列 FPGA

首页  上一页  1 2 3 4 5 6 7 8 9 10 下一页 尾页
发布文章

技术子站

更多

项目外包