当前位置:首页 > 工业控制 > 电子设计自动化

最近,英国Ascot的Agere系统公司 ASIC设计中心从一个重要客户处收到一份富有挑战性的简报:将8个 ARM966E-S r1p0 处理器子系统集成到单芯片上。
  尽管这项任务很复杂,但是仅花了11个月就完成了4M-gate 5Mbit 的设计。目前,芯片已投入生产,并作为首次推出的基础设施的一部分,于2002年在欧洲首次使用。整个芯片是第三方和Agere设计经验的合作成果,Agere负责提供ARM子系统设计经验和芯片集成知识,而第三方提供特定用途知识产权。

 本文不仅概括了小组在开发设计过程中遇到的挑战,还提供了对所采用的解决方案的深刻见解。使用的技术有Agere的0.16um 6LM (金属层) 1.5V/3.3V处理,且连线到456 PBGAM数据包,以及Agere的内部EDA工具集、用于合成的Synopsys的设计编译器、用于静态时序分析的Primetime、用于测试插入和矢量生成的DC-XP/Tetramax和用于功耗分析的Primepower。小组使用了Avanti Apollo/Saturn 的布局规划和时钟树综合(CTS)技术、Mentor Graphics的Modelsim RTL 仿真技术和Cadence的NCVerilog 功能门仿真技术。 Celerity是用于Spice仿真的解决方案,而AssuraSI是用于信号集成分析的解决方案。

  ARM966E-S子系统
  本设计是分等级的,它将ARM966E-S子系统排在最低级别。子系统的结构如图所示。
  每个ARM966E-S子系统在每段设计里可使用2次,并同时添加第三方IP。而该段在设计中被复制4次。在层次的上一级也包括了第三方IP,最后,包括Agere所有的IO和测试结构。该结构在图2中有说明。使用该设计结构,Agere提出了SoC设计,即当设备中的最低核心电压是1.32V,接合温度达到125 摄氏度,且使用最慢处理特性时,这种设计最少能容纳1280 MIPS,是基于每个ARM966E-S核心160 MIPS的一种测量方法。在这些条件下,限制MIP数目的因素不是ARM966E-S核心(在这种技术下能达到200MIPs),而是指令/数据紧密耦合内存 (TCM)的大小和形状,以及AMBA 高速总线 (AHB)的物理长度。在Agere的最新技术(0.13um)里,已获得不止两倍的性能,同时使用AMBA 3.0 AXI协议,克服了AHB的局限性。

  子系统设计工艺基础是Agere的 "AHB Supercore macrocell"。 Agere利用子系统的开发经验,使Supercore满足了SoC设计的要求。这就要求更改TCM配置,包括将部分数据TCM内存映射变为双口RAM。而且,增加了一个双向的外部存储接口(EMI) 和一个定制的矢量中断控制器(VIC)。

  测试设计功能性
  一旦完成ARM966E-S子系统的RTL设计,Agere的工程师就创建了一套系统测试,以证明设计的功能性。除了可以测试ARM提供的矢量外,还可以测试合成的ARM966E-S核心的有效性。用于测试子系统的测试基准使用了Synopsys LMC (逻辑模型化公司)软内存模式仿真TCM。

  该测试组件还用于检验各个步骤的分块合成和构造。一旦子系统设计人员确定了整个设计的合成,就会在融合到整个SoC设计前,将单独的验证结果传给SoC设计人员。为了遵守ARM许可协议,无需ARM966E-S门级连线表,而是与ARM966E-S DSM系统仿真的DSM(设计仿真模式)一并传给第三方。

  这是一个复杂的SoC设计,不仅需要测试性能,还需要相关的调试。将BIST、SCAN和边界扫描结构包含在内,才有可能对整个设计的高故障覆盖生产进行测试。如果需要调试,除了需要一个结构外,还需添加支持ICE在线仿真的ETM9 (内置的踪迹模块)。

  尤其是扫描技术,它不同于以往一次性扫描整个芯片的方法。每个分层的扫描都是单独进行的,然后合并起来进入上一级。这里主要的工作区将所有以前扫描过的子模块当作黑盒子来处理,直至插入了扫描。之后在填写设计连线表前,子模块代替设计中的黑盒子,为上一级扫描和合并做准备。这个过程在4 种不同层次上都有重复。从设计开始,Synopsys已发布了新版的设计编译器,Agere用它成功扫描和编译了许多复杂的分级设计,而无需精心制作的脚本。

 边界扫描结构设计使所有IO计时在IO和电压转换结构中都是可预料的。这应当通过创建IO缓冲和边界扫描物理布局宏单元获得。这些宏单元与Agere的BCADu软件相结合,建立最高级IO连接。每种接入接出宏单元都转换为正确的电压,并接收不同的扫描输入和输出。

  这就意味着功能信号在核心内不会与扫描信号相混淆。从而,随着设计的进行,实现从顶级透视预测整个时序。IO环设计的另一特性是将边界扫描时钟TCK发送给数据的另一端。这就消除了与TCK有关的任何保留时序问题,同时意味着不必担心时序平衡和芯片外围的TCK时钟树。

  由于这种设备是基于ARM的,且具有ICE性能,与IO边界共享JTAG端口,所以需要进行扫描。设计的TDO针需要在每两个测试结构间复用。为了实现这一特性,将边界扫描控制器(Agere开发的BCAD软件部分)变为可支持边界扫描或ICE。
  复杂设计需要足够的调试性能
  ICE和ETM性能都添加到SoCy设计中。在设计规格阶段,为每个ARM966E-S提供一个独立的ETM9,费用会很大,而且因为8 个ARM966E-S都具有同一功能,所以只需要其中的一个ARM966E-S。因此单个的ETM9放在核心最上层,并连接到单芯片的单ARM966E-S核心中,其它三个芯片的ETM接口未被连接。

  SoC 设计的ICE性能需要依靠所有8个ARM966E-S核,能经由设备的JTAG端口,通过TDI/TDO信号进行通信。因为拥有多个JTAG端口的解决方案并不很实用,因而有必要利用ARM966E-S的菊花链通信性能。菊花链控制的说明见图3。菊花链系列连接要求在每两个ARM966E-S核间进行数据传送,并意味着较低级别的TCK时钟平衡变得重要了。为了使多ICE能以实用的调试速率运行,TCK时钟树必须首先在芯片间,然后在芯片内的ARM966E-S间达到平衡。

  因为设备不包含只读存储器(ROM),所以在通电时,需要启动系统将软件下载到每个核。需通过主要外部接口,到达每个子系统的AHB基础存储器。然后处理器开始启动,并将主程序传输到内核的指令TCM。
  富有挑战性的物理执行
 此Soc设计的物理执行是使用Avanti的 Apollo 和Saturn来实现TDL(时序驱动布局)和CTS (时钟树整合)的。目前Synopsys Astro已经替代了这个流程。8个内核的设计,可能产生有趣的挑战。设备的形状由ARM966E-S子系统的大小和形状规定,并受芯片形状和大小的影响。通过这个设备的数据流主要是单向的,同时影响到平面布局图。这就意味着唯一的可能就是在各自顶端堆叠芯片。于是要求制定长线(> 3mm)转发器信号策略,同时,因为每个芯片与来自芯片四个方向的信号通信,所以要求大量的转发器元。这就迫使Agere的设计小组在平面布局图中采用转发器区域,管理利用转发器元的数量。随着信号传送距离变长(> 20mm),就会对计时产生影响,于是要求重新设计SoC的某些方面,以提供更多的管线级数,确保时序不受干扰。

 如果这个设计很大(> 140mm^2),有大量的初级IO信号,同时大于数据中的125K触发器,那么就应特别注意其功耗、IR压降及IO和时钟交换引起的噪音。通过精确的嵌入时延管理,确保每个芯片的计时,从而减少设备功耗、IR 压降和时钟噪音。芯片外的电路记录对边的时间,另外金属的附加级也添加,仅用于功率路由。然而即使利用这些技术,设计人员仍认为电压能降到1.32V(Agere0.16um 1.5V 库中最小的典型电压)。随后计时分析和模拟这个更低的电压特征,并产生设备计时分析和模拟的SDF(标准时延格式)。

 对这一种类的设备,另一值得考虑的事项是地面反弹分析。需要考虑要求的VDD 和VSS板的数目,然后使用Celerity SPICE模拟器对芯片进行仿真,同时使用所有的输出交换。相应地,测量输出缓冲驱动容量,调整VDD/VSS板的数目和基调。然后再进行一个相似的仿真,评估内核电源板的需求。最后由于这是一种混合的电压设计,我们为3.3V交换 IO 和1.5V内核电压重新设计一个标准的数据基底,以合并电源层,从而减少连接到VDD 和VSS电源的感应。


 Agere实现了布局内的时序闭合后,就会利用其信号集成分析工具方法,评估假信号问题,以及信号耦合引起的时序问题。图4演示了Agere的SI流程。

当时,这个方法还是相对较新的。这些工具虽然已经十分先进了,但仍没有现在的先进。于是导致了许多反复设计,在修复了潜在问题后,再进行进一步的信号集成分析,这样才能完成整个设计。

这样的设计以及许多同样复杂的后续设计的结果是:Agere工具的信号集成能力得到很好的调整,以致于单个信元具有独特的门限特征,产生了新的SI 加强型信元(hardened cell),以及用于更高精度模块化的单网分析。这就使易受当前信号完整性问题影响的网络数量大幅下降,从而让我们能集中精力解决真正的问题。相应地,Agere现在利用了Synopsys Astro Cross-talk工具进行布局设计,并采用时钟屏蔽作为标准,消除时钟故障问题。同时,Agere 还采用了Cadence的Celtic工具代替图4 SI 流程中的Assura工具。

总之,这是个十分苛刻的SoC设计,需要开发新的设计技术才能成功实现。这些技术已经逐渐被应用到Agere的其它设计中,而且到目前为止,位于英国Ascot 的Agere设计中心已完成了7种不同技术的基于ARM的设计,包括Agere最新的0.13um技术,而整个公司已经拥有了30种基于ARM的设计方案。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

近日,Arm推出了Arm® Ethos™-U85神经网络处理器(NPU)和Arm Corstone™-320物联网参考设计平台,旨在满足海量的数据处理和大规模计算,加速推进边缘AI的发展进程。

关键字: ARM

为了赶超云计算市场上的竞争对手,谷歌正试图通过定制的Arm服务器芯片降低云计算服务成本。

关键字: 谷歌 ARM 定制芯片

嵌入式开发作为一个融合了计算机软硬件和系统工程的综合性领域,其成功与否往往取决于三个核心要素的有效整合与协调。这三个要素分别是:硬件平台的选择与设计、软件开发及其优化、以及系统级的设计与集成。深入理解并熟练掌握这三个方面...

关键字: 嵌入式开发 ARM

随着汽车软件数量爆发式的增长,整个行业都需要重新思考汽车产品的开发流程。为此,Arm推出了丰富的硬件IP、新的系统IP,以及全新的汽车计算与计算子系统产品路线图,旨在为各种汽车应用实现性能、功能安全、可扩展等方面的支持。

关键字: ARM 汽车电子

知名移动芯片设计公司ARM最近迈出重要一步,它正式推出汽车芯片设计。ARM推出的芯片设计方案名叫Neoverse,随同芯片一起推出的还有面向汽车制造商、汽车供应商的新系统。

关键字: ARM 汽车芯片 芯片

随着通用人工智能的发展,数据中心的计算需求逐步提高。针对多模态数据、大模型的推理和训练需要更高的算力支持,而随着算力提升与之而来的还需更关注在功耗方面的优化。对于头部云计算和服务厂商而言,针对专门用例提高每瓦性能变得至关...

关键字: ARM 服务器 AI Neoverse CSS

一直以来,riscv架构都是大家的关注焦点之一。因此针对大家的兴趣点所在,小编将为大家带来riscv架构的相关介绍,详细内容请看下文。

关键字: riscv ARM riscv架构

最新消息报道,知情人士透露Arm近日裁掉了中国70多名软件工程师,并会将部分职位转移到中国以外的地区。Arm通过“全球服务”部门已经将支持其中国客户的工作外包给安谋科技,该部门曾经拥有约200名员工。

关键字: ARM 裁员

凭借着在个人计算机领域的广泛应用打下的坚实基础,X86自始至终统治着整个服务器生态。而这并不是业界希望看到的,因此Arm服务器被给予厚望。业界期盼Arm能够带来新的服务器CPU替代:打破一个同质化的数据中心架构,实现更高...

关键字: ARM 服务器 AI

本文中,小编将对64位处理器予以介绍,如果你想对它的详细情况有所认识,或者想要增进对它的了解程度,不妨请看以下内容哦。

关键字: 处理器 ARM AMD
关闭
关闭