当前位置:首页 > 显示光电 > 显示光电
[导读]第I章:引言  好的时钟树对整个芯片的建立和保持时序收敛、功耗及鲁棒性均较为有益。由于我们芯片是层次化、高速、数百万门极电路的设计,因此对时钟树有许多特殊要求。在本文中,我们介绍了一种‘如何使用Talus C

第I章:引言

  好的时钟树对整个芯片的建立和保持时序收敛、功耗及鲁棒性均较为有益。由于我们芯片是层次化、高速、数百万门极电路的设计,因此对时钟树有许多特殊要求。在本文中,我们介绍了一种‘如何使用Talus CTS引擎来设计可满足特定要求的时钟树’的方法。第II章描述了高速VLSI芯片的设计和时钟树要求。第III章说明了时钟树创建的详细实施过程。第IV章介绍了来自我们亲身CTS体验的最佳实践。第V章总结了我们对Talus CTS的使用。

第II章:设计与时钟树要求

  我们的芯片以500+ MHz的高频率工作,包含有超过千万个门极电路。芯片的设计采用的是深亚微米工艺技术。芯片包含了如PLL等模拟设备以及数百万个SRAM和软宏(soft macro);有数十个时钟域。对于一个有着如此规模的芯片,下述几个是必须要达到的关键目标: 1. 建立时序收敛;2.充足的保持时序容限(margin)以实现良率;3. 快慢两个角点中时钟树的平衡;4.最小化时钟网络延迟以减少抖动,实现芯片可靠性;5.最小化时钟网络功耗以降低整个芯片的功耗;6. 最小化时钟网络上串扰耦合,达成时序收敛和良率。

第III章:实施

  本章说明了采用Talus创建时钟树的几个主要步骤。除了使用Talus内置命令以外,我们也可采用半定制脚本来增强某些功能。通过Talus与半定制脚本的结合使用,我们可在时钟树设计上获得非常好的结果(QOR)。

1. 克隆时钟门控(ICG)

  ICG克隆是时钟树创建成功的关键,它对时序、时钟树结构和功耗均有巨大影响。ICG单元可影响到时钟路径和数据路径。如何克隆和设置它们至为重要。如果ICG单元是设置在时钟树的顶层,那么它可降低时钟网络功耗;原因在于当ICG被禁用时,ICG后的子树也将被完全关闭。不过,ICG单元设置在时钟树的较高层会使得ICG的enable引脚上的建立时序更难以达成。因此它算是时序与功耗间的一种折衷方案。好的ICG克隆应能够最小化时钟树功耗,同时还不会引入无法解决的时序问题。Talus提供了两种ICG单元克隆方式:一种是“run route clock”期间的内置引擎;另一种是独立ICG克隆。从我们的经验来说,独立ICG克隆可提供更好时序和树结构,同时它对芯片功耗问题也很有帮助,设计师在如何克隆ICG单元的方式上也拥有更多的控制和配置能力。

  在我们的设计中,我们通过使用脚本来预设ICG的enable引脚上的建立时序容限和时钟引脚上的转换率以及门控单元最大扇出数。容限是为了弥补时钟树创建后ICG单元和常规触发器间的偏移,能够降低ICG单元CTS后时序变坏的可能。结合使用这些约束,Talus在ICG克隆上可起到很好作用。Talus极具智能,可有选择地克隆在E引脚上建立时序棘手的ICG单元,同时让ICG单元保有未被克隆时的良好时序余量(slack)。那些未被克隆ICG单元能够设置于时钟树较高层,这对降低动态功耗来说较为有益。

  图-1显示了Talus “run gate clone”后的结果。我们能够看出Talus基于触发器的位置自动将其扇出的触发器分成几组。由于它同时将RC考虑在内,因此ICG克隆后,引脚转换率仍是不错。有时,我们会发现触发器分组方式并非最佳,导致克隆ICG单元的布局也并不是最好的,那么我们可以应用一些定制脚本对这些触发器进行重新分组并优化布局。

图-1

  表-1显示了“run route clock”期间的自动克隆与独立ICG克隆间比较。我们对几个重要的时钟网络标准进行了比较。结果很容易就判定“run route clock”期间的自动克隆所产生的插入延迟更长、树层更多以及叶转换(leaf transition)速度更慢。


2.以最短延迟创建平衡的时钟树

  在时钟综合之前,我们需要通过“force plan clock”来定义时钟约束。

force plan clock $m –balanced_routing –buffer –inverter –max_skew

  我们也需要在创建时钟树前对指定的时钟采取额外的控制。为了在快慢两个角点上获得平衡的时钟树,考虑RC分布的同时平衡层数差不多的时钟树至为重要。互连线延迟的伸缩范围随着横跨各个角点金属层的不同而有所不同。Talus提供了一个选项“-balanced_routing”,可指出以平衡方式执行的时钟布线,从而满足了这种要求。
我们也通过下列命令将时钟网络的布线层限制于metal4和metal5:

force model routing layer $m lowest metal4 –net_type clock
force model routing layer $m highest metal5 –net_type clock

  Talus遵从上述这些指令来创建时钟树;多数的时钟网络是在metal4和metal5进行的布线。据实验结果显示,如树层、时钟树延迟和叶转换等大多数树结构在起始树创建后就已形成。它对于评估树质量并决定是否需要向前移动来说至为重要。同时,它也能帮助解决时钟树问题并加速迭代。Talus提供了一整套的树分析命令以及功能强大的GUI;但分析工作主要针对整个时钟树或整个时钟域而进行;它并不支持对子分支树结构和时序的分析。为了分析时钟树的详细信息,我们开发了一些脚本以依据分支和域报告时钟树。对于时序收敛,我们关心的是叶转换(leaf slew)直方图和每个时钟域的最大插入延迟;对于时钟分布,我们关心的是树层、缓冲区/触发器/锁存器分布。

  下方表-2和表-3是一时钟分支的时钟分析报告样本。从结构报告,我们不难发现所有触发器都在第7层和第8层。这对于时钟树的鲁棒性和多角时序关连来说非常重要。叶转换也很不错。平均转换率完全符合我们的设计要求。


  据数据显示,通过定量的控制和数据库准备工作,“run route clock”能够处理复杂的时钟树结构并产生优秀的结果质量。

3.调整时钟树以减少偏移

  调整时钟树是一项棘手的工作。首先,它要视起始时钟树的质量而定;其次,对它有一定要求,要求在尽可能少增加树延迟和面积的同时达成偏移目标。时钟偏移会影响建立和保持时序,最终影响整个芯片的时序收敛。其基本目标是要在不影响整体结构并保持转换率等标准的前提下插入缓冲器以调整时钟偏移(clock skew)。

  Talus使用“run gate clock”来调整时钟树。如只针对偏移目标,这个功能的作用并不能很好发挥出来。尤其对于有些小分支,Talus可能会增加极长的缓冲链以平衡偏移,缓冲器间的距离很小。单元延迟在这些缓冲链的分支延迟中占主要部分;而其它常规分支延迟则是互连线延迟占主要部分。这可能导致横跨不同角点的巨大偏移问题。我们开发了一个半定制脚本来指导Talus应对这个问题。它可限制用于偏移平衡的缓冲器类型、缓冲器间线长距离以及新网络的布线方式。通过这些额外的控制,我们通常可获得100ps全局偏移和仅100ps左右的时钟树延迟增加。

第IV章:来自CTS实验的最佳实践

1. 采用适当叶转换(leaf slew)来创建时钟树

  表-4显示了叶转换是如何影响到时序和功耗。它依据不同叶转换时间对建立时序、保持时序和功耗进行了对比;当转换时间的增加、建立和保持时序总负余量提高时很容易就可发现这种情况。转换时间快对时钟网络功耗也较为有益。随着转换时间的提高,短路功耗会相应增加。它也是转换目标与树面积间的一种折衷权衡。过紧的转换会导致时钟树面积、层数和延迟的提高。它需要多次迭代的实验来才可获得最佳效果。
 


2. 指定缓冲器/反向器类型以指导Talus,实现更好QOR。

  Talus的CTS性能易受到时钟单元类型的影响。如果不加以适当约束,Talus呈现给您的将会是具有长插入延迟的差的树结构。驱动能力弱的时钟单元也同样用于时钟树,这可能导致不同角点时序水平的显著降低。表-5是两个CTS结果间相同分支的比较:一个有时钟缓冲区和转换器控制,另一个则无。从表中,您可看出,通过采用时钟单元约束,Talus可创建更好的时钟树。
 


3. 优化时钟布线。

  我们通常期望时钟网络可采用更高优先级、更好布线类型来进行布线。但光是这样还不够,特别是在深亚微米技术中,串扰效应对整个芯片的时序和良率都有重大影响。时钟信号通常以极高速度地运行,切换的频率比数据信号的都要高。因此如何隔离时钟线和常规信号就显得至为重要。首先,我们要尽可能多地在厚层上进行时钟信号布线。厚层的单元电阻和接地电容较低。显而易见,分配长的时钟网络到厚层中并采用更宽的宽度和更大的空间也可改善时钟转换。Talus可定义非默认规则并设置首要层从而实现它。出于对有些关键时钟的考虑,推荐防止串扰的方式就是用接地信号对时钟线进行屏蔽(shield)。由于非默认规则布线对可布性有影响,因此它是时序与布线间一种折衷方案。在我们的设计中,我们根据线长、驱动单元类型及等级来定义不同规则。最终,它可使得时序网络更具鲁棒性。

第V章:结论

  在我们的案例中,Talus CTS引擎能够处理非常复杂的树结构。它提供了充足的CTS行为配置选项。CTS引擎的核心十分强大,足以创建一个平衡的基本时钟树。但如前几章所讲述的,它也是有些局限性。幸运的是,基于TCL环境和易于访问的DB,我们开发了一些功能强大的半定制脚本来指导CTS引擎并增强其性能。通过这种方式,我们的大部分设计要求都可得到满足。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

6月13日消息,Intel 4制造工艺只在代号Meteor Lake的初代酷睿Ultra上使用了一次,接下来就轮到了Intel 3,已经如期大规模量产,首发用于代号Sierra Forest的至强6能效核版本,第三季度内...

关键字: Intel 芯片 1.8nm

6月12日消息,据媒体报道,根据最新数据,中国市场已连续三个季度成为日本芯片制造设备的最大出口目的地,占比超过50%。

关键字: 芯片 第三代半导体 半导体材料

6月12日消息,根据全球市场研究机构TrendForce集邦咨询调查显示,2024年第一季全球前十大晶圆代工产值季减4.3%至292亿美元。

关键字: 中芯国际 半导体 芯片

近日,Intel详细介绍了即将推出的Lunar Lake系列低功耗处理器,其中GPU核显部分升级到全新的锐炫Xe2架构,它也会用于代号Battlemage的下代锐炫独立显卡。

关键字: Intel 芯片 1.8nm

6月12日消息,近日,调研机构TechInsights给出的数据显示,英伟达在GPU出货量上全球第一,占比接近98%。

关键字: 英伟达 GPU 芯片

在大数据和人工智能时代,数据存储需求呈指数级增长,市场对存储媒介的性能、容量和能效提出了更高要求。随着闪存技术向高存储密度发展,一个存储单元可以存储四比特单位的QLC(Quad-Level Cell)以其高容量、低成本...

关键字: 德明利 半导体 存储 芯片 国产存储企业

基于DSP的光谱信息感知模块设计将是下述内容的主要介绍内容,通过这篇文章,小编希望大家可以对设计的相关情况以及信息有所认识和了解,详细内容如下。

关键字: DSP 光谱 芯片 TMS320F2835

6月5日消息,近日,黑芝麻智能芯片和架构副总裁何铁军表示,黑芝麻智能C1200系列芯片预计将于2024年第四季度量产。

关键字: 芯片 英特尔 半导体

6月6日消息,据媒体报道,英特尔近期宣布,已同意以110亿美元的价格将其位于爱尔兰的Fab 34芯片工厂49%的股份出售给阿波罗全球管理公司。

关键字: Intel 芯片 1.8nm

英特尔需要有远见的CEO,否则难以逆转局面。数据中心计算、AI、机器学习是新的增长点,英特尔必须快速掉头,朝新大陆前进。

关键字: 英特尔 AI 芯片
关闭
关闭