第 10 章 稳健验证(Robust Verification)

介绍一些高级关键的主题,比如说on-chip variation, time borrowing, hierarchical methodology, power management 和statistical timing analysis。

        本章描述了特殊的 STA 分析,例如时间借用( time borrowing)、时钟门控(clock gating)和非顺序时序检查(non-sequential timing checks)。此外,还介绍了先进的 STA 概念,例如片上变化(on-chip variation)、统计时序(statistical timing analysis)以及功率与时序之间的权衡。

10.1 片上变化(On-Chip Variations)

         通常,工艺和各环境参数在芯片的不同部分上可能不一致。由于工艺差异,芯片上不同部分的相同MOS晶体管可能没有相似的特性,这些差异是由于芯片内部的工艺差异引起的。请注意,多个制造批次中的工艺参数差异可能会覆盖慢工艺到快工艺(2.10节中所介绍)。在本节中,我们讨论的是对一个芯片上可能存在的工艺差异(称为局部工艺差异local process variations)的分析,该差异远小于多个制造批次之间的差异(称为全局工艺差异 global process variations)。

        除了工艺参数的变化,设计的不同部分也可能会遇到不同的电源电压和温度。因此,同一芯片的两个区域可能不处于相同的 PVT 条件。这些差异可能由许多因素引起,包括:

  • 会影响局部电源电压的沿芯片区域的IR压降变化
  • PMOS或NMOS器件的电压阈值变化
  • PMOS或NMOS器件的沟道长度变化
  • 由于局部热点造成的温度变化
  • 互连金属刻蚀或厚度变化会影响互连电阻或电容

        上述 PVT 变化被称为片上变化 (On-Chip Variations,OCV),这些变化会影响芯片不同部分的线延迟和单元延迟。如上所述,OCV 的建模并不是要对晶片与晶片之间可能的 PVT 变化的整个范围进行建模,而是要对单个管芯内局部可能的 PVT 变化进行建模。 OCV 效应通常在时钟路径上更明显,因为它们在芯片中行进的距离更长。考虑局部 PVT 变化的一种方法是在 STA 期间合并 OCV 分析。前几章中描述的静态时序分析是在特定时序角(timing corner)获得时序,而不是对沿芯片的变化进行建模。由于 OCV 对时钟和数据路径的影响可能不同,时序验证可以通过使发射和捕获路径的 PVT 条件略有不同来模拟 OCV 效应。 STA 可以通过降额(derate)特定路径的延迟来包含 OCV 效应,也就是说,通过使这些路径更快或更慢,然后使用这些变化来验证设计的行为。单元延迟或线延迟或两者都可以降额以模拟 OCV 的影响。

        我们现在检查 OCV 降额是如何进行建立时间检查的。考虑图 10-1 中所示的逻辑,其中 PVT 条件可以随芯片变化。当启动时钟路径和数据路径具有导致最大延迟的 OCV 条件,而捕获时钟路径具有导致最小延迟的 OCV 条件时,建立时间检查的最差条件发生。请注意,这里的最小和最大是由于裸片上的局部 PVT 变化。

对于此示例,以下是建立时间检查,注意此处还不包括任何用于降额延迟的OCV设置:

LaunchClockPath + MaxDataPath <= ClockPeriod + CaptureClockPath - Tsetup_UFF1

This implies that the minimum clock period = 
        LaunchClockPath + MaxDataPath - CaptureClockPath + Tsetup_UFF1

From the figure,

LaunchClockPath = 1.2 + 0.8 = 2.0

MaxDataPath = 5.2

CaptureClockPath = 1.2 + 0.86 = 2.06

Tsetup_UFF1 = 0.35

This results in a minimum clock period of:
2.0 + 5.2 – 2.06 + 0.35 = 5.49ns

         上述路径延迟对应于没有任何 OCV 降额的延迟值。可以使用 set_timing_derate 规范来降低单元和网络延迟。例如,命令:

set_timing_derate -early 0.8
set_timing_derate -late 1.1

         上述命令将最小/最短/最早路径的延迟降低了20%,并将最大/最长/最迟路径的延迟增加了10%。长路径的延迟(例如,用于建立时间检查的数据路径和发起时钟路径或用于保持时间检查的捕获时钟路径)将乘以使用-late选项指定的降额值,而短路径的延迟(例如,用于建立时间检查的捕获时钟路径或用于保持时间检查的数据路径和发起时钟路径)将乘以使用-early选项指定的降额值。如果未指定降额系数,则假定值为1.0。

        降额系数将统一应用于所有网络延迟和单元延迟,如果某个应用场景中需要保证单元和网络的降额系数不同,则可以在set_timing_derate命令中使用-cell_delay-net_delay选项。

# Derate only the cell delays - early paths by -10%, and
# no derate on the late paths:
set_timing_derate -cell_delay -early 0.9
set_timing_derate -cell_delay -late 1.0
# Derate only the net delays - no derate on the early paths
# and derate the late paths by +20%:
set_timing_derate -net_delay -early 1.0
set_timing_derate -net_delay -late 1.2

         可以使用-cell_check选项来对单元检查(例如建立时间和保持时间)的延迟进行降额。使用此选项时,使用set_output_delay指定的任何输出延迟也将被降额,因为此约束也是输出建立时间要求的一部分。但是,对于使用set_input_delay指定的输入延迟,是不会被降额的。

# Derate the cell timing check values:
set_timing_derate -early 0.8 -cell_check
set_timing_derate -late 1.1 -cell_check
# Derate the early clock paths:
set_timing_derate -early 0.95 -clock
# Derate the late data paths:
set_timing_derate -late 1.05 -data

        -clock选项仅将降额应用于时钟路径。同样,-data选项仅将降额应用于数据路径。

        我们现在将以下降额应用于图 10-1 的示例。 

set_timing_derate -early 0.9
set_timing_derate -late 1.2
set_timing_derate -late 1.1 -cell_check
使用这些降额值,我们得到以下建立时间检查的结果:
LaunchClockPath = 2.0 * 1.2 = 2.4
MaxDataPath = 5.2 * 1.2 = 6.24
CaptureClockPath = 2.06 * 0.9 = 1.854
Tsetup_UFF1 = 0.35 * 1.1 = 0.385
最小时钟周期为
2.4 + 6.24 – 1.854 + 0.385 = 7.171ns

         在上面的建立时间检查中,存在差异,因为时钟树的公共时钟路径(图 10-1)具有 1.2ns 的延迟,对于启动时钟和捕获时钟的降额不同。时钟树的这一部分对启动时钟和捕获时钟都是通用的,不应以不同的方式降额。对启动和捕获时钟应用不同的降额过于悲观,因为实际上时钟树的这一部分将真正处于一个 PVT 条件下,要么作为最大路径,要么作为最小路径(或介于两者之间),但永远不会同时处于同时。对时钟树公共部分应用不同降额因子引起的悲观情绪称为公共路径悲观情绪(Common Path Pessimism,CPP),在分析过程中应将其去除。 CPPR 代表 Common Path Pessimism Removal,通常在路径报告中作为单独的项目列出。它也被标记为时钟重新收敛悲观消除( Clock Reconvergence Pessimism Removal,CRPR)

        CPPR 是在时序分析中去除启动时钟路径和捕获时钟路径之间人为引起的悲观情绪。如果相同的时钟同时驱动捕获和启动触发器,那么时钟树可能会在分支之前共享一个公共部分。由于启动和捕获时钟路径的降额不同,CPP 本身就是沿时钟树的这个公共部分的延迟差异。时钟信号在公共点的最小和最大到达时间之间的差值是 CPP。公共点( common point)定义为时钟树公共部分中最后一个单元的输出引脚。

CPP = LatestArrivalTime@CommonPoint – EarliestArrivalTime@CommonPoint

        上述分析中的“最晚时间”和“最早时间”是指在特定工艺角(Corner)下的OCV降额值,例如最坏情况下的慢速(Worst-Case-Slow)或最佳情况下的快速(Best-Case-Fast)。对于图10-1的示例: 

LatestArrivalTime@CommonPoint = 1.2 * 1.2 = 1.44
EarliestArrivalTime@CommonPoint = 1.2 * 0.9 = 1.08
This implies a CPP of: 1.44 - 1.08 = 0.36ns
With the CPP correction, this results in a
minimum clock period of: 7.171 - 0.36 = 6.811ns

        应用OCV降额将本示例设计的最小时钟周期从5.49ns增加到6.811ns。这说明,由这些降额系数模拟的OCV变化可降低设计的最大运行频率。 

在最坏 PVT 条件下使用 OCV 进行分析(Analysis with OCV at Worst PVT Condition)

        如果在最坏的 PVT 条件下执行建立时序检查,则不需要对后期路径进行降额,因为它们已经是最差的。但是,可以通过使用特定的降额来使这些路径更快,例如,将早期路径加速 10%,从而将降额应用于早期路径。在最坏情况下慢速corner的降额约束可能类似于:

set_timing_derate -early 0.9
set_timing_derate -late 1.0
# Don’t derate the late paths as they are already the slowest,
# but derate the early paths to make these faster by 10%.

        上述降额设置用于最坏情况慢速角的最大路径(或setup)检查;因此,后期路径 OCV 降额设置保持在 1.0,以免使其减速超过最坏情况的慢速转角。

        下面描述了在最坏情况下慢转角的setup时序检查示例。为以下捕获时钟路径指定了降额约束:

# Derate the early clock paths:
set_timing_derate -early 0.8 -clock

        以下是在最坏情况下的慢角执行的setup时序检查路径报告。延迟路径使用的降额报告为Max Data Paths Derating Factor 和 Max Clock Paths Derating Factor。

        用于早期路径的降额报告为Min Clock Paths Derating Factor(最小时钟路径降额因子)。

        请注意,捕获时钟路径降额了 20%。请参阅时序报告中的单元 UCKBUF0。在发射路径中,它具有 56ps 的延迟,而在捕获路径中具有 45ps 的降额延迟。单元 UCKBUF0 在公共时钟路径上,即在捕获时钟路径和启动时钟路径上。由于公共时钟路径不能有不同的降额,因此该公共路径的时序差异 56ps - 45ps = 11ps 将单独校正。这在报告中表现为线路clock reconvergence pessimism。总之,如果要比较这条路径的报告,有和没有降额,人们会注意到只有捕获时钟路径的单元和网络延迟被降额了。 

OCV 用于保持检查(OCV for Hold Checks)

         我们现在检查如何进行降额以进行保持时序检查。考虑图 10-2 所示的逻辑。如果沿芯片的 PVT 条件不同,当启动时钟路径和数据路径具有导致最小延迟的 OCV 条件时,即当我们有最早的启动时钟时,保持检查的最坏条件发生,并且捕获时钟路径具有导致最大延迟的 OCV 条件,即具有最新的捕获时钟。

        对于此示例,在以下表达式中指定了保持时序检查 :

LaunchClockPath + MinDataPath -CaptureClockPath -TholdUFF1 >= 0

        将图 10-2 中的延迟值应用于表达式,我们得到(不应用任何降额): 

        LaunchClockPath = 0.25 + 0.6 = 0.85

        MinDataPath = 1.7

        CaptureClockPath = 0.25 + 0.75 = 1.00

        TholdUFF1 = 1.25

         这意味着条件是:

        0.85 + 1.7 - 1.00 - 1.25 = 0.3n >=0

        这是真的,因此不存在保持违规。

        应用以下降额约束: 

set_timing_derate -early 0.9
set_timing_derate -late 1.2
set_timing_derate -early 0.95 -cell_check

        可以得到 

LaunchClockPath = 0.85 * 0.9 = 0.765
MinDataPath = 1.7 * 0.9 = 1.53
CaptureClockPath = 1.00 * 1.2 = 1.2
Thold_UFF1 = 1.25 * 0.95 = 1.1875

Common clock path pessimism: 0.25 * (1.2 - 0.9) = 0.075

        通过对启动和捕获时钟路径的公共时钟树应用降额而产生的公共时钟路径悲观情绪也被移除以进行保持时序检查。然后保持检查条件变为: 

        0.765 + 1.53 -1.2 - 1.1875 + 0.075 = -0.0175ns

        它小于 0,因此表明存在违反保持的情况,将 OCV 降额因子应用于早期和晚期路径。 

        通常,保持时序检查在最佳情况下的快速 PVT corner执行。在这种情况下,不需要对早期路径进行降容,因为这些路径已经是最早的可能。但是,可以通过将延迟路径降低特定的降额因子来对延迟路径应用降额,例如,将延迟路径减慢 20%。这个corner的降额约束将类似于:

set_timing_derate -early 1.0
set_timing_derate -late 1.2
# Don’t derate the early paths as they are already the
# fastest, but derate the late paths slower by 20%.

        在图10-2例子中,

LatestArrivalTime@CommonPoint = 0.25 * 1.2 = 0.30
EarliestArrivalTime@CommonPoint = 0.25 * 1.0 = 0.25

        这意味着一个共同的路径悲观性: 

        0.30 - 0.25 = 0.05ns

         以下是使用此降额的示例设计的保持时序检查路径报告。

         请注意,后期路径的额定值降低了 20%,而早期的路径并未降低额定值。请参阅单元格 UCKBUF0。它在发射路径上的延迟为 56ps,而在捕获路径上的延迟为 67ps - 降额了 20%。 UCKBUF0是公共时钟树上的单元,因此该公共时钟树上因不同降额引入的悲观情绪为,67ps - 56ps = 11ps,在线clock reconvergence pessimism中单独考虑。

10.2 时间借用(Time Borrowing)

         时间借用( time borrowing)技术,也称为cycle stealing,发生在锁存器上。在锁存器中,时钟的一个边沿使锁存器透明,也就是说,它打开锁存器,使锁存器的输出与数据输入相同;这个时钟边缘称为开启边沿( opening edge)。时钟的第二个边沿关闭锁存器,即数据输入上的任何更改在锁存器的输出端不再可用;此时钟边沿称为闭合边沿( closing edge)。

        通常,数据应该在时钟的有效边沿之前在锁存输入端准备就绪。然而,由于锁存器在时钟有效时是透明的,因此数据到达的时间可能晚于有效时钟边沿,也就是说,它可以从下一个周期借用时间。如果借用了这样的时间,则可用于下一阶段(锁存到另一顺序单元)的时间减少。

         图10-3显示了使用主动上升沿借用时间的示例。如果数据DIN在10 ns的CLK上升沿上的锁存器打开之前的时间A准备就绪,则数据在锁存器打开时流向锁存器的输出。如果数据如DIN(延迟)所示在时间B到达,则借用时间Tb。然而,这减少了从锁存器到下一个触发器UFF2的可用时间-而不是整个时钟周期,只有时间Ta可用。

         锁存器时序的第一条规则是,如果数据在锁存器的开启边缘之前到达,则行为建模与触发器完全相同。起始边沿捕获数据,相同的时钟边沿启动数据作为下一条路径的起始点。

         第二个规则适用于数据信号到达时,而锁存器是透明的(在开口和闭合边缘之间)。锁存器的输出,而不是时钟引脚,被用作下一级的启动点。在锁存器结束的路径借用的时间量决定了下一阶段的启动时间。

        在锁存器的闭合沿之后到达的数据信号是时序冲突。图10-4显示了positive slack, zero slack, 和negative slack (即发生违规时)的数据到达时序区域。

         图10-5(A)显示了具有通向下一级触发器的半周期路径的锁存器的使用。图10-5(B)描述了借用时间场景的波形。时钟周期为10 ns。数据由UFF0在时间0启动,但数据路径需要7 ns。锁闩ULAT1以5 ns的速度打开。因此,从路径ULAT1到UFF1借用2 ns。ULAT1到UFF1路径的可用时间仅为3 ns(5 ns-2 ns)。

        接下来,我们将为图10-5(A)中的锁存示例描述三组时序报告,以说明从下一阶段借用的不同时间量。

没有借用时间的示例(Example with No Time Borrowed)

         以下是从触发器UFF0到锁存器ULAT1的数据路径延迟小于5 ns时的setup路径报告。

         在这种情况下,不需要借用,因为数据在锁存器打开之前及时到达锁存器ULAT1。

有借用时间的示例(Example with Time Borrowed)

         下面的路径报告显示了从触发器UFF0到锁存器ULAT1的数据路径延迟大于5 ns的情况。

         在这种情况下,由于在锁存器透明的同时数据变为可用,因此从后续路径借用所需的1.81 ns的延迟,并且仍然满足定时。下面是后续路径的路径报告,显示前一路径已经借用了1.81 ns。

有时序违规的示例(Example with Timing Violation)

         在这种情况下,数据路径延迟要大得多,只有在锁存器关闭后数据才可用。这显然是timing violation

10.3 数据到数据检查(Data to Data Checks)

         setup和hold检查也可以在任意两个数据引脚之间应用,这两个引脚都不是时钟。一个管脚是约束管脚( constrained pin),其作用类似于触发器的数据管脚,第二个管脚是相关管脚(related pin),其作用类似于触发器的时钟管脚。关于触发器的setup检查的一个重要区别在于,数据到数据setup检查在与启动边沿相同的边沿上执行(与触发器的正常setup检查不同,在触发器的正常setup检查中,捕获时钟边沿通常与启动时钟边沿相差一个周期)。因此,数据到数据setup检查也称为 zero-cycle checks或 same-cycle checks

        使用 set_data_check 约束指定数据到数据检查。以下是 SDC 约束示例。

set_data_check -from SDA -to SCTRL -setup 2.1
set_data_check -from SDA -to SCTRL -hold 1.5

         参见图 10-6。 SDA 是related pin,SCTRL 是 constrained pin。setup数据检查意味着 SCTRL 应在相关引脚 SDA 的边缘之前至少 2.1ns 到达。否则它是数据到数据setup检查违规。hold数据检查指定 SCTRL 应在 SDA 之后至少 1.5ns 到达。如果约束信号早于此约束到达,则它是数据到数据hold检查违规。

        这种检查在 custom-designed block 中很有用,在这种情况下,可能需要提供一个信号相对于另一个信号的特定到达时间。一种常见的情况是数据信号被使能信号门控,当数据信号到达时,需要保证使能信号稳定。 

         考虑图 10-7 中所示的 and 单元格。我们假设要求是确保 PNA 在 PREAD 上升沿之前 1.8ns 到达,并且在 PREAD 上升沿之后的 1.0ns 内不应改变。在本例中,PNA 是 constrained pin,PREAD 是related pin。所需的波形如图 10-7 所示。

        可以使用数据到数据建立和保持检查来指定这样的要求。 

set_data_check -from UAND0/A1 -to UAND0/A2 -setup 1.8
set_data_check -from UAND0/A1 -to UAND0/A2 -hold 1.0

         这是setup报告。

         setup时间在报告中指定为data check setup time。失败的报告表明 PREAD 需要至少延迟 1.72ns,以确保 PENA 在 PREAD 之前 1.8ns 到达——这是我们的要求

         数据到数据setup检查的一个重要方面是,启动constrained pinrelated pin的时钟边沿来自相同的时钟周期(也称为same-cycle checks)。因此,请注意报告中捕获沿 (UDFF0/CK) 的开始时间为 0ns,而不是像setup报告中通常看到的那样晚一个周期。

         zero-cycle setup check导致保持时序检查与其他保持检查报告不同 - 保持检查不再在同一时钟沿上。下面是用于保持路径报告的 CLKPLL 的时钟约束。

create_clock -name CLKPLL -period 10 -waveform {0 5} \
[get_ports CLKPLL]

        请注意,用于启动related pin以进行保持检查的时钟沿比 constrained pin的启动沿早一个周期。这是因为根据定义,保持检查通常在建立捕获沿之前的一个周期执行。由于constrained pinrelated pin的时钟沿对于数据到数据setup检查是相同的,因此保持检查在启动沿前一个周期完成。 

        在某些情况下,设计人员可能需要在同一时钟周期内执行数据到数据保持检查。相同的周期保持要求意味着将用于related pin的时钟沿移回受constrained pin的时钟沿所在的位置。这可以通过指定 -1 的多周期来实现。

set_multicycle_path -1 -hold -to UAND0/A2

         以下是具有此多周期约束的上述示例的保持时序报告。

         现在,对constrained pin 和 the related pin使用相同的时钟沿执行保持检查。在同一周期中执行数据到数据保持检查的另一种方法是将其指定为反向引脚之间的数据到数据setup检查。

set_data_check -from UAND0/A2 -to UAND0/A1 -setup 1.0

         数据到数据检查在定义no-change data check时也很有用。这是通过在上升沿指定setup检查和在下降沿指定保持检查来完成的,以便有效定义不变窗口。如图 10-8 所示。

         以下是此方案的约束:

set_data_check -rise_from D2 -to D1 -setup 1.2
set_data_check -fall_from D2 -to D1 -hold 0.8

10.4 非顺序检查(Non-Sequential Checks)

         单元或宏的(cell 和 macro)库文件可以将时序弧指定为非顺序检查(non-sequential check),例如两个数据引脚之间的时序弧。非顺序检查是两个引脚之间的检查,这两个引脚都不是时钟。一个引脚是constrained pin,其作用类似于数据,而第二个引脚是related pin,其作用类似于时钟。该检查指定在related pin上发生变化之前和之后,constrained pin上的数据必须保持稳定多长时间。

        请注意,此检查被指定为单元库约束的一部分,并且不需要显式数据到数据检查约束。以下是这样的时间弧如何出现在单元库中。

pin (WEN) {
    timing () {
    timing_type: non_seq_setup_rising;
    intrinsic_rise: 1.1;
    intrinsic_fall:1.15;
    related_pin: “D0”;
    }
    timing () {
    timing_type: non_seq_hold_rising;
    intrinsic_rise: 0.6;
    intrinsic_fall:0.65;
    related_pin: “D0”;
    }
}

         setup_rising 是指相关管脚的上升沿。固有上升和下降值是指受限引脚的上升和下降设置时间。可以为hold_rising、setup_falling 和hold_falling 定义类似的时序弧。

        非顺序检查(non-sequential check)类似于第10.3节中描述的数据对数据检查,但是它们有两个主要区别。在非顺序检查中,建立和保持值从标准单元库中获得,其中建立和保持时序模型可以使用NLDM表格模型或其他高级时序模型来描述。在数据到数据检查中,只能为数据到数据建立或保持检查指定一个值。第二个区别是,非顺序检查只能应用于单元的pin,而数据对数据检查可以应用于设计中的任意两个pin。

        非顺序建立检查(non-sequential setup check)指定相对于related pin,受约束信号必须多早到达。如图10-9所示。单元库包含建立时序弧D0->WEN,该弧被指定为非顺序弧。如果WEN信号出现在建立窗口内,则非顺序建立检查失败。

        非顺序保持检查(non-sequential hold check)指定相对于related pin,受约束信号必须到达多晚。见图10-9。如果WEN在保持窗口内发生变化,则保持检查失败。 

10.5 时钟门控检查(Clock Gating Checks)

        当门控信号(gating signal)可以控制逻辑单元处的时钟信号(clock signal)的路径时,发生时钟门控检查。如图10-10示例。连接到时钟的逻辑单元的引脚称为时钟引脚(clock pin),连接门控信号的引脚称为门控引脚(gating pin)。发生时钟门控的逻辑单元也称为门控单元(gating cell)。 

        时钟门控检查的一个条件是通过单元的时钟必须用作下游时钟(clock downstream)。下游时钟使用既可以作为触发器时钟,也可以扇出到输出端口,或者作为生成时钟,将门控单元的输出称为其主时钟。如果时钟不用作门控单元之后的时钟,则不会推断时钟门控检查。

        时钟门控检查的另一个条件适用于门控信号。检查的门控引脚上的信号不应是时钟,或者如果是时钟,则不应用作下游时钟(本节后面将包含作为门控信号的时钟示例)。

        在一般情况下,时钟信号和门控信号不需要连接到单个逻辑单元,例如and、或or,而是可以是任意逻辑块的输入。在这种情况下,要推断时钟门控检查,检查的时钟引脚和检查的门控引脚必须扇出到公共输出引脚。

        推断出两种类型的时钟门控检查:

  • 高电平有效时钟门控检查(Active-high clock gating check):当门控单元具有and 或 nand功能时发生。
  • 低电平有效时钟门控检查( Active-low clock gating check):当门控单元具有 or或 nor功能时发生。

        高电平有效和低电平有效是指门控信号的逻辑状态,它激活门控单元输出端的时钟信号。如果门控单元是门控关系不明显的复杂功能,例如多路复用器或异或单元,则 STA 输出通常会提供警告,指出未推断出时钟门控检查。然而,这可以通过使用命令 set_clock_gating_check 明确指定门控单元的时钟门控关系来改变。在这种情况下, 如果set_clock_gating_check 约束与门控单元的功能不一致,STA 通常会提供警告。我们将在本节后面介绍此类命令的示例。

        如前所述,只有当时钟不用作下游时钟时,它才能成为门控信号。考虑图 10-11 中的示例。由于 CLKA 的生成时钟的定义,CLKB 不用作下游时钟 - CLKB 的路径被生成的时钟定义阻塞。因此,为and单元推断时钟 CLKA 的时钟门控检查。

高电平有效时钟门控(Active-High Clock Gating)

         我们现在检查高电平有效时钟门控检查的时序关系。这发生在一个and或一个 nand 单元上;使用and的示例如图 10-12 所示。门控单元的引脚 B 是时钟信号,门控单元的引脚 A 是门控信号。

        让我们假设时钟 CLKA 和 CLKB 具有相同的波形 。

create_clock -name CLKA -period 10 -waveform {0 5} \
[get_ports CLKA]
create_clock -name CLKB -period 10 -waveform {0 5} \
[get_ports CLKB]

         因为它是一个and单元,门控信号 UAND0/A 上的高电平打开门控单元并允许时钟通过。时钟门控检查旨在验证门控引脚转换不会为扇出时钟创建有效边沿。对于正边沿触发逻辑,这意味着门控信号的上升沿发生在时钟的非活动周期(低电平时)。类似地,对于负沿触发逻辑,门控信号的下降沿应仅在时钟为低电平时出现。请注意,如果时钟同时驱动正边沿和负边沿触发的触发器,则门控信号(上升沿或下降沿)的任何转换都必须仅在时钟为低电平时发生。图 10-13 显示了需要延迟以通过时钟门控检查的活动边沿期间门控信号转换的示例。

        高电平有效时钟门控建立检查要求门控信号在时钟变高之前发生变化。这是建立路径报告。 

         请注意,端点指示它是时钟门控检查。此外,该路径位于 Path Group中指定的clock_gating_default 路径组中。该检查验证门控信号在 10ns 时钟 CLKB 的下一个上升沿之前发生变化。

        高电平有效时钟门控保持检查要求门控信号仅在时钟下降沿之后发生变化。这是保持路径报告。

         保持门控检查失败,因为门控信号在 5ns 处的 CLKB 下降沿之前变化太快。如果在 UDFF0/Q 和 UAND0/A1 引脚之间添加 5ns 延迟,则建立和保持门控检查都将通过验证门控信号仅在指定window中发生变化。

         可以看出,保持时间要求相当大。这是因为门控信号的意义和被门控的触发器是相同的。这可以通过使用不同类型的启动触发器来解决,例如,一个负边沿触发的触发器来生成门控信号。这样的例子如下所示。

         在图 10-14 中,触发器 UFF0 由时钟 CLKA 的负沿控制。安全时钟门控意味着触发器 UFF0 的输出必须在门控时钟的非活动部分(5ns 到 10ns 之间)发生变化。

         对应于图 10-14 中原理图的信号波形如图 10-15 所示。

        这是时钟门控建立报告。

        这是时钟门控保持报告。请注意,新设计更容易满足保持时间检查。 

         由于启动门控信号的时钟沿(负沿)与被门控的时钟(高电平有效)相反,建立和保持要求非常容易满足。这是门控时钟最常用的结构。

低电平有效时钟门控(Active-Low Clock Gating)

        图 10-16 显示了低电平有效时钟门控检查的示例。

create_clock -name MCLK -period 8 -waveform {0 4} \
[get_ports MCLK]
create_clock -name SCLK -period 8 -waveform {0 4} \
[get_ports SCLK]

         低电平有效时钟门控检查验证门控信号的上升沿是否到达正沿触发逻辑的时钟的有效部分(当它为高电平时)。如前所述,关键是门控信号不应导致输出门控时钟的有效边沿。当门控信号为高电平时,时钟无法通过。因此,只有当时钟为高电平时,门控信号才应切换,如图 10-17 所示。

        这是低电平有效时钟门控建立时序报告。此检查可确保门控信号在时钟边沿变为无效之前到达,在本例中为 4ns。

         这是时钟门控保持时序报告。此检查确保门控信号仅在时钟信号的上升沿之后发生变化,在本例中为 0ns。

带多路复用器的时钟门控(Clock Gating with a Multiplexer)

        图10-18显示了使用多路复用器单元的时钟门控示例。多路复用器输入端的时钟门控检查确保多路复用器选择信号在正确的时间到达,以便在MCLK和TCLK之间干净地切换。对于本例,我们感兴趣的是在MCLK之间切换,并假设在选择信号切换时TCLK较低。这意味着多路复用器的选择信号应仅在MCLK低时切换。这类似于高电平有效时钟门控检查。

        图 10-19 显示了时序关系。多路复用器的选择信号必须在 MCLK 为低电平时到达。此外,假设选择更改时 TCLK 将为低。 

         由于门控单元是一个多路复用器,因此不会自动推断时钟门控检查,如 STA 期间报告的此消息所示。

        但是,可以通过提供 set_clock_gating_check 明确强制进行时钟门控检查。 

set_clock_gating_check -high [get_cells UMUX0]
# The -high option indicates an active-high check.
set_disable_clock_gating_check UMUX0/I1

         禁用检查(disable check)关闭特定引脚上的时钟门控检查,因为我们不关心该引脚。多路复用器上的时钟门控检查已指定为高电平有效时钟门控检查。这是建立时序路径报告。

         接下来是时钟门控保持时序报告。

具有时钟反转的时钟门控(Clock Gating with Clock Inversion)

        图10-20显示了另一个时钟门控示例,其中触发器的时钟反转,触发器的输出为门控信号。由于门控单元是and单元,因此只有当and单元的时钟信号较低时,门控信号才必须切换。这定义了建立和保持时钟门控检查。

        这是时钟门控建立时序报告 。

        请注意,建立检查会验证数据是否在时间 15ns 的 MCLK 边沿之前发生更改。这是时钟门控保持时序报告。 

         保持检查验证数据(门控信号)是否在时间 10ns 的 MCLK 下降沿之前发生变化。

        如果门控单元是复杂单元并且建立和保持检查不明显,则可以使用 set_clock_gating_check 命令指定对时钟信号进行门控的门控信号的建立和保持检查。建立检查验证门控信号在时钟信号的有效边沿之前是否稳定。建立失败会导致门控单元输出出现故障。保持检查验证门控信号在时钟信号的非活动边沿是否稳定。以下是 set_clock_gating_check 约束的一些示例。

set_clock_gating_check -setup 2.4 -hold 0.8 \
[get_cells U0/UXOR1]
# Specifies the setup and hold time for the clock
# gating check at the specified cell.
set_clock_gating_check -high [get_cells UMUX5]
# Check is performed on high level of clock. Alternately, the
-low option can be used for an active-low clock gating check.

10.6 功耗管理(Power Management)

        管理功率是任何设计及其实现方式的一个重要方面。在设计实施期间,设计人员通常需要评估不同的方法,以在设计的速度、功耗和面积之间进行权衡。

        如第 3 章所述,设计逻辑部分的功耗由泄漏功率(leakage power)和有功功率(active power)组成。此外,模拟宏和 IO 缓冲器(尤其是那些具有有源端接的)可以消耗与活动无关且不泄漏的功率。在本节中,我们关注设计逻辑部分功耗的权衡。

        一般来说,管理由标准单元和内存宏组成的数字逻辑的功率贡献有两个考虑事项:

  • 最小化设计的总有功功率:设计人员将确保总功耗保持在可用功率限制范围内。设计的不同操作模式可能有不同的限制。此外,设计中使用的不同电源也可能有不同的限制。
  • 将设计在待机模式下的功耗降至最低:对于电池供电的设备(例如手机)来说,这是一个重要的考虑因素,其目标是将待机模式下的功耗降至最低。待机模式下的功耗是泄漏功耗加上待机模式下活动逻辑的任何功耗。如上所述,可能有其他模式,例如睡眠模式,对功率有不同的限制。

        本节介绍功率管理的各种方法。这些方法中的每一种都有其优点和缺点,本文将对其进行描述。

10.6.1 时钟门控(Clock Gating)

         如第 3 章所述,触发器的时钟活动占总功耗的重要组成部分。即使触发器输出不切换,触发器也会由于时钟切换而耗散功率。考虑图 10-21(a) 中的示例,其中触发器仅在使能信号 EN 有效时才接收新数据,否则保持先前状态。在 EN 信号无效期间,触发器的时钟翻转(toggle)不会引起任何输出变化,尽管时钟活动仍会导致触发器内部的功率耗散。时钟门控的目的是,通过在触发器输入无效的clock cycles期间消除触发器的时钟活动来最小化这种贡献。通过时钟门控进行的逻辑重组在触发器引脚处引入了时钟门控。图 10-21 说明了时钟门控引起的转换示例。

        因此,时钟门控确保触发器的时钟引脚仅在其数据输入端有新数据时才触发。 

10.6.2 电源门控(Power Gating)

         电源门控涉及关闭电源,以便可以关闭非活动块的电源。此过程如图 10-22 所示,其中添加了一个与电源串联的footer(或header)MOS 器件。配置控制信号 SLEEP ,使得在块的正常操作期间footer(或header)MOS 器件处于开启状态。由于电源门控 MOS 器件(footer or header)在正常操作期间处于开启状态,因此该模块已通电并在正常功能模式下运行。在模块的非活动(或睡眠)模式期间,门控 MOS 器件(footer or header)被关闭,从而消除了逻辑模块中的任何活动功耗。footer是在实际的地与模块的地网络之间的大型NMOS器件,可通过电源门控对其进行控制。header是实际电源和模块的电源网络之间的大型 PMOS 器件,通过电源门控进行控制。在睡眠模式期间,块中唯一耗散的功率是通过footer(或header)设备的泄漏功率。

         footer or header通常使用多个电源门控单元来实现,这些电源门控单元对应于多个并联的 MOS 器件。footer or header设备向电源引入了串联电阻。如果导通电阻值不小,通过门控 MOS 器件的 IR 压降会影响逻辑块中单元的时序。虽然关于门控器件尺寸的主要标准是确保导通电阻值较小,但由于电源门控 MOS 器件决定了非活动或睡眠模式下的泄漏功率,因此需要进行权衡。

         总之,应该有足够数量的电源门控单元并联,以确保在有源模式下串联电阻的 IR 降最小。然而,处于非活动或睡眠模式的门控单元的泄漏功率也是选择并联电源门控单元数量的一个标准。

10.6.3 多电压阈值单元(Multi Vt Cells)

         如第3章(第3.8节)所述,多电压阈值(Vt)单元用于权衡速度和泄露功率。高Vt单元具有较少的泄露功率,尽管其速度比标准Vt单元慢,标准Vt单元速度更快,但具有较高的泄露功率。类似地,低Vt单元比标准Vt单元快,但泄露功率也相应地更高。

        在大多数设计中,目标是在达到所需操作速度的同时将总功率降至最低。尽管泄露功率可能是总功率的重要组成部分,但实现仅使用高Vt单元来减少泄露功率的设计可以增加总功率,即使泄露功率贡献可能会降低。这是因为最终的设计实现可能需要更多(或更高强度)的高Vt单元来实现所需的性能。与使用高Vt单元导致的泄漏功率的降低相比,等效gate数目的增加可以更多地增加有功功率。然而,在某些情况下,泄漏功率是总功率的主要组成部分;在这种情况下,采用高Vt单元的设计可能会导致总功率降低。需要适当地利用具有不同Vt的单元之间在其速度和泄露功率方面的上述权衡,因为它取决于设计及其开关活动曲线。下面说明了高性能块的两个场景,其中实现方法可以根据块是非常活跃的还是具有低切换活动而不同。

具有高活性的高性能块(High Performance Block with High Activity)

         这种情况是具有高开关活动的高性能块,并且功率由有功功率支配。对于此类块,仅关注降低泄漏功率会导致总功率增加,即使泄漏功率贡献可被最小化。在这种情况下,初始设计实现应使用标准 Vt(或低 Vt)单元以满足所需的性能。在达到所需的时序后,沿着具有正时序裕量的路径的单元可以更改为高 Vt 单元,从而在仍然满足时序要求的同时减少泄漏贡献。因此,在最终实现中,标准 Vt(或低 Vt)单元仅用于关键或难以实现的时序路径,而沿非关键时序路径的单元可以是高 Vt 单元。

具有低活性的高性能块(High Performance Block with Low Activity)

        这种情况是具有非常低开关活动的高性能模块,因此泄漏功率是总功率的重要组成部分。由于模块的活动性较低,因此有功功率不是设计总功率的主要组成部分。对于此类模块,初始实现尝试仅在组合逻辑和触发器中使用高 Vt 单元。一个例外是时钟树,它始终处于活动状态,因此使用标准 Vt(或低 Vt)单元构建。在仅使用高 Vt 单元进行初始实施后,可能存在一些无法实现所需时序的时序路径。然后将沿这些路径的单元替换为标准 Vt(或低 Vt)单元,以实现所需的时序性能。 

10.6.4  阱偏置(Well Bias)

         阱偏置(well bias)是指在分别用于 NMOS 和 PMOS 器件的 P-well 或 N-well 上添加一个小的电压偏置。图 2-1 所示 NMOS 器件的衬底(或 P 阱)连接通常接地。同样,图 2-1 所示 PMOS 器件的衬底(或 N 阱)连接通常连接到电源 (Vdd) 。

         如果阱连接具有轻微的负偏压,可以显著降低泄漏功率。这意味着 NMOS 器件的 P 阱连接到一个小的负电压(例如 -0.5V)。同样,PMOS 器件的 Nwell 连接连接到高于电源的电压(例如 Vdd +0.5V)。通过添加阱偏置,单元的速度受到影响;然而,泄漏功率大大减少。单元库中的时序是通过将阱偏置考虑在内而生成的。

         使用阱偏置的缺点是P阱和N阱连接需要额外的供电电源(例如-0.5V和Vdd + 0.5V)。

10.7 反标(Backannotation)

10.7.1  SPEF

        STA 如何知道设计的寄生参数是什么?通常,该信息是通过使用寄生提取工具提取的,并且该数据由 STA 工具以 SPEF 的形式读取。附录 C 中描述了 SPEF 的详细信息和格式。 

        物理设计布局工具内的 STA 引擎的行为也类似,不同之处在于提取信息写入内部数据库。

10.7.2  SDF

        在某些情况下,单元和互连的延迟由另一个工具计算,并通过 SDF 为 STA 读取。使用 SDF 的优点是不再需要计算单元延迟和互连延迟——因为它们直接来自 SDF,因此 STA 可以专注于时序检查。但是,这种延迟注释的缺点是由于缺少寄生信息,STA 无法执行串扰计算。 SDF 是通常用于将延迟信息传递给模拟器的机制。 

        SDF 的详细信息和格式在附录 B 中描述。

10.8 sign off方法(Sign-off Methodology)

        STA 可以针对许多不同的场景运行。决定场景的三个主要变量是: 

  • 寄生角(Parasitics corners)(RC 互连角和用于寄生提取的操作条件) 
  • 操作模式 (Operating mode)
  • PVT 角(PVT corner)

互连寄生角(Parasitic Interconnect Corners)

         可以在许多corner提取寄生参数。这些主要取决于制造过程中金属宽度和金属蚀刻的变化。其中一些是:

  • Typical:这是指互连电阻和电容的标称值。 
  • Max C:这是指导致最大电容的互连角。互连电阻比 typical corner小。该角会导致短网路径的最大延迟,可用于最大路径分析。 
  • Min C:这是指导致最小电容的互连角。互连电阻比 typical corner大。该角导致具有短网络的路径的最小延迟并可用于最小路径分析。 
  • Max RC:这是指使互连RC 乘积最大化的互连角。这通常对应于减小走线宽度的较大蚀刻。这导致最大电阻但对应于小于Typical电容。总体而言,对于具有长互连的路径,该角具有最大延迟,可用于最大路径分析。 
  • Min RC:这是指使互连RC 乘积最小的互连角。这通常对应于增加走线宽度的较小蚀刻。这导致最小的电阻,但对应于大于Typical电容。总体而言,对于具有长互连的路径,该角具有最小的路径延迟,可用于最小路径分析。

        基于上述各个角的互连电阻和电容,具有较大电容的互连角会导致电阻较小,具有较小电容的互连角会导致电阻较大。因此,电阻在一定程度上补偿了各个互连角下的电容。这意味着对于所有类型网络的延迟,没有一个角会真正对应极限情况(最差情况或最佳情况)。使用Cworst / Cbest角下的路径延迟仅对于较短网络是极限情况,而RCworst / RCbest角仅对于较长网络是极限情况,而对于平均长度的网络,Typical互连角通常在路径延迟方面是极限的。因此,设计人员经常会在上述各个互连角下都去验证设计的时序。但是,即使在每个角处都进行了验证也可能无法涵盖所有可能的情况,因为不同的金属层实际上可以独立地处于不同互连角下,例如:METAL2在Max C角下而METAL1在Max RC角下。10.9节中介绍的统计(statistical)时序分析将提出一种静态时序分析的机制,其中不同的金属层可以处于不同的互连角下。

操作模式(Operating Modes) 

  • 功能模式1(工作在高速时钟下)
  • 功能模式2(工作在低速时钟下)
  • 功能模式3(睡眠模式)
  • 功能模式4(调试模式)
  • 测试模式1(scan capture)
  • 测试模式2(scan shift)
  • 测试模式3(bist)
  • 测试模式4(jtag)

PVT corner

         PVT corner指示在什么条件下进行STA分析。最常见的PVT corner是:

  • WCS(慢工艺,低电源,高温)
  • BCF(快工艺,高电源,低温)
  • Typical(典型工艺,额定电源,额定温度)
  • WCL(冷慢工艺,低电源,低温)
  • 或PVT domin中的任何其他点

        任何情况下都可以执行STA分析。这里的场景指的是上述互连角、操作模式和PVT corner的组合。

多模式多角分析(Multi-Mode Multi-Corner Analysis)

        多模式多角(Multi-mode multi-corner ,MMMC)分析是指同时对多个工作模式、PVT角和寄生互连角进行STA分析。例如,假设DUA有四种工作模式(Normal, Sleep, Scan shift, Jtag),并在三个PVT角(WCS、BCF、WCL)和三个寄生互连角(Typical、Min C、Min RC)进行分析,如表10-23所示。 

        总共有 36 种可能的场景,在这些场景中可以执行所有时序检查,例如建立、保持、转换和时钟门控检查。根据设计的规模,同时为所有 36 个场景运行 STA 在运行时间方面可能会令人望而却步。一个场景可能不需要,因为它可能包含在另一个场景中,或者一个场景可能不需要。例如,设计者可以确定场景 4、6、7 和 9 不相关,因此不需要。此外,可能没有必要在一个corner运行所有模式,例如场景 5 中可能不需要 Scan shift 或 Jtag 模式。 如果多模式多角功能是可用的,则可以在单个场景或多个场景中同时运行 STA可用的。 

         运行多模式多角 STA 的优点是节省了运行时间和设置分析脚本的复杂性。 MMMC 场景中的额外节省是设计和寄生参数只需加载一次或两次,而不是为每个mode或corner单独加载多次。这样的工作也更适合在 LSF 场上运行它们。多模式多角在优化流程中具有更大的优势,其中优化在所有场景中完成,以便在一个场景中修复时序违规不会在另一个场景中引入时序违规。

        对于 IO 约束,-add_delay 选项可以与多个时钟源一起使用,以在一次运行中分析不同的模式,例如扫描或双模式,或对应于不同速度的 PHY(物理层接口 IP 块,例如 10G PHY)中的不同操作模式。通常,每种模式都在单独的运行中进行分析,但并非总是如此。

        发现具有大量时钟的设计需要数十次独立运行才能覆盖最大和最小corner的每个模式,并且包括串扰和噪声的影响,这并不罕见。

10.9 统计静态时序分析(Statistical Static Timing Analysis)

        到目前为止描述的静态时序分析技术是确定性的,因为该分析基于设计中所有时序弧的固定延迟。根据操作条件以及工艺和互连模型计算每个电弧的延迟。虽然可能存在多个mode和多个corner,但是可以确定性地获得给定场景的时序路径延迟。 

        实际上,执行STA时通常使用的工艺和工作条件的最差情况(WCS)或最佳情况(BCF)对应于极端的3σ角(这里的σ指的是统计建模的自变量的标准差)。时序库基于的是代工厂提供的带有工作条件的工艺角模型,这些条件对应于单元时序值的不同角。例如,使用快速工艺模型、最高电源和最低温度来表征最佳情况的快速时序库。

10.9.1 工艺和互连变化(Process and Interconnect Variations)

全局工艺变化(Global Process Variations)

        全局工艺变化(global process variations)(也称为芯片间器件变化inter-die device variations),指的是影响芯片(或晶片)上所有器件的工艺参数的变化。参见图10-24。这描述了芯片上的所有设备都受到这些工艺变化的类似影响-芯片上的每个设备都将变slow或变fast,或者介于两者之间的任何位置。因此,由全局工艺参数建模的变化旨在捕捉不同模具之间的变化。

         图10-25显示了全局参数值(例如g_par1)的变化。例如,参数g_par1可以对应于标准(这里的标准设备是指长度和宽度固定的设备。)NMOS器件的IDSsat(器件饱和电流)。由于这是一个全局参数,因此芯片上所有单元实例中的所有NMOS器件将对应于相同的g_par1值。可以有如下选择:所有单元实例的g_par1的变化是完全相关的,或者芯片上g_par1的变化相互影响。注意,可能还存在其它全局参数(g_par2,...),其可能可以对PMOS器件饱和电流和其它相关变量建模。

        不同的全局参数(g_par1、g_par2、.。。。)。是不相关的。不同全局参数中的变化不会相互影响,这意味着g_par1和g_par2参数彼此独立变化;在芯片中,g_par1可能处于最大值,而g_par2可能处于最小值。 

         在确定性(即非统计性)分析中,慢速工艺模型可能对应于芯片间变化的+ 3σ角的条件。类似地,快速工艺模型可能对应于芯片间变化的-3σ角的条件。

局部工艺变化(Local Process Variations)

         局部工艺变化(也称为芯片内器件变化intra-die device variations)指的是工艺参数中的变化,这些变化可能以不同方式影响给定芯片上的器件。参见图10-26。这意味着并排放置的芯片上的相同器件在同一芯片上可能具有不同的行为。由局部工艺变化建模的变化旨在捕捉模具内的随机工艺变化。

         图10-27显示了局部工艺参数的变化。芯片上的局部参数变化不会相互影响,并且它们从一个单元实例到另一个单元实例的变化是不相关的。这意味着对于同一芯片上的不同器件,局部参数可能具有不同的值。例如,芯片上的不同NAND2单元实例可能会看到不同的局部工艺参数值。这会导致同一NAND2单元的不同实例具有不同的延迟值,即使其他参数(例如输入转换和输出负载)是相同的。

         图10-28显示了由全局和局部变化引起的NAND2信元延迟的变化。该图说明了全局参数变化比局部参数变化引起的时延变化更大。

         局部工艺变化是打算在使用 OCV 建模的分析中捕获的变化之一,如第 10.1 节所述。由于统计时序模型通常包括局部工艺变化,使用统计时序模型的 OCV 分析不应包括 OCV 设置中的局部工艺变化。

互连变化(Interconnect Variations)

         如第 10.8 节所述,有各种互连角代表影响互连电阻和电容值的每个金属层的参数变化。这些参数变化通常是金属和电介质的厚度,以及影响各种金属层中金属走线的宽度和间距的金属蚀刻。通常,影响金属的参数会影响该金属层中所有走线的寄生效应,但对其他金属层中走线的寄生效应影响很小或没有影响。

        第 10.8 节中描述的互连角对互连变化进行建模,以便所有金属层映射到相同的互连角。对互连走线变化进行统计建模时,每个金属层都可以独立地变化。

        统计方法对互连空间中所有可能的变化组合进行建模,从而对仅通过在指定的互连角处分析无法捕捉到的变化进行建模。例如,时钟树的启动路径可能在 METAL2 中,而时钟树的捕获路径在 METAL3 中。传统互连corner处的时序分析考虑了所有金属一起变化的各个corner,因此无法模拟 METAL2 位于导致最大延迟的corner而 METAL3 位于导致最小延迟的corner的情况。这种组合对应于设置路径的最坏情况,只能通过对互连变化进行统计建模来捕获。

10.9.2 统计分析(Statistical Analysis)

什么是 SSTA?

         如果对单元时序模型和互连寄生进行统计建模,则上述变化的建模是可行的。除了延迟之外,单元输入端的引脚电容值也被统计建模。这意味着时序模型是根据工艺参数(全局和局部)的平均值和标准偏差来描述的。互连电阻和电容是根据互连参数的平均值和标准偏差来描述的。延迟计算程序(在第 5 章中描述)获得每个时序弧(单元以及互连)的延迟,然后用关于各种参数的平均值和标准偏差表示。因此,每个延迟都由平均值和 N 个标准偏差表示(其中 N 是统计建模的独立过程和互连参数的数量)。

        由于通过各个时序弧的延迟是用统计形式表示的,因此统计静态时序分析SSTA(Statistical Static Timing Analysis)过程中会结合时序弧的延迟以获得路径延迟,该路径延迟同样会以统计形式表示(具有均值和标准差)。SSTA会根据独立的工艺和互连参数的标准差,来获得路径延迟的总体标准差。例如,考虑由两个时序弧组成的路径延迟,如图10-29所示。由于每个延迟分量都有其变化,因此根据变化是相关的还是不相关的,将对变化进行不同的组合。如果变化来自同一来源(例如,由相互影响的g_par1参数引起),则路径延迟的σ仅等于(σ1 + σ2)。但是,如果变化是不相关的(例如由于l_par1参数),那么路径延迟的σ等于\sqrt{\sigma 1^{2}+\sigma 2^{2}}  ,该值小于(σ1 + σ2)。当对局部(不相关的)工艺变化建模时,路径延迟σ较小的现象也称为各个延迟变化的统计抵消(statistical cancellation)

         对于实际设计,相关和不相关的变化都被建模,因此需要适当组合这两种类型的变化的贡献。

        发起和捕获时钟的时钟路径延迟也以相同的统计形式表示。基于数据和时钟路径延迟,可以将裕量(slack)作为具有标准值和标准差的统计量。

        假设使用正态分布,可以获得对应于(平均值mean +/- 3σ)的有效最小值和最大值。 (平均值mean -/ + 3σ)对应于图10-30中所示正态分布的0.135%和99.865%的分位数。0.135%的分位数意味着仅0.135%的结果分布小于此值(平均值mean-3σ);同样,99.865%的分位数表示99.865%的结果小于此值,或仅0.135%(100%-99.865%)的结果大于此值(平均值mean+3σ)。有效的下限和上限在SSTA报告中称为分位数(quantile),设计人员可以选择分析中使用的分位数,例如0.5%或99.5%,对应于(平均值mean -/ + 2.576σ)。

         对于噪声和串扰分析(第 6 章),所使用的路径延迟和时序窗口是根据各种参数的平均值和标准偏差进行统计建模的。

         根据路径裕量分布,SSTA会报告每个路径裕量的平均值、标准差和分位数,从而可以根据所需的统计置信度(confidence)来判断时序是通过还是违例。

统计时序库(Statistical Timing Libraries)

         在 SSTA 方法中,标准单元库(以及设计中使用的其他宏的库)提供各种环境条件下的时序模型。例如,在最小 Vdd 和高温corner处的分析利用在此条件下表征的库,但对工艺参数进行统计建模。库包括标称参数值以及参数变化的时序模型。对于 N 个工艺参数,在 0.9V 和 125C 电源下表征的统计时序库可能包括以下内容:

  • 具有标准工艺参数的时序模型,加上以下关于每个工艺参数的信息
  • 参数i为(标准值+1σ)的时序模型,其他参数保持为标准值
  • 参数i为(标准值-1σ)的时序模型,其他参数保持为标准值

         对于具有两个独立工艺参数的简化示例场景,时序模型的特征在于标称参数值以及参数值的变化,如图 10-31 所示。

统计互连变化(Statistical Interconnect Variations)

         每个金属层有三个独立的参数:

  • 金属刻蚀( Metal etch):这可以控制金属宽度以及与相邻导体的间距。金属层中的大刻蚀减小了宽度(这增加了电阻)并增加了到相邻走线的间距(这减小了到相邻走线的耦合电容)。该参数表示为导体宽度的变化。
  • 金属厚度( Metal thickness):较厚的金属意味着与下面各层的电容更大。该参数表示为导体厚度的变化。
  • IMD厚度(金属间介电层厚度,Inter Metal Dielectric thickness):较大的IMD厚度会减少与下面各层的耦合。该参数表示为IMD厚度的变化。

SSTA 结果(SSTA Results)

         统计分析中输出的结果将根据平均值和角的有效值来提供路径的裕量。以下是用于建立时间检查(最大路径分析)的SSTA报告示例:

        上面的报告显示,尽管时序路径的均值满足要求,但0.135%的分位数却有0.43ns的时序违例,时序路径裕量的分位数为-0.43ns。时序路径裕量的平均值为+ 0.86ns,标准差为0.43ns,这意味着+/- 2σ的分布结果满足要求。由于95.5%的分布落在2σ的变化范围内,这意味着只有2.275%的路径会出现时序违例(其余的2.275%分布具有较大的正裕量)。因此,把分位数设置为2.275%后可以使得裕量为0或没有时序违例。到达时间和路径裕量分布如下图10-32所示: 

        请注意,以上报告是针对建立时间检查的,因此分位数那一列提供的是分位数上限(例如,路径延迟的+ 3σ值),保持时间检查时则会指定为分位数下限(例如-3σ值)。报告中的“sensitiv”列是指敏感度,即标准差与平均值的比值(表示为百分比)。就裕量而言,需要较小的灵敏度,这意味着即使平均值发生变化,以平均值通过的路径也会继续通过。“incr”列中指定了报告中该行的增量标准差。

        使用单元和互连走线的统计模型,统计时序方法可以分析各种角条件下的设计,并分析由于工艺和互连参数变化而导致的情况。例如,在最差VT(电压和温度)情况下进行统计分析将分析整个全局工艺和互连走线空间。在最佳VT(电压和温度)情况下的另一种统计分析也将分析整个工艺和互连走线空间。这些分析可以与在最差PVT情况或最佳PVT情况下进行的传统分析进行对比,传统分析仅探讨工艺和互连空间中的单个点。

 10.10 路径失败时序?(Paths Failing Timing?)

        在本节中,我们将提供一些示例,突出显示设计者在调试STA结果期间需要关注的关键方面。这些例子中有几个只包含STA报告的相关摘录 。

未找到路径(No Path Found)

        如果用户尝试获取路径报告,而STA报告找不到路径,或者它提供了路径报告但slack时间是无限的,该怎么办?在这两种情况下,出现这种情况可能是因为: 

  • 时序路径已断开
  • 该路径不存在
  • 这是一条false path

        在上述每种情况下,都需要仔细调试约束以确定是什么约束导致路径被阻塞。一种强力选项是删除所有错误的路径设置和时序中断,然后查看该路径是否可以进行时序分析。(时序中断是从STA中移除时序弧,通过使用set_disable_timing现,如第7.10节所述。)

时钟交叉域(Clock Crossing Domain)

         这是路径报告的头部。

        首先要注意的是,该路径从输入端口( input port)开始,在触发器的clear pin结束,并且正在验证clear pin上的恢复检查(参见库恢复时间library recovery time)。接下来要注意的是,路径跨越两个不同的时钟域,SYS_IN_CLK,启动输入的时钟,和 PX​​9_CLK,触发器的时钟,正在检查其恢复时序。尽管从时序报告中看不出来,但从设计知识来看,可以检查两个时钟是否完全异步以及这两个时钟域之间的任何路径是否应该被视为错误。 

        lesson:验证启动时钟和捕获时钟以及两者之间的路径是否有效。

反向生成时钟(Inverted Generated Clocks)

         创建生成时钟时,需要谨慎使用 -invert 选项。如果使用 -invert 选项指定生成的时钟,则 STA 假定指定点的生成时钟属于指定类型。但是根据逻辑,设计中可能不会出现这样的波形。 STA 通常会提供错误或警告消息,指示生成的时钟无法实现,但它会继续分析并报告时序路径。

        考虑图 10-33。让我们在单元 UCKBUF0 的输出上定义一个带有 -invert 的生成时钟。

create_clock -name CLKM -period 10 -waveform {0 5} \
[get_ports CLKM]
create_generated_clock -name CLKGEN -divide_by 1 -invert \
-source [get_ports CLKM] [get_pins UCKBUF0/C]

         这是基于上述约束的建立时间时序报告。

        请注意,STA 假​​设单元 UCKBUF0 输出的波形是时钟 CLKM 的反相时钟。因此,上升沿为 5ns,捕获设置时钟沿为 15ns。除了时钟的上升沿在 5ns 而不是 0ns 的事实之外,从时序报告中看不出有什么问题。应该注意的是,由于错误位于启动和捕获时钟路径的公共部分,因此建立和保持时序检查确实正确执行。 STA产生的警告和错误需要仔细分析和理解。 

         需要注意的重要一点是,无论是否可实现,STA 都会按照指定的方式创建生成的时钟。

        现在让我们尝试使用 -invert 选项将生成的时钟移动到单元 UCKBUF1 的输出,看看会发生什么。

create_clock -name CLKM -period 10 -waveform {0 5} \
[get_ports CLKM]
create_generated_clock -name CLKGEN -divide_by 1 -invert \
-source [get_ports CLKM] [get_pins UCKBUF1/C]

         这是setup报告。

         该路径看起来像半周期路径,但这是不正确的,因为在实际逻辑中时钟路径上没有反转。 STA 再次假设 UCKBUF1/C 引脚上的时钟是 create_generated_clock 命令中指定的时钟。因此上升沿发生在 5ns。捕获时钟边沿正在运行时钟 CLKM,其下一个上升沿发生在 10ns。下面的保持路径报告也包含与建立路径类似的差异。

         通常,STA 输出将包括错误或警告,指示生成的时钟不可实现。调试此类不正确路径的最佳方法是实际绘制捕获触发器和启动触发器处的时钟波形,并尝试了解所显示的边沿是否确实有效。

         lesson:检查捕获和启动时钟的边沿,看看它们是否确实是它们应该的样子。

缺少虚拟时钟延迟(Missing Virtual Clock Latency)

         考虑以下路径报告。

        它是从输入引脚开始的路径。请注意,起始到达时间列为 0。这表明时钟 VCLKM 上没有指定延迟 - 该时钟用于定义输入引脚 RESET_L 上的输入到达时间;这很可能是一个虚拟时钟,这就是缺少到达时间的原因。

        lesson:使用虚拟时钟时,请确保在 set_input_delay 和 set_output_delay 约束中指定或考虑了虚拟时钟的延迟。 

大 I/O 延迟(Large I/O Delays) 

        当输入或输出路径有时序违例时,首先要检查的是时钟延迟,该延迟用作指定输入到达时间或输出所需时间的参考。这同样适用于前面所讲的例子。

        要检查的第二件事是输入或输出延迟,即输入路径上的输入到达时间或输出路径上的输出所需时间。我们可能会发现这些数值对于目标频率是不现实的。输入到达时间通常是时序报告中数据路径的第一个值,而输出所需时间通常是时序报告中数据路径的最后一个值。

        在输入失败路径的这个数据路径中,注意输入到达时间为 14ns。在这种特殊情况下,输入到达时间规范存在错误,因为它太大。

        lesson:在检查输入或输出路径时,检查指定的外部延迟是否合理。 

错误的 I/O 缓冲区延迟(Incorrect I/O Buffer Delay)

         当路径经过输入缓冲器或输出缓冲器时,约束不正确可能会导致输入或输出缓冲器延迟值较大。在如下所示的情况中,请注意18ns这个较大的输出缓冲器延迟值,这是由于输出引脚上指定的负载值较大导致的。

        lesson:注意由不正确的负载规范引起的缓冲区的大延迟。 

延迟值不正确(Incorrect Latency Numbers)

       当时序路径出现故障时,需要检查的一件事是启动时钟和捕获时钟的延迟是否合理,即确保这些时钟之间的偏差在可接受的范围内。时钟构建期间不正确的延迟规范或不正确的时钟平衡都可能导致启动和捕获时钟路径中的大偏差,从而导致时序违规。

        lesson:检查时钟偏差是否在合理范围内。

半周期路径(Half-cycle Path)

         如前面的示例所述,设计人员需要检查违例路径的时钟域。随之而来的是,设计人员可能需要检查发起和捕获触发器的时钟沿。在某些情况下,可能会发现一个半周期路径(上升沿至下降沿路径或下降沿至上升沿路径)并且可能无法满足半周期路径的时序要求,又或者这些半周期路径不是真实存在的 。

        lesson:确保数据路径有足够的时间进行传播。

大延迟和转换时间(Large Delays and Transition Times)

         一项关键项目是检查沿数据路径的延迟或转换时间的异常大的数值。其中一些可能是由于:

  • 高扇出网络(High-fanout nets):未适当缓冲(buffered)的网络。
  • 较长网络( Long nets):需要在中间插入缓冲器的网络。
  • 低强度单元(Low strength cells):由于在设计中标有“don't touch”,因此未被更换的单元。
  • 存储器路径(Memory paths):这些路径通常会由于存储器输入上的建立时间较长以及存储器输出上的输出延迟较大而导致时序违规。

缺少多周期保持(Missing Multicycle Hold)

         对于多周期 N 设置规范,通常会看到缺少相应的多周期 N-1 保持规范。因此,这会导致在工具修复保持违规时插入大量不必要的延迟单元。

        lesson:在修复之前始终审核保留违规,以确保正在修复的保留违规是真实的。

路径未优化(Path Not Optimized)

         STA违例也可能出现在尚未优化的路径上,可以通过检查数据路径来确定这种情况。是否存在延迟较大的单元?可以手动改善数据路径的时序吗?也许数据路径需要进一步优化,工具可能正在其它违例路径上工作。

路径仍然不满足时序(Path Still Not Meeting Timing)

         如果数据路径具有强驱动能力的单元,而该路径仍然时序违例,则需要检查布线延迟和线负载较高的引脚。这可能是下一个改进方法:也许可以将单元移动得更近一些,从而可以减少线负载和布线延迟。

如果仍然无法满足时序怎么办(What if Timing Still Cannot be Met) 

        可以利用有用偏斜(useful skew)来帮助时序收敛。有用偏斜是指故意使时钟树失衡的地方,尤其是时序违例路径的发起时钟和捕获时钟路径,从而使时序在该路径上收敛。通常,这意味着可以延迟捕获时钟,以使捕获触发器的时钟在数据准备就绪稍后到达。当然,这假定了后续数据路径(即下一级触发器到触发器的数据路径)上有足够的裕量。

        也可以尝试相反的操作,也就是说,可以使发起时钟路径更短,以便更早地发起来自发起触发器的数据,从而帮助满足建立时间要求。同样,只有在前一级触发器到触发器路径具有多余的裕量时,才能做到这一点。

        有用偏斜技术不仅可用于修复建立时间违例,还可用于修复保持时间违例。此技术的一个缺点是,如果设计具有多种操作模式,则有用偏斜可能会在另一种模式下引起问题。

10.11 验证时序约束(Validating Timing Constraints)

        随着芯片尺寸的增长,将越来越依赖静态时序分析所交付的时序。仅依赖STA的风险在于STA取决于时序约束的合理与否。因此,时序约束的验证成为重要的考虑因素。 

检查路径例外(Checking Path Exceptions) 

        有一些工具可以根据设计的结构(网表)检查伪路径和多周期路径的有效性,这些工具会检查指定的伪路径或多周期路径约束是否有效。此外,这些工具还可能可以根据设计的结构生成缺少的伪路径和多周期路径约束。但是,这些工具生成的某些路径例外(path exception)也可能是无效的。这是因为这些工具通常使用形式验证技术(formal verification techniques)通过逻辑结构来确定伪路径或多周期路径,而设计人员对设计的功能行为有更深入的了解。因此,在接受并在STA中使用它们之前,设计人员需要检查工具生成的路径例外。可能还存在其它基于设计语义行为的路径例外,如果工具无法提取此类路径例外,设计者必须手动定义这些路径例外。

        时序约束中最大的风险就是路径例外。因此,应在仔细分析设计后确定出伪路径和多周期路径。通常,相比于伪路径,最好使用多周期路径,这确保了该路径至少受到一定程度的约束。如果在已知或可预期的时间会对信号进行采样,则无论信号离时钟沿有多远,都应使用多周期路径,这样静态时序分析至少可以知道一些时序约束的信息。伪路径可能会导致时序优化工具完全忽略这些路径,而实际上,它们确实可能在经过大量时钟周期后才被采样。

检查时钟域交叉(Checking Clock Domain Crossing)

        可用工具来确保设计中所有的跨时钟域均有效,这些工具还可以自动生成必要的伪路径约束。这样的工具也可能可以识别出非法(illegal)的跨时钟域,即数据在没有任何时钟同步逻辑的情况下跨越了两个不同时钟域。在这种情况下,这些工具可以提供在需要时自动插入合适的时钟同步逻辑的功能。请注意,并非所有跨异步时钟域都需要时钟同步器,应该取决于数据性质以及是否需要在下一个周期或几个周期后捕获数据。

        使用STA检查跨异步时钟域的另一种方法是设置一个很大的时钟不确定度(uncertainty),该不确定度等于采样时钟的周期。这样可以确保至少存在一些时序违例行为,根据这些时序违例行为,可以确定适当的路径例外,或者将时钟同步逻辑添加到设计中。

验证 IO 和时钟约束(Validating IO and Clock Constraints)

        验证IO和时钟约束仍然是一个挑战,设计人员会经常进行时序仿真以检查设计中所有时钟的有效性。可以进行系统级时序仿真来验证IO时序,以确保芯片可以与其外围设备通信且没有任何时序问题。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐