数字后端知识点扫盲——CTS (上)

2023-11-19

后端和前端一样在IC设计中扮演着非常重要的角色，甚至可以说入门的前端设计工程师对timing的理解远不如一个后端设计工程师，因此想要更好的理解电路的timing在后端P&R之后或者说在大规模的设计中后端如何实现clock对DFF的驱动，就需要学习和了解CTS，而这些对于一个优秀的前端设计人员来说，也是一个必要掌握的技能。

今天我们就来学习一下clock tree synthesis （CTS），本篇文章学习自知乎博主，原文链接为：数字后端基础技能之：CTS（上篇） - 知乎 (zhihu.com)

构思了很久应该怎样介绍CTS，最终决定分为几篇文章来一步一步介绍整个流程，尽管如此，由于在大型项目中CTS是一个比较复杂的工作，因此在本文之外可能还要有很多东西需要后端设计工程师去关心，但是我仍然希望对于初学者，通过本专栏接下来的几篇文章，能够对CTS的基本流程和做法有一个大致的思路，从而避免拿到一个design后陷入无从下手的被动。

言归正传，在P&R整个流程中，有两个对于design的PPA（power performance area）起决定性的步骤：Floorplan和CTS，尽管如此，在实际项目中，很多人可能工作数年也没有机会做一次比较全面的CTS，一方面原因在于，P&R工具尤其是现在的ICC2和innovus对于相对简单的clock tree都能很好的处理，另一方面的原因是，对于大多数无法接触TOP的工程师来说，harden block内部的clock结构大概率是比较简单的，因此就导致一些同学在做过几个项目后面对复杂的clock仍然无从下手。

针对这个现象，本文希望根据自己的经验把CTS的基本思路和做法介绍给大家，如果大家以后遇到复杂的clock时发现这里的内容对实际工作多有裨益，本文也不胜荣幸。

clock tree synthesis，顾名思义，就是对design的时钟树进行综合，主要的目的是让每个clock都能够在尽量短的时间内传达到他们驱动的所有DFF（寄存器），对于CTS，我们有三个指标希望能够尽量做到最好。

每个clock到达其所驱动的sink(DFF)的latency都尽量的短；

每个clock之内，以及有时序关系的clock之间的skew尽量小；

每个clock的common path尽量的长；

对于大多数P&R工具，CTS的flow可以总结为以下形式：

上图中可能有些名字还不太清楚他的具体含义，但是这些都会在后面的介绍中一一提及，在这里也没有将大部分单词翻译成中文，因此希望大家记住这些名词，方便在读英文的user guide时少一些障碍。

CTS策略

这是CTS的第一步，虽然在流程中只是简单的几个字，但是针对复杂的clock，这里可能需要花费大量的时间分析clock的结构，找出潜在可能出现的问题和瓶颈，并针对我们上述提出的三个指标，决定如何去综合时钟树，这一步如此重要又非常容易被忽略，以至于有些同学在遇到复杂的clock出现问题时无从分析，遑论如何改进，下面我将通过一个例子来说明，CTS策略到底是什么？

假设某芯片的clock结构可以简化为如下形式：

其中fucntion clock从两个PLL和两个IO （一个FCLK1, FCLK2）进来，test clock从两个IO（TCLK1, TCLK2）进来，从图中可以看出，在分频电路之后，进入A和D的clock不与其他模块共享。

与此同时，我们假设芯片的floorplan可以表示为如下形式（注意clock source 和模块位置与clock结构对应关系）

如果模块间的数据流关系简述为如下形式：

Block B <—> Macro 1

Block C <—> Macro 2

Macro 1 <—> Macro 2

Block A/D 为独立模块

考虑到上述时钟结构，floorplan和时许关系，我们该如何决定CTS策略呢？

在考虑策略之前，我们先回忆一下CTS的三个目标：latency尽量短；skew尽量小；common path尽量长；

先从最简单的开始：鉴于Block A/D为独立模块，他们不与其他模块产生时序关系，同时从clock结构图可以看到进入A/D的clock在选择之后没有与其他模块有交集。因此，我们只需要把A和D的clock尽量做短即可。

我们也可以把一切都交给EDA工具去做，但是这样做的结果不能保证得到我们想要的结果，最好的办法是把进入到A,D两个Block的clock选择器以及其他clock分频逻辑固定在这两个block附近（下图中的紫色区域），这样不仅能够使clock line尽量以最短的距离到达Block，同时也能够尽可能地增加common path的长度。

接下来考虑Block B/C和Macro1、2，鉴于他们之间的时许关系，我们希望他们之间的skew尽量的短，同时common path要尽量的长，在floorplan上我们可以看到他们被拜访成对称的形式，因此，最简单直接的办法就是将所有与这几个相关的逻辑都固定在两个Macro上方的正中间（假设其clock port在黄色标识的部分），如下图中红色方框所示：

到目前为止我们确定了需要preplace的逻辑以及其放置的区域，接下来我们需要考虑如何实现我们的设想，其中首要的任务就是定义CTS的sdc。

对于CTS工具来说，要进行时钟树综合，有一个必备的前提条件就是clock的定义，而后端设计者是可以根据自己的策略自己调整clock的定义的，让我们再会议一下clock的结构图。

针对上述结构，有两种常用的定义Clock的方法（时间单位ps）

1：直接从所有的clock的源头定义，此方法基本可以从func/test的sdc 中直接复制clock的定义：

creat_clock-period xxx -name PLL_CLK [get_pins PLL1/CLK] ;

2:采用分段CTS的方法，因为大部分clock结构，从选择器开始都比较简单，因此我们可以从选择器的输出端定义一系列的clock并对有时许关系的部分进行balance；之后再从各个clock源头定义并在时钟树综合的时候在选择器的输入停止，此方法的clock定义可以大致分为以下两个部分。

第一段：选择器输出端—> 各个Block

create_clock-period xxx -name MUXCLK1 [get_pins MUX1/Y]

create_clock-period xxx -name MUXCLK1 [get_pins MUX2/Y]

........

第二段：clock source —> 各个选择器

creat_clock-period xxx -name PLL_CLK [get_pins PLL1/CLK] ;

........

至于如何使工具在选择器停止，我们将在接下来的文章中继续讨论，同时我们将会把上述思路和策略通过真是的脚本和命令反映出来，希望大家继续关注。

另外，在本文中设计的design通过上述几幅图可以了解到相对详细的时钟结构，但是在实际设计中我们如何事先得知clock的结构时序关系呢？一般来说对于流程完善的大公司，绘制详细的始终结构是前端设计的工作之一，但是在实际项目中，面对的大部分design的clock结构图可能是十分简单甚至完全没有的情况，这时就需要后端工程师多一些耐心去分析design，并积极与前端的constraint设计者沟通，从而实现对design的时钟结构快速把握。

至此，CTS的策略基本构建完成，在接下来的文章中，我们将继续详细讨论这些策略的实现方法以及如何查看debug clock的结果。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数字IC

soc设计

数字后端知识点扫盲——CTS (上) 的相关文章

Verdi实现信号的平移

在Verilog System verilog中 xxx可以实现延迟指定时间的功能而在使用verdi查看信号波形并进行分析时同样也可以实现类似的功能注这种信号平移是有其应用场景的例如在某些仿真模型中为了模拟实际的信号延迟信号
IC笔试: 时钟约束中 clock,generated clock ,virtual clock区别与联系

时钟约束sdc常用的命令有 creat clock creat generated clock set clock uncertainty set clock groups 时钟的三要素 Waveform uncertainty 和cloc
FPGA数字IC刷题58道Verilog题解代码及视频讲解【FPGA探索者】【同步/异步FIFO】【跨时钟】

牛客 Verilog 刷题入门篇1 24 进阶篇1 34 题解代码所有代码均能通过测试配合视频讲解效果更佳为避免内容冗余本文只给出代码部分题目给出必要说明很多题目本身出题有些问题着重理解题目没必要钻牛角尖本文作者 FPGA
数字IC手撕代码--联发科（总线访问仲裁）

题目描述当A B两组的信号请求访问某个模块时为了保证正确的访问需要对这些信号进行仲裁请用Verilog实现一个仲裁器对两组请求信号进行仲后要求协议如图所示请求方发送req request 信号1表示有请求给仲裁器仲裁器响应
数字后端知识点扫盲——芯片harden block的划分

后端在floorplan阶段如何摆放macro是一个很重要的问题如果采用层次化设计对于每一个block来说都需要在block内部把锁分配的macro摆好如果某一个block里的macro很多而且又很大 std cell再多一些这
（四）RTL级低功耗设计

前面介绍了系统级的低功耗设计换句话说就是在系统级降低功耗可以考虑的方面系统级的低功耗设计主要是由系统级设计具有丰富经验的人员实现虽然还轮不到我们设计我们了解一下还是比较好的我们前端设计人员的重点不在系统级设计上面而是在RTL
【牛客网刷题】VL8-VL10 generate for语句、比较数大小、function的使用

写在前面本系列博客记录牛客网刷题记录日拱一卒功不唐捐目录 VL8 使用generate for语句简化代码题目描述输入描述输出描述 RTL 设计 testbench 设计仿真测试 VL9 使用子模块实现三输入数的大小比较题
芯片设计制造全过程

芯片设计制造全过程将一颗芯片从0到1 可以分为芯片设计和芯片制造两部分芯片设计对应市场上一些fabless公司这类公司只做芯片设计而芯片制造对应的是foundary 比如国内的smic TSMC 国外的Samsung GlobalF
disable path和false path的作用与区别

disable path和false path的作用与区别C 欢迎使用Markdown编辑器链接 disable与false的相同与不同 false path 指定某一条path 工具计算delay 但不报时序 disable path
【HDLBits 刷题 13】Buliding Larger Circuits

目录写在前面 Buliding Larger Circuits count1k shiftcount fsm seq fsmshift fsm fancytimer fsm onehot 写在前面以下的解题方法不一定为最佳解决方案有更
git常用操作命令总结

本篇文章主要收集记录git常用命令
【HDLBits 刷题 6】Circuits（2）Sequential Logic---Latches and Filp Flops

目录写在前面 Latches and Filp Flops Dff Dff8 Dff8r Dff8p Dff8ar Dff16e D Latch DFF1 DFF2 DFF gate Mux and DFF1 Mux and DFF2 D
【Verilog 常见设计】（0）二进制码和格雷码互转 Verilog 实现

目录格雷码介绍转化原理 Verilog 实现 testbench 测试代码仿真波形格雷码介绍在一组数的编码中若任意两个相邻的代码只有一位二进制数不同则称这种编码为格雷码 Gray Code 另外由于最大数与最小数之间也仅一位数
数字SOC设计之低功耗设计入门（二）——功耗的分析

前面学习了进行低功耗的目的个功耗的构成今天就来分享一下功耗的分析由于是面向数字IC前端设计的学习所以这里的功耗分析是基于DC中的power compiler工具更精确的功耗分析可以采用PT 关于PT的功耗分析可以查阅其他资料这里不
【HDLBits 刷题 12】Circuits（8）Finite State Manchines 27-34

目录写在前面 Finite State Manchines 2014 q3c m2014 q6b m2014 q6c m2014 q6 2012 q2fsm 2012 q2b 2013 q2afsm 2013 q2bfsm 写在前面 HD
【EDA Tools】Spyglass 检查 Verilog 和 SystemVerilog 混合语言及 Lint 检查

目录写在前面读入设计发现问题并解决 Lint 检查写在前面 Spyglass可以用于检查混合设计中的语言互操作性和一致性问题对于设计中包含多种硬件描述语言的情况 Spyglass 能够识别并解析其中的模块及其互连并对其进行验证
Design Compiler指南——设计综合过程

在前面一章介绍完施加约束之后接下来要做的工作就是将设计进行综合编译 compile 本文我们将主要讨论综合编译的过程主要分为这样几个部分优化的三个阶段及其特点编译的策略编译层次化的设计一优化的三个阶段这一节我们介绍Desig
【HDLBits 刷题 11】Circuits（7）Finite State Manchines 18-26

目录写在前面 Finite State Manchines Fsm serialdata Fsm serialdp Fsm hdlc Design a Mealy FSM ece241 2014 q5a ece241 2014 q5b 2
逻辑综合——工艺库

一库文件的设置运行DC时需要用到的库文件有目标库 target library 链接库 link library 符号库 symbol library 算术运算库 synthetic library 1 目标库目标库是综合后电路网表
数字后端知识点扫盲——CTS (上)

后端和前端一样在IC设计中扮演着非常重要的角色甚至可以说入门的前端设计工程师对timing的理解远不如一个后端设计工程师因此想要更好的理解电路的timing在后端P R之后或者说在大规模的设计中后端如何实现clock对DFF的驱动就需

随机推荐

Kali搭建DVWA——Web靶场

博主主站地址微笑涛声 www cztcms cn 一 DVWA介绍 1 DVWA简介 DVWA是一款基于PHP和MYSQL开发的web靶场练习平台集成了常见的web漏洞如sql注入 XSS 密码破解等常见漏洞旨在为安全专业人员测试自己
SDL无法打开音频设备的问题：Couldn‘t open audio/video device: No available audio/video device

解决中标麒麟下SDL无法打开音频设备的问题 root登录首先就是一定要用root登录这个可能是权限问题否则后面实验不能成功安装ALSA库首先下载alsa lib https www alsa project org main in
[数据结构（C语言）]单链表的定义，实现初始化、创建、插入、增、删、改、查等基本操作

建议新人收藏使用首先让我们回顾一下顺序表的优缺点 1 优点随机存取存储空间利用率高 2 缺点插入删除效率低必须按事先估计的最大元素个数分配连续的存储空间难以临时扩大采用链式存储结构的线性表称为链表链表有单链表循环链表和
Stream流将list中对象的属性按照小时进行分组

需求是这样的给了一个日期时间区间一个对象list 要统计这个时间段内每天某个小时段的数据量之和如图刚开始思路是把时间区间按每个小时进行拆分得到这段时间每个小时的开始结束时间跟list对象进行比对后在进行整合计算发现代码会很臃肿
python批量下载csdn文章

声明该爬虫只可用于提高自己学习工作效率请勿用于非法用途否则后果自负功能概述根据待爬文章url 文章id 批量保存文章到本地支持将文中图片下载到本地指定文件夹多线程爬取 1 爬取效果展示本次示例爬取的链接地址 https b
kafka系列——KafkaProducer源码分析

实例化过程在KafkaProducer的构造方法中根据配置项主要完成以下对象或数据结构的实例化配置项中解析出 clientId 用于跟踪程序运行情况在有多个KafkProducer时若没有配置 client id则clientId
通过点击按钮在页面添加图片

点击添加按钮在盒子中加入图片点击图片实现删除图片效果代码如下
ubuntu18安装好没有gcc的真正解决方法

之前因为一台上同时装了n个系统导致ubuntu坏了重装了一下结果发现没有gcc 奇怪的是本来是有的百度找了一下有说用aptitude解决的我试了一下使用了第二个推荐方案结果ubuntu系统完全坏了想了一下这次安装不正确的过
RocketMQ源码(26)—DefaultMQPushConsumer事务消息源码【一万字】

事务消息是RocketMQ的一大特性其被用来实现分布式事务关于RocketMQ的事务消息的相关原理的介绍见这篇博客 RocketMQ的分布式事务机制事务消息关于事务消息的基本案例看这里消息事务样例本文主要介绍RocketMQ的事
在外远程登录局域网下的象过河ERP管理系统，无需公网IP

文章目录概述 1 查看象过河服务端端口 2 内网穿透 3 异地公网连接 4 固定公网地址 4 1 保留一个固定TCP地址 4 2 配置固定TCP地址 5 使用固定地址连接转发自CSDN远程穿透的文章公网远程访问公司内网象过河ERP系统
R语言读取Excel文件

因为一个项目需要原始数据全部是Excel文件包括 xls和 xlsx格式并且很多excel数据的格式并不规范一个个转为csv格式不太现实所以把所有能了解到的读取excel的方法都试了一遍做个简单汇总相关的包 RODBC xls
IGBT工作原理及作用

一 IGBT是什么 IGBT Insulated Gate Bipolar Transistor 绝缘栅双极型晶体管是由BJT 双极型三极管和MOS 绝缘栅型场效应管组成的复合全控型电压驱动式功率半导体器件兼有MOSFET的高输入阻
condition_variable 锁

std condition variable提供了两种 wait 函数当前线程调用 wait 后将被阻塞此时当前线程应该获得了锁 mutex 不妨设获得锁 lck 直到另外某个线程调用 notify 唤醒了当前线程在线程被阻塞时该函
QML 相互之间通讯信号槽

QML 之间信号与槽方式一对于 QML 中的属性如果其值发生改变 QML 自动会发生相关信号 on
关于nlp-pyltp的基本介绍和使用

一下载 ltp 模型 ltp data v3 4 0 pyltp 1 ltp模型下载地址如下 https download csdn net download TFATS 12758993 2 下载pyltp如下 pip install
编译linux内核成vmlinuz,内核编译之vmlinuz vmlinux system.map initrd

一 vmlinuz vmlinuz是可引导的压缩的内核 vm 代表 Virtual Memory Linux 支持虚拟内存不像老的操作系统比如DOS有640KB内存的限制 Linux能够使用硬盘空间作为虚拟内存因此得名 vm vmli
使用Minitab解决Excel的限制问题

前两天当我在做数据转置以期获得更好分析图形的时候我碰到了传说中excel的限制如图在解决这个问题的过程中我发现了用来做数据分析比excel更好的工具Minitab 打开minitab 把纪录数据的Excel表以File gt O
pageaudit 属性不正确。_浅析script 标签的 async 和 defer 属性

每日前端夜话第420篇正文共 1500 字预计阅读时间 7 分钟前端当然要从 HTML 开始今天来聊聊在 script 标签中加上 async defer 时的功能及差异都明白的道理我们都知道浏览器解析 HTML 是一行一行
【Xilinx Vivado时序分析/约束系列4】FPGA开发时序分析/约束-实验工程上手实操

目录建立工程添加顶层模块1 模块2 添加约束文件编辑时钟约束打开布线设计代码代表的含义时序报告进行时序分析 Summary 包含了汇总的信息量 Source Clock Path 这部分是表示Tclk1的延时细节 Data
数字后端知识点扫盲——CTS (上)

后端和前端一样在IC设计中扮演着非常重要的角色甚至可以说入门的前端设计工程师对timing的理解远不如一个后端设计工程师因此想要更好的理解电路的timing在后端P R之后或者说在大规模的设计中后端如何实现clock对DFF的驱动就需

数字后端知识点扫盲——CTS (上)

数字后端知识点扫盲——CTS (上) 的相关文章

随机推荐

热门标签