DDR扫盲—-关于Prefetch(预取)与Burst(突发)的深入讨论

2023-05-16

DDR扫盲—-关于Prefetch(预取)与Burst(突发)的深入讨论

原文转自:DDR扫盲——关于Prefetch与Burst的深入讨论-Felix-电子技术应用-AET-中国科技核心期刊-最丰富的电子设计资源平台 (chinaaet.com)

【嵌牛导读】关于DDR技术预取原理

【嵌牛鼻子】DDR3的预取原理以及容量计算

【嵌牛提问】如何理解DDR读写速率翻倍以及DDR3的8位预取

【嵌牛正文】

引言:

学习DDR有一段时间了,期间看了好多的资料(部分公司的培训资料、几十篇的博文,Micron的Datasheet,JESD79规范等)。但是有一个问题,想了好久(很多资料都没有说明白),至今才算搞明白,所以写一篇文章和大家分享一下。

如题,接下来要讨论的主要是关于Prefetch和Burst相关的内容。

1、Prefetch介绍

首先,简单介绍一下Prefetch技术。所谓prefetch,就是预加载,这是DDR时代提出的技术。在SDR中,并没有这一技术,所以其每一个cell的存储容量等于DQ的宽度(芯片数据IO位宽)。【关于什么是cell(存储单元,可以去看一下,我之前的博文:http://blog.chinaaet.com/justlxy/p/5100051913)】

进入DDR时代之后,就有了prefetch技术,DDR是两位预取(2-bit Prefetch),有的公司则贴切的称之为2-n Prefetch(n代表芯片位宽)。DDR2是四位预取(4-bit Prefetch),DDR3和DDR4都是八位预取(8-bit Prefetch)。而8-bit Prefetch可以使得内核时钟是DDR时钟的四分之一,这也是Prefetch的根本意义所在。

补充说明:芯片位宽的另一种说法是配置模式(Configuration),在DDR3时代,一般有x4,x8,x16。

下面以DDR3为例,下图是个简单 一个简单Read预取示意图,Write可以看做是 个逆向过程。

当DDR3 为x8 Configuration时,一个Cell的容量为8x8bits,即8个字节。换一句话说,在指定bank、row地址和col地址之后,可以往该地址内写入(或读取)8 Bytes。

2、回到一个简单的问题上,如何计算DDR3 SDRAM的容量

以Mircon的某型号DDR3 SDRAM为例:

以图中红色部分的内容作为分析案例(8个bank,x8的Configuration):

计算方式一(错误):

64K*8*1K*8(Row Addressing * Bank Addressing * Column Addressing * x8 Configuration)= 4Gb(512 Megx8)。

大部分材料给出的都是这种错误的计算方法,误导了很多的初学者。这种计算方法咋一看好像是对的。但是,仔细推敲一下,便可以发现,按照计算方式一的逻辑,则认为每一个Cell的容量是1bit*8(x8 Configuration),即8bit。这与我们在第一部分所讨论的结果(一个Cell的容量为64bits,x8 Configuration下)不符。

当然,从某种角度来说,计算方式一也是正确的,因为分离出的Column Address的位数实际上是和prefetch对应的。比如DDR3 8-bit Prefetch对3bits的Column Address,DDR2 4-bit Prefetch对应的是2bits的Column Address。只是如果直接按照计算方式一来计算的话,对于初次接触DDR的人来说,理解起来存在一定的困难,这也是我写这一篇博文的原因。

下面给出正确的计算方式,并说明原因。

计算方式二(正确):

64K*8*(1K/8)*8*8(Row Addressing * Bank Addressing * (Column Addressing / 8) * x8 Configuration * 8-bit Prefetch)= 4Gb(512 Megx8)。

很多人都会问,为什么要把列地址寻址(Column Addressing)除以8呢?似乎计算方式二看起来更加不合理。接下来,我们先来回顾一下DDR3 SDRAM的结构框图(还是以Mircon的某型号为例):

大图可能看的不太清楚,下面来几个特写:

没错!你没有看错!10bit的Column Address的寻址能力只有128!!!刚好差了8倍(这就是我们在计算方式二中将Column Addressing除以8的原因)!

那么问题又来了,为什么Column Address的寻址能力只有128呢?莫急,请继续看下图:

在上图中,可以清晰地发现,10bits的Column Address只有7bits用于列地址译码!列地址0,1,2并没有用!!!

那么,问题又来了!……

列地址0,1,2,这3bits被用于什么功能了?或者是Mircon的设计者脑残,故意浪费了这三个bits?显然不是。

在JESD79-3规范中有如下的这个表格:

可以发现,Column Address的A2,A1,A0三位被用于Burst Order功能,并且A3也被用于Burst Type功能。由于一般情况,我们采用的都是顺序读写模式(即{A2,A1,A0}={0,0,0}),所以此时的A3的取值并无直接影响。

那么,问题又来了!……

Burst又是什么鬼呢?且看第三部分。

3、DDR中的Burst Length

Burst Lengths,简称BL,指突发长度,突发是指在同一行中相邻的存储单元连续进行数据传输的方式,连续传输所涉及到存储单元(列)的数量就是突发长度(SDRAM),在DDR SDRAM中指连续传输的周期数。上一部分讲到的Burst Type和Burst Order实际上就是关于Burst Length的读写顺序的配置。

【注:不了解相关名词的可以去看一下,我之前的博文:http://blog.chinaaet.com/justlxy/p/5100051913】

在DDR3 SDRAM时代,内部配置采用了8n prefetch(预取)来实现高速读写.这也导致了DDR3的Burst Length一般都是8。当然也有Bursth ength为4的设置(BC4),是指另外4笔数据是不被传输的或者被认为无效而已。

在DDR2时代,内部配置采用的是4n prefetch,Burst length有4和8两种,对于BL=8的读写操作,会出现两次4n Prefetch的动作。

上图是JESD79-3规范中给出的DDR3 SDRAM的Command Truth Table。可以看到,读取和写入都有三种基本模式(Fixed BL8 or BC4,BC4 on the fly,BL8 on the fly)。这一部分的内容,在我之前的博文中有所提及,此处不再详细介绍。

4、参考资料

4Gb_DDR3_SDRAM.pdf

Samsung DDR3 Datasheet.pdf

JESD79-3A-DDR3规范.pdf

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

DDR扫盲—-关于Prefetch(预取)与Burst(突发)的深入讨论 的相关文章

  • DDR低功耗模式

    DDR规格 xff1a DDR工作状态图 xff1a DDR 刷新描述 xff1a 电特性 xff1a 工作模式简介 xff1a 1 1 自刷新模式 xff08 Self Refresh Mode xff09 DDR4 SDRAM中自刷新超
  • DDR controller driver

    在SOC中 xff0c DDR是很重要的 xff0c 需要在uboot中进行初始化 xff01 但是DDR异常的复杂 DDR controller也异常的复杂 xff0c 以candence DDR controller为例 xff0c 这
  • Burst Imaging for Light-Constrained Structure-From-Motion论文翻译记录

    准备开始2022ICRA的SLAM论文阅读记录 Abstract 在极低光照条件下拍摄的图像受噪声限制 xff0c 会导致现有的机器人视觉算法失效 在本文中 xff0c 我们开发了一种图像处理技术 xff0c 用于从弱光条件下采集的图像中辅
  • DDR扫盲—-关于Prefetch(预取)与Burst(突发)的深入讨论

    DDR扫盲 关于Prefetch 预取 与Burst 突发 的深入讨论 原文转自 xff1a DDR扫盲 关于Prefetch与Burst的深入讨论 Felix 电子技术应用 AET 中国科技核心期刊 最丰富的电子设计资源平台 chinaa
  • __builtin_xxx指令学习【2】__builtin_prefetch

    builtin prefetch是GCC编译器提供的一个内置函数 xff0c 用于预取数据到CPU的缓存中 xff0c 以便提高程序的执行效率 它的语法如下 xff1a builtin prefetch const void addr in
  • DDR模式寄存器

    mode register 模式寄存器 MR0 MR3 用于定义DDR3sdram的各种可编程操作模式 在初始化过程中 xff0c 模式寄存器通过模式寄存器设置 MRS 命令进行编程 xff0c 并保留存储的信息 MR0 8 除外 xff0
  • DDR工作原理

    DDR SDRAM全称为Double Data Rate SDRAM 中文名为 双倍数据流SDRAM DDR SDRAM在原有的SDRAM的基础上改进而来 也正因为如此 DDR能够凭借着转产成本优势来打败昔日的对手RDRAM 成为当今的主流
  • DDR基础知识点汇总

    文章目录 文档推荐 DDR颗粒的电路图来源 DDR3 SDRAM电路结构高清图 DDR4 SDRAM电路结构高清图 DDR3 1866控制器 PHY 颗粒之间的带宽关系 channel gt DIMM gt rank gt chip gt
  • AXI总线之DDR控制器的实现

    由于FPGA的内部RAM资源实在有限 同时又不得不面临大数据量缓存的问题 因此 将DDR进行共享成了最为直接有效的解决方案 设计目标 PL端有多个需要大量数据缓存的通道 让每个通道都将DDR作为外部缓存 FIFO 注意 总的突发在1Gbps
  • FPGA_MIG驱动DDR3

    FPGA MIG驱动DDR3 说明 FPGA zynq 7z100 DDR3 MT41K256M16TW 107 内存大小为512MB 数据接口为16bit 环境 Vivado2018 2 IP核 Memory Interface Gene
  • UICollectionView:组合布局禁用预取?

    我有一个非常简单的UICollectionView它使用组合布局轻松实现动态单元高度 不幸的是 这样做似乎会禁用内容预取UICollectionViewDataSourcePrefetching 在下面的示例代码中 collectionVi
  • cuda 中预取(通过 C 代码)

    我正在通过 C 代码在 CUDA Fermi GPU 中进行数据预取 Cuda 参考手册讨论了 ptx 级别代码的预取 而不是 C 级别代码的预取 任何人都可以向我提供一些有关通过 cuda 代码 cu 文件 预取的文档或内容吗 任何帮助
  • 无需在 Google Cloud 中下载即可读取非常大的 blob(流式传输?)

    请帮忙 我有什么 每个桶里都有很多斑点 Blob 的大小各不相同 从小于千字节到大量千兆字节 我正在尝试做的事情 我需要能够流式传输这些 blob 中的数据 例如大小为 1024 的缓冲区或类似的内容 或者在 Python 中按特定大小的块
  • DDR详解

    DDR也就是常称的内存在一般使用过程中都是透明的 此文从多方面对DDR进行详解 DDR训练 高可靠性是系统级芯片SoC重要的质量和性能要求之一 SoC的复杂在于各个IP模块都对其产生至关重要的影响 从芯耀辉长期服务客户的经验来看 在客户的S
  • 为什么 django 的 prefetch_lated() 只能与 all() 一起使用,而不能与 filter() 一起使用?

    假设我有这个模型 class PhotoAlbum models Model title models CharField max length 128 author models CharField max length 128 clas
  • 如何确定SSE预取指令大小?

    我正在使用包含 SSE 预取指令的内联汇编的代码 预处理器常量确定是否使用 32 64 或 128 字节预取的指令 该应用程序在多种平台上使用 到目前为止 我必须在每种情况下调查对于给定 CPU 来说哪一个是最佳选择 据我所知 这是缓存行大
  • 如何在 PHP 中检测浏览器的预取?

    某些页面可以由浏览器预取 请参阅this http www whatwg org specs web apps current work multipage links html link type prefetch or that htt
  • 有没有办法在 occi 中预取 LOB 数据?

    我正在开发一个以 Oracle 作为数据库的 C 应用程序 并尝试使用 CLOB 数据类型获取数千条记录 一直在网上搜索如何在 OCCI 中预取 CLOB 数据类型 但总是看到 如果 LONG LOB 或不透明类型列 例如 XMLType
  • 链接预取能否用于缓存 JSON API 响应以供以后的 XHR 请求使用?

    给定一个 JSON API 端点 api config 我们正在尝试使用在 HTML 文档的头部 Chrome 在点击 HTML 中的链接标签时会按预期下载数据 但大约一秒钟后通过我们的脚本中的 XHR 再次请求数据 服务器配置为允许缓存
  • 当前的 x86 架构是否支持非临时加载(来自“正常”内存)?

    我知道有关此主题的多个问题 但是 我没有看到任何明确的答案或任何基准测量 因此 我创建了一个处理两个整数数组的简单程序 第一个数组a非常大 64 MB 第二个数组b很小 无法放入 L1 缓存 程序迭代a并将其元素添加到相应的元素中b在模块化

随机推荐