小阵列最快的偏移读取

2023-12-12

为了速度，我想读取第 9 个寄存器中的值引用的 8 个寄存器之一。我认为执行此操作的最快方法是使用 3 个条件跳转（检查第 9 个中的 3 位）登记）。这应该比使用偏移量执行此操作的标准方法具有更短的延迟内存读取，但这仍然需要至少 6 个时钟周期（至少 1 个测试加 1 个时钟周期）条件跳转每位检查）。

是否有任何商用CPU（最好是x86/x64）具有内在功能来执行此“偏移寄存器” read”的延迟只有一个时钟周期？

理论上，优化的 CPU 可以通过一次加法和一次移动来完成此操作，因此两个或一个时钟周期似乎很容易......是否有一些架构不关心速度的一般原因为小数组读取偏移量？

如今，将 CPU 寄存器视为数组确实不是一种常见的方法。我知道的最后一个允许这样做的架构是 PDP11，它在 80 年代末就消失了。为什么不像其他数组一样将数组放入某个内存位置？

也就是说，您可以使用计算跳跃。这还用控制依赖项替换了数据依赖项（索引寻址模式），因此乱序执行程序在开始运行使用最终 RAX 的代码之前不必等待索引输入准备好。当然这假设correct分支预测，如果索引经常变化，则不太可能。分支错误预测会花费许多周期执行很少的工作，但 L1d 缓存中加载的小延迟很容易与独立工作重叠。

吞吐量成本比内存中的数组要高：一些地址计算、一跳、一移动和ret，而不仅仅是一个mov甚至是具有索引寻址模式的内存操作数。

要内联此代码，只需替换jmp *%rax with a call *%rax，又花费了一个 uop。或者更换ret指令与jmp到底部的标签并将跳转表的步幅增加到 8 以考虑更长的编码。

    # select a register from r8...r15 according to the value in rdi
select:
    lea labels-4*8(%rip),%rax # rdi = 8 is the first jump table entry
    lea (%rax,%rdi,4),%rax    # pointer to the appropriate entry
    jmp *%rax                 # computed jump

    .align 4
labels:
    mov %r8, %rax
    ret

    .align 4
    mov %r9, %rax
    ret

    .align 4
    mov %r10, %rax
    ret

    .align 4
    mov %r11, %rax
    ret

    .align 4
    mov %r12, %rax
    ret

    .align 4
    mov %r13, %rax
    ret

    .align 4
    mov %r14, %rax
    ret

    .align 4
    mov %r15, %rax
    ret

虽然这可能比三个条件跳转（取决于访问模式）更快，但它肯定不会比仅使用数组更好。

您也可以使用这样的代码，假设索引位于eax。这是通过将索引位复制到 CF、SF 和 PF 中，然后使用一堆 ALU 操作来区分它们来实现的：

    imul $0x4100, %eax, %eax
    lahf

    # bit 0
    mov %r8, %rax
    cmovc %r9, %rax
    mov %r10, %rcx
    cmovc %r11, %rcx
    mov %r12, %rdx
    cmovc %r13, %rdx
    mov %r14, %rbx
    cmovc %r15, %rbx

    # bit 1
    cmovs %rcx, %rax
    cmovs %rbx, %rdx

    # bit 2
    cmovp %rdx, %rax

结果得到在%rax。由于该代码具有高指令级并行性并且缺乏分支，因此它的性能应该比上面的代码更好，除非索引几乎总是相同。

（被盗自这个答案).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

小阵列最快的偏移读取的相关文章

在单个 mongodb 查询中查找并计数

我的文档看起来像这样 id ObjectId 572c4bffd073dd581edae045 name What s New in PHP 7 description PHP 7 is the first new major versio
优化 LATERAL join 中的慢速聚合

在我的 PostgreSQL 9 6 2 数据库中我有一个查询该查询根据一些股票数据构建计算字段表它为表中的每一行计算 1 到 10 年的移动平均窗口并将其用于周期性调整具体来说 CAPE CAPB CAPC CAPS 和 CAP
缓存一致性是否始终可以防止读取过时的值？失效队列允许吗？

在 MESI 协议中仅当将缓存行保持在独占修改状态时才写入缓存行要获取独占状态您可以向持有同一高速缓存行的所有核心发送无效请求但是是否存在一种微架构其中某些内核会在实际使缓存线无效之前做出确认响应如果确实如此那不是违反了缓存
即使在急切加载之后，belongs_to 关联也会单独加载

我有以下关联 class Picture lt ActiveRecord Base belongs to user end class User lt ActiveRecord Base has many pictures end 在我的
红宝石接球和效率

catch在 Ruby 中意味着跳出深度嵌套的代码在 Java 中例如用Java也可以达到同样的效果try catch用于处理异常但它被认为是糟糕的解决方案而且效率非常低在 Ruby 中我们有处理异常的方法begin raise
如何用 kevent() 替换 select() 以获得更高的性能？

来自Kqueue 维基百科页面 http en wikipedia org wiki Kqueue Kqueue 在内核和用户空间之间提供高效的输入和输出事件管道因此可以修改事件过滤器以及接收待处理事件同时每次主事件循环迭代仅使用对
在 C 中复制两个相邻字节的最快方法是什么？

好吧让我们从最明显的解决方案开始 memcpy Ptr const char a b 2 调用库函数的开销相当大编译器有时不会优化它我不会依赖编译器优化但即使 GCC 很聪明如果我将程序移植到带有垃圾编译器的更奇特的平台上我也不
gdb查找行号的内存地址

假设我已将 gdb 附加到一个进程并且在其内存布局中有一个文件和行号我想要其内存地址如何获取文件x中第n行的内存地址这是在 Linux x86 上 gdb info line test c 56 Line 56 of test c
哪些属性有助于运行时 .Net 性能？

我正在寻找可用于通过向加载器 JIT 编译器或 ngen 提供提示来确保 Net 应用程序获得最佳运行时性能的属性例如我们有可调试属性 http msdn microsoft com en us library k2wxda47 aspx
从类模板参数为 asm 生成唯一的字符串文字

我有一个非常特殊的情况我需要为类模板中声明的变量生成唯一的汇编程序名称我需要该名称对于类模板的每个实例都是唯一的并且我需要将其传递给asm关键字 see here https gcc gnu org onlinedocs gcc 12
添加冗余赋值可以在未经优化的情况下编译时加快代码速度

我发现一个有趣的现象 include
使用 FileInputStream 时如何确定理想的缓冲区大小？

我有一个从文件创建 MessageDigest 哈希的方法我需要对很多文件 gt 100 000 执行此操作用于读取文件的缓冲区应该设置多大才能最大限度地提高性能大多数人都熟悉基本代码为了以防万一我将在这里重复一遍 Messag
R、Rcpp 与 Armadillo 中矩阵 rowSums() 与 colSums() 的效率

背景来自 R 编程我正在扩展到 C C 形式的编译代码Rcpp 作为循环交换以及一般的 C C 效果的实践练习我实现了 R 的等效项rowSums and colSums 矩阵的函数Rcpp 我知道它们以 Rcpp 糖的形式存在并
mysql表中的数据非常大。即使 select 语句也需要很多时间

我正在开发一个数据库它是一个相当大的数据库有 13 亿行和大约 35 列这是我检查表状态后得到的结果 Name Table Name Engine InnoDB Version 10 Row format Compact Rows 1
NHibernate - CreateCriteria 与 CreateAlias

假设以下场景 class Project public Job Job class Job public Name 假设我想使用 Criteria API 搜索其 Job 名称为 sumthing 的所有项目我可以使用 CreateAli
SIMD 和 VLIW 指令是一样的吗？

SIMD 单指令多数据和 VLIW 超长指令字到底有什么区别其中一个是另一个的子集吗或者它们是两个完全不同的东西完全不相关且正交一台机器可以有一个或两个或者两者都没有 SIMD 指令可以作为扩展添加到 VLIW ISA 但 V
Javascript 定时通知 - setTimeout、setInterval

我正在创建一个网络应用程序允许用户管理日历 CRUD 事件任务提醒等我正在尝试实现一个功能他们将在事件任务前 x 分钟收到弹出提醒根据我的理解使用 javascript 确实只有一种方法可以做到这一点登录时检查数据库中是
Erlang 中的接受器池和负载平衡？

From http www erlang org doc man gen tcp html accept 1 http www erlang org doc man gen tcp html accept 1 值得注意的是 accept 调
何时可以重用avx指令中的源寄存器

在 avx 指令中用作源的寄存器何时可以在指令开始处理后重用例如我想使用vgatherdps该指令消耗两个 ymm 寄存器其中之一是位移索引我意识到vgatherdps由于数据的局部性较差因此需要花费大量时间来收集位移索引寄存器
PHP 脚本不断执行 mmap/munmap

我的 PHP 脚本包含一个循环它只不过是回显和取消引用指针如 tab othertab i gt 中的内容直到昨天这个脚本开始变得非常慢比以前慢了 50 倍之前它一直运行良好使用 strace 后我发现 90 的情况下脚

随机推荐

如何将 .xls 文件转换为 .csv 文件？

如何转换 xls to csv在 Perl 中这个模块是什么有这方面的例子吗最好的转换方式是什么 use Spreadsheet ParseExcel my xlsparser Spreadsheet ParseExcel gt ne
使用 jQuery 切换同级元素

我想切换列表中链接的下一个同级链接如下所示 ul li a href 1 a li li a href 2 a ul class selected li a href 2 1 a li li a href 2 2 a li li a hr
使用 BULK INSERT 命令将 CSV 文件导入 SQL Server 表

我有 CSV 文件其中有几个数据列 CSV 文件看起来像字段1 测试1字段2 测试2字段3 测试3 测试4 测试5 在这种情况下我可以使用哪个库作为字段终止符我的意思是如果我使用此查询将 CSV 文件插入到shopifyitem表
如何覆盖 CSS 类的属性以避免复制和重命名样式

我对 CSS3 相当陌生我希望能够执行以下操作当我将一个类添加到元素中时它会覆盖该特定元素中使用的另一个类的属性假设我有 a class left carousel control href carousel 我希望能够添加一个名为
UIImageView动画消耗内存太多

我的记忆和动画图像有问题首先我正在使用 ARC 在我的初始屏幕上我有大约 60 个要制作动画的图像我正在使用此代码进行动画 NSMutableArray images NSMutableArray alloc init int an
常量文件中的 codeigniter base_url

目前我通过以下方式显示图像 img src USER UPLOAD URL 在 application config constants php 中定义 define USER UPLOAD URL uploads user uploads
使用 XSLT 将输入 XML 转换为其他 XML

我是初学者想学习 XSLT 我遇到了使用 XSLT 将输入 XML 文件转换为另一个 XML 文件的问题我的输入 XML 文件
为什么React-router在url改变时不重新渲染页面也不更新数据？

我正在 React 中构建一个项目该项目通过自定义挂钩从 API 检索数据一旦检索到数据它就会显示卡片通过单击它们可以打开描述性页面到这里一切都好 App js
如何从 WebMatrix 2 Beta 中的 vsdoc 文件引用获取 JavaScript Intellisense？

我将 JavaScript 文件从 Visual Studio 复制到新的 WebMatrix 2 Beta 项目结果发现 vsdoc 文件没有用于 JavaScript Intellisense
Android背景隐藏子视图文本

我有一个简单的 LinearLayout 当我添加安卓背景对于 LinearLayout TextView不再可见我不明白什么
PHP CSV 字符串到数组

我正在尝试将 CSV 字符串解析为 PHP 中的数组 CSV 字符串具有以下属性 Delimiter Enclosure New line r n 示例内容 12345 Computers Acer 4 Varta 5 93 1 0 04
Oracle WITH 和 MATERIALIZE 提示充当函数的自主事务

在 Oracle 12c 中如果我在查询中调用在 WITH AS 部分中使用 MATERIALIZE 提示的函数则该函数调用的行为类似于自治事务 DROP TABLE my table CREATE TABLE my table my
使用 WPF 自定义控件库 (.NET Framework) 中普通 WPF 项目中的 App.xaml

我有一个 WPF 项目App xaml 不是资源字典带有一些材料设计的东西和一个 ViewModelLocator MVVM 如下所示
如何在 JGit 中编写 git log --stat 命令

我有以下 git 命令 git log stat 1000 all gt gitstat log 在 JGit 中可以实现这一点吗如果是在 JGit 中编写此代码的等效方法是什么为了访问存储库的历史记录 JGit 提供了RevWalk
使用 Python 每 64 个字符插入一个换行符

使用 Python 我需要每 64 个字符向字符串中插入一个换行符在 Perl 中这很简单 s 64 1 n 如何使用 Python 中的正则表达式来完成此操作有没有更Pythonic的方法来做到这一点与 Perl 中相同但使用反斜
调度 Redux 操作是否被视为昂贵？

我已经使用 React Redux Typescript 堆栈有一段时间了到目前为止我很喜欢它然而由于我对 Redux 还很陌生所以我一直想知道这个特定的话题调度 Redux 操作和 thunk 是否被认为是昂贵的操作并且应该谨
struct 是 Racket 中的宏吗？

我记得我在某处读到它不是宏而是内置于核心语言中的类似的事情我不确定因为我已经记不起我是从哪里读到的了也是如此structRacket 中是否有宏如果不是为什么它被内置到核心语言中一个宏 struct rkthas defin
PHP：使用 PDO 从 MySQL 数据库输出 utf8 时出现问题

dbo new PDO mysql host localhost dbname database databaseuser databasepassword array PDO MYSQL ATTR INIT COMMAND gt SET
Oracle：模糊查找

我正在加载一个表来查找员工表但是有时源文件和员工表中的名称不正确匹配 Employee table Employee Name Paul Jaymes Source File Paul James 我想要这个匹配可能有什么解决办法 U
小阵列最快的偏移读取

为了速度我想读取第 9 个寄存器中的值引用的 8 个寄存器之一我认为执行此操作的最快方法是使用 3 个条件跳转检查第 9 个中的 3 位登记这应该比使用偏移量执行此操作的标准方法具有更短的延迟内存读取但这仍然需要至少 6 个时

小阵列最快的偏移读取

小阵列最快的偏移读取 的相关文章

随机推荐

热门标签

小阵列最快的偏移读取的相关文章