如何优化双重解引用？

2024-03-27

非常具体的优化任务。我有3个数组：

const char* 输入磁带
const int* inputOffset，以四个为一组
char* 输出磁带输出

我必须根据以下 5 个操作从输入组装输出磁带：

int selectorOffset = inputOffset[4*i];
char selectorValue = inputTape[selectorOffset];
int outputOffset = inputOffset[4*i+1+selectorValue];
char outputValue = inputTape[outputOffset];
outputTape[i] = outputValue; // store byte

然后前进柜台。

所有迭代都是相同的并且可以并行完成。 inputOffset 的格式可能会发生变化，但直到相同的输入将产生相同的输出。

GPU 上的 OpenCL 在该算法上失败（与 cpu 的工作方式相同甚至更慢）

组装最好的我得到了 5 mov、1 lea、1 dec 指令。更新：感谢 Peter Cordes 的一点提示

loop_start:
mov         eax,dword ptr [rdx-10h]             ; selector offset
movzx       r10d,byte ptr [rax+r8]          ; selector value
mov         eax,dword ptr [rdx+r10*4-0Ch]       ; output offset
movzx       r10d,byte ptr [r8+rax]          ; output value
mov         byte ptr [r9+rcx-1],r10b            ; store to outputTape
lea         rdx, [rdx-10h]                  ; pointer to inputOffset for current 
dec         ecx                             ; loop counter, sets zero flag if (ecx == 0)
jne         loop_start                      ; continue looping while non zero iterations left: ( ecx != 0 )

我如何针对 SSE/AVX 操作进行优化？我迷惑了...

UPD: better to see it than to hear it..

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Algorithm

Assembly

Optimization

SSE

avx

如何优化双重解引用？的相关文章

我怎样才能找到圆的所有点？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 给定半径和圆心坐标如何找到圆的所有
如何修复错误嵌套/未闭合的 HTML 标签？

我需要通过使用正确的嵌套顺序关闭任何打开的标签来清理用户提交的 HTML 我一直在寻找一种算法或Python代码来做到这一点但除了PHP等中的一些半生不熟的实现之外还没有找到任何东西例如类似的东西 p p ul li Foo bec
关于合并排序代码中的组合步骤的困惑

我有一个关于数组上的合并排序如何工作的问题我理解划分步骤它将输入数组划分为 1 长度的元素然而当谈到合并部分组合步骤时我感到困惑例如给定输入 3 5 1 8 2 除法过程将产生 5 个元素 3 5 1 8 2 我只
取消的分支与常规分支有何不同？

特别是对于 SPARC Assembly 取消的分支与常规分支有何不同我一直认为当我需要填充分支指令的 nop 延迟槽时需要取消分支指令但是我认为我在这一部分上是不正确的因为您可以在不取消分支的情况下填充 nop 如果不采用分支
为什么不能执行 mov [eax], [ebx] [重复]

这个问题在这里已经有答案了我可以做这个 mov eax ebx 和这个 mov eax ebx 甚至这个 mov eax ebx 但不是这个错误C2415 mov eax ebx 只是wtf 为什么它与 ptr1 ptr2 相同为什
如何在汇编语言中换行打印多个字符串

我试图在汇编中的不同行上打印多个字符串但使用我的代码它只打印最后一个字符串我对汇编语言非常陌生所以请耐心等待 section text global start start mov edx len mov edx len1 mov
使用列模数的更简洁方法

我目前有一个人员列表我已将其分为两列但在完成代码后我一直想知道是否有更有效或更干净的方法来完成同样的事情 echo table class area list tr Loop users within areas divided up
以与版本页面上相同的方式区分两个字符串的算法是什么？

我正在尝试按短语区分两个字符串类似于 StackOverflow 在版本编辑页面上区分两个字符串的方式执行此操作的算法是什么是否有 gems 或其他标准库可以实现此目的编辑我见过其他比较算法 Differ http github
如何在代码生成过程中简化包含变量的 C 风格算术表达式？

我正在尝试优化编译器中的表达式求值算术表达式都是C风格的并且它们可以包含变量我希望尽可能简化表达例如 3 100 A B 100 3 100可以简化为409 300 A B 主要取决于分配律结合律和交换律我遇到的主要困难是如何将
我应该如何优化这个文件系统 I/O 绑定程序？

我有一个 python 程序它执行如下操作从 csv 文件中读取一行对其进行一些变换将其分解为实际的行因为它们将被写入数据库将这些行写入单独的 csv 文件除非文件已完全读取否则返回步骤 1 运行 SQL Loader 并将
用 ruby 解决旅行商问题（50 多个位置）

我在一家快递公司工作目前我们手动解决了 50 多个地点的路线我一直在考虑使用 Google Maps API 来解决这个问题但我读到有 24 点的限制目前我们在服务器中使用 Rails 因此我正在考虑使用 ruby 脚本来获取
如何检查一个盒子是否适合另一个盒子（允许任何旋转）

假设我有两个盒子每个盒子都是一个长方体 http en wikipedia org wiki Rectangular cuboid aka长方体我需要编写一个函数来决定盒子是否具有尺寸一二三可以装入具有尺寸的盒子中甲乙丙
适用于 AVX 和 SSE 的 Visual Studio 的 cpu 调度程序

我使用两台计算机工作一种不支持 AVX 另一种支持 AVX 让我的代码在运行时找到我的CPU支持的指令集并选择合适的代码路径会很方便我按照 Agner Fog 的建议制作了一个 CPU 调度程序 http www agner org o
为什么 Visual Studio 使用 xchg ax,ax

我正在查看程序的反汇编因为它崩溃了并注意到很多 xchg ax ax 我用谷歌搜索了一下发现它本质上是一个 nop 但是为什么 Visual Studio 会执行 xchg 而不是 noop 该应用程序是一个C NET3 5 64位应
为什么当大小大于 50 时，该程序花费的时间会呈指数级增长？

所以我正在为类编写一个 ARM 汇编快速排序方法我对大部分内容都有了解除了复杂性没有意义我们将其与我们制作的另一种冒泡排序方法进行比较它对于具有 1 个参数和 10 个参数的示例表现更好然而我什至无法比较 100 个参数测试因
如何分析Android应用程序的电池使用情况并对其进行优化？

我想分析我的应用程序的电池使用情况我的意思是应用程序的各个部分例如广播接收器监听器服务等使用多少电池我需要一个详细的列表从列表中我想优化电池的使用方法与使用内存分析器类似 http android developers
如何找到最长的回文子序列（不是它的长度）

我想找出字符串中最长的回文子序列我到处都找到了找出子序列长度的算法并声明该算法也可以扩展以返回子序列但我没有找到如何实现的有人能解释一下我怎样才能得到序列吗既然你提到了链接最长回文子序列 http www geeksforgeek
当目标是查找某个字符串的所有出现情况时，KMP 最坏情况的复杂度是多少？

我还想知道哪种算法在查找另一个字符串中所有出现的字符串时具有最坏情况的复杂性博耶摩尔算法似乎具有线性时间复杂度 KMP 算法在查找字符串中所有出现的模式时具有线性复杂度如 Boyer Moore 算法1 如果您尝试在 aaaaaaaa
4 x 3 锁图案

我遇到了这个它要求计算在 4x3 网格中可以制作特定长度的锁定图案的方式数并遵循规则可能有些点不能包含在路径中有效的模式具有以下属性图案可以使用第一次接触的点序列来表示与绘制图案的顺序相同从 1 1 到 2 2 的图案与图案不
Bellman-Ford 算法检测什么？负重还是负循环？

如果给定一个图现在我们要从源头计算最短路径现在如果一条边具有负权重但在到达目的地时有边到后边返回到该边我的意思是如果没有循环那么我们就没有负循环但是here http en wikipedia org wiki Bellman

随机推荐

JavaScript 语法：字符串赋值语句中的内联 If

我最近遇到了这个问题我认为这会是一个很好的问题假设您将一个字符串分配给一个局部变量并且您想通过一个简单的条件来改变它因此您将内联 if 语句插入到字符串中 var someCondition true var url beginn
在 Contiki 程序中使用 malloc

考虑以下 Contiki 程序 include
Node JS，传统数据结构？（如 Set 等），类似于 Node 的 Java.util 之类的东西？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我喜欢 Node JS 并且有 Java 背景甚至有兴趣在某些 Node 看起来有点牵强的项目中尝试
nasm：在运行时从 rip（指令指针）获取重定位二进制文件的偏移量

我有一个适用于 x86 64 的 multiboot2 兼容 ELF 文件其中启动符号定义在start asm NASM 汇编文件 multiboot2 标头包含relocatable tag 因为 GRUB 不支持 multiboot2
Flask URL路由编码问题

我偶然发现了一个奇怪的 Unicode Flask 中的 URL 编码问题 app route it2
为什么此 C++ 代码可以使用某些编译器编译，而不能使用其他编译器编译？

我在做作业时注意到我笔记本电脑上的编译器比我们用于提交的机器上的编译器要宽容得多我笔记本电脑上的 C 编译器是AppleClang 7 0 2 7000181 提交框上的编译器是g 4 9 2 回想起来不应该编译的代码是 includ
付款错误：PayPal 错误：请求无效。查看具体信息。 (VALIDATION_ERROR) 贝宝

我在我的项目中使用 PayPal 定期付款我想在一段时间内提供一次免费试用并且初始订单总额应该为零一旦免费试用完成实际订单金额将从帐户中扣除例如用户购买一个产品 100 美元并申请免费试用折扣代码则第一个订单应以 0 美元下
将 Bundle 传递给 startActivityForResult 以实现场景转换

我正在玩棒棒糖sceneTransitionAnimations 为了让它发挥作用你需要实施getWindow setExitTransition getWindow setReenterTransition 在调用活动的onCreate
Spring Security 3.2.0.RC1 - 元素和已弃用的方法

升级到 Spring Security 3 2 0 RC1 后我收到警告 Method setFilterProcessesUrl is tagged deprecated
带有客户端证书的嵌入式 Jetty

我想创建嵌入式 https 服务器要求客户端提供证书我正在使用它 http www smartjava org content embedded jetty client certificates http www smartjava
拉取请求的 Bitbucket 构建状态显示失败的构建，而不是最新的构建状态

我将 Bitbucket 与 Cloudbees 集成具有以下工作流程每次用户创建 Pull 请求时都将其作为目标develop分支 cloudbees 中的多分支管道将聚集拉取请求例如 PR 34 并将触发第一个构建 1 如果通过
颜色条上的日志标签

我有一个对数 imshow 图当创建颜色条时它的轴标签和刻度是对数的但由于值的范围较短 0 50 颜色条看起来像这样我希望它显示为沿轴间隔的 0 5 10 20 50 对数间距 Use the LogFormatter https
在 Bash 中打开默认文本编辑器？

我在编写 shell 脚本时遇到了一个问题有没有办法使用用户指定的文本编辑器打开文件用户选择的编辑器应该位于 EDITOR 但您仍必须选择合理的默认值 EDITOR vi file txt
向该对象的每一面添加不同的颜色

我为我的应用程序重新创建了一个包模型并将其作为 obj 导出到 ThreeJs 中我为模型几何中发现的每个面分配了不同的颜色如下所示 var geometry new THREE Geometry fromBufferGeometry
为什么以下两个重复查找算法的时间复杂度不同？

我正在读这个question https stackoverflow com questions 3951547 java array finding duplicates 所选答案包含以下两种算法我不明白为什么第一个的时间复杂度是O l
C++ - 从类外部更改私有成员

这段代码会导致未定义的行为吗或者我可以遇到这个问题吗复制没有函数的完整类只是带有公共修饰符的变量并修改私有成员抛出此指针例子 include
Laravel 5.6 API 资源集合 - 未获取条件关系

我正在体验我的第一个 Laravel 项目我实现了一个资源收集 API 通过护照获取数据除了关系之外数据似乎可以从模型中正确检索情况是这样的 item php 模型
Visual Studio w/Docker 已退出，代码为 4294967295 (0xffffffff)

在我们新公司的笔记本电脑上我们在 Visual Studio 的 docker 桌面中运行容器时遇到了问题我们尝试了很多事情但都不成功任何帮助想法都会很棒因为我们已经没有想法了 Net Core 版本 6 Asp net Core
MediaRecorder 忽略 VideoFrame.timestamp

我想生成一个视频我在用MediaRecorder记录由MediaStreamTrackGenerator 生成每一帧需要一些时间比如说 1 秒我想在以下位置生成视频10 fps 因此当我创建框架时我使用timestamp and
如何优化双重解引用？

非常具体的优化任务我有3个数组 const char 输入磁带 const int inputOffset 以四个为一组 char 输出磁带输出我必须根据以下 5 个操作从输入组装输出磁带 int selectorOffset inpu

如何优化双重解引用？

如何优化双重解引用？ 的相关文章

随机推荐

热门标签

如何优化双重解引用？的相关文章