需要对我的 SSE/Assembly 尝试提出一些建设性的批评

2024-01-01

我正在努力将一些代码转换为 SSE，虽然我有正确的输出，但它比标准 C++ 代码慢。

我需要执行此操作的代码是：

float ox = p2x - (px * c - py * s)*m;
float oy = p2y - (px * s - py * c)*m;

我得到的 SSE 代码是：

void assemblycalc(vector4 &p, vector4 &sc, float &m, vector4 &xy)
{
    vector4 r;
    __m128 scale = _mm_set1_ps(m);

__asm
{
    mov     eax,    p       //Load into CPU reg
    mov     ebx,    sc
    movups  xmm0,   [eax]   //move vectors to SSE regs
    movups  xmm1,   [ebx]

    mulps   xmm0,   xmm1    //Multiply the Elements

    movaps  xmm2,   xmm0    //make a copy of the array  
    shufps  xmm2,   xmm0,  0x1B //shuffle the array     

    subps   xmm0,   xmm2    //subtract the elements

    mulps   xmm0,   scale   //multiply the vector by the scale

    mov     ecx,    xy      //load the variable into cpu reg
    movups  xmm3,   [ecx]   //move the vector to the SSE regs

    subps   xmm3,   xmm0    //subtract xmm3 - xmm0

    movups  [r],    xmm3    //Save the retun vector, and use elements 0 and 3
    }
}

由于阅读代码非常困难，我将解释一下我所做的：

加载的向量4，xmm0 _____ p = [px, py, px, py]
多。通过向量4，xmm1 _ cs = [c , c , s , s ]
__________________________多----------------------------
结果，_____________ xmm0 = [pxc, pyc, pxs, pys]

重用结果，xmm0 = [pxc, pyc, pxs, pys]
洗牌结果，xmm2 = [pys, pxs, pyc, pxc]
_____________________减去 - - - - - - - - - - - - - -
结果，xmm0 = [pxc-pys, pyc-pxs, pxs-pyc, pys-pxc]

重用结果，xmm0 = [pxc-pys, pyc-pxs, pxs-pyc, pys-pxc]
加载 m 个向量4，scale = [m, m, m, m]
__________________________多----------------------------
结果，xmm0 = [(pxc-pys)m, (pyc-px*s)m, (pxs-py*c)m, (pys-px*c)m]

加载xy向量4，xmm3 = [p2x，p2x，p2y，p2y]
重用，xmm0 = [(pxc-py*s)m, (pyc-px*s)m, (pxs-py*c)m, (pys-px*c)m]
_____________________减去 - - - - - - - - - - - - - -
结果，xmm3 = [p2x-(pxc-py*s)m, p2x-(pyc-px*s)m, p2y-(pxs-py*c)m, p2y-(pys-px*c)*m]

然后 ox = xmm3[0] 和 oy = xmm3[3]，所以我基本上不使用 xmm3[1] 或 xmm3[4]

对于阅读本文的困难，我深表歉意，但我希望有人能够为我提供一些指导，因为标准 C++ 代码的运行时间为 0.001444 毫秒，SSE 代码的运行时间为 0.00198 毫秒。

让我知道我是否可以做任何事情来进一步解释/清理这一点。我尝试使用 SSE 的原因是因为我运行此计算数百万次，并且它是减慢我当前代码速度的部分原因。

预先感谢您的任何帮助！布雷特

进行这种矢量化的通常方法是将问题“转向一边”。而不是计算单个值ox and oy，你计算四ox价值观和四个oy同时值。这可以最大限度地减少浪费的计算和洗牌。

为了做到这一点，你捆绑了几个x, y, p2x and p2y值放入连续数组中（即您可能有一个包含四个值的数组x，四个值的数组y， ETC）。然后你可以这样做：

movups  %xmm0,  [x]
movups  %xmm1,  [y]
movaps  %xmm2,  %xmm0
mulps   %xmm0,  [c]    // cx
movaps  %xmm3,  %xmm1
mulps   %xmm1,  [s]    // sy
mulps   %xmm2,  [s]    // sx
mulps   %xmm3,  [c]    // cy
subps   %xmm0,  %xmm1  // cx - sy
subps   %xmm2,  %xmm3  // sx - cy
mulps   %xmm0,  scale  // (cx - sy)*m
mulps   %xmm2,  scale  // (sx - cy)*m
movaps  %xmm1,  [p2x]
movaps  %xmm3,  [p2y]
subps   %xmm1,  %xmm0  // p2x - (cx - sy)*m
subps   %xmm3,  %xmm2  // p2y - (sx - cy)*m
movups  [ox],   %xmm1
movups  [oy],   %xmm3

使用这种方法，我们可以在 18 条指令中同时计算 4 个结果，而使用您的方法则需要 13 条指令来计算单个结果。我们也不会浪费任何结果。

它仍然可以改进；由于无论如何您都必须重新排列数据结构才能使用此方法，因此您应该对齐数组并使用对齐的加载和存储而不是未对齐。您应该将 c 和 s 加载到寄存器中并使用它们来处理manyx 和 y 的向量，而不是为每个向量重新加载它们。为了获得最佳性能，两个或多个向量的计算量应交错，以确保处理器有足够的工作来防止管道停顿。

（旁注：应该是cx + sy代替cx - sy？这会给你一个标准的旋转矩阵）

Edit

您对正在执行计时的硬件的评论几乎清除了一切：“Pentium 4 HT，2.79GHz”。这是一个非常古老的微架构，在其上未对齐的移动和洗牌非常慢；您的管道中没有足够的工作来隐藏算术运算的延迟，并且重新排序引擎并不像较新的微架构上那么聪明。

我希望你的矢量代码would事实证明比 i7 上的标量代码更快，也可能比 Core2 上的标量代码更快。另一方面，如果可以的话，一次做四个会更快。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

需要对我的 SSE/Assembly 尝试提出一些建设性的批评的相关文章

大会，你好世界问题

我正在 Linux 上学习 asm noobuntu 10 04 我得到了以下代码 http asm sourceforge net intro hello html http asm sourceforge net intro hello
弹出 x86 堆栈以访问函数 arg 时出现分段错误

我正在尝试链接 x86 程序集和 C 我的C程序 extern int plus 10 int include
使用 (float&)int 进行类型双关可以正常工作，(float const&)int 会像 (float)int 一样转换吗？

VS2019 发布 x86 template
从 exe 文件中获取汇编级代码？

我当时正在做linux汇编编程在过去的几天里我已经转而学习windows汇编编程我在用ml作为我的汇编器和golink作为我的链接器我有我的汇编代码并已获得我的exe从中现在我需要取回它的十六进制 xff xab x55等等在li
程序集比较标志理解

我正在努力理解汇编程序中的以下代码片段 if EAX gt 5 EBX 1 else EBX 2 在汇编程序中可以写如下根据我的书模拟jge操作说明 https www felixcloutier com x86 jcc您通常会使用
CPU寄存器和多任务处理

我目前正在学习汇编我很困惑 CPU 寄存器如何与多任务一起工作所以在多任务系统中 CPU可以随时暂停某个程序的执行并运行另一个程序那么在这一步中寄存器值是如何保存的呢寄存器是压入堆栈还是以其他方式 CPU 寄存器如何与多任务一起工作
linux x86 汇编语言 sys_read 调用的第一个参数应为 0 (stdin)

我正在编写一个简单的汇编程序来从标准输入读取如 scanf 这是我的代码 section bss num resb 5 section txt global start start mov eax 3 sys read mov ebx 0
如何在程序中将自己缝合到自己的尾部，无限循环地封装 64KB 代码段？

如果指令的顺序执行经过偏移量 65535 则8086将从同一代码段中的偏移量 0 处获取下一个指令字节接下来的 COM 程序利用这一事实不断将其整个代码总共 32 个字节缝合到自己的尾部环绕在 64KB 代码段中你可以称之为二元
是否可以在Linux上将C转换为asm而不链接libc？

测试平台为Linux 32位但也欢迎 Windows 32 位上的某些解决方案这是一个c代码片段 int a 0 printf d n a 如果我使用 gcc 生成汇编代码 gcc S test c 然后我会得到 movl 0 28 e
长多字节 NOP：通常理解的宏或其他符号

x86 和 x86 64 处理器不仅具有单字节这不是什么大秘密NOP指令还包括各种类型的多字节类 NOP 指令这些是我设法找到的 AMD 推荐参考 AMD 系列 15h 处理器的 AMD 软件优化指南文档 47414 http s
为什么 Linux perf 使用事件 l1d.replacement 来处理 x86 上的“L1 dcache misses”？

在英特尔 x86 上 Linux用途 https stackoverflow com a 52172985 149138事件l1d replacements来实施其L1 dcache load misses event 该事件定义如下计数
添加冗余赋值可以在未经优化的情况下编译时加快代码速度

我发现一个有趣的现象 include
NASM 中的 equ 和 db 有什么区别？

len equ 2 len db 2 它们是否相同产生可以用来代替的标签2 如果不是那么每种申报表的优点或缺点是什么它们可以互换使用吗第一个是equate 与 C 类似 define len 2 因为它实际上并没有在最终代码中分配任
32 位到 64 位内联汇编移植

我有一段 C 代码在 GNU Linux 环境下用 g 编译它加载一个函数指针它如何执行并不重要使用一些内联汇编将一些参数推送到堆栈上然后调用该函数代码如下 unsigned long stack 1 23 33 43 save
避免 gcc 函数序言开销？

我最近遇到了很多 gcc 在 x86 上生成非常糟糕的代码的函数它们都符合以下模式 if some condition do something really simple and return else something comple
为什么X86中没有NAND、NOR和XNOR指令？

它们是您可以在计算机上执行的最简单的指令之一它们是我亲自实施的第一个指令执行 NOT AND x y 会使执行时间和依赖链长度和代码大小加倍 BMI1 引入了 andnot 这是一个有意义的补充是一个独特的操作为什么不是这个问题
movzbl(%rdi, %rcx, 1), %ecx 在 x86-64 汇编中意味着什么？

我想我明白 movzbl rdi rcx 1 ecx 意思是将零扩展字节移至长整型并表示将 ecx 扩展为 32 位但我不完全确定语法 rdi rcx 1 指的是什么我在某处看到该语法指的是 Base Index Scale 但我找
无法识别的仿真模式：MinGW32 上的 elf_i386

我正在尝试制作内核但无法链接C与程序集一起输出这ld 我收到错误无法识别的仿真模式 elf i386 我正在使用 Windows 10 专业版以及 MinGW32 和 MSYS 我正在使用的代码 link ld link ld OUT
Clang 编译器 (x86)：80 位长双精度

我正在尝试在 x86 Windows 平台上使用本机 80 位长双精度海湾合作委员会选项 mlong double 80 https gcc gnu org onlinedocs gcc x86 Options html似乎不适用于 cl
Intel：序列化指令和分支预测

英特尔架构开发人员手册 http www intel com content www us en architecture and technology 64 ia 32 architectures software developer v

随机推荐

如何使用 R 以编程方式提取/解压 .7z (7-zip) 文件

我正在尝试自动提取许多使用 7 zip 压缩的文件我需要自动化这个过程因为a 我想解锁很多年的数据 b 我想与其他人共享我的代码并防止他们手动重复该过程我的计算机上安装了 WinRAR 和 7 zip 我可以使用任一程序轻松地单独打开
构建和验证 Gigya 签名

我编写了一个方法根据 Gigya 的指定时间戳和 UID 来验证 gigya 签名构建签名的说明 http developers gigya com 030 Gigya Socialize API 2 0 010 Developer Gu
可能是C# 4.0编译器错误，其他人可以验证吗？

由于我不知道究竟是哪一部分触发了错误所以我不完全确定如何更好地标记它这个问题是SO问题的副产品C 代码似乎以无效的方式进行优化导致对象值变为 null https stackoverflow com questions 3379894
是否有解决方法可以在 Ruby 中打开包含下划线的 URL？

我正在使用 open uri 来打开 URL resp open http sub domain domain com 如果它包含下划线我会收到错误 URI InvalidURIError the scheme http does not
如何在 C++/CLI 接口中声明默认索引属性

如何在 C CLI 接口中声明默认索引属性请原谅使用命名空间的重复完全限定符号因为我刚刚学习 C CLI 并且希望确保 C 和 C 之间不会发生语言原语的意外混淆 Code is public interface class ITes
代码段的动态重定位

只是出于好奇我想知道是否可以在期间重新定位一段代码程序的执行例如我有一个函数这个函数应该每次执行后都会在内存中进行替换我们想到了一个想法就是使用自修改代码来做到这一点根据网上的一些资源自行修改代码可以在Linux上执行
DICOM StudyInstanceUID 对于患者来说应该是唯一的吗？

在处理 DICOM 研究系列和媒体概念时我想知道这些值对于所有数据是否都是唯一的或者仅对于它们所属的患者而言是唯一的另有表述我可以让 2 名患者的研究系列 SOP 实例 uid 值相同吗或者 DICOM 标准根本不关心这一点
python opencv如何分割血管

我正在尝试使用 Python 和 OpenCV 分割视网膜图像中的血管这是原始图像理想情况下我希望所有血管都像这样非常明显不同的图像这是我到目前为止所尝试过的我拍摄了图像的绿色通道 img cv2 imread images H
由初始值设定项列表初始化的数组存储在哪里？

鉴于这段代码 void someFunction void int array 1 2 3 4 5 6 7 8 9 10 数组的值存储在哪里 Stack Heap 与那些字符串文字一起是不是叫高频堆别的地方我问这个问题是因为我不确定这
如何修改一个活动的另一活动的变量？

比方说头等舱有一个变量字符串当前值红色带有一个通往 Second class 一项活动的按钮 First class Activity 在文本视图中显示变量 currentValue 的值目前为红色如果我们按下按钮它将带我
在 Excel 中调整单元格宽度

我正在使用 xlsxwriter 写入 Excel 工作表我面临的问题是当文本大于单元格大小时它就会被隐藏 import xlsxwriter workbook xlsxwriter Workbook file xlsx worksh
Crashlytics - Firebase 日志中的 Stacktrace 不可读

我刚刚开始使用 React Native Firebase 和 Crashlytics 版本 6 当我打电话时firebase crashlytics recordError error 在JS中catch我在 Firebase Crash
Python 3.10 模式匹配 (PEP 634) - 字符串中的通配符

我有一个很大的 JSON 对象列表我想根据其中一个键的开头来解析这些对象并使用通配符来处理其余的很多键都是相似的比如 matchme foo and matchme bar 有一个内置通配符但它仅用于整个值有点像else 我可能
在struts2中使用tile

我正在关注 Struts2 中的 Tile 教程但遇到以下错误 SEVERE Error configuring application listener of class org apache struts2 tiles StrutsT
自定义声音推送通知不起作用（Flutter）

to XXXX notification title ASAP Alert body Please open your app data screen Nexpage1 sound alarm click action FLUTTER NO
从文本文件中提取两个分隔符之间的文本

我目前正在写关于首席执行官自恋的硕士论文为了衡量它我必须进行财报电话文本分析我按照 python 中提供的答案编写了一段代码这个链接 https stackoverflow com questions 36559356 extract
Ruby on Rails：为什么我在 Rails 后收到有关 javascript 和 css 的消息？

轨道 gt Started GET assets application css body 1 for 127 0 0 1 at 2011 10 11 03 37 03 0900 Served asset application css 3
JPA：如何覆盖@Embedded属性的列名

Person class Embeddable public class Person Column public int code 嵌入在里面Event两个不同属性的两倍 manager and operator Entity publi
ICMP 是传输层协议吗？

我正在观看有关网络的视频讲座讲师提到 ICMP 作为传输层协议然而谷歌搜索它显示了各种论坛将其描述为网络层协议这让我很困惑有人可以澄清一下吗传输层协议涉及端到端发送数据并确保或明确不确保可靠性 TCP 用于将数据从一台计算机
需要对我的 SSE/Assembly 尝试提出一些建设性的批评

我正在努力将一些代码转换为 SSE 虽然我有正确的输出但它比标准 C 代码慢我需要执行此操作的代码是 float ox p2x px c py s m float oy p2y px s py c m 我得到的 SSE 代码是 void

需要对我的 SSE/Assembly 尝试提出一些建设性的批评

需要对我的 SSE/Assembly 尝试提出一些建设性的批评 的相关文章

随机推荐

热门标签

需要对我的 SSE/Assembly 尝试提出一些建设性的批评的相关文章