如何交换256位AVX（YMM）寄存器中的低128位和高128位

2023-12-20

我正在移植 SSE SIMD 代码以使用 256 位 AVX 扩展，但似乎找不到任何可以混合/洗牌/移动高 128 位和低 128 位的指令。

背景故事：

我真正想要的是VHADDPS/_mm256_hadd_ps表现得像HADDPS/_mm_hadd_ps，仅适用于 256 位字。不幸的是，它的行为就像两次调用HADDPS对低语和高语独立行事。

使用 VPERM2F128，可以交换低 128 位和高 128 位（以及其他排列）。内在函数的用法看起来像

x = _mm256_permute2f128_ps( x , x , 1)

第三个参数是一个控制字，它为用户提供了很大的灵活性。请参阅了解详情。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

x86

SIMD

avx

如何交换256位AVX（YMM）寄存器中的低128位和高128位的相关文章

使用 gdb 调试反汇编库

在Linux和Mac OS X中可以使用strapi和next来调试应用程序而无需调试信息在 Mac OS X 上 gdb 显示在库内部调用的函数尽管有时会在每个 stepi 指令中推进多个汇编程序指令在 Linux 上当我进入动态
编写 AMD64 SysV 程序集时使用哪些寄存器作为临时寄存器？

我正在使用实现一个功能cpuid根据 AMD64 SysV ABI 进行组装我需要在函数本身中使用 2 个临时寄存器第一个用于累积返回值第二个用作计数器我的功能目前如下所示 zero argument function some c
优化数组压缩

假设我有一个数组k 1 2 0 0 5 4 0 我可以按如下方式计算掩码m k gt 0 1 1 0 0 1 1 0 仅使用掩码 m 和以下操作左移右移 And Or 加减乘我可以将 k 压缩为以下形式 1 2 5 4 以下是我目
为什么这个“std::atomic_thread_fence”起作用

首先我想谈一下我对此的一些理解如有错误请指正 a MFENCE在x86中可以保证全屏障顺序一致性可防止 STORE STORE STORE LOAD LOAD STORE 和 LOAD LOAD 重新排序这是根据维基百科 https
一条指令可以同时处于两种寻址模式吗？

我在书中读到了以下内容从头开始编程处理器有多种不同的访问数据的方式称为寻址模式最简单的模式是立即模式其中要访问的数据嵌入在指令本身中例如如果我们想将寄存器初始化为 0 而不是给出计算机要从中读取 0 的地址我们将指定立即
为 Visual Studio 应用程序设置平台目标的目的是什么？

对于任何 VS 项目都可以在该项目的构建属性中设置平台目标您可以将其设置为任何 CPU x86 x64 或 Itanium 我的问题是如果我将此值设置为 x86 是否意味着我无法在 x64 计算机上运行该项目如果是这样为什么还要使
减法进位标志

我正在使用 MASM32 有了这个代码 mov eax 5 sub eax 10 CF 状态标志将被设置但使用我的铅笔和纸我实际上看到 MSB 没有任何进位是的我知道从较少的数字中减去大的数字集CF 但我想知道为什么因为使用这段代
在 x86 ASM 中测试零通常哪个更快：“TEST EAX, EAX”与“TEST AL, AL”？

测试 AL 中的字节是否为零非零通常哪个更快 TEST EAX EAX TEST AL AL 假设之前有一个 MOVZX EAX BYTE PTR ESP 4 指令加载了一个带有零扩展的字节参数到 EAX 的其余部分防止了我已经知道的组
什么是 __ext_vector_type__ 和 simd？

我正在使用 Apple Metal API 以及所谓的simd图书馆标题中有这样的代码 typedef attribute ext vector type 3 float vector float3 我很好奇它实际上做了什么以及为什么编译
“rep stos”x86 汇编指令序列有什么作用？

我最近偶然发现了以下汇编指令序列 rep stos dword ptr edi For ecx重复存储内容eax到哪里edi指向递增或递减edi 取决于方向标志每次 4 个字节通常这用于memset型操作通常该指令简单地写成r
如何知道寄存器是否是“通用寄存器”？

我试图了解寄存器必须具备什么标准才能被称为通用寄存器我相信通用寄存器是一个可以用于任何用途的寄存器用于计算将数据移入移出等并且是一个没有特殊用途的寄存器现在我读到了ESP寄存器是通用寄存器我猜是ESP寄存器可以用于任何事情
什么是“矢量化”？

现在好几次了我在 matlab fortran 其他一些中遇到这个术语但我从来没有找到解释它是什么意思它有什么作用所以我在这里问什么是矢量化例如循环矢量化是什么意思许多CPU具有向量或 SIMD 指令集它们同时对两
如何在程序中将自己缝合到自己的尾部，无限循环地封装 64KB 代码段？

如果指令的顺序执行经过偏移量 65535 则8086将从同一代码段中的偏移量 0 处获取下一个指令字节接下来的 COM 程序利用这一事实不断将其整个代码总共 32 个字节缝合到自己的尾部环绕在 64KB 代码段中你可以称之为二元
这种没有推送寄存器的交换有多安全？

我对汇编非常陌生下面的代码应该通过两个不同的函数交换两个整数首先使用swap c然后使用swap asm 但我怀疑我是否需要push 我的意思是保存汇编代码之前寄存器的每个值和pop稍后就在返回之前 main 换句话说如果我返回
是否可以在Linux上将C转换为asm而不链接libc？

测试平台为Linux 32位但也欢迎 Windows 32 位上的某些解决方案这是一个c代码片段 int a 0 printf d n a 如果我使用 gcc 生成汇编代码 gcc S test c 然后我会得到 movl 0 28 e
在 x86 汇编中将 64 位常量移至内存

我正在使用 Intel x64 程序集 NASM 编译器尝试将 0x4000000000000000 常量移至内存该常量在 ieee 754 标准双精度中应等于 2 0 我正在使用的代码是 define two 0x4000000000
gdb查找行号的内存地址

假设我已将 gdb 附加到一个进程并且在其内存布局中有一个文件和行号我想要其内存地址如何获取文件x中第n行的内存地址这是在 Linux x86 上 gdb info line test c 56 Line 56 of test c
为什么 Linux perf 使用事件 l1d.replacement 来处理 x86 上的“L1 dcache misses”？

在英特尔 x86 上 Linux用途 https stackoverflow com a 52172985 149138事件l1d replacements来实施其L1 dcache load misses event 该事件定义如下计数
使用 AVX/AVX2 转置 8x8 浮点

转置 8x8 矩阵可以通过制作四个 4x4 矩阵并对每个矩阵进行转置来实现这不是我想要的在另一个问题中一个答案给出了解决方案 https stackoverflow com a 2518670 4144148x8 矩阵只需要 24 条
何时可以重用avx指令中的源寄存器

在 avx 指令中用作源的寄存器何时可以在指令开始处理后重用例如我想使用vgatherdps该指令消耗两个 ymm 寄存器其中之一是位移索引我意识到vgatherdps由于数据的局部性较差因此需要花费大量时间来收集位移索引寄存器

随机推荐

JavaScript 中带前导零的数字

尝试这个 var num 040 console log num 32 从什么时候开始40 32 TL DR 由于前导它被视为八进制基数 8 0 就像领先的0x会将其设为十六进制以 16 为底这有着悠久而痛苦的历史并且不再是现代
Matlab - 如何创建数据集类的子类并保留数据集参数构造函数

数据集允许我们做 x rand 10 1 y rand 10 1 d dataset x y d 将有 2 个变量名称分别为 x 和 y 内容为 x 和 y 变量名称从工作区获取上面的 dataset 调用相当于 d dataset x
带组合键的 Odata v3 Web Api 导航

我有一个使用 Odata v3 的 Web Api 其中一些实体有一个复合键如下所示 public class AerodromoAdministracaoData Key Column idAerodromo Order 0 Datab
APC 与 pecl 上传进度

在 drupal 的状态报告页面中我通常会找到此消息在全新安装时您的服务器能够显示文件上传进度但没有所需的库建议安装PECL uploadprogress库首选或安装 APC 但我一直不明白为什么它更喜欢PECL上传进度库 h
每次导航到 flutter 中的特定选项卡时如何调用 initState 方法？

我正在使用 Cupertino 制作一个 flutter 应用程序我试图弄清楚每次导航到此选项卡 MapPage 时如何调用 initState 方法此方法 initState 调用其他方法 initPlatformState 该方法请
具有多个退出点的代码的循环复杂度

如何求具有多个出口点的函数的圈复杂度维基页面说 p s 2 其中 p 是决策点的数量 s 是退出点的数量但是更多的退出点是否会增加圈复杂度因为它可能会导致更多独立的路径 Cheers Aman CC 测量线性独立路径退出点不会向代
在 html 文件中调用 node.js 函数

这很可能是一个重复的问题我最接近的答案是在这里从 html 页面执行 Nodejs 脚本 https stackoverflow com questions 9670222 execute a nodejs script from an
使用CSS悬停图像

我正在尝试为博客上的阅读更多按钮创建悬停图像我试图参考
ApiInformation 是否不尊重应用程序目标版本

想象一下以下设置 UWP 库最低版本 10240目标版本 16299 该库在运行时检查 UniversalApiContract 版本 5 是否存在如果是它将使用新的 NavigationView 控件 UWP App 最低版本 10
Yocto：为什么包含一个包？

我目前正在使用yocto用于为 TI AM335x 构建嵌入式 Linux 映像我正在使用hob 因为我发现它比使用命令行更舒服我开始使用构建 core image base 的方法以下是所包含的软件包的选择现在我想排除该包alsa
sklearn.cross_validation.StratifiedShuffleSplit - 错误：“索引超出范围”

我试图使用 Scikit learn 的分层随机分割来分割示例数据集我按照 Scikit learn 文档中显示的示例进行操作here http scikit learn org stable modules generated skle
@FXML 初始化有对应的吗？

当视图被销毁阶段关闭另一个视图取代它的位置等时控制器上是否会调用任何方法也就是说是否存在对应的 FXML private void initialize Update 我这样做的原因是我的应用程序正在从 PubNub 接收消息
无法实例化 bean：构造函数抛出异常；嵌套异常是 java.lang.NullPointerException

package baseDao public interface BaseDao public void create Object obj public void delete Object obj public void update
带有协调器布局的 ViewPager

我的活动布局如下所示
classLoader.getResource 在 jar 文件中不起作用

ClassLoader classLoader Thread currentThread getContextClassLoader URL url classLoader getResource com x y z cfg File fi
有什么方法可以在 TabLayout 中使用 SpannableString 吗？

我想用两种不同的文本大小设置 TabLayout 的标题就像下面给出的图片一样或者反过来也可以达到这个目的我尝试过使用 SpannableString 如下所示这段代码在 for 循环中一直到 5 SpannableString m
非空参数与 C 中的 NULL 相比

在下面的函数中设计用于释放分配给类型指针的一些内存Maze with Maze是我在另一个文件中定义的结构我收到编译器错误nonnull argument maze compared to NULL这只是一个警告但我不得不打开警告这
Android 在 BackPressed 上提示 AlertDialog

我正在尝试完成应用程序中的主菜单我认为在 OnBackPressed 方法中添加 AlertDialog 会是一个简单而不错的做法但是由于某种原因我遇到了各种各样的错误我在 OnBackPressed 中创建了 AlertDialog
与 apache 建立隧道安全 Websocket 连接

我正在运行 Apache 只能通过 HTTPS 访问我想从在同一台计算机上运行的附加服务器应用程序提供 Websocket 服务但由于客户端不可能通过 443 之外的其他端口连接到我们的服务器因此这些 Websocket 连接需要通过
如何交换256位AVX（YMM）寄存器中的低128位和高128位

我正在移植 SSE SIMD 代码以使用 256 位 AVX 扩展但似乎找不到任何可以混合洗牌移动高 128 位和低 128 位的指令背景故事我真正想要的是VHADDPS mm256 hadd ps表现得像HADDPS mm ha

如何交换256位AVX（YMM）寄存器中的低128位和高128位

如何交换256位AVX（YMM）寄存器中的低128位和高128位 的相关文章

随机推荐

热门标签

如何交换256位AVX（YMM）寄存器中的低128位和高128位的相关文章