使用 Intel AVX 存储打包双精度向量中的各个双精度值

2023-12-27

我正在使用 Intel AVX 指令的 C 内在函数编写代码。如果我有一个压缩双向量（a__m256d），将它们存储到内存中的不同位置（即我需要将它们扇出到不同的位置，以便它们不再打包）的最有效方法（即最少的操作数）是什么？伪代码：

__m256d *src;
double *dst;
int dst_dist;
dst[0] = src[0];
dst[dst_dist] = src[1];
dst[2 * dst_dist] = src[2];
dst[3 * dst_dist] = src[3];

使用 SSE，我可以这样做__m128类型使用_mm_storel_pi and _mm_storeh_pi内在函数。我还没有找到任何类似的 AVX 可以让我将各个 64 位片段存储到内存中。有吗？

您可以使用几个提取本征来完成此操作：（警告：未经测试）

 __m256d src = ...  //  data

__m128d a = _mm256_extractf128_pd(src, 0);
__m128d b = _mm256_extractf128_pd(src, 1);

_mm_storel_pd(dst + 0*dst_dist, a);
_mm_storeh_pd(dst + 1*dst_dist, a);
_mm_storel_pd(dst + 2*dst_dist, b);
_mm_storeh_pd(dst + 3*dst_dist, b);

您想要的是 AVX2 中的聚集/分散指令...但这还需要几年的时间。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Intel AVX 存储打包双精度向量中的各个双精度值的相关文章

linux x86 汇编语言 sys_read 调用的第一个参数应为 0 (stdin)

我正在编写一个简单的汇编程序来从标准输入读取如 scanf 这是我的代码 section bss num resb 5 section txt global start start mov eax 3 sys read mov ebx 0
X86 预取优化：“计算 goto”线程代码

我有一个相当重要的问题我的计算图有循环和多个计算路径我没有制作一个调度程序循环其中每个顶点将被一一调用而是将所有预先分配的框架对象放置在堆中代码数据这有点类似于线程代码甚至更好 CPS 只是在堆中跳转执行代码每个代
为什么 FMA _mm256_fmadd_pd() 内在函数有 3 个 asm 助记符：“vfmadd132pd”、“231”和“213”？

有人可以向我解释一下为什么融合乘法累加指令有 3 种变体 vfmadd132pd vfmadd231pd and vfmadd213pd 而只有一个 C 内在函数 mm256 fmadd pd 为了简单起见在 AT T 语法中有什么区别
为什么我的代码显示垃圾？

当我也想打印列表中的每个数字时我的代码显示垃圾有什么问题吗输出应如下所示给定的数组是 2G 4 PT为什么这是垃圾总数是 7 Code ASSUME CS CODE DS DATA SS STK ORG 0000H DATA SEG
是否可以在Linux上将C转换为asm而不链接libc？

测试平台为Linux 32位但也欢迎 Windows 32 位上的某些解决方案这是一个c代码片段 int a 0 printf d n a 如果我使用 gcc 生成汇编代码 gcc S test c 然后我会得到 movl 0 28 e
错误 LNK2019：函数 main 中引用的外部符号无法解析

我正在尝试在 C 中运行我的简单汇编代码我只有两个文件 cpp 文件和 asm 文件编译时出现错误见下文如果有人可以提供帮助我将不胜感激这是我的 main cpp 文件 include
movzbl(%rdi, %rcx, 1), %ecx 在 x86-64 汇编中意味着什么？

我想我明白 movzbl rdi rcx 1 ecx 意思是将零扩展字节移至长整型并表示将 ecx 扩展为 32 位但我不完全确定语法 rdi rcx 1 指的是什么我在某处看到该语法指的是 Base Index Scale 但我找
查找哪些页面不再与写入时复制共享

假设我在 Linux 中有一个进程我从中fork 另一个相同的过程后forking 因为原始进程将开始写入内存 Linux写时复制机制将为进程提供与分叉进程使用的不同的唯一物理内存页在执行的某个时刻我如何知道原始进程的哪些页面已被写
Clang 编译器 (x86)：80 位长双精度

我正在尝试在 x86 Windows 平台上使用本机 80 位长双精度海湾合作委员会选项 mlong double 80 https gcc gnu org onlinedocs gcc x86 Options html似乎不适用于 cl
_mm_max_ss 在 clang 和 gcc 之间有不同的行为

我正在尝试使用 clang 和 gcc 交叉编译一个项目但在使用时发现一些奇怪的差异 mm max ss e g m128 a mm set ss std numeric limits
将 C 代码转换为 x86-64 汇编

我正在尝试将 C 代码转换为 x86 64 我的目标是反转链表传入的两个参数是 head ptr 和 offset to 以获取指针字段的地址即指向列表中下一个节点的指针据我了解 head ptr是通过rdi寄存器传入的 offset
long double（GCC 特定）和 __float128

我正在寻找有关的详细信息long double and float128在 GCC x86 中更多是出于好奇而不是因为实际问题可能很少有人需要这些我只是有史以来第一次 truly需要一个double 但我想知道你的工具箱里有什么以及它
如何反汇编、修改然后重新组装 Linux 可执行文件？

无论如何这可以做到吗我使用过 objdump 但它不会产生我所知道的任何汇编器都可以接受的汇编输出我希望能够更改可执行文件中的指令然后对其进行测试我认为没有任何可靠的方法可以做到这一点机器代码格式非常复杂比汇编文件还要复杂实
SMP 上如何处理中断？

SMP 对称多处理器多核机器上如何处理中断内存管理单元是只有一个还是多个假设两个线程 A 和 B 运行在不同的内核上同时访问页表中不存在的内存页面在这种情况下将会出现页面错误并从内存中引入新页面将会发生的事件的顺序是什么
x86 程序集 Pushl/popl 不适用于“错误：后缀或操作数无效”

我是汇编编程的新手正在努力解决编程基础 http savannah nongnu org projects pgubook 在带有 GNU 汇编器 v2 20 1 的 Ubuntu x86 64 桌面上我已经能够汇编链接执行我的代码
汇编语言程序中连续两次相乘

我正在使用 8086 模拟器以及 DOSBOX 和 MASM 我知道当我们将 8 位与 8 位相乘时答案将是 16 位 al 8 bit ax 当我们将 16 位与 16 位相乘时答案将是 32 位 ax 16 bit dx ax 但如
movsbl指令的作用是什么？ [复制]

这个问题在这里已经有答案了我在网上搜索过但找不到明确的示例来理解该指令的作用因此如果有人可以举一个例子这对我来说将会非常有帮助用符号从字节扩展到长字移动在Intel语法中该指令的助记符是MOVSX 当变量类型为 C 时 C
测试 xmm/ymm 寄存器是否为零的更快方法？

It s fortunate that PTEST does not affect the carry flag but only sets the rather awkward ZF also affects both CF and ZF
如何构建gcc multilib工具链？

我正在尝试在新安装的 ubuntu 14 04 的 AMD64 版本上构建 gcc multilib 工具链它只有 x86 64 gcc 和 g 安装没有 multilib 支持我的配置行是 configure disable che
如果默认禁用 A20 线，如何在 0xFFFFFFF0 处访问 BIOS ROM？

我正在阅读有关 A20 线的信息http wiki osdev org A20 Line http wiki osdev org A20 Line 这似乎表明 A20 线默认被禁用在Pentium上如果硬复位后立即输出的地址为0xFFF

随机推荐

Javascript 注入浏览器

每当我访问任何页面时我都会使用 4g wifi 互联网它会不断加载当我查看页面的源代码时会发现代码中注入了一个脚本请帮助它真的很烦人我刚刚发现这是我的 ISP 在浏览器中注入了 javascript 所以我通过使用解决了这个问题
Java 枚举方法到 Delphi

public enum HTTPHeaderKey CACHE CONTROL Cache Control CONNECTION Connection TRANSFER ENCODING Transfer Encoding HOST Hos
在 SQL Server 2008 中存储数组

我正在使用 SQL Server 2008 基于服务的数据库开发联系人管理应用程序大多数联系人都有多个电子邮件或多个电话号码那么有没有办法在 SQL Server 中将数组存储为数据类型呢或者有人有这种方式的替代方法吗您需要创建单
如何在Java中创建任意数字组的笛卡尔积？

假设我有 2 组数字 1 2 3 4 5 我想创建一个算法用Java 输出以下6种组合 1 4 1 5 2 4 2 5 3 4 3 5 可以有任意数量的组以及每个组内任意数量的成员因此在上面的示例中有 2 个组第一个组有 3 名成
FCM（Firebase 云消息传递）使用 Asp.Net 推送通知

我已经推送了GCM使用消息到谷歌服务器asp net在下面的方法中使用 Asp Net 的 GCM 推送通知 https stackoverflow com questions 11261718 gcm push notification
pageLoad() 未在使用 .NET 4.0 的动态加载页面中触发（在 3.5 上工作正常）

我有一个简单的 aspx 页面其中有一个链接可以在右侧 div 上加载另一个 aspx 页面使用 JQuery 加载如下所示
证明二叉树中重复调用 successor() 的效率？

我需要 CLRS 算法书中关于此练习的提示证明无论我们从高度为 h 的二叉搜索树中的哪个节点开始 k对 Tree Successor 的连续调用O k h time Let x是起始节点并且z是之后的结束节点k连续调用 TREE SUCC
如何使用 jquery 将 css 变换添加到当前变换值？

目前我有一门具有转换值的课程rotate 57deg 当警觉时 div 1 css transform 它给出矩阵值 div class div 1 Test div 我需要添加scale 1 1 到现有的变换值使用 jQuery 所以 d
检查网络响应是否来自服务器或 Chrome 缓存

在 Google Chrome 中如何检查哪些文件是从浏览器缓存提供的哪些文件来自服务器在 Chrome 开发者工具中切换到网络选项卡在大小列上它会显示下载内容的大小或者显示来自磁盘内存缓存
Excel VBA计算列的平均值

我想计算一列的平均值并将值放在下面我用VBA编写了这段代码但返回值始终为0 Sub Macro4 Macro4 Macro Keyboard Shortcut Ctrl Shift C Dim sum As Integer Dim co
Blazor Visual Studio 示例模板 - 缺少 bootstrap.js，引用缺少 blazor.server.js

我刚刚在 Visual Studio 中创建了一个 Blazer 服务器端项目它在 Host cshtml 中包含以下内容它在项目中有文件wwwroot css bootstrap bootstrap min css 但项目中的任何
WPF ListView键盘导航问题

我有一个像这样的列表视图列表显示 Mango Orange Grapes Grapes Grapes Apple 草莓每当我使用向下箭头导航时蓝色突出显示会在第一个葡萄处暂停虚线矩形从第二个葡萄开始并在第三个葡萄处暂停然后蓝色突出
为什么毕加索图像未在自定义信息窗口中加载？

我正在尝试以编程方式布局自定义信息窗口我想使用 Picasso 加载街景预览图像但图像没有显示知道为什么吗 private View prepareInfoView Marker marker prepare InfoView pro
Video.js - 播放使用 createObjectURL 创建的 blob（客户端的本地文件）

我想在本地播放视频不上传到服务器我可以用纯 javascript 和 html5 来做到这一点如下所示 html
使用 apache pdfbox 从 PDF 中提取希伯来语文本不会返回所有字符

下面的代码从中提取希伯来语文本http www language brain com journal docs Gvion Friedmann LanguageBrain7 frigvi pdf http www language brai
C#“select count”sql 命令错误地从 sql server 返回零行

我正在尝试从 SQL Server 表返回行计数网络上的多个来源显示以下方法是一种可行的方法但它仍然返回 0 行当我在管理工作室中使用该查询时它工作正常并正确返回行计数我已经尝试过使用简单的表名以及管理工作室喜欢的完全限定的表名
无法在 Eclipse 上创建新的 Android 应用程序

我是android开发的初学者我已经下载了adt bundle windows x86 64和android 4 2并启动了它提供的eclipse版本 Android开发工具但是当我在新的 Android 应用程序对话框中填写所有详细
BGL 中顶点迭代器的次数

我正在努力从我的图中删除所有节点使用定义的模式here http www boost org doc libs 1 37 0 libs graph doc adjacency list html 没有连接边到目前为止我的 MWE 代码如
非连续范围中的最后一行或单元格{不是工作表搜索}

首先这不是典型的新手问题我试图找到我已经正确创建的范围中的最后一行或单元格在此示例中我将两个范围通过并集合并为一个范围循环遍历范围我得到了我想要的数据一切都很好 Sub Test Dim unionRange As Rang
使用 Intel AVX 存储打包双精度向量中的各个双精度值

我正在使用 Intel AVX 指令的 C 内在函数编写代码如果我有一个压缩双向量 a m256d 将它们存储到内存中的不同位置即我需要将它们扇出到不同的位置以便它们不再打包的最有效方法即最少的操作数是什么伪代码 m256d

使用 Intel AVX 存储打包双精度向量中的各个双精度值

使用 Intel AVX 存储打包双精度向量中的各个双精度值 的相关文章

随机推荐

热门标签

使用 Intel AVX 存储打包双精度向量中的各个双精度值的相关文章