将 __m256 的奇数元素提取到 __m128 的有效(在 Ryzen 上)方法?

2024-02-07

是否有一种内在的或其他有效的方法将 AVX 寄存器的 64 位组件的高/低 32 位组件重新打包到 SSE 寄存器中?使用 AVX2 的解决方案就可以了。

到目前为止,我正在使用以下代码,但探查器说它速度很慢锐龙 1800X:

// Global constant
const __m256i gHigh32Permute = _mm256_set_epi32(0, 0, 0, 0, 7, 5, 3, 1);

// ...

// function code
__m256i x = /* computed here */;
const __m128i high32 = _mm256_castsi256_si128(_mm256_permutevar8x32_epi32(x,
  gHigh32Permute)); // This seems to take 3 cycles

那个随机播放+强制转换_mm256_permutevar8x32_ps对于一个向量来说是最优的在 Intel 和 Zen 2 或更高版本上。一条单微操作指令是您能得到的最好的指令。 (AMD Zen 2 和 Zen 3 上有两个微指令。Zen 4 上有一个微指令。https://uops.info/ https://uops.info/)

Use vpermps代替vpermd如果您的输入向量是由创建的,则可以避免 int / FP 绕过延迟的任何风险pd指令而不是负载或其他东西。在 Intel 上,使用 FP 洗牌的结果作为整数指令的输入通常没问题(我不太确定是否将 FP 指令的结果提供给整数洗牌)。

如果针对 Intel 进行调整,您可以更改周围的代码,以便可以洗入每个 128 位通道的底部 64 位。它避免了交叉车道的混乱。 (然后你可以使用vshufps ymm,或者如果针对 KNL 进行调整,vpermilps由于 2 输入vshufps速度较慢。)

有了 AVX512,就有它将元素跨通道打包,并进行截断。


Zen 1 上的车道交叉洗牌速度很慢. 阿格纳·雾 http://agner.org/optimize/没有号码vpermd,但列出vpermps(可能在内部使用相同的硬件)三个微指令,五个延迟周期,每四个吞吐量周期一个。https://uops.info/ https://uops.info/证实了 Zen 1 的这些数字。

Zen 2 和 Zen 3 大部分具有 256 位宽的向量执行单元,但有时它们的跨车道混洗与小于 128 位的元素需要多个微指令。 Zen 4 有所改进,例如 0.5 个周期的吞吐量vpermps有四个周期的延迟。

vextractf128 xmm, ymm, 1在 Zen 1 上非常高效(1c 延迟,0.33c 吞吐量),这并不奇怪,因为它将 256 位寄存器跟踪为两个 128 位一半。shufps也很高效(1c 延迟,0.5c 吞吐量),并且可以让您将两个 128b 寄存器洗牌为您想要的结果。

这也为您节省了一个寄存器vpermps洗牌面具,你不再需要了。 (一vpermps获取您想要分组到高车道和低车道的元素vextractf128。或者,如果延迟很重要,则两个控制向量为 2xvpermps在单微指令的 CPU 上)因此对于多微指令的 CPUvpermps,特别是 Zen 1,我建议:

__m256d x = /* computed here */;

// Tuned for Zen 1 through Zen 3.  Probably sub-optimal everywhere else.
__m128 hi = _mm_castpd_ps(_mm256_extractf128_pd(x, 1));  // vextractf128
__m128 lo = _mm_castpd_ps(_mm256_castpd256_pd128(x));    // no instructions
__m128 odd  = _mm_shuffle_ps(lo, hi, _MM_SHUFFLE(3,1,3,1));
__m128 even = _mm_shuffle_ps(lo, hi, _MM_SHUFFLE(2,0,2,0));

在英特尔上,使用三次洗牌而不是两次洗牌可达到最佳吞吐量的三分之二,并且第一个结果有一个周期的额外延迟。

在 Zen 2 和 Zen 3 上,vpermps是两个微操作数与一个微操作数vextractf128, 提取 + 2xvshufps优于 2xvpermps.

Alder Lake 上的 E 核心也有两个 uopvpermps但一微操作vextractf128 and vshufps xmm

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

将 __m256 的奇数元素提取到 __m128 的有效(在 Ryzen 上)方法? 的相关文章

随机推荐

  • AngularJs 将 HTML 中每个 ng-repeat 的实例传递给指令

    我认为这应该很简单 但我错过了一些东西 我怎样才能通过flowObj in my ng repeat下面是我的指令 我想将它传递给我的指令 然后单击 使用它FlowObj 然后应用一些逻辑 我尝试在我的指令中使用注释代码 scope tes
  • Ruby:为什么我不能创建新文件?

    我正在尝试创建一个 json 文件并写入它 我的代码如下所示 def save as json object f File new file json f puts object to json w f close end save as
  • android-support-v4 删除未使用的类

    实际上 我正在尝试将应用程序的 apk 缩小到尽可能小的大小 我目前导入了 android support v4 jar 文件 我的问题是 如何从此 jar 文件中删除未使用的类 经过一番搜索后没有找到任何信息 如果 ProGuard 是解
  • 如何使用 Salt 创建 SHA256 哈希?

    我目前正在开发一个 Visual Studio C Windows 窗体项目 但是 我对 SHA256 salted 的工作原理感到困惑 我在网上找到了一些例子 但无法理解如何调用这个函数 我想在连接到数据库 Microsoft Acces
  • 如何在 ag-grid 表的页脚中启用或显示总行数

    我正在使用 Ag Grid 表 我想在表的页脚中显示总行 我如何通过使用 2 个表来实现它 第 1 个表用于实际数据 第 2 个表用于总计行 它与普通的不可滚动表格一起工作正常 但如果它是固定或可滚动表格 则顶部表格会滚动 但底部表格会粘在
  • 在 HashMap 或 LinkedList 中将嵌套类设为静态的原因是什么? [复制]

    这个问题在这里已经有答案了 在大多数情况下 我看到嵌套类是static 让我们举个例子Entry上课于HashMap static class Entry
  • Protractor browser.wait 不等待

    我假设 browser wait 应该是一个阻塞调用 但它没有按我的预期工作 这是我的样本 describe browser wait function beforeEach function browser wait function c
  • 问题:使用 Windows 7,运行我的应用程序时出现未经授权的访问异常

    我的应用程序引发未经授权的访问错误 运行我的应用程序时 我尝试访问以下位置的目录 Application UserAppDataPath 问题 它说我无权访问 Application UserAppDataPath 目录 有没有办法在我的应
  • pyqtgraph:同步不同图中轴的缩放

    我想同步几个 pyqtgraph 图的 X 轴 当用户通过鼠标交互重新缩放 X 轴时 例如 鼠标在 x 轴上时滚动滚轮 我想将相同的更改分配给所有其他绘图 那么我该怎么做呢 我从下面的基本示例中导出了最小化代码 我是否必须覆盖viewRan
  • 在 html 表 中将单行加粗 [关闭]

    这个问题不太可能对任何未来的访客有帮助 它只与一个较小的地理区域 一个特定的时间点或一个非常狭窄的情况相关 通常不适用于全世界的互联网受众 为了帮助使这个问题更广泛地适用 访问帮助中心 help reopen questions 我使用以下
  • 来自 iOS 的 Instagram 签名 API 调用

    对 Instagram 帖子方法进行签名 API 调用以关注用户 点赞用户的图像等 用户每小时的关注次数限制为 20 次 但如果我们进行签名 API 调用 那么用户每小时可以进行 60 次关注 但我的问题是如何进行签名 API 调用 我尝试
  • 限制 Apigility 中的结果

    我使用 Apigility 创建了一个代码连接 API 现在我正在使用标准创建存根 在我的PostResource有一种方法叫做fetchAll params array 我为该方法创建了代码 以便它返回一组可分页的结果 var Hydra
  • 在 MySQL 中查找同一个表中的重复项

    我有一个包含两列的表 艺术家 release id 我可以运行什么查询来显示重复记录 例如我的桌子是 ArtistX 45677 ArtistY 378798 ArtistX 45677 ArtistZ 123456 ArtistY 888
  • 显示ajax、Jquery返回的响应的html代码

    我有一个 jquery AJAX 函数 它检索一些 HTML 标记并将其显示在页面上 我还想显示返回的 HTML 的 html 代码 我四处寻找解决方案 但没有找到任何解决方案 有人可以帮忙吗 非常感谢 post get news php
  • 4x4 矩阵预乘和后乘

    我有以下功能 void Matrix Scale const float xScale const float yScale const float zScale Matrix scaleMatrix scaleMatrix m data
  • 如何查明某个函数被 javascript/jquery 调用了多少次?

    也许是一个奇怪的问题 但事实是 我有一个定期调用的函数 在该函数中我需要知道我处于哪个迭代中 或者该函数被调用了多少次 问题的简化版本 jQuery document ready function setInterval myFunctio
  • 有没有办法让 HTML5 数据列表使用模糊搜索?

    我有一组数据列表选项 我想在搜索时进行模糊匹配 例如 如果我输入 PHP HTML 或 PHPAndHTML 我希望其中任何一个与 PHP And HTML 选项匹配 有什么办法可以做到这一点吗 请参见这把小提琴 https jsfiddl
  • JavaScript + MVC + 用户界面

    我正在寻找新的 JavaScript 编程方法 我的目标是创建像 GMail 这样的 JavaScript 应用程序 我尝试过 GWT 但它看起来很复杂 而且代码也不时尚 我发现 MVC 模式是一种很好的编程方式 我总是在用 javascr
  • JavaFX 可重用 FXML 片段

    我正在实现一个选项卡式部分 其中每个选项卡将包含一个表视图 在此表视图中 无论选择哪个选项卡 都会呈现一个列子集 但某些选项卡将包含其他列 以编程方式处理 由于这些原因 每个选项卡都需要有一个单独的控制器 但我想知道是否可以在每个选项卡中重
  • 将 __m256 的奇数元素提取到 __m128 的有效(在 Ryzen 上)方法?

    是否有一种内在的或其他有效的方法将 AVX 寄存器的 64 位组件的高 低 32 位组件重新打包到 SSE 寄存器中 使用 AVX2 的解决方案就可以了 到目前为止 我正在使用以下代码 但探查器说它速度很慢锐龙 1800X Global c