将 m256 的奇数元素提取到 m128 的有效（在 Ryzen 上）方法？

2024-02-07

是否有一种内在的或其他有效的方法将 AVX 寄存器的 64 位组件的高/低 32 位组件重新打包到 SSE 寄存器中？使用 AVX2 的解决方案就可以了。

到目前为止，我正在使用以下代码，但探查器说它速度很慢锐龙 1800X:

// Global constant
const __m256i gHigh32Permute = _mm256_set_epi32(0, 0, 0, 0, 7, 5, 3, 1);

// ...

// function code
__m256i x = /* computed here */;
const __m128i high32 = _mm256_castsi256_si128(_mm256_permutevar8x32_epi32(x,
  gHigh32Permute)); // This seems to take 3 cycles

那个随机播放+强制转换_mm256_permutevar8x32_ps对于一个向量来说是最优的在 Intel 和 Zen 2 或更高版本上。一条单微操作指令是您能得到的最好的指令。（AMD Zen 2 和 Zen 3 上有两个微指令。Zen 4 上有一个微指令。https://uops.info/ https://uops.info/)

Use vpermps代替vpermd如果您的输入向量是由创建的，则可以避免 int / FP 绕过延迟的任何风险pd指令而不是负载或其他东西。在 Intel 上，使用 FP 洗牌的结果作为整数指令的输入通常没问题（我不太确定是否将 FP 指令的结果提供给整数洗牌）。

如果针对 Intel 进行调整，您可以更改周围的代码，以便可以洗入每个 128 位通道的底部 64 位。它避免了交叉车道的混乱。（然后你可以使用vshufps ymm，或者如果针对 KNL 进行调整，vpermilps由于 2 输入vshufps速度较慢。）

有了 AVX512，就有它将元素跨通道打包，并进行截断。

Zen 1 上的车道交叉洗牌速度很慢. 阿格纳·雾 http://agner.org/optimize/没有号码vpermd，但列出vpermps（可能在内部使用相同的硬件）三个微指令，五个延迟周期，每四个吞吐量周期一个。https://uops.info/ https://uops.info/证实了 Zen 1 的这些数字。

Zen 2 和 Zen 3 大部分具有 256 位宽的向量执行单元，但有时它们的跨车道混洗与小于 128 位的元素需要多个微指令。 Zen 4 有所改进，例如 0.5 个周期的吞吐量vpermps有四个周期的延迟。

vextractf128 xmm, ymm, 1在 Zen 1 上非常高效（1c 延迟，0.33c 吞吐量），这并不奇怪，因为它将 256 位寄存器跟踪为两个 128 位一半。shufps也很高效（1c 延迟，0.5c 吞吐量），并且可以让您将两个 128b 寄存器洗牌为您想要的结果。

这也为您节省了一个寄存器vpermps洗牌面具，你不再需要了。（一vpermps获取您想要分组到高车道和低车道的元素vextractf128。或者，如果延迟很重要，则两个控制向量为 2xvpermps在单微指令的 CPU 上）因此对于多微指令的 CPUvpermps，特别是 Zen 1，我建议：

__m256d x = /* computed here */;

// Tuned for Zen 1 through Zen 3.  Probably sub-optimal everywhere else.
__m128 hi = _mm_castpd_ps(_mm256_extractf128_pd(x, 1));  // vextractf128
__m128 lo = _mm_castpd_ps(_mm256_castpd256_pd128(x));    // no instructions
__m128 odd  = _mm_shuffle_ps(lo, hi, _MM_SHUFFLE(3,1,3,1));
__m128 even = _mm_shuffle_ps(lo, hi, _MM_SHUFFLE(2,0,2,0));

在英特尔上，使用三次洗牌而不是两次洗牌可达到最佳吞吐量的三分之二，并且第一个结果有一个周期的额外延迟。

在 Zen 2 和 Zen 3 上，vpermps是两个微操作数与一个微操作数vextractf128, 提取 + 2xvshufps优于 2xvpermps.

Alder Lake 上的 E 核心也有两个 uopvpermps但一微操作vextractf128 and vshufps xmm

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 m256 的奇数元素提取到 m128 的有效（在 Ryzen 上）方法？的相关文章

WPF 中的屏幕分辨率问题？

我将在 WPF 中使用以下代码检测分辨率 double height System Windows SystemParameters PrimaryScreenHeight double width System Windows Syste
ASP.NET Core 与现有的 IoC 容器和环境？

我想运行ASP NET 核心网络堆栈以及MVC在已托管现有应用程序的 Windows 服务环境中以便为其提供前端该应用程序使用 Autofac 来处理 DI 问题这很好因为它已经有一个扩展Microsoft Extensions D
SSL/TLS/HTTPS 站点在 C#/.NET WebBrowser 控件中非常慢，但在 Internet Explorer 中则很好

背景我正在修改自动维基浏览器 http en wikipedia org wiki Wikipedia AutoWikiBrowser使用托管在安全服务器上的 MediaWiki 站点我允许用户通过 C 应用程序中的 WebBrowse
为什么大多数平台上没有“aligned_realloc”？

MSVC有自己的非标准函数 aligned malloc aligned realloc and aligned free C 17和C11引入了 std aligned alloc 其结果可以是de分配有free or realloc B
C# 正则表达式用于查找中具有特定结尾的链接

我需要一个正则表达式模式来查找字符串带有 HTML 代码中的链接以获取文件结尾如 gif 或 png 的链接示例字符串 a href site com folder picture png target blank picture
在 C# Winforms 应用程序中嵌入 Windows XP 主题

我有一个旧版 C Windows 窗体应用程序其布局是根据 Windows XP 默认主题设计的由于需要将其作为 Citrix 应用程序进行分发该应用程序现在看起来像经典主题应用程序因为 Citrix 不鼓励使用主题系统服务所以
从 C 结构生成 C# 结构

我有几十个 C 结构我需要在 C 中使用它们典型的 C 结构如下所示 typedef struct UM EVENT ULONG32 Id ULONG32 Orgin ULONG32 OperationType ULONG32 Size
获取尚未实例化的类的函数句柄

我对 C 相当陌生我想做的事情可能看起来很复杂首先我想获取一些函数的句柄以便稍后执行它们我知道我可以通过以下方式实现这一目标 List
对 boost 库的依赖项没有完整路径

我已经成功构建了动态库依赖于使用自定义前缀构建和安装的 boost 库 b2 install prefix PREFIX 然而当我跑步时otool L在我的库中我得到如下输出 libboost regex dylib compatib
如何在 C++ 中将 CString 转换为 double？

我如何转换CString to a double在 C 中 Unicode 支持也很好 Thanks A CString可以转换为LPCTSTR 这基本上是一个const char const wchar t 在 Unicode 版本中知
从 Code::Blocks 运行程序时出现空白控制台窗口 [重复]

这个问题在这里已经有答案了当我尝试在 Code Blocks 中构建并运行新程序时控制台窗口弹出空白我必须单击退出按钮才能停止它它对我尝试过的任何新项目包括 Hello world 都执行此操作奇怪的是它对于我拥有的任何旧项目
从成员函数指针类型生成函子

我正在尝试简化通过make fn 预处理参数的函子的生成通过wrap 对于 arity 的成员函数n 生成函子基本上可以工作但到目前为止只能通过显式指定成员函数的参数类型来实现现在我想从它处理的成员函数类型生成正确的函子 struc
如何随着分辨率的变化自动调整大小和调整表单控件

我注意到某些应用程序会更改控件的位置以尽可能适应当前的分辨率例如如果窗口最大化则控件的设置方式应使整个 GUI 看起来平衡是否可以使用 C 在 Visual studio 2010 中制作或实现此功能 Use Dock http m
tabcontrol selectedindex 更改事件未被触发 C#

嘿伙计们我有一个很小的问题请参阅下面的代码 this is main load private void Form1 Load object sender EventArgs e tabAddRemoveOperator Selecte
二叉树中的 BFS

我正在尝试编写二叉树中广度优先搜索的代码我已将所有数据存储在队列中但我不知道如何访问所有节点并消耗它们的所有子节点这是我的 C 代码 void breadthFirstSearch btree bt queue q if bt NUL
.NET 客户端中 Google 表格中的条件格式请求

我知道如何在 Google Sheets API 中对值和其他格式进行批量电子表格更新请求但条件格式似乎有所不同我已正确设置请求 AddConditionalFormatRuleRequest formatRequest new Add
C 中带有指针的结构的内存开销[重复]

这个问题在这里已经有答案了我意识到当我的结构包含指针时它们会产生内存开销这里有一个例子 typedef struct int num1 int num2 myStruct1 typedef struct int p int num2
如何引用解决方案之外的项目？

我有一个 Visual Studio C 解决方案其中包含一些项目其中一个项目需要引用另一个不属于解决方案的项目一开始我引用了dll
服务器响应 PASV 命令返回的地址与建立 FTP 连接的地址不同

System Net WebException 服务器响应 PASV 命令返回的地址与建立 FTP 连接的地址不同在 System Net FtpWebRequest CheckError 在 System Net FtpWebReque
如何使用 C# 以低分辨率形式提供高分辨率图像

尝试使用 300dpi tif 图像在网络上显示目前当用户上传图像时我正在动态创建缩略图如果创建的页面引用宽度为 500x500px 的高分辨率图像我可以使用相同的功能即时转换为 gif jpg 吗将创建的 jpg 的即将分辨率

随机推荐

AngularJs 将 HTML 中每个 ng-repeat 的实例传递给指令

我认为这应该很简单但我错过了一些东西我怎样才能通过flowObj in my ng repeat下面是我的指令我想将它传递给我的指令然后单击使用它FlowObj 然后应用一些逻辑我尝试在我的指令中使用注释代码 scope tes
Ruby：为什么我不能创建新文件？

我正在尝试创建一个 json 文件并写入它我的代码如下所示 def save as json object f File new file json f puts object to json w f close end save as
android-support-v4 删除未使用的类

实际上我正在尝试将应用程序的 apk 缩小到尽可能小的大小我目前导入了 android support v4 jar 文件我的问题是如何从此 jar 文件中删除未使用的类经过一番搜索后没有找到任何信息如果 ProGuard 是解
如何使用 Salt 创建 SHA256 哈希？

我目前正在开发一个 Visual Studio C Windows 窗体项目但是我对 SHA256 salted 的工作原理感到困惑我在网上找到了一些例子但无法理解如何调用这个函数我想在连接到数据库 Microsoft Acces
如何在 ag-grid 表的页脚中启用或显示总行数

我正在使用 Ag Grid 表我想在表的页脚中显示总行我如何通过使用 2 个表来实现它第 1 个表用于实际数据第 2 个表用于总计行它与普通的不可滚动表格一起工作正常但如果它是固定或可滚动表格则顶部表格会滚动但底部表格会粘在
在 HashMap 或 LinkedList 中将嵌套类设为静态的原因是什么？ [复制]

这个问题在这里已经有答案了在大多数情况下我看到嵌套类是static 让我们举个例子Entry上课于HashMap static class Entry
Protractor browser.wait 不等待

我假设 browser wait 应该是一个阻塞调用但它没有按我的预期工作这是我的样本 describe browser wait function beforeEach function browser wait function c
问题：使用 Windows 7，运行我的应用程序时出现未经授权的访问异常

我的应用程序引发未经授权的访问错误运行我的应用程序时我尝试访问以下位置的目录 Application UserAppDataPath 问题它说我无权访问 Application UserAppDataPath 目录有没有办法在我的应
pyqtgraph：同步不同图中轴的缩放

我想同步几个 pyqtgraph 图的 X 轴当用户通过鼠标交互重新缩放 X 轴时例如鼠标在 x 轴上时滚动滚轮我想将相同的更改分配给所有其他绘图那么我该怎么做呢我从下面的基本示例中导出了最小化代码我是否必须覆盖viewRan
在 html 表中将单行加粗 [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我使用以下
来自 iOS 的 Instagram 签名 API 调用

对 Instagram 帖子方法进行签名 API 调用以关注用户点赞用户的图像等用户每小时的关注次数限制为 20 次但如果我们进行签名 API 调用那么用户每小时可以进行 60 次关注但我的问题是如何进行签名 API 调用我尝试
限制 Apigility 中的结果

我使用 Apigility 创建了一个代码连接 API 现在我正在使用标准创建存根在我的PostResource有一种方法叫做fetchAll params array 我为该方法创建了代码以便它返回一组可分页的结果 var Hydra
在 MySQL 中查找同一个表中的重复项

我有一个包含两列的表艺术家 release id 我可以运行什么查询来显示重复记录例如我的桌子是 ArtistX 45677 ArtistY 378798 ArtistX 45677 ArtistZ 123456 ArtistY 888
显示ajax、Jquery返回的响应的html代码

我有一个 jquery AJAX 函数它检索一些 HTML 标记并将其显示在页面上我还想显示返回的 HTML 的 html 代码我四处寻找解决方案但没有找到任何解决方案有人可以帮忙吗非常感谢 post get news php
4x4 矩阵预乘和后乘

我有以下功能 void Matrix Scale const float xScale const float yScale const float zScale Matrix scaleMatrix scaleMatrix m data
如何查明某个函数被 javascript/jquery 调用了多少次？

也许是一个奇怪的问题但事实是我有一个定期调用的函数在该函数中我需要知道我处于哪个迭代中或者该函数被调用了多少次问题的简化版本 jQuery document ready function setInterval myFunctio
有没有办法让 HTML5 数据列表使用模糊搜索？

我有一组数据列表选项我想在搜索时进行模糊匹配例如如果我输入 PHP HTML 或 PHPAndHTML 我希望其中任何一个与 PHP And HTML 选项匹配有什么办法可以做到这一点吗请参见这把小提琴 https jsfiddl
JavaScript + MVC + 用户界面

我正在寻找新的 JavaScript 编程方法我的目标是创建像 GMail 这样的 JavaScript 应用程序我尝试过 GWT 但它看起来很复杂而且代码也不时尚我发现 MVC 模式是一种很好的编程方式我总是在用 javascr
JavaFX 可重用 FXML 片段

我正在实现一个选项卡式部分其中每个选项卡将包含一个表视图在此表视图中无论选择哪个选项卡都会呈现一个列子集但某些选项卡将包含其他列以编程方式处理由于这些原因每个选项卡都需要有一个单独的控制器但我想知道是否可以在每个选项卡中重
将 __m256 的奇数元素提取到 __m128 的有效（在 Ryzen 上）方法？

是否有一种内在的或其他有效的方法将 AVX 寄存器的 64 位组件的高低 32 位组件重新打包到 SSE 寄存器中使用 AVX2 的解决方案就可以了到目前为止我正在使用以下代码但探查器说它速度很慢锐龙 1800X Global c

将 __m256 的奇数元素提取到 __m128 的有效（在 Ryzen 上）方法？

将 __m256 的奇数元素提取到 __m128 的有效（在 Ryzen 上）方法？ 的相关文章

随机推荐

热门标签

将 m256 的奇数元素提取到 m128 的有效（在 Ryzen 上）方法？

将 m256 的奇数元素提取到 m128 的有效（在 Ryzen 上）方法？的相关文章