使用 SSE/AVX 获取 __m256d 中存储的值的总和

2024-04-22

有没有办法获得存储在 __m256d 变量中的值的总和？我有这个代码。

acc = _mm256_add_pd(acc, _mm256_mul_pd(row, vec));
//acc in this point contains {2.0, 8.0, 18.0, 32.0}
acc = _mm256_hadd_pd(acc, acc);
result[i] = ((double*)&acc)[0] + ((double*)&acc)[2];

这段代码可以工作，但我想用 SSE/AVX 指令替换它。

看来您正在对输出数组的每个元素进行水平求和。（也许作为 matmul 的一部分？）这通常是次优的；尝试对第二个内循环进行矢量化，以便可以生成result[i + 0..3]在向量中，根本不需要水平总和。
对于大于一个向量的数组的点积，垂直求和 (进入多个累加器 https://stackoverflow.com/questions/45113527/why-does-mulss-take-only-3-cycles-on-haswell-different-from-agners-instruction），最后只总结一次。

对于一般的水平缩减，请参见进行水平 SSE 向量和（或其他简化）的最快方法 https://stackoverflow.com/q/6996764- 提取高半部分并添加到低半部分。重复此操作，直到只剩下 1 个元素。

如果您在内循环中使用它，您绝对不想使用hadd(same,same)。这会花费 2 个 shuffle uop，而不是 1 个，除非你的编译器将你从自己的手中拯救出来。（而 gcc/clang 则不然。）hadd对于代码大小来说很有好处，但当你只有 1 个向量时几乎没有其他作用。它可以是有用且高效的，有两个不同的 inputs.

对于 AVX，这意味着我们唯一需要的 256 位操作是提取，这在 AMD 和 Intel 上速度很快。那么剩下的都是128位的：

#include <immintrin.h>

inline
double hsum_double_avx(__m256d v) {
    __m128d vlow  = _mm256_castpd256_pd128(v);
    __m128d vhigh = _mm256_extractf128_pd(v, 1); // high 128
            vlow  = _mm_add_pd(vlow, vhigh);     // reduce down to 128

    __m128d high64 = _mm_unpackhi_pd(vlow, vlow);
    return  _mm_cvtsd_f64(_mm_add_sd(vlow, high64));  // reduce to scalar
}

如果您希望将结果广播到 a 的每个元素__m256d，你会用vshufpd and vperm2f128交换高/低半部分（如果针对英特尔进行调整）。并全程使用256位FP相加。如果你关心早期的 Ryzen，你可能会减少到 128，使用_mm_shuffle_pd交换，然后vinsertf128获得 256 位向量。或者使用 AVX2，vbroadcastsd关于这件事的最终结果。但这对于英特尔来说会比始终保持 256 位慢，同时仍避免vhaddpd.

编译为gcc7.3 -O3 -march=haswell 在 Godbolt 编译器资源管理器上 https://gcc.godbolt.org/#g:!((g:!((g:!((h:codeEditor,i:(j:1,lang:c%2B%2B,source:%27%23include+%3Cimmintrin.h%3E%0A%0Adouble+hsum_double_avx(__m256d+v)+%7B%0A++++__m128d+vlow++%3D+_mm256_castpd256_pd128(v)%3B%0A++++__m128d+vhigh+%3D+_mm256_extractf128_pd(v,+1)%3B+//+high+128%0A+++++++++++vlow++%3D+_mm_add_pd(vlow,+vhigh)%3B+++++//+add+the+low+128%0A%0A++++__m128d+high64+%3D+_mm_unpackhi_pd(vlow,+vlow)%3B%0A++++return++_mm_cvtsd_f64(_mm_add_sd(vlow,+high64))%3B%0A%7D%0A%0A//+not+better+even+on+Intel,+but+horrible+on+AMD%0Adouble+hsum_double_avx256_paul(__m256d+acc)%0A%7B%0A++++acc+%3D+_mm256_hadd_pd(acc,+acc)%3B++++//+horizontal+add+top+lane+and+bottom+lane%0A++++acc+%3D+_mm256_add_pd(acc,+_mm256_permute2f128_pd(acc,+acc,+0x31))%3B++//+add+lanes%0A++++return++_mm256_cvtsd_f64(acc)%3B+//+extract+double%0A%7D%0A%27),l:%275%27,n:%270%27,o:%27C%2B%2B+source+%231%27,t:%270%27)),k:46.84947491248541,l:%274%27,n:%270%27,o:%27%27,s:0,t:%270%27),(g:!((g:!((h:compiler,i:(compiler:g73,filters:(b:%270%27,binary:%271%27,commentOnly:%270%27,demangle:%270%27,directives:%270%27,execute:%271%27,intel:%270%27,trim:%271%27),lang:c%2B%2B,libs:!(),options:%27-xc+-std%3Dgnu99+-Wall+-O3+-march%3Dhaswell%27,source:1),l:%275%27,n:%270%27,o:%27x86-64+gcc+7.3+(Editor+%231,+Compiler+%231)+C%2B%2B%27,t:%270%27)),k:50,l:%274%27,m:75.80477673935619,n:%270%27,o:%27%27,s:0,t:%270%27),(g:!((h:output,i:(compiler:1,editor:1,wrap:%271%27),l:%275%27,n:%270%27,o:%27%231+with+x86-64+gcc+7.3%27,t:%270%27)),header:(),l:%274%27,m:24.195223260643818,n:%270%27,o:%27%27,s:0,t:%270%27)),k:53.15052508751459,l:%273%27,n:%270%27,o:%27%27,t:%270%27)),l:%272%27,n:%270%27,o:%27%27,t:%270%27)),version:4

    vmovapd         xmm1, xmm0               # silly compiler, vextract to xmm1 instead
    vextractf128    xmm0, ymm0, 0x1
    vaddpd          xmm0, xmm1, xmm0
    vunpckhpd       xmm1, xmm0, xmm0         # no wasted code bytes on an immediate for vpermilpd or vshufpd or anything
    vaddsd          xmm0, xmm0, xmm1         # scalar means we never raise FP exceptions for results we don't use
    vzeroupper
    ret

内联之后（您肯定希望如此），vzeroupper沉到整个函数的底部，希望vmovapd优化掉，与vextractf128到不同的寄存器而不是销毁保存着的 xmm0_mm256_castpd256_pd128 result.

在第一代 Ryzen (Zen 1 / 1+) 上，根据Agner Fog 的说明书 http://agner.org/optimize/, vextractf128为 1 uop，延迟为 1c，吞吐量为 0.33c。

不幸的是，@PaulR 的版本在 Zen 2 之前的 AMD 上很糟糕；它就像您可能在英特尔库或编译器输出中找到的“cripple AMD”函数一样。（我不认为 Paul 是故意这样做的，我只是指出忽略 AMD CPU 会如何导致代码在它们上运行速度变慢。）

在禅宗 1 上，vperm2f128是 8 uop、3c 延迟和每 3c 吞吐量 1 个。vhaddpd ymm是 8 uops（相对于您可能期望的 6 uops），7c 延迟，每 3c 吞吐量 1 个。阿格纳说这是一个“混合域”指令。 256 位操作始终至少需要 2 个微操作。

     # Paul's version                      # Ryzen      # Skylake
    vhaddpd       ymm0, ymm0, ymm0         # 8 uops     # 3 uops
    vperm2f128    ymm1, ymm0, ymm0, 49     # 8 uops     # 1 uop
    vaddpd        ymm0, ymm0, ymm1         # 2 uops     # 1 uop
                           # total uops:   # 18         # 5

vs.

     # my version with vmovapd optimized out: extract to a different reg
    vextractf128    xmm1, ymm0, 0x1        # 1 uop      # 1 uop
    vaddpd          xmm0, xmm1, xmm0       # 1 uop      # 1 uop
    vunpckhpd       xmm1, xmm0, xmm0       # 1 uop      # 1 uop
    vaddsd          xmm0, xmm0, xmm1       # 1 uop      # 1 uop
                           # total uops:   # 4          # 4

总 uop 吞吐量通常是混合了负载、存储和 ALU 的代码的瓶颈，因此我预计 4-uop 版本可能至少在 Intel 以及muchAMD 更好。它还应该产生稍微更少的热量，从而允许稍微更高的涡轮增压/使用更少的电池电量。（但希望这个 hsum 是整个循环的一小部分，可以忽略不计！）

延迟也不差，所以没有理由使用低效的hadd / vpermf128版本。

Zen 2 及更高版本具有 256 位宽向量寄存器和执行单元（包括 shuffle）。他们不必将穿越车道的洗牌分成许多微指令，但相反vextractf128不再像vmovdqa xmm。 Zen 2 更接近 Intel 256 位向量的成本模型。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 SSE/AVX 获取 __m256d 中存储的值的总和的相关文章

将 Stream 反序列化为 List 或任何其他类型

尝试将流反序列化为List
C# 创建函数队列

我写了一个名为 QueueManager 的类 class QueueManager Queue functionsQueue public bool IsEmpty get if functionsQueue Count 0 return
起订量要求？违背了目的？

是否需要虚拟化您想要模拟的所有属性访问器就违背了模拟的目的我的意思是如果我必须修改我的对象并虚拟化我想要模拟的每个访问器我难道不能继承我的类并自己模拟它吗你的问题非常有效但如果你仔细想想没有其他方法可以模拟课程如果你采用一个接
为什么 VB.NET 和 C# 中针对值检查 null 存在差异？

In VB NET http en wikipedia org wiki Visual Basic NET有时候是这样的 Dim x As System Nullable Of Decimal Nothing Dim y As System
是否允许将类模板类型参数键入相同的名称？

这似乎可以在 MSVC 中按预期编译甚至工作但它是合法的 C 代码吗它是否能保证执行此处所期望的操作即将模板类型导出到结构体的同名用户 template
用户控件内所有控件均为空

我有一个 UserControl 它使用 UserControl 以及其他控件 In the ascx文件我有以下代码
无法从 Web api POST 读取正文数据

我正在尝试从新的 Asp Net Web Api 中的请求中提取一些数据我有一个像这样的处理程序设置 public class MyTestHandler DelegatingHandler protected override Syst
Paradox 表 - Oledb 异常：外部表不是预期的格式

我正在使用 Oledb 从 Paradox 表中读取一些数据我遇到的问题是当我将代码复制到控制台应用程序时代码可以工作但在 WinForms 中却不行两者都以 x86 进行调试我实际上只是复制代码在 WinForms 应用程序
在 MATLAB 中创建共享库

一位研究人员在 MATLAB 中创建了一个小型仿真我们希望其他人也能使用它我的计划是进行模拟清理一些东西并将其变成一组函数然后我打算将其编译成C库并使用SWIG https en wikipedia org wiki SWIG创建一
我可以仅在少数情况下关闭模拟吗

我有一个始终使用模拟的应用程序但是当用户以管理员身份登录时一些操作需要他们写入服务器本身现在如果这些用户在实际服务器上没有权限有些用户没有则不会让他们写入我想做的是关闭几个命令的模拟有没有办法做这样的事情 using Ho
无法加载文件或程序集“EntityFramework，版本=6.0.0.0”

我究竟做错了什么我该如何解决这个问题我有一个包含多个项目的解决方案它是一个 MVC NET 4 5 Web 应用程序在调试模式下启动后调用其中一个项目时出现此错误导致此错误的项目具有以下参考两个都是版本6 0 0 0 应用程序
如何减少 JSF 中的 javax.faces.ViewState

减少 JSF 中视图状态隐藏字段大小的最佳方法是什么我注意到我的视图状态约为 40k 这会在每次请求和响应时下降到客户端并返回到服务器特别是到达服务器时这对用户来说会显着减慢我的环境 JSF 1 2 MyFaces Tomcat T
正确使用“extern”关键字

有一些来源书籍在线材料解释了extern如下 extern int i declaration has extern int i 1 definition specified by the absence of extern 并且有支
不兼容的类型 - 是因为数组已经是指针吗？

在下面的代码中我创建一个基于书籍结构的对象并让它保存多个书籍我设置的是一个数组即定义启动的对象然而每当我去测试我对指针的了解实践有帮助并尝试创建一个指向创建的对象的指针时它都会给我错误 C Users Justin D
.NET JIT 编译的代码缓存在哪里？

NET 程序首先被编译为 MSIL 代码当它被执行时 JIT编译器会将其编译为本机机器代码我想知道这些JIT编译的机器代码存储在哪里它只存储在进程的地址空间中吗但由于程序的第二次启动比第一次快得多我认为即使在执行完成后该本机代
如何使用收益返回和递归获得字母的每个组合？

我有几个像这样的字符串列表可能有几十个列表 1 A B C 2 1 2 3 3 D E F 这三个仅作为示例用户可以从几十个具有不同数量元素的类似列表中进行选择再举个例子这对于用户来说也是一个完全有效的选择 25 empty 4 1
“int i=1,2,3”和“int i=(1,2,3)”之间的区别 - 使用逗号运算符的变量声明[重复]

这个问题在这里已经有答案了 int i 1 2 3 int i 1 2 3 int i i 1 2 3 这些说法有什么区别我无法找出任何具体原因 Statement 1 Result Compile error 运算符的优先级高于运算符
如何获取 QIcon 的文件/资源路径

假设我做了这样的事情 QIcon myIcon resources icon ico 我稍后如何确定该图标的路径例如 QString path myIcon getPath 问题是没有getPath 会员我找不到类似的东西但肯定有办
g++ C++0x 枚举类编译器警告

我一直在将可怕的 C 类型安全伪枚举重构为新的 C 0x 类型安全枚举因为它们是way更具可读性不管怎样我在导出的类中使用它们所以我明确地将它们标记为导出 enum class attribute visibility defaul
无法使 Polly 超时策略覆盖 HttpClient 默认超时

我正在使用 Polly 重试策略并且正如预期的那样在重试过程中HttpClient达到 100 秒超时我尝试了几种不同的方法来合并 Polly 超时策略将超时移至每次重试而不是总计但 100 秒超时仍然会触发我读过大约 5 个

随机推荐

姜戈 - 403 禁止。 CSRF 令牌缺失或不正确

我尝试为我的模型添加 ModelForm 但每次 POST 尝试都以 403 Forbidden CSRF 验证失败请求中止失败原因给出 CSRF 令牌丢失或不正确结束我没有 render to response 方法因此无法通过
如何禁用/覆盖 PowerShell 点表示法

PowerShell 中的命令几乎与 Bash 类似但点符号扩展给我带来了很多工作目前我必须将很多命令参数用引号引起来 mvnw cmd Dmaven repo local m2 repository deploy deploy fil
winkler的Python性能改进请求

我是一个 python n00b 我想要一些关于如何改进算法的建议以提高计算两个名字的 Jaro Winkler 距离的方法的性能 def winklerCompareP str1 str2 Return approximate stri
为什么 ng-mouseover 不能与 ng-if 一起使用

我试图在具有 ng if 的图像上使用 ng mouseover 指令但它不起作用但如果我使用 ng show 指令它起作用每个人都可以告诉我为什么吗或者这是 AngularJS 的问题在 AngularJS 文档中我无法阅读任
WooCommerce 挂钩 woocommerce_cancelled_order

再会这是我第一次使用 stackoverflow 很高兴认识大家不管怎样我正在为 WooCommerce 编写一个插件当订单取消时我会自动退款当我在没有钩子的情况下在单独的文件中手动执行它时我的代码工作正常但是使用我的钩子它
Azure 移动服务和 Azure Web 应用身份验证

当用户通过 Azure Web 应用程序 ASP NET MVC 和 Xamarin iOS 应用程序登录时我为同一用户获得两个不同的 SID Setup 带有 API 控制器的 Azure WebApp ASP NET 5 带有 Mic
如何使用 proguard 混淆 android 库（.aar）？

我想混淆 aar使用 proguard 进行分发的库我在互联网上尝试了很多解决方案但到目前为止没有任何效果只有一些代码被混淆了有人可以帮我解决这个问题吗在 build gradle 中在 defaultConfig 下添加 Co
将数据从 ASP.NET MVC 控制器推送到视图

我正在构建一个网站的后端该网站的前端将有多个需要实时更新的小部件现在我只是有一个加载方法它用数据填充所有小部件显然是在页面加载时我的问题是如何处理进一步更新的实时方面我想过只进行多个 ajax 调用它可以每秒左右查询一个服务
运行 Code First 迁移种子方法而不进行迁移

如何运行代码优先实体框架迁移而不更改数据模型中的任何内容这会导致创建迁移我只想再次运行种子方法因为我向其中添加了一些内容如果你只需要运行Seed 再次没有任何改变会导致添加新的迁移只需调用Update Database再次没有标
Linq - 按日期分组并选择计数

我目前正在解决一个问题我想运行一个查询该查询按所选日期对结果进行分组对于这个例子想象一个像这样的简单模型 public class User public DateTime LastLogIn get set public stri
搜索事件的 Jquery 选择器

我需要选择所有已绑定单击事件的元素是否存在这样的选择器 jQuery 本身不支持它但您可以使用编写自己的自定义选择器有事件插件 http plugins jquery com project hasevent jQuery expr
当 Java 中的集合超出容量时会发生什么？

我有一个服务它将所有对其进行的调用暂存在内存中因为我们不想丢失数据同时我们需要该服务因任何外部依赖项例如数据库而失败然后这些分阶段的调用会在后台例行接收和处理如果出于任何原因如果调用太多并且内存不足我们就需要警惕所以
如何将孤立分支“按原样”附加到 master？

搬迁使用过程中git我们采用了解决方案的生产版本并将其作为master 然后我们拿了一个开发版本并做了一个孤儿分支 called develop 背景为什么我们在这里有点纠结是因为从开发版本到生产版本并没有干净的演变此外组装所涉及的解
从 cURL 发布：HTTP_X_REQUESTED_WITH

我正在以编程方式将表单发布到 PHP 表单处理脚本有没有办法让我的表单处理脚本认为该帖子是由ajax 完成的表单处理程序当前检查 SERVER 中的 HTTP X REQUESTED WITH 以实现特殊的仅限 ajax 的逻辑当我使
重新启动 Android MediaRecorder 时出现 IllegalStateException [在无效状态下调用启动：1]

我正在尝试实现简单的逻辑来开始停止录制MediaRecorder安卓的周期为连接到 localSocket 设置选项 mRecorder prepare mRecorder start mRecorder stop mRecorder
Android Studio 3.1：代理配置：无法为git操作设置https用户密码

我最近将 Android Studio 从 3 0 升级到了 3 1 在3 0中我曾经在中设置代理配置gradle properties 全局属性文件其中包括设置systemProp https proxyPassword除其他外但
更改 SOLR 默认连接

我正在使用嵌入 SOLR 的应用程序 SOLR 在 Tomcat 的 webapp 区域中像一场战争一样运行是否有 SOLR 配置允许我切换搜索的默认 SOLR 行为以假定 AND 而不是 OR 作为连接运算符在您的模式文件中添加或修
/var/run/docker.sock：在 Python CGI 脚本中运行 docker 时权限被拒绝

我正在尝试运行 Python CGI 脚本在其中需要运行 docker 镜像我使用的是 Docker 版本 1 6 2 用户是 www data 添加到docker组中 www data www data sudo docker 在机器
模型响应包含 swagger 中不同对象类型的数组

我想建模一个响应对象其中包含 swagger 中不同类型对象的数组如下所示 table user customer employee 我尝试了下面的解决方案但它将所有属性包装在单个对象 user customer 中 response
使用 SSE/AVX 获取 __m256d 中存储的值的总和

有没有办法获得存储在 m256d 变量中的值的总和我有这个代码 acc mm256 add pd acc mm256 mul pd row vec acc in this point contains 2 0 8 0 18 0 32 0

使用 SSE/AVX 获取 __m256d 中存储的值的总和

使用 SSE/AVX 获取 __m256d 中存储的值的总和 的相关文章

随机推荐

热门标签

使用 SSE/AVX 获取 __m256d 中存储的值的总和的相关文章