编写 std::copysign 的可移植 SSE/AVX 版本

2023-11-23

我目前正在使用 SSE 和 AVX 内在函数编写 QR 分解（线性系统求解器）的矢量化版本。其中一个子步骤需要选择与另一个值相反/等于的值的符号。在串行版本中，我为此使用了 std::copysign 。现在我想为 SSE/AVX 寄存器创建一个类似的函数。不幸的是，STL 使用内置函数来实现此目的，因此我不能仅复制代码并将其转换为 SSE/AVX 指令。

我还没有尝试过（所以我现在没有代码可以显示），但我的简单方法是创建一个寄存器，将所有值设置为 -0.0，以便仅设置有符号位。然后我会对源使用 AND 运算来查明其符号是否已设置。此操作的结果可能是 0.0 或 -0.0，具体取决于源的符号。由此，我将创建一个位掩码（使用逻辑运算），我可以将其与目标寄存器（使用另一个逻辑运算）结合起来以相应地设置符号。

但是，我不确定是否有更聪明的方法来解决这个问题。如果有一个用于基本数据类型（如浮点数和双精度数）的内置函数，也许还有一个我错过的内在函数。有什么建议么？

提前致谢

EDIT:

感谢“chtz”提供了这个有用的链接：

https://godbolt.org/z/oY0f7c

所以基本上 std::copysign 编译为一系列 2 AND 操作和后续的 OR 操作。我将为 SSE/AVX 复制此内容并将结果发布在这里，以防有一天其他人需要它:)

EDIT 2:

这是我的工作版本：

__m128 CopySign(__m128 srcSign, __m128 srcValue)
{
    // Extract the signed bit from srcSign
    const __m128 mask0 = _mm_set1_ps(-0.);
    __m128 tmp0 = _mm_and_ps(srcSign, mask0);

    // Extract the number without sign of srcValue (abs(srcValue))
    __m128 tmp1 = _mm_andnot_ps(mask0, srcValue);

    // Merge signed bit with number and return
    return _mm_or_ps(tmp0, tmp1);
}

测试它：

__m128 a = _mm_setr_ps(1, -1, -1, 1);
__m128 b = _mm_setr_ps(-5, -11, 3, 4);

__m128 c = CopySign(a, b);

for (U32 i = 0; i < 4; ++i)
    std::cout << simd::GetValue(c, i) << std::endl;

输出如预期：

但是，我也尝试了反汇编中的版本

__m128 tmp1 = _mm_andnot_ps(mask0, srcValue);

替换为：

const __m128 mask1 = _mm_set1_ps(NAN);
__m128 tmp1 = _mm_and_ps(srcValue, mask1);

结果很奇怪：

4
-8
-3
4

根据所选的数字，该数字有时可以，有时则不行。标志总是正确的。由于某种原因，NaN 似乎不是 !(-0.0) 。我记得之前当我尝试将寄存器值设置为 NaN 或特定位模式时遇到了一些问题。也许有人知道问题的根源？

EDIT 3:

正如“Maxim Egorushkin”在他的答案的评论中澄清的那样，我对 NaN 的期望是 !(-0.0) 是错误的。 NaN 似乎不是一个独特的位模式（参见https://steve.hollasch.net/cgindex/coding/ieeefloat.html).

非常感谢大家！

AVX 版本float and double:

#include <immintrin.h>

__m256 copysign_ps(__m256 from, __m256 to) {
    constexpr float signbit = -0.f;
    auto const avx_signbit = _mm256_broadcast_ss(&signbit);
    return _mm256_or_ps(_mm256_and_ps(avx_signbit, from), _mm256_andnot_ps(avx_signbit, to)); // (avx_signbit & from) | (~avx_signbit & to)
}

__m256d copysign_pd(__m256d from, __m256d to) {
    constexpr double signbit = -0.;
    auto const avx_signbit = _mm256_broadcast_sd(&signbit);
    return _mm256_or_pd(_mm256_and_pd(avx_signbit, from), _mm256_andnot_pd(avx_signbit, to)); // (avx_signbit & from) | (~avx_signbit & to)
}

assembly

英特尔内联指南

与AVX2avx_signbit可以在没有常数的情况下生成：

__m256 copysign2_ps(__m256 from, __m256 to) {
    auto a = _mm256_castps_si256(from);
    auto avx_signbit = _mm256_castsi256_ps(_mm256_slli_epi32(_mm256_cmpeq_epi32(a, a), 31));
    return _mm256_or_ps(_mm256_and_ps(avx_signbit, from), _mm256_andnot_ps(avx_signbit, to)); // (avx_signbit & from) | (~avx_signbit & to)
}

__m256d copysign2_pd(__m256d from, __m256d to) {
    auto a = _mm256_castpd_si256(from);
    auto avx_signbit = _mm256_castsi256_pd(_mm256_slli_epi64(_mm256_cmpeq_epi64(a, a), 63));
    return _mm256_or_pd(_mm256_and_pd(avx_signbit, from), _mm256_andnot_pd(avx_signbit, to)); // (avx_signbit & from) | (~avx_signbit & to)
}

尽管如此，两者clang and gcc计算avx_signbit在编译时并将其替换为从加载的常量.rodata部分，在我看来，这是次优的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

编写 std::copysign 的可移植 SSE/AVX 版本的相关文章

查找哪些页面不再与写入时复制共享

假设我在 Linux 中有一个进程我从中fork 另一个相同的过程后forking 因为原始进程将开始写入内存 Linux写时复制机制将为进程提供与分叉进程使用的不同的唯一物理内存页在执行的某个时刻我如何知道原始进程的哪些页面已被写
我的线程图像生成应用程序如何将其数据传输到 GUI？

Mandelbrot 生成器的缓慢多精度实现线程化使用 POSIX 线程 Gtk 图形用户界面我有点失落了这是我第一次尝试编写线程程序我实际上并没有尝试转换它的单线程版本只是尝试实现基本框架到目前为止它是如何工作的简要描述 M
C#动态支持吗？

看完之后这个帖子 https stackoverflow com questions 2674906 when should one use dynamic keyword in c sharp 4 0k和链接我还有 2 个问题问题 1
为什么大多数 C 开发人员使用 Define 而不是 const？ [复制]

这个问题在这里已经有答案了在许多程序中 define与常量具有相同的用途例如 define FIELD WIDTH 10 const int fieldWidth 10 我通常认为第一种形式优于另一种形式它依赖于预处理器来处理基本上是
显示异常时的自定义错误消息：从客户端检测到潜在危险的 Request.Form 值

我在我的 Web 应用程序中使用 ASP NET 的登录控件当发生此异常时我想在标签上显示一种有趣的错误类型System Web HttpRequestValidationException A potentially dangerou
检查算术运算中的溢出情况[重复]

这个问题在这里已经有答案了可能的重复检测 C C 中整数溢出的最佳方法 https stackoverflow com questions 199333 best way to detect integer overflow in c
如何将“外部模板”与由同一类中的模板化成员使用的嵌套类一起使用？

首先一些背景信息我尝试以 Herb Sutter 在他的解决方案中介绍的方式使用 Pimpl 习语得到了 101 http herbsutter com gotw 101 这在头文件中看起来像这样 include pimpl h h
即使手动设置显示环境变量后，WSL Ubuntu 也会显示“错误：无法打开显示”

我在 WSL Ubuntu 上使用 g 我使用 git 克隆了 GLFW 存储库使用了ccmake命令配置并生成二进制文件然后使用make在 build 目录中最终创建 a文件我安装了所有OpenGL相关的库 usr ld 我不记得我
Azure 事件中心 - 按顺序接收事件

我使用下面的代码从 Azure Event Hub 接收事件 https learn microsoft com en us azure event hubs event hubs dotnet framework getstarted s
基于xsd模式生成xml（使用.NET）

我想根据我的 xsd 架构 cap xsd 生成 xml 文件我找到了这篇文章并按照说明进行操作使用 XSD 文件生成 XML 文件 https stackoverflow com questions 6530424 generatin
通过 NHibernate 进行查询，无需 N+1 - 包含示例

我有一个 N 1 问题我不知道如何解决它可以在这个问题的底部找到完全可重复的样本因此如果您愿意请创建数据库设置 NUnit 测试和所有附带的类并尝试在本地消除 N 1 这是我遇到的真实问题的匿名版本众所周知这段代码对于帮助
System.Runtime.InteropServices.COMException（0x80040154）：[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我在 C 项目中遇到异常 System Runtime InteropServices COMException 0x80040154 检
将代码拆分为标头/源文件

我从 Asio 的示例页面中获取了以下代码 class tcp connection public boost enable shared from this
在类的所有方法之前运行一个方法

在 C 3 或 4 中可以做到这一点吗也许有一些反思 class Magic RunBeforeAll public void BaseMethod runs BaseMethod before being executed public
耐用功能是否适合大量活动？

我有一个场景需要计算 500k 活动都是小算盘由于限制我只能同时计算 30 个想象一下下面的简单示例 FunctionName Crawl public static async Task
当前的 x86 架构是否支持非临时加载（来自“正常”内存）？

我知道有关此主题的多个问题但是我没有看到任何明确的答案或任何基准测量因此我创建了一个处理两个整数数组的简单程序第一个数组a非常大 64 MB 第二个数组b很小无法放入 L1 缓存程序迭代a并将其元素添加到相应的元素中b在模块化
运算符“==”不能应用于“int”和“string”类型的操作数

我正在编写一个程序我想到了一个数字然后计算机猜测了它我一边尝试一边测试它但我不断收到不应该出现的错误错误是主题标题我使用 Int Parse 来转换我的字符串但我不知道为什么会收到错误我知道它说不能与整数一起使用但我在网
双精度类型二维多维数组的 pinvoke 编组作为 c# 和 c++ 之间的输入和输出

我有以下我正在尝试解决的双物质类型的 2d 多维数组的 c 和 c pinvoke 编组我已经查看了以下热门内容以获得我目前拥有的内容使用双精度数组进行 P Invoke 在 C 和 C 之间编组数据 https stackoverflo
Googletest：如何异步运行测试？

考虑到一个包含数千个测试的大型项目其中一些测试需要几分钟才能完成如果按顺序执行整套测试需要一个多小时才能完成通过并行执行测试可以减少测试时间据我所知没有办法直接从 googletest mock 做到这一点就像 async选项
使用 Crypto++ 获取 ECDSA 签名

我必须使用 Crypto 在变量中获取 ECDSA 签名我在启动 SignMessage 后尝试获取它但签名为空我怎样才能得到它你看过 Crypto wiki 吗上面有很多东西椭圆曲线数字签名算法 http www cryptop

随机推荐

logback：控制异常堆栈跟踪的格式

我在 Scala Play 2 2 0 应用程序上使用 Logback 1 0 13 现有配置如下所示
数据框作为 torchtext 中的数据源

我有一个数据框其中有两列评论和情绪我正在使用 pytorch 和 torchtext 库来预处理数据是否可以使用 dataframe 作为源来读取 torchtext 中的数据我正在寻找类似的东西但不是 data Tabular
使用 Javascript 或 jQuery 检测导航中的取消

我很好奇是否有一种方法可以使用 javascript 或者更好的是 jQuery 检测用户在浏览器中按下停止导航按钮例如如果您单击需要一段时间才能加载的网页的链接您可能想展示一个旋转装载机但是如果用户取消导航到该页面怎么办有没
使用 Eclipse WTP 将 context.xml 放在哪里？

我在用着Eclipse Indigo 3 7 WTP m2e 包括 m2e wtp 我已经在 Eclipse 上配置了 Tomcat 7 0 服务器我有一个 Web 应用程序我试图通过 Eclipse 在 Tomcat 上运行它但是当
带 Bootstrap + LESS Mixins 的语义网格如何实现？

Twitter bootstrap 文档讨论了生成网格系统的三个 mixin container fixed grid gt core grid gt fluid 我知道如何设置页面以使用引导程序但我不知道如何在语义上使用网格系统该文档
如何在java中使用apache poi中的rowiterator？

我尝试在java中使用apache poi读取excel文件但是 Eclipse没有编译代码 public class ReadExcel public static void main String args throws IOExce
如何获取所有EJB定时器？

在 EJB 3 1 中我可以在为特定 bean 获取的 TimerService 实例上使用 TimerService getTimers 来获取该 bean 的所有计时器然而我真正需要的是这个的系统范围版本 IE 我想要 EJB 容
在同一窗口中绘制多种类型的图（线图、散点图、条形图等）

我试图在同一窗口中绘制两种类型的图即线图和散点图折线图第一幅图中绘制的数据是代表气候指数 Y 与小数年 X 的浮动数值我希望成为散点图的第二个图大致相同但浮动数值代表河流流量 Y 与十进制年份 X 我尝试通过使用双 x 轴和
如何在我的 iPhone 应用程序中通过 fbconnect 获取用户的 Facebook 个人资料图片？ [复制]

这个问题在这里已经有答案了可能的重复通过 iOS 获取 Facebook 图片时出现问题如何在我的 iPhone 应用程序中通过 fbconnect 获取用户的 Facebook 个人资料图片尝试更深入地了解http develop
NestedScrollView 内的 MapView 不滚动

像这样在 xml 中膨胀我的 Mapview
如何使用 spring security 2.0 在我的 JSP 页面中显示错误消息

嗨我现在正在使用 Spring Security 效果很好但如果登录失败则不会显示错误消息我想知道如何显示错误消息我已经在 applicationContext xml 中配置了 ResourceBundleMessageSour
子流程变量[重复]

这个问题在这里已经有答案了 1 import subprocess 2 raw raw input Filename lower 3 ip raw input Host lower 4 cmd subprocess call tcpdump
.css() 延迟后不会应用

我想使用 jQuery 动态更改 div 上的背景颜色css 它起作用了但后来我尝试添加一些延迟但由于某种原因它停止了工作我缺少什么这是它的 MVC HTML div div div div JS nodelay hover fun
C# 和 VBA 之间的通信

应老板的要求我创建了一小组脚本用于定期监视某些设备和进程的状态随后使用相对复杂的 VBA 模块处理该信息该模块收集所有信息应用公式设置范围并生成图表等但存在两个问题我是一名业余程序员所以我的 VBA 例程效率很低这对我来
SSH 会话中 TMUX 内的系统剪贴板 Vim

我在 ssh 会话中的 tmux 中打开了 vim 如何让 vim 使用笔记本电脑的系统剪贴板作为默认复制粘贴默认set clipboard unamed不工作以防万一两个系统都是 Ubuntu 如果您的终端仿真器支持剪贴板集成功能
迅速。结合。有没有办法在重试时多次调用发布者块？

当发生某些错误时我想使用 Swift Combine 中的 retry 多次发出网络请求发布者内部的块仅被调用一次这意味着当错误发生时对真实应用程序仅发出一个请求我的代码是 import UIKit import Combine
如何将 crdate 和 cruuser_id 等标准字段与 TYPO3 和 extbase 一起使用？

我有领域模型篮子和文章如果我调用以下命令我会收到购物篮中的文章 articlesInBasket basket gt getArticles 如何使用 TYPO3 标准属性如 crdate 和 cruuser id 使用这样的东西会很
将 @Autowired 与 AspectJ 和 Spring Boot 一起使用

我想在方面中使用 Autowired 注释我想在我的方面注入一个存储库但是当我尝试调用自动装配类的方法时会发生 NullPointException Aspect public class AspectSecurity Autow
如何从MKmapview的可见区域获取半径？

我能够获得地图视图的可见矩形并且地图视图的中心点和跨度增量也可以从 mkmaap 视图方法获得可见的是 mapView visibleMapRect用来获取中心点 map view centerCoordinate使用并获得跨度 ma
编写 std::copysign 的可移植 SSE/AVX 版本

我目前正在使用 SSE 和 AVX 内在函数编写 QR 分解线性系统求解器的矢量化版本其中一个子步骤需要选择与另一个值相反等于的值的符号在串行版本中我为此使用了 std copysign 现在我想为 SSE AVX 寄存器创建一

编写 std::copysign 的可移植 SSE/AVX 版本

编写 std::copysign 的可移植 SSE/AVX 版本 的相关文章

随机推荐

热门标签

编写 std::copysign 的可移植 SSE/AVX 版本的相关文章