SIMD 最小磁极和最大磁极

2023-11-22

我想实现SIMD最小磁极和最大磁极函数。据我了解这些功能是

minmag(a,b) = |a|<|b| ? a : b
maxmag(a,b) = |a|>|b| ? a : b

我想要这些浮点型和双精度型，我的目标硬件是 Haswell。我真正需要的是计算两者的代码。这是我对 SSE4.1 的双精度（AVX 代码几乎相同）

static inline void maxminmag(__m128d & a, __m128d & b) {
    __m128d mask    = _mm_castsi128_pd(_mm_setr_epi32(-1,0x7FFFFFFF,-1,0x7FFFFFFF));
    __m128d aa      = _mm_and_pd(a,mask);
    __m128d ab      = _mm_and_pd(b,mask);
    __m128d cmp     = _mm_cmple_pd(ab,aa);
    __m128d cmpi    = _mm_xor_pd(cmp, _mm_castsi128_pd(_mm_set1_epi32(-1)));
    __m128d minmag  = _mm_blendv_pd(a, b, cmp);
    __m128d maxmag  = _mm_blendv_pd(a, b, cmpi);
    a = maxmag, b = minmag;
}

然而，这并不像我想要的那么有效。是否有更好的方法或至少值得考虑的替代方案？我想尽量避免使用端口 1，因为我已经使用该端口进行了许多添加/删除操作。这_mm_cmple_pd内在的转到端口 1。

我感兴趣的主要功能是：

//given |a| > |b|
static inline doubledouble4 quick_two_sum(const double4 & a, const double4 & b)  {
    double4 s = a + b;
    double4 e = b - (s - a);
    return (doubledouble4){s, e};
}

所以我真正追求的是这个

static inline doubledouble4 two_sum_MinMax(const double4 & a, const double4 & b) {
    maxminmag(a,b);       
    return quick_to_sum(a,b);
}

编辑：我的目标是two_sum_MinMax比two_sum below:

static inline doubledouble4 two_sum(const double4 &a, const double4 &b) {
        double4 s = a + b;
        double4 v = s - a;
        double4 e = (a - (s - v)) + (b - v);
        return (doubledouble4){s, e};
}

编辑：这是我想要的最终功能。它执行 20 个添加/订阅，所有这些都进入 Haswell 上的端口 1。使用我的实现two_sum_MinMax在这个问题中，端口 1 上的添加/订阅数量减少到 16 个，但延迟更差，而且速度仍然较慢。您可以查看此函数的程序集，并阅读有关我为何关心此问题的更多信息：优化快速乘法但缓慢加法 fma 和 doubledouble

static inline doublefloat4 adddd(const doubledouble4 &a, const doubledouble4 &b) {
        doubledouble4 s, t;
        s = two_sum(a.hi, b.hi);
        t = two_sum(a.lo, b.lo);
        s.lo += t.hi;
        s = quick_two_sum(s.hi, s.lo);
        s.lo += t.lo;
        s = quick_two_sum(s.hi, s.lo);
        return s;
        // 2*two_sum, 2 add, 2*quick_two_sum = 2*6 + 2 + 2*3 = 20 add
}

这是使用更少指令的替代实现：

static inline void maxminmag_test(__m128d & a, __m128d & b) {
    __m128d cmp     = _mm_add_pd(a, b); // test for mean(a, b) >= 0
    __m128d amin    = _mm_min_pd(a, b);
    __m128d amax    = _mm_max_pd(a, b);
    __m128d minmag  = _mm_blendv_pd(amin, amax, cmp);
    __m128d maxmag  = _mm_blendv_pd(amax, amin, cmp);
    a = maxmag, b = minmag;
}

它使用了一种有点微妙的算法（见下文），并结合了我们可以使用符号位作为选择掩码的事实。

它还使用@EOF的建议，即仅使用一个掩码并切换操作数顺序，从而节省一条指令。

我已经用少量案例对其进行了测试，它似乎与您最初的实现相匹配。

算法：

 if (mean(a, b) >= 0)       // this can just be reduced to (a + b) >= 0
 {
     minmag = min(a, b);
     maxmag = max(a, b);
 }
 else
 {
     minmag = max(a, b);
     maxmag = min(a, b);
 }

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

SIMD 最小磁极和最大磁极的相关文章

AVX-512 指令编码 - {er} 含义

在 Intel x86 指令集参考中有许多 AVX 512 指令在指令中具有可选的 er 例如 VADDPD 的一种形式定义为 EVEX NDS 512 66 0F W1 58 r VADDPD zmm1 k1 z zmm2 zmm3 m
设置 IRQ 映射

我正在遵循一些教程和参考文献来尝试设置我的内核我在教程中遇到了一些不熟悉的代码但根本没有解释它这是我被告知映射的代码16 IRQs 0 15 到 ISR 地点32 47 void irq remap void outportb 0x2
如何在程序中将自己缝合到自己的尾部，无限循环地封装 64KB 代码段？

如果指令的顺序执行经过偏移量 65535 则8086将从同一代码段中的偏移量 0 处获取下一个指令字节接下来的 COM 程序利用这一事实不断将其整个代码总共 32 个字节缝合到自己的尾部环绕在 64KB 代码段中你可以称之为二元
如何编译GCC生成的asm？

我正在玩一些汇编代码有些事情困扰着我我编译这个 include
为什么 FMA _mm256_fmadd_pd() 内在函数有 3 个 asm 助记符：“vfmadd132pd”、“231”和“213”？

有人可以向我解释一下为什么融合乘法累加指令有 3 种变体 vfmadd132pd vfmadd231pd and vfmadd213pd 而只有一个 C 内在函数 mm256 fmadd pd 为了简单起见在 AT T 语法中有什么区别
从 std::round 转换为 int 是否安全？

我有一个问题标准圆形 http www cplusplus com reference cmath round 带签名 double round double x 假设我有这个代码 int i std round 0 9 在这种情况下 s
如何仅使用单个数组在 JavaScript 中模拟调用堆栈

我正在看维基百科页面 https en wikipedia org wiki Call stack在调用堆栈上并尝试理解这个图像据我所知哈哈 const memory memory 0 3 top of stack pointer m
如何处理 PHP 中浮点数的奇怪舍入

众所周知浮点运算并不总是完全准确但是如何处理它的不一致之处呢 As an example in PHP 5 2 9 this doesn t happen in 5 3 echo round 14 99225 4 14 9923 ech
什么时候应该使用双精度而不是十进制？

我可以说出使用的三个优点double or float 代替decimal 使用更少的内存速度更快因为处理器本身支持浮点数学运算可以表示更大范围的数字但这些优点似乎只适用于计算密集型操作例如建模软件中的操作当然当需要精度时例
使用按位 OR 0 对数字进行取整

我的一位同事偶然发现了一种使用按位或来对浮点数进行底数的方法 var a 13 6 0 a 13 我们正在谈论它并想知道一些事情它是如何工作的我们的理论是使用这样的运算符将数字转换为整数从而删除小数部分与这样做相比它有什么优势吗
高效memcspn

有谁知道 memcspn 函数的有效实现吗它的行为应该类似于 strcspn 但在内存缓冲区中查找跨度而不是在以 null 结尾的字符串中查找跨度目标编译器是 VisualC 谢谢卢卡一种近乎最佳的实现 size t memcsp
32位PPC rlwinm指令

我在理解上有点困难rlwinmPPC 汇编指令旋转左字立即然后与掩码我正在尝试反转函数的这一部分 rlwinm r3 r3 0 28 28 我已经知道什么了r3 is r3在本例中是一个 4 字节整数但我不确定这条指令到底是什么rlw
从类模板参数为 asm 生成唯一的字符串文字

我有一个非常特殊的情况我需要为类模板中声明的变量生成唯一的汇编程序名称我需要该名称对于类模板的每个实例都是唯一的并且我需要将其传递给asm关键字 see here https gcc gnu org onlinedocs gcc 12
Python 中的舍入浮点问题

我遇到了 np round np around 的问题它没有正确舍入我无法包含代码因为当我手动设置值而不是使用我的数据时返回有效但这是输出 In 177 a Out 177 0 0099999998 In 178 np rou
不同编程语言中的浮点数学

我知道浮点数学充其量可能是丑陋的但我想知道是否有人可以解释以下怪癖在大多数编程语言中我测试了 0 4 到 0 2 的加法会产生轻微的错误而 0 4 0 1 0 1 则不会产生错误两者计算不平等的原因是什么在各自的编程语言中可以采
使用按位运算符相乘

我想知道如何使用按位运算符将一系列二进制位相乘但是我有兴趣这样做来查找二进制值的十进制小数值这是我正在尝试做的一个例子假设 1010010 我想使用每个单独的位以便将其计算为 1 2 1 0 2 2 1 2 3 0 2 4 虽然我
为什么X86中没有NAND、NOR和XNOR指令？

它们是您可以在计算机上执行的最简单的指令之一它们是我亲自实施的第一个指令执行 NOT AND x y 会使执行时间和依赖链长度和代码大小加倍 BMI1 引入了 andnot 这是一个有意义的补充是一个独特的操作为什么不是这个问题
何时可以重用avx指令中的源寄存器

在 avx 指令中用作源的寄存器何时可以在指令开始处理后重用例如我想使用vgatherdps该指令消耗两个 ymm 寄存器其中之一是位移索引我意识到vgatherdps由于数据的局部性较差因此需要花费大量时间来收集位移索引寄存器
无法识别的仿真模式：MinGW32 上的 elf_i386

我正在尝试制作内核但无法链接C与程序集一起输出这ld 我收到错误无法识别的仿真模式 elf i386 我正在使用 Windows 10 专业版以及 MinGW32 和 MSYS 我正在使用的代码 link ld link ld OUT
当前的 x86 架构是否支持非临时加载（来自“正常”内存）？

我知道有关此主题的多个问题但是我没有看到任何明确的答案或任何基准测量因此我创建了一个处理两个整数数组的简单程序第一个数组a非常大 64 MB 第二个数组b很小无法放入 L1 缓存程序迭代a并将其元素添加到相应的元素中b在模块化

随机推荐

如何仅根据第一个数字拆分字符串

所以我有一个包含街道地址的数据集它们的格式非常不同例如 d lt c street1234 Street 423 Long Street 12 14 Road 18A Road 12 15 Road 1 2 由此我想创建两列 1 X 街
PHP 7.0 上的 Laravel 5.4：PDO 异常 - 找不到驱动程序 (MySQL)

我在 Ubuntu 14 04 带有 Plesk 12 5 30 的 VPS 上有一个 Laravel 5 4 项目创建数据库并设置后 env包含我运行的所需信息的文件php artisan migrate并抛出异常照亮数据库 Que
Java SockJS Spring 客户端和消息大小

使用 SockJS java 客户端我尝试连接到 Spring sockjs 服务器并且收到约 20Kb 消息无标头的错误 1009 Javascript 库工作正常 Transport closed with CloseStatu
硬件锁定许可：我应该使用哪些硬件？ [复制]

这个问题在这里已经有答案了我最近实现了一个具有模糊匹配功能的硬件锁定许可系统可以处理硬件中的更改而无需重新激活但我需要更多硬件来匹配以确保更安全创建更可靠的模糊匹配现在我正在匹配以下内容物理MAC地址硬盘序列号 RAM 部
Visual Studio 2015 - Xamarin - Android - 当我尝试在 .cs 文件中执行任何操作时获取“resource.id 不包含 xxx 的定义”

使用 Visual Studio 2015 添加其他活动 cs 和布局 axml 我对 Xamarin 和 Android 开发非常陌生但已经使用 VB 开发了几年现在使用 C 我在 Android 4 2 上有一个简单的应用程序随着
编写拒绝无效子模块提交的 git update 挂钩的最佳方法是什么？

我正在尝试写一个updategit 的钩子如果子模块被更新为子模块的上游存储库中不存在的提交 ID 则会反弹换句话说我想强制用户在将更改推送到子模块指针之前将更改推送到子模块存储库一个警告我只想测试其裸露的上游存储库与父存储库位于
在没有中间类的情况下将数据插入到 JavaFX TableView

我是 Java 程序员新手我想将 ResultSet 数据插入到 JavaFX TableView 但我不会使用中间类我可以将 ResultSet 行作为对象插入到 TableView 行中吗这是我使用中间类 Unit 的代码 pub
Java 9 中的 JRE 文件夹在哪里？

Java 9 中的 JRE 文件夹在哪里我在某些网站上看到 JRE 存在于单独的分发文件夹中但它位于哪里 JDK 和 JRE 运行时映像已在 JDK 9 中进行了重组 JDK 运行时映像不再包含 jre 子目录重构的摘要记录在 JDK
Cypress 5.0 - 无法找到已安装的浏览器

我安装了 Cypress 5 0 并安装了所有浏览器 Chrome Edge 和 FF 当我跑步时 gt npx cypress open 无法在右上角看到所有浏览器仅显示 Electron I tried gt npx cypress
C++11 标准和 CUDA 6.0

我想在 CUDA 6 0 项目中对 C 文件使用 C 11 标准当我将 CUDA 6 0 Nsight Eclipse 设置中的编译器更改为 g 并添加 std c 11选项然后我收到很多这样的错误 error namespace std
如何将ajax事件附加到复合组件？

我有以下复合组件
有没有办法强制 Zoo::rollmean 函数返回与输入长度相同的向量？（或者也许使用其他功能？）

input cbind c 3 7 3 5 2 9 1 4 6 4 7 3 7 4 library zoo output cbind rollmean input 4 print input print output output 1 1
简单的动态 SQL 查询语法

这可能是一个简单的答案但我已经盯着它看了太久了我有以下查询它将存储过程输入参数作为变量名称并计算该表中的记录我想将动态语句 toStartStr 的结果检索到变量 toStart 中 tempTableName SProc inpu
通过送纸器进行 WIA 扫描

通过送纸器进行 WIA 扫描这是我的设备属性 Document Handling Select 1 2 is for flatbed and 1 is for the feeder 这是我的项目页面属性 Horizontal Reso
Onclicklistener 无法正常工作..？

我有一个按钮我使用旋转动画将其旋转 45 度并将其应用于烘烤消息的单击侦听器当我单击按钮的上部 50 时将显示吐司但是当我点击按钮的下 50 时没有任何显示这里是动画代码
Spring：缺少 JPA 元模型

我无法理解我的带有 JPA 存储库的简单 Spring MVC 项目出了什么问题您能给个提示吗 Domain package com test app Entity Table name foo table public class Fo
Firebase 用户为已注册的用户返回空元数据

我一直在使用 Firebase 对应用程序中的用户进行身份验证 FirebaseAuth getInstance getCurrentUser getMetadata 回报null当用户注册后返回应用程序时当用户第一次注册但返回时它工作正
为什么 SQL Server 默认 XACT_ABORT 为 OFF？可以全局设置为ON吗？ [复制]

这个问题在这里已经有答案了我明白的目的设置XACT ABORT命令当 SET XACT ABORT 为 ON 时如果 Transact SQL 语句引发运行时错误整个事务被终止并回滚当 SET XACT ABORT 为 OFF
我无法使用 marionette 驱动程序和 selenium 3 在 FireFox 48 的下拉列表中选择选项

我尝试了新的 geckodriver 并为 FF48 和 selenium 3 打开了 marionette 但测试无法在任何元素的下拉列表中选择选项我的测试在 FF45 和所有其他浏览器中运行良好只有木偶驱动程序没有选择下拉列表中的选
SIMD 最小磁极和最大磁极

我想实现SIMD最小磁极和最大磁极函数据我了解这些功能是 minmag a b a lt b a b maxmag a b a gt b a b 我想要这些浮点型和双精度型我的目标硬件是 Haswell 我真正需要的是计算两者的代码这

SIMD 最小磁极和最大磁极

SIMD 最小磁极和最大磁极 的相关文章

随机推荐

热门标签

SIMD 最小磁极和最大磁极的相关文章