向量化模运算

2023-11-23

我正在尝试编写一些相当快速的分量向量加法代码。我正在使用（我相信是有符号的）64 位整数。

函数是

void addRq (int64_t* a, const int64_t* b, const int32_t dim, const int64_t q) {
    for(int i = 0; i < dim; i++) {
        a[i] = (a[i]+b[i])%q; // LINE1
    }
}

我正在编译icc -std=gnu99 -O3（icc，以便我稍后可以使用 SVML）在 IvyBridge（SSE4.2 和 AVX，但不是 AVX2）上。

我的基线是删除%q来自 LINE1。 100 个（迭代）函数调用dim=11221184需要 1.6 秒。 ICC 自动矢量化 SSE 代码；伟大的。

不过我真的很想做模块化添加。随着%q，ICC 不会自动矢量化代码，并且运行时间为 11.8 秒（！）。即使忽略之前尝试的自动矢量化，这仍然看起来有些过分。

由于我没有 AVX2，因此使用 SSE 进行矢量化需要 SVML，这也许就是 ICC 不自动矢量化的原因。无论如何，这是我对内部循环进行矢量化的尝试：

__m128i qs = _mm_set1_epi64x(q);
for(int i = 0; i < dim; i+=2) {
    __m128i xs = _mm_load_si128((const __m128i*)(a+i));
    __m128i ys = _mm_load_si128((const __m128i*)(b+i));
    __m128i zs = _mm_add_epi64(xs,ys);
    zs = _mm_rem_epi64(zs,qs);
    _mm_store_si128((__m128i*)(a+i),zs);
}

主循环的汇编是：

..B3.4:                         # Preds ..B3.2 ..B3.12
    movdqa    (%r12,%r15,8), %xmm0                          #59.22
    movdqa    %xmm8, %xmm1                                  #60.14
    paddq     (%r14,%r15,8), %xmm0                          #59.22
    call      __svml_i64rem2                                #61.9
    movdqa    %xmm0, (%r12,%r15,8)                          #61.36
    addq      $2, %r15                                      #56.30
    cmpq      %r13, %r15                                    #56.24
    jl        ..B3.4        # Prob 82%                      #56.24

因此代码正在按预期进行矢量化。我知道由于 SVML，我可能无法获得 2 倍的加速，但代码运行时间为 12.5 秒，比根本没有矢量化的情况慢！这真的是这里能做到的最好的事情吗？

SSE2 和 AVX2 都没有整数除法指令。 Intel 将 SVML 函数称为“内在函数”是不诚实的，因为其中许多函数都是复杂的函数，映射到多个指令，而不仅仅是几个指令。

有一种方法可以使用 SSE2 或 AVX2 进行更快的除法（和取模）。请参阅本文改进了不变整数除法。基本上，您预先计算除数，然后进行乘法。预先计算除数需要时间，但对于某个值dim在你的代码中它应该胜出。我在这里更详细地描述了这个方法SSE整数除法？我也在素数查找器中成功实现了这个方法使用 SIMD 查找素数列表 - SSE/AVX

Agner Fog 在他的代码中实现了 32 位（但不是 64 位）除法矢量类使用该论文中描述的方法。如果您想要一些代码，那么这将是一个很好的起点，但您必须将其扩展到 64 位。

编辑：根据 Mysticial 的评论并假设输入已经减少，我为 SSE 制作了一个版本。如果这是在 MSVC 中编译的，那么它需要处于 64 位模式，因为 32 位模式不支持_mm_set1_epi64x。这可以针对 32 位模式进行修复，但我不想这样做。

#ifdef _MSC_VER 
#include <intrin.h>
#endif
#include <nmmintrin.h>                 // SSE4.2
#include <stdint.h>
#include <stdio.h>

void addRq_SSE(int64_t* a, const int64_t* b, const int32_t dim, const int64_t q) {
    __m128i q2 = _mm_set1_epi64x(q);
    __m128i t2 = _mm_sub_epi64(q2,_mm_set1_epi64x(1));
    for(int i = 0; i < dim; i+=2) {
        __m128i a2 = _mm_loadu_si128((__m128i*)&a[i]);
        __m128i b2 = _mm_loadu_si128((__m128i*)&b[i]);
        __m128i c2 = _mm_add_epi64(a2,b2);
        __m128i cmp = _mm_cmpgt_epi64(c2, t2);
        c2 = _mm_sub_epi64(c2, _mm_and_si128(q2,cmp));
        _mm_storeu_si128((__m128i*)&a[i], c2);
    }
}

int main() {
    const int64_t dim = 20;
    int64_t a[dim];
    int64_t b[dim];
    int64_t q = 10;

    for(int i=0; i<dim; i++) {
        a[i] = i%q; b[i] = i%q;
    }
    addRq_SSE(a, b, dim, q);
    for(int i=0; i<dim; i++) {
        printf("%d\n", a[i]);
    }   
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

向量化模运算的相关文章

OpenCv读/写视频色差

我试图简单地使用 openCV 打开视频处理帧并将处理后的帧写入新的视频文件我的问题是即使我根本不处理帧只是打开视频使用 VideoCapture 读取帧并使用 VideoWriter 将它们写入新文件输出文件看起来比输入更绿
在搜索 List 时，为什么 Enumerable.Any(Func predicate) 比带有 if 语句的 foreach 慢

最近有件事引起了我的好奇心 Why is the Enumerable Any Func
迭代变量并查找特定类型实例的技术

我想迭代进程中内存中的变量通过插件动态加载并查找特定类型的实例以前我可以找到特定类型或内存中的所有类型我可以创建类型的实例我可以获取作为不同类型的字段包含的实例但我无论如何都不知道只是搜索特定类型的实例一种方法是使用 W
我的线程图像生成应用程序如何将其数据传输到 GUI？

Mandelbrot 生成器的缓慢多精度实现线程化使用 POSIX 线程 Gtk 图形用户界面我有点失落了这是我第一次尝试编写线程程序我实际上并没有尝试转换它的单线程版本只是尝试实现基本框架到目前为止它是如何工作的简要描述 M
如何在 Android NDK 中创建新的 NativeWindow 而无需 Android 操作系统源代码？

我想编译一个 Android OpenGL 控制台应用程序您可以直接从控制台启动 Android x86 运行或者从 Android x86 GUI 内的 Android 终端应用程序运行这个帖子如何在 Android NDK 中创
为什么要序列化对象需要 Serialized 属性

根据我的理解 SerializedAttribute 不提供编译时检查因为它都是在运行时完成的如果是这样那么为什么需要将类标记为可序列化呢难道序列化器不能尝试序列化一个对象然后失败吗这不就是它现在所做的吗当某些东西被标记时它会
C++：重写已弃用的虚拟方法时出现弃用警告

我有一个纯虚拟类它有一个纯虚拟方法应该是const 但不幸的是不是该接口位于库中并且该类由单独项目中的其他几个类继承我正在尝试使用这个方法const不会破坏兼容性至少在一段时间内但我找不到在非常量方法重载时产生警告的方法以下
Clang 编译器 (x86)：80 位长双精度

我正在尝试在 x86 Windows 平台上使用本机 80 位长双精度海湾合作委员会选项 mlong double 80 https gcc gnu org onlinedocs gcc x86 Options html似乎不适用于 cl
访问者和模板化虚拟方法

在一个典型的实现中Visitor模式该类必须考虑基类的所有变体后代在许多情况下访问者中的相同方法内容应用于不同的方法在这种情况下模板化的虚拟方法是理想的选择但目前这是不允许的那么模板化方法可以用来解析父类的虚方法吗鉴于
使用 Gas 生成与位置无关的代码 (-fPIC)

我尝试在 x86 64 上创建共享库但失败问题归结为以下代码请不要介意它没有多大意义 section data newline ascii n section text globl write newline type write n
如何重置捕获像素的值

我正在尝试创建一个 C 函数该函数返回屏幕截图位图中每四个像素的 R G 和 B 值这是我的代码的一部分 for int ix 4 ix lt 1366 ix ix 4 x x 4 for int iy 3 iy lt 768 iy i
C# 中条件编译符号的编译时检查（参见示例）？

在 C C 中你可以这样做 define IN USE 1 define NOT IN USE 1 define USING system 1 system 1 IN USE 进而 define MY SYSTEM IN USE if US
将构建日期放入“关于”框中

我有一个带有关于框的 C WinForms 应用程序我使用以下方法将版本号放入关于框中 FileVersionInfo GetVersionInfo Assembly GetExecutingAssembly Location F
当模板类不包含可用的成员函数时，如何在编译时验证模板参数？

我有以下模板struct template
当我“绘制”线条时，如何将点平均分配到 LineRenderer 的宽度曲线？

我正在使用线条渲染器创建一个绘图应用程序现在我尝试使用线条渲染器上的宽度曲线启用笔压问题在于 AnimationCurve 的时间值水平轴从 0 标准化为 1 因此我不能在每次添加位置时都在其末尾添加一个值除非有一个我不知
有没有一种简单的方法可以让 Visual Studio 2015 使用特定的 ToolsVersion？

使用特定版本构建项目或解决方案时msbuild我可以使用以下命令选择早期的 net 工具链 toolsversion or tv switch C Program Files x86 MSBuild 14 0 bin msbuild tv
在类的所有方法之前运行一个方法

在 C 3 或 4 中可以做到这一点吗也许有一些反思 class Magic RunBeforeAll public void BaseMethod runs BaseMethod before being executed public
运算符“==”不能应用于“int”和“string”类型的操作数

我正在编写一个程序我想到了一个数字然后计算机猜测了它我一边尝试一边测试它但我不断收到不应该出现的错误错误是主题标题我使用 Int Parse 来转换我的字符串但我不知道为什么会收到错误我知道它说不能与整数一起使用但我在网
是否可以在 C# 中强制接口实现为虚拟？

我今天遇到了一个问题试图重写尚未声明为虚拟的接口方法的实现在这种情况下我无法更改接口或基本实现而必须尝试其他方法但我想知道是否有一种方法可以强制类使用虚拟方法实现接口 Example interface IBuilder
错误：无效使用不完整类型“类 Move”/未定义对 Move::NONE 的引用

拜托我不知道为什么这个简单的代码被拒绝它给了我 2 个编译错误请帮帮我 I use 代码块 20 03 我的编译器是GNU GCC 移动 hpp class Move public Move Move int int public

随机推荐

在 Capistrano 3 中永久切换用户（单独授权和部署）

我们在服务器管理中有以下模式所有用户都有自己的用户但部署完全由特殊的部署用户执行无法直接登录我们在 Capistrano 2 x 中使用了这个方法 default run options shell sudo u deploy ba
使用Unity将对象注入到IValueConverter实例中

我在 Silverlight 5 项目中有一个 IValueConverter 实例它将自定义数据转换为不同的颜色我需要从数据库中读取实际的颜色值因为这些值可以由用户编辑由于 Silverlight 使用异步调用通过实体框架从数据库
如何使元素水平和垂直居中

我试图将选项卡内容垂直居中但是当我添加 CSS 样式时display inline flex 水平文本对齐消失如何为每个选项卡同时进行 x 和 y 文本对齐 box sizing border box leftFrame backgro
Flutter 中已弃用“canLaunch”

我用过网址启动器包裹 String query Uri encodeComponent Utils getSelectedStoreAddress var appleUrl maps q query var googleUrl https
Primefaces p:fileUpload 在 IE 10 中不起作用

p fileUpload 中的更新属性和 onComplete 在 IE10 中不起作用在 IE 9 中 sizeLimit 属性被忽略有谁遇到过这种情况吗我尝试通过在 p fileUoload 上使用 onComplete 属性来调
如何在Python中查找两个日期之间的星期一或任何其他工作日的数量？

我有两个日期我需要找出有多少个周一至周五到来除周六周日每天都应该计算在内目前我在想 import calendar import datetime start date datetime datetime strptime 01
如何在带有 Entity Framework Core 1.0 (EF7) 的脚手架 DbContext 中使用数据库视图

很遗憾实体框架核心 1 0 以前称为实体框架 7 尚不支持视图我正在尝试使用表来伪造它然而脚手架dotnet dbcontext ef scaffold命令当前无法识别或生成视图我想要一个允许查询视图和更新表的 DbContext
在 getStaticProps 函数中序列化 Next.js 时出错？

我在用着getStaticProps 函数我无缘无故地收到此错误错误序列化错误 posts 0 从返回getStaticProps在原因 object object Object 无法序列化为 JSON 请仅返回 JSON 可序列化
使用 php 获取 mysql 表中记录总数的最佳方法是什么？

从大表中选择记录总数的最有效方法是什么目前我只是在做 result mysql query SELECT id FROM table total mysql num rows result 有人告诉我如果表中有很多记录这不是很有效或
stringByAppendingPathComponent，它是如何工作的？

编辑 v002 我看了所有的评论我开始明白我应该做什么为此我修改了我的代码见下文我将 newPath 更改为 NSString 删除了 alloc init 和结束 release 因为它现在由系统处理我正在使用 stringB
向量上的修改时复制语义不会在循环中追加。为什么？

这个问题听起来似乎得到了部分回答here但这对我来说还不够具体我想更好地理解何时通过引用更新对象以及何时复制对象更简单的例子是向量增长下面的代码在 R 中效率极低因为在循环之前没有分配内存并且在每次迭代时都会创建一个副本 x ru
Java中有instanceOf(Class c)之类的东西吗？

我想检查一个对象是否o是该类的一个实例C或的一个子类C 例如如果x属于班级Point I want x instanceOf Point class to be true并且x instanceOf Object class to be
在 Matlab 中通过函数句柄传递附加参数

我有一个需要优化的函数比如 Matlab 中的 Function 该函数取决于我想要优化的变量例如 x 和一个不需要优化的参数例如 Q 因此函数 Function x Q 换句话说我有一个 Q 值数组并且想要为每个 Q 找到最佳
获取现有的或创建新的 akka actor

我正在尝试使用 ActorFor 获取现有的 ActorRef 或创建一个新的 ActorRef 如果它不存在我有以下代码但它似乎没有按预期工作 isTermminate 始终为 true ActorSystem system Acto
原子操作会阻塞其他线程吗？

我试图让原子与非原子的概念在我的脑海中扎根我的第一个问题是我找不到现实生活中的类比就像原子操作上的客户餐厅关系或类似的东西我还想了解原子操作如何将自己置于线程安全编程中在这篇博文中 http preshing com 201
安装：Microsoft Visual C++ Redistributable 卡在“正在处理：Windows7_MSU_X64”

我正在尝试安装 Microsoft Visual C Redistributable 软件包因为无法安装我的 xampp apache 模块安装需要很长时间才能完成我应该怎么办这种情况常见吗我所要做的就是等待吗他们完全被这个设置
如何检查FormData？

我试过了console log并使用循环遍历它for in 这里是MDN 参考在 FormData 上两种尝试都在这fiddle var fd new FormData key poulate with dummy data fd app
在 PyQt 中绘制多边形

背景我想在屏幕上绘制一个简单的形状并且我选择 PyQt 作为要使用的包因为它似乎是最成熟的我并没有以任何方式锁定它 Problem 仅在屏幕上绘制一个简单的形状例如多边形似乎过于复杂我发现的所有示例都尝试做很多额外的事情但我
需要无效 Swing 组件的高度

基本设置是这样的我有一个垂直的 JSplitPane 我想要一个固定大小的底部组件和一个调整大小的顶部组件我通过调用来完成setResizeWeight 1 0 在此应用程序中有一个按钮可恢复默认窗口配置窗口的默认高度是桌面高度
向量化模运算

我正在尝试编写一些相当快速的分量向量加法代码我正在使用我相信是有符号的 64 位整数函数是 void addRq int64 t a const int64 t b const int32 t dim const int64 t q

向量化模运算

向量化模运算 的相关文章

随机推荐

热门标签

向量化模运算的相关文章