在 C++ 中使用 SSE 将两个 32 位整数向量相乘的最快方法

2024-01-03

我有两个无符号向量，大小均为 4

vector<unsigned> v1 = {2, 4, 6, 8}
vector<unsigned> v2 = {1, 10, 11, 13}

现在我想将这两个向量相乘并得到一个新向量

vector<unsigned> v_result = {2*1, 4*10, 6*11, 8*13}

SSE操作要使用什么？是跨平台还是仅在某些特定平台上？

添加：如果我的目标是加法而不是乘法，我可以超级快地做到这一点：

__m128i a = _mm_set_epi32(1,2,3,4);
__m128i b = _mm_set_epi32(1,2,3,4);
__m128i c;
c = _mm_add_epi32(a,b);

使用集合内在函数，例如_mm_set_epi32对于所有元素来说都是低效的。最好使用加载内在函数。有关更多信息，请参阅此讨论SSE指令优于普通指令的地方 https://stackoverflow.com/questions/10313397/where-does-the-sse-instructions-outperform-normal-instructions。如果数组是 16 字节对齐的，您可以使用_mm_load_si128 or _mm_loadu_si128（对于对齐的内存，它们具有几乎相同的效率）否则使用_mm_loadu_si128。但对齐内存的效率要高得多。为了获得对齐的内存，我建议_mm_malloc and _mm_free，或C11aligned_alloc所以你可以使用正常的free.

为了回答您的其余问题，我们假设您已将两个向量加载到 SSE 寄存器中__m128i a and __m128i b

对于SSE版本>=SSE4.1使用

_mm_mullo_epi32(a, b);

没有SSE4.1：

此代码复制自 Agner Fog 的矢量类库 http://www.agner.org/optimize/#vectorclass（被本答案原作者抄袭）：

// Vec4i operator * (Vec4i const & a, Vec4i const & b) {
// #ifdef
__m128i a13    = _mm_shuffle_epi32(a, 0xF5);          // (-,a3,-,a1)
__m128i b13    = _mm_shuffle_epi32(b, 0xF5);          // (-,b3,-,b1)
__m128i prod02 = _mm_mul_epu32(a, b);                 // (-,a2*b2,-,a0*b0)
__m128i prod13 = _mm_mul_epu32(a13, b13);             // (-,a3*b3,-,a1*b1)
__m128i prod01 = _mm_unpacklo_epi32(prod02,prod13);   // (-,-,a1*b1,a0*b0) 
__m128i prod23 = _mm_unpackhi_epi32(prod02,prod13);   // (-,-,a3*b3,a2*b2) 
__m128i prod   = _mm_unpacklo_epi64(prod01,prod23);   // (ab3,ab2,ab1,ab0)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 C++ 中使用 SSE 将两个 32 位整数向量相乘的最快方法的相关文章

asp.net 文本框文本模式数字，仅允许数字

我只是想知道 ASP NET 中是否有一种方法只允许文本框中的数字textmode number 当我使用这个时
为什么要序列化对象需要 Serialized 属性

根据我的理解 SerializedAttribute 不提供编译时检查因为它都是在运行时完成的如果是这样那么为什么需要将类标记为可序列化呢难道序列化器不能尝试序列化一个对象然后失败吗这不就是它现在所做的吗当某些东西被标记时它会
使用post方法将多个参数发送到asp.net core 3 mvc操作

使用 http post 方法向 asp net mvc core 3 操作发送具有多个参数的 ajax 请求时存在问题参数不绑定在 dot net 框架 asp net web api 中存在类似的限制但在 asp net mvc
C++：重写已弃用的虚拟方法时出现弃用警告

我有一个纯虚拟类它有一个纯虚拟方法应该是const 但不幸的是不是该接口位于库中并且该类由单独项目中的其他几个类继承我正在尝试使用这个方法const不会破坏兼容性至少在一段时间内但我找不到在非常量方法重载时产生警告的方法以下
Clang 编译器 (x86)：80 位长双精度

我正在尝试在 x86 Windows 平台上使用本机 80 位长双精度海湾合作委员会选项 mlong double 80 https gcc gnu org onlinedocs gcc x86 Options html似乎不适用于 cl
显示异常时的自定义错误消息：从客户端检测到潜在危险的 Request.Form 值

我在我的 Web 应用程序中使用 ASP NET 的登录控件当发生此异常时我想在标签上显示一种有趣的错误类型System Web HttpRequestValidationException A potentially dangerou
POCO HTTPSClientSession 发送请求时遇到问题 - 证书验证失败

我正在尝试使用 POCO 库编写一个向服务器发出 HTTPS 请求的程序出于测试目的我正在连接到具有自签名证书的服务器并且我希望允许客户端进行连接为了允许这种情况发生我尝试安装InvalidCertificateHandler这是
C++ 异步线程同时运行

我是 C 11 中线程的新手我有两个线程我想让它们同时启动我可以想到两种方法如下然而似乎它们都没有按照我的预期工作他们在启动另一个线程之前启动一个线程任何提示将不胜感激另一个问题是我正在研究线程队列所以我会有两个消费者和
从多个类访问串行端口

我正在尝试使用串行端口在 arduino 和 C 程序之间进行通信我对 C 编程有点陌生该程序有多种用户控制形式每一个都需要访问串口来发送数据我需要做的就是从每个类的主窗体中写入串行端口我了解如何设置和写入串行端口这是我的 Fo
IronPython：没有名为 json 的模块

我安装了 IronPython 我的 python 文件如下所示 import sys print sys version import json 运行它的代码 var p Python CreateEngine var scope p C
在 2D 中将一个点旋转另一个点

我想知道当一个点相对于另一个点旋转一定角度时如何计算出新的坐标我有一个块箭头想要将其相对于箭头底部中间的点旋转角度 theta 这是允许我在两个屏幕控件之间绘制多边形所必需的我无法使用和旋转图像从我到目前为止所考虑的情况来看使问题
无法将类型“System.IO.Stream”隐式转换为“Java.IO.InputStream”

我提到了一些类似的问题但没有一个涉及IO 当我使用时我在java中使用了相同的代码Eclipse 那次就成功了但现在我尝试在中使用这段代码Mono for Android C 它不起作用我正在尝试运行此代码来创建一个InputStr
C# 中条件编译符号的编译时检查（参见示例）？

在 C C 中你可以这样做 define IN USE 1 define NOT IN USE 1 define USING system 1 system 1 IN USE 进而 define MY SYSTEM IN USE if US
通过 NHibernate 进行查询，无需 N+1 - 包含示例

我有一个 N 1 问题我不知道如何解决它可以在这个问题的底部找到完全可重复的样本因此如果您愿意请创建数据库设置 NUnit 测试和所有附带的类并尝试在本地消除 N 1 这是我遇到的真实问题的匿名版本众所周知这段代码对于帮助
是否可以有一个 out ParameterExpression？

我想定义一个 Lambda 表达式out范围有可能做到吗下面是我尝试过的 C Net 4 0 控制台应用程序的代码片段正如您在 procedure25 中看到的我可以使用 lambda 表达式来定义具有输出参数的委托但是当我想使
剪贴板在 .NET 3.5 和 4 中的行为有所不同，但为什么呢？

我们最近将一个非常大的项目从 NET Framework 3 5 升级到 4 最初一切似乎都工作正常但现在复制粘贴操作开始出现错误我已经成功制作了一个小型的可复制应用程序它显示了 NET 3 5 和 4 中的不同行为我还找到了一种解
我在在线程序挑战编译器中遇到演示错误

include
WinRT 定时注销

我正在开发一个 WinRT 应用程序要求之一是应用程序应具有定时注销功能这意味着在任何屏幕上如果应用程序空闲了 10 分钟应用程序应该注销并导航回主屏幕显然执行此操作的强力方法是在每个页面的每个网格上连接指针按下事件并在触
带重定向标准流的 C# + telnet 进程立即退出

我正在尝试用 C 做一个脚本化 telnet 项目有点类似于Tcl期望 http expect nist gov 我需要为其启动 telnet 进程并重定向和处理其 stdin stdout 流问题是生成的 telnet 进程在
Googletest：如何异步运行测试？

考虑到一个包含数千个测试的大型项目其中一些测试需要几分钟才能完成如果按顺序执行整套测试需要一个多小时才能完成通过并行执行测试可以减少测试时间据我所知没有办法直接从 googletest mock 做到这一点就像 async选项

随机推荐

java.lang.RuntimeException：在android中createWindowSurface失败EGL_BAD_ALLOC

我为我的应用程序创建了 1080x1920 的自定义 Galaxy S4 AVD 我可以在该 AVD 中运行我的应用程序几秒钟后它会闪烁并抛出一些像这样的错误 02 05 12 06 39 809 E EGL emulation 829
将泛型参数转换为整数或从整数转换

我想编写通用类旨在与内置类型一起使用例如byte and ushort 在内部计算中我需要将泛型类型转换为整数然后再转换回泛型类型我找到了编译此类代码的方法例如 class Test
使用arm-linux-androideabi-4.4.3编译ICU

我想使用 Cygwin 交叉编译 Android 的 ICU 静态库到目前为止我已经能够配置和制作 Cygwin MSVC 和 Cygwin 版本我已经安装了android ndk r7 并且可以在toolchains目录中看到gcc
为什么应该使用条件样式表？

这个问题涵盖了大部分内容但我试图向想要完全放弃条件样式表 IE6 移动设备等的高级开发人员提出一个清晰的论点请记住我们实际上并没有消除 IE6 只是消除了样式表还是我疯了应该接受这个还有什么选择呢 CSS 黑客我有 IE7
当用户点击下拉列表 HTML 选择标签时，ios8 iPad uiwebview 在显示弹出窗口时崩溃

在 ios8 和 iPad 上如果uiwebview正在显示一个包含下拉列表的 HTML 页面例如这个页面http www w3schools com tags tryit asp filename tryhtml select htt
Maven War 插件中的过滤

我不明白 Maven War 插件的以下过滤器配置有人可以向我解释一下他们在做什么吗我已经用第一个示例和第二个示例标记了代码
如何对 ExecutorService 为任务生成新线程进行单元测试？

使用 ExecutorService 时一个单元如何测试是否为可运行任务生成了新线程基本上我的应用程序有一个静态线程池 public static final ExecutorService executorService Execu
如何通过管道传输或重定向curl -v 的输出？

由于某种原因输出总是被打印到终端无论我是否通过 2 gt 或 gt 或重定向它有办法解决这个问题吗为什么会发生这种情况 add the s 静默选项删除进度表然后将 stderr 重定向到 stdout 以在与响应正文相同的
始终并行运行恒定数量的子进程

我想使用子进程让编写的脚本的 20 个实例并行运行假设我有一个包含大约 100 000 个条目的大 URL 列表并且我的程序应该控制我的脚本的 20 个实例始终在该列表上工作我想将其编码如下 urllist url1 url2 url
C++11 中的 C 风格回调

在 C 11 项目中我使用需要 C 风格回调的 C 风格第三方库在我的例子中为curl 为了实现这一点我使用了指向成员的指针运算符 size t c callback wrapper char ptr size t size si
onClick 不起作用

我想使用 JS 将表格行转换为链接我的它看起来像这样 tr 但是当我尝试单击时它并没有按照我想要的方式进入页面事实上点击似乎没有任何动作有什么帮助吗 Edit 至于引用我忘了提及我是用 PHP 来回应这一点的这是我更新的代码
外键引用同一个表

有一次面试测试下面是表格和结构 Table Person id name dob dod mother id father id Primary Key id Foreign Key mother id references Person
在 Electron 应用程序中导航 Angular 路线时出现空白屏幕

我目前正在使用 Electron 编写一个桌面混合应用程序并与 AngularJS 集成进行路由等请参阅以下角度配置 app config function routeProvider locationProvider routePro
在 C# 中解析 SQL 字符串

我需要解析一个Command CommandText 我不想运行查询我只想看看如果执行命令查询是否会成功说我有 SELECT FROM SomeTable WHERE 1 1 该字符串将会成功 but SELECT FROM Some
如何知道用户何时离开页面并刷新页面

我想在用户离开页面之前进行 AJAX 调用基本上是在离开页面之前和刷新页面之前如何才能做到这一点我试图用 jQuery 搜索一些东西但没有得到任何结果我尝试使用以下代码 window onbeforeunload function
mysql 查询是否可以返回 true/false 而不是值？

我有一张桌子 custID orderID orderComponent 1 123 pizza 1 123 wings 1 234 breadsticks 1 239 salad 2 456 pizza 2 890 salad 我有一个值
在构建情况下验证所属关联

我有一个任务模型它有很多任务并且任务属于任务为了安全起见我对任务模型进行了验证 validates presence of mission id validates numericality of mission id 但问题是当
IPFS：如何将文件添加到现有文件夹？

给定一个相当大的文件夹它已经被推送到网络并在本地删除如何将文件添加到该文件夹而不重新下载整个文件夹你只能通过使用来做到这一点ipns再次下载后ipfs get 如果它仍然固定到本地存储那么应该会很快 1 首先将您的文件夹递归添加
为什么 `vector v{{5,6}};` 有效？我以为只允许使用一对 {}？

给定一个类A有两个构造函数取initializer list
在 C++ 中使用 SSE 将两个 32 位整数向量相乘的最快方法

我有两个无符号向量大小均为 4 vector

在 C++ 中使用 SSE 将两个 32 位整数向量相乘的最快方法

在 C++ 中使用 SSE 将两个 32 位整数向量相乘的最快方法 的相关文章

随机推荐

热门标签

在 C++ 中使用 SSE 将两个 32 位整数向量相乘的最快方法的相关文章