如何将 __m128d simd 向量的内容存储为双精度，而不将其作为联合访问？

2023-12-21

我想要优化的代码基本上是一个简单但大型的算术公式，自动分析代码以并行计算独立的乘法/加法应该相当简单，但我读到自动向量化仅适用于循环。

我已经读过多次了，应该不惜一切代价避免通过联合或其他方式访问向量中的单个元素，而应该用 _mm_shuffle_pd 代替（我只处理双打）...

我似乎不知道如何将 __m128d 向量的内容存储为双精度，而不将其作为联合访问。另外，与标量代码相比，这样的操作是否会带来任何性能增益？

union {
  __m128d v;
  double d[2];
} vec;
union {
  __m128d v;
double d[2];
} vec2;

vec.v = index1;
vec2.v = index2;
temp1 = _mm_mul_pd(temp1, _mm_set_pd(bvec[vec.d[1]], bvec[vec2[1]]));

另外，这两个联合看起来丑陋得可笑，但是当使用时

union dvec {
  __m128d v;
  double d[2];
} vec;

尝试将 indexX 声明为 dvec，编译器抱怨 dvec 未声明。

不幸的是，如果你看一下 MSDN，它是这样说的：

You 不应该访问__m128d 字段directly. 但是，您可以在调试器中看到这些类型。__m128 类型的变量映射到 XMM[0-7] 寄存器。

我不是 SIMD 专家，但这告诉我你所做的事情不会起作用，因为它不是设计的。

EDIT:

我刚刚找到了这个 http://www.rz.uni-karlsruhe.de/rz/docs/VTune/reference/Intrins_API.htm，它说：

仅在赋值的左侧使用 __m128、__m128d 和 __m128i，作为返回值或参数。请勿在其他算术表达式中使用它，例如“+”和“>>”。

它还说：

在聚合中使用 __m128、__m128d 和 __m128i 对象，例如联合（例如，用于访问浮点元素）和结构。

所以也许你可以使用它们，但只能在工会中使用。然而，这似乎与 MSDN 所说的相矛盾。

EDIT2:

这是另一个有趣的资源，通过示例描述了如何使用这些 SIMD 类型 http://locklessinc.com/articles/interval_arithmetic/

在上面的链接中，您会发现这一行：

#include <math.h>
#include <emmintrin.h>
double in1_min(__m128d x)
{
    return x[0];
}

在上面我们使用 gcc 4.6 中的新扩展来通过索引访问高低部分。旧版本的 gcc 需要使用并集并写入两个双精度数的数组。这很麻烦，而且当优化关闭时速度会特别慢。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

x86

SIMD

intrinsics

sse2

如何将 __m128d simd 向量的内容存储为双精度，而不将其作为联合访问？的相关文章

为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
movzbl(%rdi, %rcx, 1), %ecx 在 x86-64 汇编中意味着什么？

我想我明白 movzbl rdi rcx 1 ecx 意思是将零扩展字节移至长整型并表示将 ecx 扩展为 32 位但我不完全确定语法 rdi rcx 1 指的是什么我在某处看到该语法指的是 Base Index Scale 但我找
计算 XML 中特定 XML 节点的数量

请参阅此 XML
英特尔的最后分支记录功能是英特尔处理器独有的吗？

最后分支记录是指存储与最近执行的分支相关的源地址和目标地址的寄存器对 MSR 的集合它们受英特尔酷睿 2 英特尔至强和英特尔凌动处理器系列的支持 http css csail mit edu 6 858 2012 readings ia3
在c#中执行Redis控制台命令

我需要从 Redis 控制台获取客户端列表输出以在我的 C 应用程序中使用有没有办法使用 ConnectionMultiplexer 执行该命令或者是否有内置方法可以查找该信息 CLIENT LIST是服务器命令而不是数据库
ComboBox DataBinding 导致 ArgumentException

我的几个类对象 class Person public string Name get set public string Sex get set public int Age get set public override string
IdentityServer 4 对它的工作原理感到困惑

我阅读和观看了很多有关 Identity Server 4 的内容但我仍然对它有点困惑因为似乎有很多移动部件我现在明白这是一个单独的项目它处理用户身份验证我仍然不明白的是用户如何注册它谁存储用户名密码我打算进行此设置 Rea
函数参数的默认参数是否被视为该参数的初始值设定项？

假设我有这样的函数声明 static const int R 0 static const int I 0 void f const int r R void g int i I 根据 dcl fct default 1 如果在参数声明中指
为什么在 WebApi 上下文中在 using 块中使用 HttpClient 是错误的？

那么问题是为什么在 using 块中使用 HttpClient 是错误的但在 WebApi 上下文中呢我一直在读这篇文章不要阻止异步代码 https blog stephencleary com 2012 07 dont block
从同一个类中的另一个构造函数调用构造函数

我有一个带有两个构造函数的类 C 这是代码片段 public class FooBar public FooBar string s constructor 1 some functionality public FooBar int i
查看 NuGet 包依赖关系层次结构

有没有一种方法文本或图形来查看 NuGet 包之间的依赖关系层次结构如果您使用的是新的 csproj 您可以在此处获取所有依赖项在项目构建后项目目录 obj project assets json
unordered_map 中字符串的 C++ 哈希函数

看起来 C 标准库中没有字符串的哈希函数这是真的在任何 c 编译器上使用字符串作为 unordered map 中的键的工作示例是什么 C STL提供模板专业化 http en cppreference com w cpp string
在Linux中，找不到框架“.NETFramework，Version=v4.5”的参考程序集

我已经设置了 Visual studio 来在我的 Ubuntu 机器上编译 C 代码我将工作区我的代码加载到 VS 我可以看到以下错误 The reference assemblies for framework NETFramewo
打破 ReadFile() 阻塞 - 命名管道 (Windows API)

为了简化这是一种命名管道服务器正在等待命名管道客户端写入管道的情况使用 WriteFile 阻塞的 Windows API 是 ReadFile 服务器已创建启用阻塞的同步管道无重叠 I O 客户端已连接现在服务器正在等待一些数据
汇编器8086将32位数字除以16位数字

我尝试将 32 位数字除以 16 位数字例如 10000000h 除以 2000h 根据我尝试做的设计除以右 4 位数字除以除数然后左 4 位数字除以除数这是我的代码 DATA num dd 10000000h divisor dw
为什么我的单选按钮不起作用？

我正在 Visual C 2005 中开发 MFC 对话框应用程序我的单选按钮是 m Small m Medium 和 m Large 它们都没有在我的 m Summary 编辑框中显示应有的内容可能出什么问题了这是我的代码 Pizz
C++ int 前面加 0 会改变整个值

我有一个非常奇怪的问题如果我像这样声明一个 int int time 0110 然后将其显示到控制台返回的值为72 但是当我删除前面的 0 时int time 110 然后控制台显示110正如预期的那样我想知道两件事首先为什么它在
打印大型 WPF 用户控件

我有一个巨大的数据我想使用 WPF 打印我发现WPF提供了一个PrintDialog PrintVisual用于打印派生的任何 WPF 控件的方法Visual class PrintVisual只会打印一页因此我需要缩放控件以适合页面
Unity：通过拦截将两个接口注册为一个单例

我有一个实现两个接口的类我想对该类的方法应用拦截我正在遵循中的建议Unity 将两个接口注册为一个单例 https stackoverflow com questions 1394650 unity register two inter
如何在richtextbox中使用多颜色[重复]

这个问题在这里已经有答案了我使用 C windows 窗体并且有 richtextbox 我想将一些文本设置为红色一些设置为绿色一些设置为黑色怎么办呢附图片 System Windows Forms RichTextBox有一个

随机推荐

为什么“删除[][]...多维数组；” C++中不存在运算符

我一直想知道标准C 语言中是否有删除多维数组的运算符如果我们创建了一个指向一维数组的指针 int array new int size 删除看起来像 delete array 那太棒了但是如果我们有二维数组我们就不能这样做 delet
python导入语句

我已经开始使用 Python 大约一个月了我遇到了一些我想更好地理解的事情跟进口有关系所以我有一个模块根核心连接性现在在这个模块中我定义了一个类 Connectivity 该模块还有一个 main 仅用于测试目的不确定这是否
MYSQL - 将数据拆分为多行

我使用一个应用程序导入了一些数据该应用程序从 IMDB 收集信息并将其传输到 MYSQL 数据库中这些字段似乎尚未标准化并且 1 个字段中包含许多值例如 Table Movie MovieID Movie Title Written
删除div之间的空白

我在两个 div 之间发现了一些奇怪的空白每个div都有css属性display inline block每个都有固定的高度和宽度我找不到空白在哪里这是一个小提琴 http jsfiddle net RVAQp 1 那里有空格因为
如何使用 TypeScript 从 npm 扩展模块？

我在用着joi https github com hapijs joi blob master API md and 类型 joi https github com DefinitelyTyped DefinitelyTyped tree
无法获得 D-Bus 连接：不允许操作

我正在尝试在 docker centos7 映像上安装 ambari 2 6 但在 ambari 设置步骤中以及在初始化 postgresql 数据库时我收到此错误无法获得 D Bus 连接不允许操作每次我尝试在 Docker 映像
swagger 正在添加上下文根两次

我正在使用 swagger 3 0 0 SNAPSHOT 和 spring data rest 我的应用程序属性文件中有上下文配置 server servlet context path sample 我的swagger配置如下 Confi
在 DataGridTemplateColumn 内的 TextBlock 上复制 ContextMenu 上的命令

想问一下因为以前从未在 TextBlock 上这样做过我无法复制 DataGridTemplateColumn 的内容其中有一个 TextBlock 并且我已为其分配了一个上下文菜单复制的内容是空白的当我在 MS Word 中尝试
Python BeautifulSoup：解析具有相同类名的多个表

我正在尝试解析 wiki 页面中的一些表格例如http en wikipedia org wiki List of Bollywood films of 2014 http en wikipedia org wiki List of Bo
如何在不使用异常的情况下检查 constructor() 中的失败？

我正在处理的所有类都有 Create Destroy 或 Initialize Finalized 方法 Create 方法的返回值为bool像下面这样 bool MyClass Create 所以我可以从返回值中检查实例的初始化是否成功
Aeson：将动态键解析为类型字段

假设有一个像这样的 JSON bob id name bob age 20 jack id name jack age 25 是否可以将其解析为 Person with Person定义如下 data Person Person id Te
php 正则表达式 utf-8 中的单词边界匹配

我在 utf 8 php 文件中有以下 php 代码 var dump setlocale LC CTYPE de DE utf8 German Germany utf 8 de DE german var dump mb internal
如何定义常量值 - 最佳实践

我有两种定义常量的方法第一个在类中保存一堆静态最终 DataType 变量另一个使用 Enum 这是拳头类型 public class TipTipProperties public static final String MAX WI
动态创建 QML ListElement 和内容

所以我试图在 a 中动态创建 ListElementsListModel 在我尝试在 ListElements 中写入一些要动态加载的内容之前这种方法工作得很好我尝试用以下命令创建一个自己的文件ListElement在和小时内作为属
Jackson：名称为“defaultReference”的多个反向引用属性

我正在尝试将 json 字符串格式映射到对象但出现以下错误 com fasterxml jackson databind JsonMappingException 多个名称为 defaultReference 的反向引用属性这是 j
静态地图：绘制具有多个点的多边形。（2048 个字符限制）

由于 get 请求中存在 2048 个字符的限制因此您无法使用 Google Static Maps 生成包含具有大量多边形点的多边形的图像特别是当您尝试在一张地图上绘制许多复杂的多边形时如果您使用 Google Maps API 那
php 脚本查找 Web 服务器名称

是否有任何 php 脚本可以查找 Web 服务器的名称例如 apache varnish nginx 等我了解 netcraft 和 wappalyzer 但我想要一个脚本在我的本地计算机上运行主要原因是我的本地机器中有4台服务器A
Haskell 中“show”出现歧义

我是函数式编程的新手我正在尝试使用 Haskell 创建并展示堆栈我希望我的程序能够向我展示我正在用它构建的堆栈这是我的代码 module Stack Stack empty push pop top isEmpty where da
Windows 10 通用应用程序 - 默认情况下以全屏模式运行

我有目标 Windows 8 1 的应用程序当我在 Windows 10 上运行此应用程序时它默认在小窗口中运行因为它是主要的平板电脑应用程序所以我需要它默认以全屏模式运行是否可以在 Visual Studio 中或应用程序的某些
如何将 __m128d simd 向量的内容存储为双精度，而不将其作为联合访问？

我想要优化的代码基本上是一个简单但大型的算术公式自动分析代码以并行计算独立的乘法加法应该相当简单但我读到自动向量化仅适用于循环我已经读过多次了应该不惜一切代价避免通过联合或其他方式访问向量中的单个元素而应该用 mm shuffl

如何将 __m128d simd 向量的内容存储为双精度，而不将其作为联合访问？

如何将 __m128d simd 向量的内容存储为双精度，而不将其作为联合访问？ 的相关文章

随机推荐

热门标签

如何将 __m128d simd 向量的内容存储为双精度，而不将其作为联合访问？的相关文章