与SSE性能相同

2024-03-19

我对以下循环进行了矢量化，该循环出现在我正在开发的应用程序中：

void vecScl(Node** A, Node* B, long val){

    int fact = round( dot / const);

    for(i=0; i<SIZE ;i++)
        (*A)->vector[i] -= fact * B->vector[i];

}

这是 SSE 代码：

void vecSclSSE(Node** A, Node* B, long val){

    int fact = round( dot / const);

    __m128i vecPi, vecQi, vecCi, vecQCi, vecResi;

    int sseBound = SIZE/4;

    for(i=0,j=0;  j<sseBound  ; i+=4,j++){

        vecPi = _mm_loadu_si128((__m128i *)&((*A)->vector)[i] );
        vecQi = _mm_set_epi32(fact,fact,fact,fact);
        vecCi = _mm_loadu_si128((__m128i *)&((B)->vector)[i] );
        vecQCi = _mm_mullo_epi32(vecQi,vecCi);
        vecResi = _mm_sub_epi32(vecPi,vecQCi);               
        _mm_storeu_si128((__m128i *) (((*A)->vector) + i), vecResi );

    }

    //Compute remaining positions if SIZE % 4 != 0 
    for(; i<SIZE ;i++)
        (*A)->vector[i] -= q * B->vector[i];

}

虽然这在正确性方面有效，但无论有没有 SSE，性能都是完全相同的。我正在编译代码：

 g++ *.cpp *.h -msse4.1 -march=corei7-avx -mtune=corei7-avx -mno-avx -mno-aes -Warray-bounds -O2

这是因为我没有分配（并相应地使用 SSE 函数）对齐的内存吗？更改代码非常复杂，所以我现在有点避免这样做。

顺便说一句，就进一步改进而言，考虑到我受限于 Sandy Bridge 架构，我能做的最好的是什么？

EDIT: 编译器尚未对代码进行向量化。首先，我将向量的数据类型更改为shorts，这不会改变性能。然后，我编译了-fno-tree-vectorize并且性能是一样的。

多谢

如果您的数据很大，那么您可能只是受内存限制，因为每次加载/存储您只执行很少的 ALU 操作。

不过，您可以尝试一些小的改进：

inline void vecSclSSE(Node** A, Node* B, long val){
                                            // make function inline, for cases where `val` is small

    const int fact = (dot + const / 2 - 1) / const;
                                            // use integer arithmetic here if possible

    const __m128i vecQi = _mm_set1_epi32(fact);
                                            // hoist constant initialisation out of loop

    int32_t * const pA = (*A)->vector;      // hoist invariant de-references out of loop
    int32_t * const pB = B->vector;

    __m128i vecPi, vecCi, vecQCi, vecResi;

    for(int i = 0; i < SIZE - 3; i += 4) {   // use one loop variable
        vecPi = _mm_loadu_si128((__m128i *)&(pA[i]));
        vecCi = _mm_loadu_si128((__m128i *)&(pB[i]));
        vecQCi = _mm_mullo_epi32(vecQi,vecCi);
        vecResi = _mm_sub_epi32(vecPi,vecQCi);
        _mm_storeu_si128((__m128i *)&(pA[i]), vecResi);
    }

    //Compute remaining positions if SIZE % 4 != 0
    for(; i<SIZE ;i++)
        pA[i] -= q * pB[i];

}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

performance

vectorization

SSE

与SSE性能相同的相关文章

如何使用MemoryCache代替Timer来触发一个方法？

以下方法通过等待已运行操作的结果来处理并发请求对数据的请求可能会使用相同不同的凭据同时出现对于每组唯一的凭据最多可以有一个GetCurrentInternal呼叫正在进行中当准备就绪时该呼叫的结果将返回给所有排队的服务员 pri
使用 Unity 在构造函数中使用属性依赖注入

好的我在基类中定义了一个依赖属性我尝试在其派生类的构造函数内部使用它但这不起作用该属性显示为 null Unity 在使用 container Resolve 解析实例后解析依赖属性我的另一种选择是将 IUnityContaine
向 Nhibernate 发出 SQL 查询

如何将此 SQL 查询发送给 Nhibernate SELECT Customer name FROM Company INNER JOIN Customer ON Company CompanyId Customer CompanyId
如何修复此错误“GDI+ 中发生一般错误”？

从默认名称打开图像并以默认名称保存覆盖它我需要从 Image Default jpg 制作图形将其放在 picturebox1 image 上并在 picurebox1 上绘制一些图形它有效这不是我的问题但我无法保存 pictu
互斥体实现可以互换（独立于线程实现）

所有互斥体实现最终都会调用相同的基本系统硬件调用吗这意味着它们可以互换吗具体来说如果我使用 gnu parallel算法使用openmp 并且我想让他们称之为线程安全的类我可以使用boost mutex用于锁定或者我必须编写自己
XamlReader.Load 在后台线程中。是否可以？

WPF 应用程序具有从单独的文件加载用户控件的操作使用XamlReader Load method StreamReader mysr new StreamReader pathToFile DependencyObject rootOb
生成（非常）大的非重复整数序列而不进行预洗牌

背景我编写了一个简单的媒体客户端服务器我想生成一个不明显的时间值随从客户端到服务器的每个命令一起发送时间戳中将包含相当多的数据纳秒分辨率即使它不是真正准确因为现代操作系统中计时器采样的限制等我想做的在 Linux 上
无法在 Windows 运行时组件库的 UserControl 中创建依赖项属性

我想在用户控件内创建数据可绑定属性这个用户控件包含一个 Windows 运行时组件项目我使用下面的代码来创建属性 public MyItem CurrentItem get return MyItem GetValue Current
如何在 C# 中定义文本框数组？

您好当我在 Windows 申请表上创建文本框时我无法将其命名为 box 0 box 1 等我这样做的目的是因为我想循环使用它们其实我发现TextBox array firstTextBox secondTextBox 也有效
将 Excel 导入到 Datagridview

我使用此代码打开 Excel 文件并将其保存在 DataGridView 中 string name Items string constr Provider Microsoft Jet OLEDB 4 0 Data Source Dial
在一个字节中存储 4 个不同的值

我有一个任务要做但我不知道从哪里开始我不期待也绝对不想要代码中的答案我想要一些关于该怎么做的指导因为我感到有点失落将变量打包和解包到一个字节中您需要在一个字节中存储 4 个不同的值这些值为 NAME RANGE BITS en
PlaySound 可在 Visual Studio 中运行，但不能在独立 exe 中运行

我正在尝试使用 Visual Studio 在 C 中播放 wav 文件我将文件 my wav 放入项目目录中并使用代码 PlaySound TEXT my wav NULL SND FILENAME SND SYNC 我按下播放按钮或
如何加速 pandas 字符串函数？

我正在使用 pandas 矢量化 str split 方法来提取从上的拆分返回的第一个元素我还尝试使用 df apply 与 lambda 和 str split 来产生等效的结果使用 timeit 时我发现 df apply 的
如何在 Blackberry Cascades 中显示具有特定号码的电话板

我正在使用带有 C QT 和 QML 的 Blackberry Cascades 10 Beta 3 SDK 以及 Blackberry 10 Dev Alpha Simulator 和 QNX Momentics IDE 并且我正在尝试实
等待线程完成

private void button1 Click object sender EventArgs e for int i 0 i lt 15 i Thread nova new Thread Method nova Start list
有人可以提供一个使用 Amazon Web Services 的 itemsearch 的 C# 示例吗

我正在尝试使用 Amazon Web Services 查询艺术家和标题信息并接收回专辑封面使用 C 我找不到任何与此接近的示例所有在线示例都已过时并且不适用于 AWS 的较新版本有一个开源项目CodePlex http www c
如何从main方法调用业务对象类？

我已将代码分为业务对象访问层如下所示 void Main Business object public class ExpenseBO public void MakeExpense ExpensePayload payload var
(de)从 CSV 序列化为对象（或者最好是类型对象的列表）

我是一名 C 程序员试图学习 C 似乎有一些内置的对象序列化但我在这里有点不知所措我被要求将测试数据从 CSV 文件加载到对象集合中 CSV 比 xml 更受青睐因为它更简单且更易于人类阅读我们正在创建测试数据来运行单元测试该集
C++ 密码屏蔽

我正在编写一个代码来接收密码输入下面是我的代码程序运行良好但问题是除了数字和字母字符之外的其他键也被读取例如删除插入等我知道如何避免它吗特q string pw char c while c 13 Loop until Ent
线程和 fork()。我该如何处理呢？ [复制]

这个问题在这里已经有答案了可能的重复多线程程序中的fork https stackoverflow com questions 1235516 fork in multi threaded program 如果我有一个使用 fork 的

随机推荐

强制表单文本为小写

我如何强制用户名文本中的文本input无论用户类型如何都小写 div class register div
当区域控制器加载时，为什么我的 BaseController.User 值 == null ？ [复制]

这个问题在这里已经有答案了我正在编写一个 Asp Net 核心应用程序并且在获得导航访问权限之前让用户通过 Google 进行身份验证当用户导航到我的 WorldBuilder 区域并点击 WorldController 时 Base
两个具有相同名称和不同私钥的 iOS 分发证书的问题[已关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们有两个 iOS 发行版证书我在签名时遇到一些问题因为两个分发证书具有相同的名称如果我添加两个证书并尝试使用其中一个证书进行签名
sqlite 选择日期条件

我有一个带有出生日期的 sqlite 表我想执行一个查询来选择年龄超过 30 岁的记录我已经尝试过以下方法但它不起作用 select from mytable where dob gt 1 Jan 1980 select from m
Django Rest Framework 在序列化之前更新数据

我希望任何用户都可以使用我的 RESTful API 创建自己的产品为此我创建了一个继承ListCreateAPIView的视图问题是用户应该只创建他她拥有的产品因此当创建 Product 模型的实例时我希望字段 Owner 对
如何为iMessage Sticker App网格贴纸提供不同尺寸

我创建了一个 iOS iMessage 贴纸应用程序根据苹果文档我应该能够以三种不同尺寸之一显示贴纸但是无论我将贴纸图像设置为什么尺寸 300px x 300px 408px x 408px 618px x 618px 它们仅显示为
Golang 中的函数声明

在 Golang 中声明函数似乎有两种不同的方式如下所示 package main import fmt var someFunc func arg string fmt Println arg func main someFunc He
如何在 ruby 中进行 base58 编码？

我正在尝试编码原型股 http protoshares net 原始格式的钱包地址如中所述Bitcoin https en bitcoin it wiki Technical background of Bitcoin addresses
Jupyter 和 Common Lisp

我正在尝试安装cl jupyter https github com fredokun cl jupyter common lisp 内核Jupyter http jupyter org 我无法让它工作当我打开一个新的 lisp 笔记本
如何将文本框中的日期插入数据库

请帮助我将日期从文本框中以 dd mm yyyy 格式插入到 SQL Server 我的代码如下 int prio Convert ToInt32 Priority Text string stdate planstart Text str
解析装饰器中的 args 和 kwargs

我有一个需要 args 和 kwargs 的函数我需要根据 args 和 kwargs 的值在我的装饰器中做一些事情2nd函数中的arg 如下面的代码所示 def workaround func def decorator fn def
从 UWP 应用检查转储文件

首先我在 Windows 10 手机上启用转储文件的保存设置 gt 更新和安全 gt 对于开发人员 gt 保存这么多故障转储 3 然后我调试了一个引发异常的应用程序我停止后继续调试断开并再次连接手机后我能够访问存储在下的转储文件W
ASP.Net MVC 中静态文件的永久重定向旧路由

我们旧的 ASP net 站点将静态图像存储在根目录的子目录中名为 images 我们新的 ASP net MVC 站点将这些图像存储在新的布局中内容图片我已经更改了网站中的所有页面以适应新的文件夹结构但我想设置从旧静态图像到新位
为什么表格比 CSS 更糟糕？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
PHP MYSQL 关联数组和表

这是一个代码这会从数据库动态加载所有标题部分即表的标题下面的代码工作正常但该列不匹配即标题的第一行第一列是空白的并且表格中存在错位 Code table border 1 th th table
如何在特定时间和日期运行函数？

如何在给定时间和日期运行函数示例我有一个函数需要在每月 12 日上午 10 点运行如果这很重要此页面将 24 7 运行显然我必须与当前日期进行比较但我不确定如何检查当前日期和时间是否匹配 Shannon 不建议使用setInte
计算大负值的指数

我想知道R中如何得到大负数的指数例如当我尝试时 gt exp 6400 1 0 gt exp 1200 1 0 gt exp 2000 1 0 但我需要上面表达式的值即使它很小我怎样才能在R中得到它这些数字太小了要了解您的计算机
列表视图中空白区域的上下文菜单

我有一个简单的 LinearLayout 里面有 ListView match parent宽度和高度我需要一个上下文菜单以便在长时间触摸列表视图中的任何位置时显示首先我打电话registerForContextMenu对于列表视图
AVPlayer 是否支持在单独的文本文件中提供隐藏式字幕？

我的团队开发使用 AVPlayer 播放视频的 iOS 应用程序最近我们被告知必须允许显示所有视频的隐藏式字幕但隐藏式字幕不会作为视频文件中的轨道出现我们已经支持以这种方式出现的隐藏式字幕相反我们会将它们作为单独的文本文件获取
与SSE性能相同

我对以下循环进行了矢量化该循环出现在我正在开发的应用程序中 void vecScl Node A Node B long val int fact round dot const for i 0 i

与SSE性能相同

与SSE性能相同 的相关文章

随机推荐

热门标签

与SSE性能相同的相关文章