使用 AVX 内在函数代替 SSE 并不能提高速度 - 为什么？

2024-05-07

我已经使用 Intel 的 SSE 内在函数相当长一段时间了，并取得了良好的性能提升。因此，我希望 AVX 内在函数能够进一步加速我的程序。不幸的是，直到现在情况并非如此。可能我犯了一个愚蠢的错误，所以如果有人能帮助我，我将非常感激。

我使用 Ubuntu 11.10 和 g++ 4.6.1。我编译了我的程序（见下文）

g++ simpleExample.cpp -O3 -march=native -o simpleExample

测试系统具有Intel i7-2600 CPU。

这是说明我的问题的代码。在我的系统上，我得到输出

98.715 ms, b[42] = 0.900038 // Naive
24.457 ms, b[42] = 0.900038 // SSE
24.646 ms, b[42] = 0.900038 // AVX

请注意，选择计算 sqrt(sqrt(sqrt(x))) 只是为了确保内存带宽不会限制执行速度；这只是一个例子。

简单的示例.c++：

#include <immintrin.h>
#include <iostream>
#include <math.h> 
#include <sys/time.h>

using namespace std;

// -----------------------------------------------------------------------------
// This function returns the current time, expressed as seconds since the Epoch
// -----------------------------------------------------------------------------
double getCurrentTime(){
  struct timeval curr;
  struct timezone tz;
  gettimeofday(&curr, &tz);
  double tmp = static_cast<double>(curr.tv_sec) * static_cast<double>(1000000)
             + static_cast<double>(curr.tv_usec);
  return tmp*1e-6;
}

// -----------------------------------------------------------------------------
// Main routine
// -----------------------------------------------------------------------------
int main() {

  srand48(0);            // seed PRNG
  double e,s;            // timestamp variables
  float *a, *b;          // data pointers
  float *pA,*pB;         // work pointer
  __m128 rA,rB;          // variables for SSE
  __m256 rA_AVX, rB_AVX; // variables for AVX

  // define vector size 
  const int vector_size = 10000000;

  // allocate memory 
  a = (float*) _mm_malloc (vector_size*sizeof(float),32);
  b = (float*) _mm_malloc (vector_size*sizeof(float),32);

  // initialize vectors //
  for(int i=0;i<vector_size;i++) {
    a[i]=fabs(drand48());
    b[i]=0.0f;
  }

// +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
// Naive implementation
// +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
  s = getCurrentTime();
  for (int i=0; i<vector_size; i++){
    b[i] = sqrtf(sqrtf(sqrtf(a[i])));
  }
  e = getCurrentTime();
  cout << (e-s)*1000 << " ms" << ", b[42] = " << b[42] << endl;

// -----------------------------------------------------------------------------
  for(int i=0;i<vector_size;i++) {
    b[i]=0.0f;
  }
// -----------------------------------------------------------------------------

// +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
// SSE2 implementation
// +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
  pA = a; pB = b;

  s = getCurrentTime();
  for (int i=0; i<vector_size; i+=4){
    rA   = _mm_load_ps(pA);
    rB   = _mm_sqrt_ps(_mm_sqrt_ps(_mm_sqrt_ps(rA)));
    _mm_store_ps(pB,rB);
    pA += 4;
    pB += 4;
  }
  e = getCurrentTime();
  cout << (e-s)*1000 << " ms" << ", b[42] = " << b[42] << endl;

// -----------------------------------------------------------------------------
  for(int i=0;i<vector_size;i++) {
    b[i]=0.0f;
  }
// -----------------------------------------------------------------------------

// +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
// AVX implementation
// +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
  pA = a; pB = b;

  s = getCurrentTime();
  for (int i=0; i<vector_size; i+=8){
    rA_AVX   = _mm256_load_ps(pA);
    rB_AVX   = _mm256_sqrt_ps(_mm256_sqrt_ps(_mm256_sqrt_ps(rA_AVX)));
    _mm256_store_ps(pB,rB_AVX);
    pA += 8;
    pB += 8;
  }
  e = getCurrentTime();
  cout << (e-s)*1000 << " ms" << ", b[42] = " << b[42] << endl;

  _mm_free(a);
  _mm_free(b);

  return 0;
}

任何帮助表示赞赏！

这是因为VSQRTPS（AVX 指令）所需的周期恰好是SQRTPS（SSE 指令）在 Sandy Bridge 处理器上。请参阅 Agner Fog 的优化指南：指令表 http://www.agner.org/optimize/instruction_tables.pdf，第 88 页。

平方根和除法等指令无法从 AVX 中受益。另一方面，加法、乘法等也是如此。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 AVX 内在函数代替 SSE 并不能提高速度 - 为什么？的相关文章

计算 XML 中特定 XML 节点的数量

请参阅此 XML
如何捕获未发送到 stdout 的命令行文本？

我在项目中使用 LAME 命令行 mp3 编码器我希望能够看到某人正在使用什么版本如果我只执行 LAME exe 而不带参数我会得到例如 C LAME gt LAME exe LAME 32 bits version 3 98 2
为什么pow函数比简单运算慢？

从我的一个朋友那里我听说 pow 函数比简单地将底数乘以它的指数的等价函数要慢例如据他介绍 include
如何在C（Linux）中的while循环中准确地睡眠？

在 C 代码 Linux 操作系统中我需要在 while 循环内准确地休眠比如说 10000 微秒 1000 次我尝试过usleep nanosleep select pselect和其他一些方法但没有成功一旦大约 50 次它
为什么在 WebApi 上下文中在 using 块中使用 HttpClient 是错误的？

那么问题是为什么在 using 块中使用 HttpClient 是错误的但在 WebApi 上下文中呢我一直在读这篇文章不要阻止异步代码 https blog stephencleary com 2012 07 dont block
Python 属性和 Swig

我正在尝试使用 swig 为一些 C 代码创建 python 绑定我似乎遇到了一个问题试图从我拥有的一些访问器函数创建 python 属性方法如下 class Player public void entity Entity enti
File.AppendText 尝试写入错误的位置

我有一个 C 控制台应用程序它作为 Windows 任务计划程序中的计划任务运行此控制台应用程序写入日志文件该日志文件在调试模式下运行时会创建并写入应用程序文件夹本身内的文件但是当它在任务计划程序中运行时它会抛出一个错误指出访
为什么可以通过ref参数修改readonly字段？

考虑 class Foo private readonly string value public Foo Bar ref value private void Bar ref string value value hello world
打破 ReadFile() 阻塞 - 命名管道 (Windows API)

为了简化这是一种命名管道服务器正在等待命名管道客户端写入管道的情况使用 WriteFile 阻塞的 Windows API 是 ReadFile 服务器已创建启用阻塞的同步管道无重叠 I O 客户端已连接现在服务器正在等待一些数据
IQueryable 单元或集成测试

我有一个 Web api 并且公开了一个端点如下所示 api 假期 name name 这是 Web api 的控制器 get 方法 public IQueryable
如何在 C 中安全地声明 16 位字符串文字？

我知道已经有一个标准方法前缀为L wchar t test literal L Test 问题是wchar t不保证是16位但是对于我的项目我需要16位wchar t 我还想避免通过的要求 fshort wchar 那么 C 不是 C
检测到严重错误 c0000374 - C++ dll 将已分配内存的指针返回到 C#

我有一个 c dll 它为我的主 c 应用程序提供一些功能在这里我尝试读取一个文件将其加载到内存然后返回一些信息例如加载数据的指针和内存块的计数到 c Dll 成功将文件读取到内存但在返回主应用程序时程序由于堆损坏而崩溃检测
使 Guid 属性成为线程安全的

我的一个类有一个 Guid 类型的属性该属性可以由多个线程同时读写我的印象是对 Guid 的读取和写入不是原子的因此我应该锁定它们我选择这样做 public Guid TestKey get lock testKeyLock ret
String.Empty 与 "" [重复]

这个问题在这里已经有答案了可能的重复 String Empty 和有什么区别 https stackoverflow com questions 151472 what is the difference between string
将数组作为参数传递

如果我们修改作为方法内参数传递的数组的内容则修改是在参数的副本而不是原始参数上完成的因此结果不可见当我们调用具有引用类型参数的方法时会发生什么过程这是我想问的代码示例 using System namespace Value Re
如何在richtextbox中使用多颜色[重复]

这个问题在这里已经有答案了我使用 C windows 窗体并且有 richtextbox 我想将一些文本设置为红色一些设置为绿色一些设置为黑色怎么办呢附图片 System Windows Forms RichTextBox有一个
使用 C 在 OS X 中获取其他进程的 argv

我想获得其他进程的argv 例如ps 我使用的是在 Intel 或 PowerPC 上运行的 Mac OS X 10 4 11 首先我阅读了 ps 和 man kvm 的代码然后编写了一些 C 代码 include
我可以在“字节数”设置为零的情况下调用 memcpy() 和 memmove() 吗？

当我实际上没有什么可以移动复制的时候我是否需要处理这些情况memmove memcpy 作为边缘情况 int numberOfBytes if numberOfBytes 0 memmove dest source numberOfBy
灵气序列解析问题

我在使用 Spirit Qi 2 4 编写解析器时遇到一些问题我有一系列键值对以以下格式解析
如何将十六进制字符串转换为无符号长整型？

我有以下十六进制值 CString str str T FFF000 如何将其转换为unsigned long 您可以使用strtol作用于常规 C 字符串的函数它使用指定的基数将字符串转换为 long long l strtol str

随机推荐

如何在 AOT 平台上运行时生成任何泛型类型？

我需要在 AOT 平台上运行时生成泛型类型我知道一种解决方法它提示编译器通过在代码中创建虚拟方法来生成特定的泛型类 public void DoDummy var a1 new MyClass
java中清空数组的最佳方法

我有 MyClass 数组 MyClass data 设定长度 data new MyClass 1 添加数据 data 0 new MyClass 现在我需要清除数组做这个的最好方式是什么可以将 null 分配给该数组吗 data n
在某些情况下，直接访问字符串的后备数组是否合理？

我正在致力于优化文本处理软件其中经常使用以下类 class Sentence private final char textArray private final String textString public Sentence Str
如何在提交值后重置 antd datepicker？

在这里我提供了在codesandbox上工作的示例提交表单后如何重置日期选择器值 state setFieldValue onChange setFieldValue gt this setState setFieldValue nul
当对象超出范围时是否会调用析构函数？

例如 int main Foo leedle new Foo return 0 class Foo private somePointer bar public Foo Foo Foo Foo delete bar 析构函数会被编译器隐式调
NSlog 不打印新行 \r\n

我尝试添加新行NSlog I run NSLog n r n r n json1 NSLog n r n r n json2 然而输出是 2017 03 29 16 09 50 InAppTestAfApp2 312 33527 attri
通过构造函数抛出异常

假设我有以下代码 public class Conf public Conf String szPath throws IOException ConfErrorException public void someMethod 然后我想这样
通过 HTTPS 包含 Twitter Widgets.js

当我们包含以下内容时我在我们网站上的 HTTPS 服务页面上的混合内容方面遇到了一个小问题http platform twitter com widgets js http platform twitter com widgets js
XMLHttpRequest 和 S3、CORS 错误

我将照片托管在 S3 存储桶上我为 S3 存储桶添加了 CORS 配置
Xcode 不再识别测试

我已经解决这个问题几天了但我没有任何想法我在 Xcode 中使用单元测试效果很好突然 Xcode 不再识别我的测试如果我进入测试面板它会显示我的测试为零我其实有13个运行单独测试或某些课程的能力现已消失它不会在编辑器区域的
使用数组指针和 swift 1.2 进行 PFSubclassing - 致命错误：NSArray 元素无法匹配 Swift 数组元素类型

使用 swift 1 2 我无法再检索具有解析子类的指针数组并使用另一个解析子类对其进行向下转换我总是发现错误 fatal error NSArray element failed to match the Swift Array Ele
TypeError: undefined 不是 Firebase 和 AngularJS 的函数（ThinksterIO 教程第 7 章）

Update 教程已更新问题现已过时我在 Thinkster io AngularJS 教程学习构建现代 Web 应用程序中遇到了多个问题第 7 章使用 firebase 创建您自己的用户数据 http www thinkster
IE10重画/重画问题

你可以在这里看到这个工作中断 http new campchampions com parents http new campchampions com parents 该问题仅在 IE10 中出现用户滚动一小段距离后导航就会被固定
如何重写 GORM/Grails 的 addTo* 和 RemoveFrom* 方法？

我尝试重写 Grails GORM 提供的动态方法 addTo 但它似乎不起作用这是代码 class Match static hasMany players Player matchPlayers MatchPlayer void ad
为什么 async wait 在 IIS 上不起作用，但在 IIS Express 上起作用

我不明白为什么 async await 不能解决 IIS 线程的问题我发现当我使用 IIS 时我们对 IIS 线程的限制等于 10 而对 IIS Express 则没有限制我在 HomeController 中添加了 2 个方法来重复
Android Room 持久性库无法在库项目内工作

我正在开发一个 Android 库并希望在其中使用新的 Android Room 持久性库但是启动时我收到此错误 Caused by java lang RuntimeException cannot find implementat
Flask.cli.NoAppException：导入“app”时，引发了 ImportError：

1 我正在尝试构建一个flask项目并尝试将类导入到models py中并将路由导入到app py中当我尝试运行该项目时它显示了一些错误这是回溯的信息 Traceback most recent call last File User
在 Outlook 中创建带有附件的邮件并显示它

我想在 Outlook 中创建一封带有附件的邮件并在发送之前显示它但我想我已经尝试了几乎在网上找到的所有示例但没有任何运气我可以使用 Indy 但我非常想使用 Outlook 来确保邮件正确因为它是用于商业用途函数的任何输入该函
是否可以将 .gs 文件上传到复制的 Google 文档的应用程序脚本项目？

我复制了一个电子表格供多人使用并附加了脚本我的问题是如何修改项目中的脚本而不必将每个更改复制并粘贴到 gs项目中的文件 This is the base document from which the other versions w
使用 AVX 内在函数代替 SSE 并不能提高速度 - 为什么？

我已经使用 Intel 的 SSE 内在函数相当长一段时间了并取得了良好的性能提升因此我希望 AVX 内在函数能够进一步加速我的程序不幸的是直到现在情况并非如此可能我犯了一个愚蠢的错误所以如果有人能帮助我我将非常感激我使用

使用 AVX 内在函数代替 SSE 并不能提高速度 - 为什么？

使用 AVX 内在函数代替 SSE 并不能提高速度 - 为什么？ 的相关文章

随机推荐

热门标签

使用 AVX 内在函数代替 SSE 并不能提高速度 - 为什么？的相关文章