当内存带宽受限时 SSE 和 AVX 的性能

2024-03-09

在下面的代码中，我更改了“dataLen”并获得了不同的效率。

dataLen = 400 SSE 时间：758000 us AVX 时间：483000 us SSE > AVX

dataLen = 2400 SSE 时间：4212000 us AVX 时间：2636000 us SSE > AVX

dataLen = 2864 SSE 时间:6115000 us AVX 时间:6146000 usa SSE ~= AVX

dataLen = 3200 SSE 时间:8049000 us AVX 时间:9297000 美国 SSE

dataLen = 4000 SSE 时间：10170000us AVX 时间：11690000us SSE

SSE和AVX代码都可以简化为： buf3[i] += buf1[1]*buf2[i];

#include "testfun.h"
#include <iostream>
#include <chrono>
#include <malloc.h>
#include "immintrin.h"
using namespace std::chrono;

void testfun()
{
int dataLen = 4000; 
int N = 10000000;
float *buf1 = reinterpret_cast<float*>(_aligned_malloc(sizeof(float)*dataLen, 32));
float *buf2 = reinterpret_cast<float*>(_aligned_malloc(sizeof(float)*dataLen, 32));
float *buf3 = reinterpret_cast<float*>(_aligned_malloc(sizeof(float)*dataLen, 32));
for(int i=0; i<dataLen; i++)
{
    buf1[i] = 1;
    buf2[i] = 1;
    buf3[i] = 0;
}
//=========================SSE CODE=====================================
system_clock::time_point SSEStart = system_clock::now();
__m128 p1, p2, p3;

for(int j=0; j<N; j++)
for(int i=0; i<dataLen; i=i+4)
{
    p1 = _mm_load_ps(&buf1[i]);
    p2 = _mm_load_ps(&buf2[i]);
    p3 = _mm_load_ps(&buf3[i]);
    p3 = _mm_add_ps(_mm_mul_ps(p1, p2), p3);
    _mm_store_ps(&buf3[i], p3);
}

microseconds SSEtimeUsed = duration_cast<milliseconds>(system_clock::now() - SSEStart);
std::cout << "SSE time used: " << SSEtimeUsed.count() << " us, " <<std::endl;

//=========================AVX　CODE=====================================
for(int i=0; i<dataLen; i++) buf3[i] = 0;

system_clock::time_point AVXstart = system_clock::now();
__m256  pp1, pp2, pp3; 

for(int j=0; j<N; j++)
for(int i=0; i<dataLen; i=i+8)
{       
    pp1 = _mm256_load_ps(&buf1[i]);
    pp2 = _mm256_load_ps(&buf2[i]);
    pp3 = _mm256_load_ps(&buf3[i]);
    pp3 = _mm256_add_ps(_mm256_mul_ps(pp1, pp2), pp3);
    _mm256_store_ps(&buf3[i], pp3);

}

microseconds AVXtimeUsed = duration_cast<milliseconds>(system_clock::now() - AVXstart);
std::cout << "AVX time used: " << AVXtimeUsed.count() << " us, " <<std::endl;

_aligned_free(buf1);
_aligned_free(buf2);
}

我的CPU是Intel Xeon E3-1225 v2，其L1缓存为32KB*4（4核），运行此代码时仅使用1核，因此使用的L1缓存为32KB。

buf1 buf2 和 buf3 足够小，可以分别位于 L1 缓存和 L2 缓存（L2 缓存 1MB）。SSE 和 AVX 都受到带宽限制，但是随着 dataLen 的增加，为什么 AVX 需要比 SSE 更多的时间？

这是一个有趣的观察。我能够重现你的结果。我通过展开循环成功地提高了 SSE 代码的速度（参见下面的代码）。现在上交所dataLen=2864显然更快，对于较小的值，它几乎与 AVX 一样快。对于更大的值，速度仍然更快。这是由于 SSE 代码中的进位循环依赖性造成的（即展开循环会增加指令级并行性 (ILP)）。我没有尝试进一步展开。展开 AVX 代码没有帮助。

但我对你的问题没有明确的答案。我的预感是，这与 ILP 以及 AVX 处理器（例如 Sandy Bridge）只能同时加载两个 128 位字（SSE 宽度）而不是两个 256 位字这一事实有关。因此，在 SSE 代码中，它可以同时执行 1 个 SSE 加法、1 个 SSE 乘法、2 个 SSE 加载和 1 个 SSE 存储。对于 AVX，它可以同时执行一次 AVX 加载（通过端口 2 和 3 上的两个 128 位加载）、一次 AVX 乘法、一次 AVX 加法和一次 128 位存储（AVX 宽度的一半）。换句话说，尽管使用 AVX，乘法和加法的工作量是 SSE 的两倍，但加载和存储仍然是 128 位宽。也许这会导致 AVX 与 SSE 相比，有时代码以加载和存储为主的 ILP 较低？

有关端口和 ILP 的更多信息，请参阅此Haswell、Sandy Bridge、Nehalem 端口比较 http://www.anandtech.com/show/6355/intels-haswell-architecture/8.

__m128 p1, p2, p3, p1_v2, p2_v2, p3_v2;
for(int j=0; j<N; j++)
    for(int i=0; i<dataLen; i+=8)
    {
        p1 = _mm_load_ps(&buf1[i]);
        p1_v2 = _mm_load_ps(&buf1[i+4]);
        p2 = _mm_load_ps(&buf2[i]);
        p2_v2 = _mm_load_ps(&buf2[i+4]);
        p3 = _mm_load_ps(&buf3[i]);
        p3_v2 = _mm_load_ps(&buf3[i+4]);
        p3 = _mm_add_ps(_mm_mul_ps(p1, p2), p3);
        p3_v2 = _mm_add_ps(_mm_mul_ps(p1_v2, p2_v2), p3_v2);
        _mm_store_ps(&buf3[i], p3);
        _mm_store_ps(&buf3[i+4], p3_v2);
    }

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

当内存带宽受限时 SSE 和 AVX 的性能的相关文章

jQuery - 提高处理 XML 时的选择器性能

我正在处理一个 XML 文件当使用 XPath 样式选择器选择节点时该文件的性能非常慢这是运行特别慢的部分代码 for i 0 i
降低Python中的浮点精度以提高性能[重复]

这个问题在这里已经有答案了我正在树莓派上使用 python 我使用互补滤波器从陀螺仪中获得更好的值但它消耗了太多树莓派的电量大约为 70 我认为可以通过降低浮点精度来提高性能现在结果大约有 12 位小数这超出了我的需要有什么办
优化 LATERAL join 中的慢速聚合

在我的 PostgreSQL 9 6 2 数据库中我有一个查询该查询根据一些股票数据构建计算字段表它为表中的每一行计算 1 到 10 年的移动平均窗口并将其用于周期性调整具体来说 CAPE CAPB CAPC CAPS 和 CAP
.pdbs 会减慢发布应用程序的速度吗？

如果 dll 中包含 pdb 程序调试文件则行号将出现在引发的任何异常的堆栈跟踪中这会影响应用程序的性能吗这个问题与发布与调试即优化无关这是关于拥有 pdb 文件的性能影响每次抛出异常时都会读取 pdb 文件吗加载程序集时
即使在急切加载之后，belongs_to 关联也会单独加载

我有以下关联 class Picture lt ActiveRecord Base belongs to user end class User lt ActiveRecord Base has many pictures end 在我的
使用 APDU 命令的有效 NFC 读取比特率是多少？

我目前正在使用 Android IsoDep trancieve 函数发送和接收累计 1628 字节的数据该函数分布在 35 个 APDU 命令选择应用程序身份验证读取中字节计数包括返回的 MAC 校验和以及由 transcie
如何最大限度地提高服务器性能？

我一直在努力了解性能和可扩展性并想知道开发人员系统管理员正在做什么来提高他们的系统的效率为了标准化答案如果您能尽力回答以下任一问题将会有所帮助 Profile Magazine publication on Joomla Jobs
Pandas dataframe：每批行的操作

我有一个熊猫数据框df我想计算每批行的一些统计信息例如假设我有一个batch size 200000 对于每批batch sizerows 我想要一列的唯一值的数量ID我的数据框我怎样才能做这样的事情呢这是我想要的一个例子 prin
红宝石接球和效率

catch在 Ruby 中意味着跳出深度嵌套的代码在 Java 中例如用Java也可以达到同样的效果try catch用于处理异常但它被认为是糟糕的解决方案而且效率非常低在 Ruby 中我们有处理异常的方法begin raise
为什么 Web Worker 性能在 30 秒后急剧下降？

我正在尝试提高在网络工作人员中执行时脚本的性能它旨在解析浏览器中的大型文本文件而不会崩溃一切都运行得很好但我注意到使用网络工作者时大文件的性能存在严重差异于是我做了一个简单的实验我在同一输入上运行脚本两次第一次运行在页面的主线程
过度使用委托对性能来说是一个坏主意吗？ [复制]

这个问题在这里已经有答案了考虑以下代码 if IsDebuggingEnabled instance Log GetDetailedDebugInfo GetDetailedDebugInfo 可能是一个昂贵的方法因此我们只想在调试模式
如何确定lru_cache所需的maxsize？

如果我们创建一个类似返回斐波那契数列的递归函数并使用lru cache 真正的总督是什么max size范围很明显我们在计算每一项时只需要最后两项但是设置maxsize to 2并运行第一个1000计算需要很长时间才能完成我尝试使
为什么列表理解在数组相乘方面比 numpy 快得多？

最近我回答了THIS https stackoverflow com questions 31596979 multiplication between 2 lists 31597029 31597029想要两个列表相乘的问题一些用户建议
Erlang 中的接受器池和负载平衡？

From http www erlang org doc man gen tcp html accept 1 http www erlang org doc man gen tcp html accept 1 值得注意的是 accept 调
为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
为什么改变对象的 [[prototype]] 会降低性能？

来自 MDN 文档standard setPrototypeOf功能 https developer mozilla org en US docs Web JavaScript Reference Global Objects Object
Javascript 播放声音性能重吗？

我正在用 Javascript 制作一个简单的游戏当一个物体与墙壁碰撞时它会发出砰的声音声音的响度取决于物体的速度速度越高 gt 声音越大播放功能 playSound function id vol ID of the sou
Python if 与 try- except

我想知道为什么下面程序中的 try except 比 if 慢 def tryway try while True alist pop except IndexError pass def ifway while True if alist
R 数据结构的运算效率

我想知道是否有任何关于操作效率的文档R 特别是那些与数据操作相关的例如我认为向数据框添加列是有效的因为我猜您只是向链接列表添加一个元素我想添加行会更慢因为向量保存在数组中C level你必须分配一个新的长度数组n 1并将所有元素复
gitlab-ci 的缓存虚拟环境

我使用 Gitlab CI 脚本缓存了 Pip 包所以这不是问题现在我还想赶上Conda虚拟环境因为它减少了设置环境的时间我缓存了一个虚拟环境不幸的是最后需要很长时间才能缓存所有 venv 文件我尝试仅缓存 CI PROJEC

随机推荐

IEnumerator 实现

我有一个这个代码 public class SomeClass
消除网格间隙

我有一个 div 其元素对齐为一行这是它的 css 类 myRow display grid grid template columns 0 1fr 0 1fr 2fr 3fr 2fr grid column gap 10px grid
如何在 OpenSSL 中获取 SSL 证书

因此我一直在寻找如何在我正在开发的 C 应用程序中的 OpenSSL 中验证服务器的证书我终于得到了提示但是我仍然缺少一些步骤所以我发现OpenSSL有一个名为s client的ssl客户端应用程序当我使用以下命令时 echo
自定义qt项目时使用条件

再会我有一个 qt 项目我想使用 pro 文件条件对其进行自定义值得注意的是我想使用一个 pro 文件来获取多个输出如下所示 DEFINES APP1 0 APP2 1 DEFINES TYPE APP1 if TYPE APP1
AG-Grid 大数据集渲染时间（慢）

我有一个网格其中包含大量但合理的数据大约 12 000 个单元格 340 列和 34 行我知道这看起来像是一个横向表格但对于我们的应用程序来说它更可能有大量的列和更少的行当数据约为 2300 个单元格 68 列和 34 行时
如何访问pgadmin数据库设计器？

我正在运行 pgadmin 1 18 在选项窗格中我可以设置数据库设计器的字体但我发现绝对无法访问此数据库设计器窗口没有图标或菜单或任何这是 pgadmin 1 18 下的可用功能吗应该启用它吗图形查询生成器 Source ht
Accurev 中的 diff 与 basic 和 backing 之间有什么区别

Accurev 中与基础的差异和与支持的差异有什么区别我从您在本论坛中的其他帖子中假设这里的上下文将是在您的工作区中根据支持或基础对文件进行比较与基础进行比较将在进行更改之前将您工作区中当前拥有的文件与您开始使用的版本进行比较
Get-ADUser 错误：枚举上下文无效

我前几天发布了这个问题从分组对象中提取电子邮件 https stackoverflow com questions 30856287 extract e mail from grouped objects 30856711 noredire
AFNetworking 启用 GZIP

我在 AFNetworking 网站上查看支持 GZIP 压缩服务器响应的 Gzip 解压缩已内置于 AFNetworking 中因为 NSURLConnection 将使用 Content Encoding gzip HTTP 标头自
ActionMailer和开发模式，可以写入文件什么的吗？

我想在本地测试我的注册过程开发模式如何测试电子邮件的发送和呈现方式等我不是指单元测试或集成测试而是指在开发我的应用程序并进入注册页面等时我希望它发送电子邮件但发送到不使用 smtp 的文件这可能吗我有什么选择这是可配置的c
有没有办法让 Javascript 在 DOMPDF 生成的 PDF 中工作？

我目前正在测试 DOMPDF 并让它非常适合我的目的包括 CSS 样式显示从 mysql 数据库获取的内容等现在我尝试使用一些Javascript 但它不起作用我使用了一个非常简单的脚本进行测试页面上某处的 HTML div st
在 WKUIDelegate SwiftUI 上实现 Javascript 警报并确认？

由于我是 Swift 新手我不确定如何为 Swift 编写一个函数以便从 Web 应用程序进行交互式 Javascript 警报和确认我正在使用 SwiftUI 创建一个 Web 应用程序需要为我的 Swift Web 应用程序实现
如何使用xslt合并元素？

我有一个带有元素的段落参考类型 Example 输入文件
UILocalNotification 不执行任何操作

这似乎是一个愚蠢的问题但这是我第一次使用 UILocalNotification 我无法让它进行快速测试它只是没有做任何事情 1 我在AppDelegate中创建了2个变量 let today NSDate let notificati
Java 中的类型映射

我想实现这样一个地图 Map
清除核心数据中的上下文：重置与删除注册对象？

我一直在寻找与此相关的帖子但我不完全理解有什么区别 context reset and for NSManagedObjectID objId in objectIds context deleteObject context obje
React - 通过单击提交按钮将项目从输入添加到列表中

我正在练习反应并尝试通过单击提交按钮将项目添加到输入列表中我更喜欢使用 state 和 setState 我很想得到一些帮助我认为不需要我的代码但无论如何这是它 class App extends Component state u
JACOB 库在多线程中使用时失败

我在两个因此启动的相同线程中使用 JACOB 时遇到了一个奇怪的问题我有一个实用程序类它使用静态 ActiveXObject 字段将各种请求分派到 WMI 第一个线程工作正常当第二个线程启动时出现以下异常 com jacob com
通过接口枚举 - 性能损失

我和我的同事就通过索引访问列表的性能发生了一些争议这非常接近圣战 VS通过枚举器为了根据一些事实进行操作我编写了以下测试 static void Main string args const int count 10000000 va
当内存带宽受限时 SSE 和 AVX 的性能

在下面的代码中我更改了 dataLen 并获得了不同的效率 dataLen 400 SSE 时间 758000 us AVX 时间 483000 us SSE gt AVX dataLen 2400 SSE 时间 4212000 us A

当内存带宽受限时 SSE 和 AVX 的性能

当内存带宽受限时 SSE 和 AVX 的性能 的相关文章

随机推荐

热门标签

当内存带宽受限时 SSE 和 AVX 的性能的相关文章