预取示例？

2023-11-24

任何人都可以给出一个示例或使用示例的链接__builtin_prefetch在 GCC（或一般的 asm 指令 prefetcht0）中获得显着的性能优势？特别是，我希望该示例满足以下标准：

这是一个简单、小型、独立的示例。
删除__builtin_prefetch指令会导致性能下降。
更换__builtin_prefetch具有相应内存访问的指令会导致性能下降。

也就是说，我想要显示最短的示例__builtin_prefetch执行没有它就无法管理的优化。

这是我从一个更大的项目中提取的一段实际代码。（抱歉，这是我能找到的最短的一个，预取速度明显加快。）此代码执行非常大的数据转置。

此示例使用 SSE 预取指令，该指令可能与 GCC 发出的指令相同。

要运行此示例，您需要针对 x64 进行编译并拥有超过 4GB 的内存。您可以使用较小的数据大小来运行它，但时间会太快。

#include <iostream>
using std::cout;
using std::endl;

#include <emmintrin.h>
#include <malloc.h>
#include <time.h>
#include <string.h>

#define ENABLE_PREFETCH


#define f_vector    __m128d
#define i_ptr       size_t
inline void swap_block(f_vector *A,f_vector *B,i_ptr L){
    //  To be super-optimized later.

    f_vector *stop = A + L;

    do{
        f_vector tmpA = *A;
        f_vector tmpB = *B;
        *A++ = tmpB;
        *B++ = tmpA;
    }while (A < stop);
}
void transpose_even(f_vector *T,i_ptr block,i_ptr x){
    //  Transposes T.
    //  T contains x columns and x rows.
    //  Each unit is of size (block * sizeof(f_vector)) bytes.

    //Conditions:
    //  - 0 < block
    //  - 1 < x

    i_ptr row_size = block * x;
    i_ptr iter_size = row_size + block;

    //  End of entire matrix.
    f_vector *stop_T = T + row_size * x;
    f_vector *end = stop_T - row_size;

    //  Iterate each row.
    f_vector *y_iter = T;
    do{
        //  Iterate each column.
        f_vector *ptr_x = y_iter + block;
        f_vector *ptr_y = y_iter + row_size;

        do{

#ifdef ENABLE_PREFETCH
            _mm_prefetch((char*)(ptr_y + row_size),_MM_HINT_T0);
#endif

            swap_block(ptr_x,ptr_y,block);

            ptr_x += block;
            ptr_y += row_size;
        }while (ptr_y < stop_T);

        y_iter += iter_size;
    }while (y_iter < end);
}
int main(){

    i_ptr dimension = 4096;
    i_ptr block = 16;

    i_ptr words = block * dimension * dimension;
    i_ptr bytes = words * sizeof(f_vector);

    cout << "bytes = " << bytes << endl;
//    system("pause");

    f_vector *T = (f_vector*)_mm_malloc(bytes,16);
    if (T == NULL){
        cout << "Memory Allocation Failure" << endl;
        system("pause");
        exit(1);
    }
    memset(T,0,bytes);

    //  Perform in-place data transpose
    cout << "Starting Data Transpose...   ";
    clock_t start = clock();
    transpose_even(T,block,dimension);
    clock_t end = clock();

    cout << "Done" << endl;
    cout << "Time: " << (double)(end - start) / CLOCKS_PER_SEC << " seconds" << endl;

    _mm_free(T);
    system("pause");
}

当我在启用 ENABLE_PREFETCH 的情况下运行它时，输出如下：

bytes = 4294967296
Starting Data Transpose...   Done
Time: 0.725 seconds
Press any key to continue . . .

当我在禁用 ENABLE_PREFETCH 的情况下运行它时，输出如下：

bytes = 4294967296
Starting Data Transpose...   Done
Time: 0.822 seconds
Press any key to continue . . .

因此预取的速度提高了 13%。

EDIT:

以下是更多结果：

Operating System: Windows 7 Professional/Ultimate
Compiler: Visual Studio 2010 SP1
Compile Mode: x64 Release

Intel Core i7 860 @ 2.8 GHz, 8 GB DDR3 @ 1333 MHz
Prefetch   : 0.868
No Prefetch: 0.960

Intel Core i7 920 @ 3.5 GHz, 12 GB DDR3 @ 1333 MHz
Prefetch   : 0.725
No Prefetch: 0.822

Intel Core i7 2600K @ 4.6 GHz, 16 GB DDR3 @ 1333 MHz
Prefetch   : 0.718
No Prefetch: 0.796

2 x Intel Xeon X5482 @ 3.2 GHz, 64 GB DDR2 @ 800 MHz
Prefetch   : 2.273
No Prefetch: 2.666

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

gcc

Optimization

Assembly

Prefetch

预取示例？的相关文章

返回值的复制省略和 noexcept

我有一个这样的函数模板 template
找到一系列间隔的最有效分组

我有一个应用程序其中有一系列不重叠的固定宽度间隔每个间隔都有一个给定的键每个间隔具有相同的宽度并且可以存在连续的间隔本质上我想以最小化单独间隔的数量的方式对间隔和键进行分组这可以通过合并具有相同键的连续间隔或查找匹配间隔并将它
gcc 中 -g 选项的作用是什么

我看到很多关于 gdb 的教程要求在编译 c 程序时使用 g 选项我无法理解 g 选项的实际作用它使编译器将调试信息添加到生成的二进制文件中此信息允许调试器将代码中的指令与源代码文件和行号相关联拥有调试符号可以使某些类型的调试例如
优化mysql中日期类型字段的查询

我目前准备了以下查询 select sum amount as total from incomes where YEAR date 2019 and MONTH date 07 and incomes deleted at is null
设置 IRQ 映射

我正在遵循一些教程和参考文献来尝试设置我的内核我在教程中遇到了一些不熟悉的代码但根本没有解释它这是我被告知映射的代码16 IRQs 0 15 到 ISR 地点32 47 void irq remap void outportb 0x2
这个反斜杠在这段汇编代码中起什么作用？

我不确定这些推线有什么区别修剪下来来自 Linux 的 x86 entry calling h https github com torvalds linux blob 241e39004581475b2802cd63c111fec43b
在 C++17 中使用成员的链接错误

我在 Ubuntu 16 04 上使用 gcc 7 2 并且需要使用 C 17 中的新文件系统库尽管确实有一个名为experimental filesystem的库但我无法使用它的任何成员例如当我尝试编译此文件时 include
GCC的sqrt()编译后如何工作？使用哪种root方法？牛顿-拉夫森？

只是对标准感到好奇sqrt 来自 GCC 上的 math h 我自己编码的sqrt 使用牛顿拉夫森来做到这一点是的我知道 fsqrt 但CPU是如何做到这一点的呢我无法调试硬件现代 CPU 中的典型 div sqrt 硬件使用 2
C99 中数组的静态大小[重复]

这个问题在这里已经有答案了一个非常简单的 C 程序 include
包括带有大量全局变量的 C 头文件

我有一个包含 100 多个全局变量的包含文件它正在库中使用但我链接库的一些程序也需要访问全局变量它的构建方式 In one library c file define Extern In the programs that use t
为什么我的代码显示垃圾？

当我也想打印列表中的每个数字时我的代码显示垃圾有什么问题吗输出应如下所示给定的数组是 2G 4 PT为什么这是垃圾总数是 7 Code ASSUME CS CODE DS DATA SS STK ORG 0000H DATA SEG
32位PPC rlwinm指令

我在理解上有点困难rlwinmPPC 汇编指令旋转左字立即然后与掩码我正在尝试反转函数的这一部分 rlwinm r3 r3 0 28 28 我已经知道什么了r3 is r3在本例中是一个 4 字节整数但我不确定这条指令到底是什么rlw
clang 是否提供类似于 GCC 6.x 的函数多版本控制 (target_clones) 的功能？

我读了这篇 LWN 文章 https lwn net Articles 691932 饶有兴趣执行摘要 GCC 6 x 支持所谓的函数多版本控制它可以构建同一函数的多个版本并针对不同的指令集进行优化假设您有一台支持 AVX2 的机器
Oracle JDBC 预取：如何避免 RAM 不足/如何使 oracle 更快高延迟

使用 Oracle java JDBC ojdbc14 10 2 x 加载包含多行的查询需要很长时间高延迟环境这显然是 Oracle JDBC 中的默认预取默认大小 10 每 10 行需要一次往返时间我正在尝试设置一个激进的预取大小来
这个方法比 Math.random() 更快吗？

我是一名初学者目前已经开始开发一款使用粒子群优化算法的 Android 游戏我现在正在尝试稍微优化我的代码并且 for 循环中有相当多的 Math random 几乎一直在运行所以我正在考虑一种方法来绕过并跳过所有 Math ran
添加冗余赋值可以在未经优化的情况下编译时加快代码速度

我发现一个有趣的现象 include
使用按位运算符相乘

我想知道如何使用按位运算符将一系列二进制位相乘但是我有兴趣这样做来查找二进制值的十进制小数值这是我正在尝试做的一个例子假设 1010010 我想使用每个单独的位以便将其计算为 1 2 1 0 2 2 1 2 3 0 2 4 虽然我
何时可以重用avx指令中的源寄存器

在 avx 指令中用作源的寄存器何时可以在指令开始处理后重用例如我想使用vgatherdps该指令消耗两个 ymm 寄存器其中之一是位移索引我意识到vgatherdps由于数据的局部性较差因此需要花费大量时间来收集位移索引寄存器
movzbl(%rdi, %rcx, 1), %ecx 在 x86-64 汇编中意味着什么？

我想我明白 movzbl rdi rcx 1 ecx 意思是将零扩展字节移至长整型并表示将 ecx 扩展为 32 位但我不完全确定语法 rdi rcx 1 指的是什么我在某处看到该语法指的是 Base Index Scale 但我找
为什么将模块级代码放入函数中然后调用该函数在Python中速度更快？

在亚历克斯马尔泰利的回应中使 Python 脚本面向对象 https stackoverflow com questions 1813117 making a python script object oriented 他提到在 Pyth

随机推荐

Edittext达到最大edittext长度后跳转到下一个edittext

在我的布局中我有 4 个编辑文本达到最大长度后我需要跳转到下一个编辑文本但是有一个问题怎么做请任何人帮助我做到这一点达到计数后您将编辑文本的焦点更改为下一个 Edittext edt1 Edittext edt2 mount
CheckBoxList多选：模型绑定回困难

我正在上课如下 public class UserRoleModel public string Role get set public bool UserRole get set and public UserRoleModel User
Android Firebase 云消息传递（FCM）：subscribeToTopic 会自动重试吗？

要在 Android 客户端中订阅主题我们应该调用 FirebaseMessaging getInstance subscribeToTopic news 我想知道如果执行此指令时互联网连接不可用会发生什么情况当互联网连接可用时谷歌
C# - 我应该使用静态数据库连接吗

在我连接到 Orace 数据库的应用程序中我总是创建一个新连接打开它执行 OracleCommands 最后关闭它最近我认为实现静态连接会是一个更好的主意假设我有一个可以从任何地方访问的静态连接每次我需要连接到数据库时我都可以
生成给定范围之间的奇数随机数

如何生成给定范围内的奇数随机数例如对于 1 到 6 之间的范围随机数为 3 或 1 或 5 生成随机数的方法 Random No Min int Math Random Max Min 1 Refer 如何在Java中生成特定范围内的
Google Places API 类型功能..
如何使用 PDO 在 MySQL 中存储 BIGINT？

我知道这个问题在这里被问过不止一次但我找不到解决方案我们正在使用一个数据库将 facebook id 存储为 BIGINT 20 create table users fb id bigint 20 NOT NULL user nam
如何更新绘图表达树形图以同时具有标签和绘图内的值？

目前 plotly express 树形图仅显示树形图中的标签如何在标签旁边包含该值这就是为什么我不喜欢 Express 它有太多限制要进行这些更改您必须以任何一种方式访问跟踪从我的角度来看使用普通的绘图更好代码更透明话虽
如何在 Delphi XE 应用程序中使用 CHM HTML 帮助文件？

Delphi 如何在 Delphi XE 应用程序中使用 CHM HTML 帮助文件 http edn embarcadero com article 27842文章介绍了如何使用 CHM 文件我执行了那里描述的所有步骤 Added co
如何更改 Android WebView 中的 FontSize？

如何手动更改网页视图的字体大小例如当页面在 web 视图中加载时字体大小约为 24pt 对于我的安卓屏幕来说太大了我查看了网络设置但似乎两者不相关 Thanks 我终于找到了 WebSettings webSettings web
反斜杠 - 正则表达式 - Javascript

我想构建一个 JS 函数将参数列表连接到有效路径因为我无法确定路径的一部分是否带有斜杠这是函数 concatPath function var path for var i 0 i lt arguments length i path
使用 Pear Mail 发送邮件的 PHP 脚本有什么问题？

我有这个脚本 require once Mail php from Stephen lt email protected gt Google apps domain to email protected subject Hi body Hi
API网关CORS问题

因此我通过 AWS Gateway 提供的基本设置启用了 CORS 然而对于这个 API 我需要允许所有请求的控制源并允许凭据这是它的样子您可能已经猜到的问题是 CORS 不允许此设置您不能使用 Origin 通配符并将凭据设置为
如何从代码隐藏中清除所有表单字段？

HTML 有一种输入按钮类型可以一步将表单中的所有字段重置为其初始状态
如何使用JPA删除连接表中的行

我有以下模型一篇文章可以有一些标签并且一些文章上可以有一个标签所以它是与 3 个表的多对多关系 ARTICLE ARTICLE TAG TAG 当我删除标签时我想删除 TAG 中的标签该标签与 ARTICLE TAG 中标记的文章
删除 DialogFragment 的正确方法：dismiss() 或 transaction.remove()？

由于以下原因我仍然遇到问题DialogFragment用于我的主要活动我目前正在使用此代码来删除它 FragmentTransaction transaction getFragmentManager beginTransaction
如何在 python 中使用 imaplib 获取电子邮件正文？

我想从 IMAP4 服务器获取整个邮件在 python 文档中如果发现这段代码有效 gt gt gt t data M fetch 1 RFC822 gt gt gt body data 0 1 我想知道我是否始终可以相信 data 0
如何在 Java 5 中屏蔽密码？

我正在尝试用 Java 屏蔽密码 Sun java 建议了一种屏蔽密码的方法如下所示屏蔽密码它使用一种简单的方法来做到这一点 public void run stop true while stop System out print
使用自定义 AuthorizeAttribute 生成返回 URL

我有一个自定义授权属性 using System using System Web Mvc using System Web Routing AttributeUsage AttributeTargets Class AttributeTa
预取示例？

任何人都可以给出一个示例或使用示例的链接 builtin prefetch在 GCC 或一般的 asm 指令 prefetcht0 中获得显着的性能优势特别是我希望该示例满足以下标准这是一个简单小型独立的示例删除 builtin

预取示例？

预取示例？ 的相关文章

随机推荐

热门标签

预取示例？的相关文章