程序何时会受益于预取和非临时加载/存储？

2024-01-04

我用这个做了测试

    for (i32 i = 0; i < 0x800000; ++i)
    {
        // Hopefully this can disable hardware prefetch
        i32 k = (i * 997 & 0x7FFFFF) * 0x40;

        _mm_prefetch(data + ((i + 1) * 997 & 0x7FFFFF) * 0x40, _MM_HINT_NTA);

        for (i32 j = 0; j < 0x40; j += 0x10)
        {
            //__m128 v = _mm_castsi128_ps(_mm_stream_load_si128((__m128i *)(data + k + j)));
            __m128 v = _mm_load_ps((float *)(data + k + j));

            a_single_chain_computation

            //_mm_stream_ps((float *)(data2 + k + j), v);
            _mm_store_ps((float *)(data2 + k + j), v);
        }
    }

结果很奇怪。

无论有多少时间a_single_chain_computation需要注意的是，加载延迟并未被隐藏。
更重要的是，随着我添加更多计算，所花费的额外总时间也会增加。（与单个v = _mm_mul_ps(v, v)，预取大约节省 0.60 - 0.57 = 0.03s。并与 16v = _mm_mul_ps(v, v)，大约节省 1.1 - 0.75 = 0.35s。为什么？）
无论是否预取，非临时加载/存储都会降低性能。（我可以理解负载部分，但为什么商店也能理解？）

您需要在这里区分两个不同的东西（不幸的是它们具有相似的名称）：

非临时预取 - 这将预取该行，但在填充缓存时将其写入最近最少使用的行，因此当您下次使用同一组时，它将成为第一个被逐出的行。这让你有足够的时间来实际使用它（除非你非常不幸），但不会浪费超过该集合中的一个路径，因为下一个预取将取代它。顺便说一句，关于您上面的评论 - 每次预取都会污染 L3 缓存，它是包容性的，所以如果没有它，您就无法逃脱。
非临时（流）加载/存储 - 这也不会污染缓存，但使用完全不同的机制使它们不可缓存（以及写入组合）。这确实会对性能造成影响即使你真的不再需要这些行，因为可缓存写入可以在缓存中保留缓冲直到被逐出，所以您不必立即将其写出。对于不可缓存的情况，在某些情况下，它可能会干扰您的内存带宽。另一方面，您可以获得写入组合和弱排序的好处，这可能会给您带来一些优势（在某些情况下）。这里的底线是，您应该仅在有帮助时才使用它，不要认为它会神奇地提高性能（现在没有什么能做到这一点......）

关于你的问题——

您的预取应该可以工作，但还不够早，无法产生影响。尝试更换i+1数量较多。实际上，甚至可以进行一次扫描，看看您应该提前查看多少元素，这会很有趣。
我猜这与 1 相同 - 有 16 个 muls，你的迭代足够长，可以让预取工作
正如我所说 - 您的存储不会受益于较低级别缓存中的缓冲，并且必须刷新到内存。这就是流媒体商店的缺点。当然，它是特定于实现的，因此它可能会有所改进，但目前并不总是有效。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

SSE

Prefetch

Temporal

程序何时会受益于预取和非临时加载/存储？的相关文章

c# 从另一个类中的另一个静态事件引发事件

需要帮助从另一个班级调用事件我有已声明事件的课程 public class MxPBaseGridView GridView public event AddNewItemsToPopUpMenuEventHandler AddNewIt
我如何知道 C 程序的可执行文件是在前台还是后台运行？

在我的 C 程序中我想知道我的可执行文件是否像这样在前台运行 a out 或者像这样 a out 如果你是前台工作 getpgrp tcgetpgrp STDOUT FILENO or STDIN FILENO or STDERR FIL
锁定 ASP.NET 应用程序变量

我在 ASP NET 应用程序中使用第三方 Web 服务对第 3 方 Web 服务的调用必须同步但 ASP NET 显然是多线程的并且可能会发出多个页面请求从而导致对第 3 方 Web 服务的同时调用对 Web 服务的调用封装在自
进程退出后 POSIX 名称信号量不会释放

我正在尝试使用 POSIX 命名信号量进行跨进程同步我注意到进程死亡或退出后信号量仍然被系统打开在进程打开它死亡或退出后是否有办法使其关闭释放早期的讨论在这里当将信号量递减至零的进程崩溃时如何恢复信号量 https sta
将设置函数（setter）标记为 constexpr 的目的是什么？ [复制]

这个问题在这里已经有答案了我无法理解将 setter 函数标记为的目的constexpr 自 C 14 起这是允许的我的误解来自以下情况我使用 constexpr c tor 声明一个类并且我将通过创建该类的 constexpr 实
在 ASP.NET MVC 中将模型从视图传递到控制器

我正在 ASP NET MVC 中开发我的第一个应用程序但遇到了一个我无法解决的问题即使在阅读了整个互联网之后也是如此因此我有几个使用视图模型创建的视图它们是报告这些视图模型是根据用户选择标准填充的我正在尝试构建一种接受模型并
C 中“complex”的默认类型

根据我读过的文档 C99 和更高版本的支持float complex double complex and long double complex作为复杂类型但是此代码在使用时编译时不会发出警告gcc Wall Wextra inclu
while循环中的变量初始化

我有一个可以分块读取文件的函数 public static DataObject ReadNextFile 数据对象看起来像这样 public DataObject public string Category get set And ot
C# 编译器数字文字

有谁知道 C 编译器数字文字修饰符的完整列表默认情况下声明 0 使其成为 Int32 声明 0 0 使其成为 Double 我可以在末尾使用文字修饰符 f 来确保某些内容被视为 Single 例如像这样 var x 0 x is Int
子目录中的头文件（例如 gtk/gtk.h 与 gtk-2.0/gtk/gtk.h）

我正在尝试使用 GTK 构建一个 hello world 其中包括以下行 include
如何使用递归查找数字中的最小元素 [C]

好的所以我正在准备我的 C 考试当谈到递归时我有点卡住了我是大学一年级的学生这对我来说似乎有点困难练习要求在给定的数字中使用递归函数我需要找到最小的元素例如 52873 是 2 程序需要打印 2 include
Resharper：IEnumerable 的可能多重枚举

我正在使用新的 Resharper 版本 6 在我的代码中的几个地方它给一些文本加了下划线并警告我可能存在IEnumerable 可能的多重枚举我理解这意味着什么并在适当的情况下采纳了建议但在某些情况下我不确定这实际上是一个大问
使用 OleDbCommandBuilder 时访问 SQL 语法错误

我要在 C 中使用 OleDbDataAdapter 在 Access 数据库中插入数据但收到错误消息INSERT INTO 命令中的语法错误 BackgroundWorker worker new BackgroundWorker Ol
ALTER TABLE ... ADD CONSTRAINT 失败时将事务回滚到保存点

有没有办法在事务中添加检查约束and如果失败回滚到以前的保存点而不是回滚整个事务就我而言当 ALTER TABLE ADD CONSTRAINT 命令失败时事务无法回滚到保存点尝试这样做会引发 InvalidOperationEx
“必须声明标量变量”错误[重复]

这个问题在这里已经有答案了必须声明标量变量 Id SqlConnection con new SqlConnection connectionstring con Open SqlCommand cmd new SqlCommand cm
将 Swagger 与命名空间版本的 WebApi 结合使用

我已经找到了如何使用基于名称空间的 WebAPI 版本这个班 https aspnet codeplex com SourceControl changeset view dd207952fa86 Samples WebApi Namesp
如何提高环复杂度？

对于具有大量决策语句包括 if while for 语句的方法循环复杂度会很高那么我们该如何改进呢我正在处理一个大项目我应该减少 CC gt 10 的方法的 CC 并且有很多方法都存在这个问题下面我将列出一些例如我遇到的问题的
SQL Server“未找到网络路径”在不同环境中随机且不频繁地发生

类似如果不是同一个问题随机遇到网络路径未找到异常 https stackoverflow com questions 38696448 network path not found exception encountered rando
为什么表达式 a = a + b - ( b = a ) 在 C++ 中给出序列点警告？

以下是测试代码 int main int a 3 int b 4 a a b b a cout lt lt a lt lt a lt lt lt lt b lt lt b lt lt n return 0 编译此命令会出现以下警告 gt g
C++ Boost ASIO 简单的周期性定时器？

我想要一个非常简单的周期性计时器每 50 毫秒调用我的代码我可以创建一个始终休眠 50 毫秒的线程但这很痛苦我可以开始研究用于制作计时器的 Linux API 但它不可移植 I d like使用升压我只是不确定这是否可能 boost

随机推荐

禁用 JShell 历史记录

默认情况下 JShell 启用所有键入内容的持久历史记录可以通过按向上箭头来调用关闭此功能的设置在哪里另外我如何清除当前历史记录也许我比较笨但是我不明白这个命令 reset似乎什么也没做另外我如何清除当前历史记录我提出
为什么用Java VisualVM监控Tomcat时堆空间不断增大？

我有一个在 Tomcat 中运行的 JRubyOnRails 应用程序浏览到我的应用程序 localhost 登录然后什么都不做后堆空间似乎在不断增长这正常吗如果我按执行 GC 它会再次下降我想知道如果我将其保留到其达到计算机
Findbugs android gradle 插件

我有一个安卓项目我想介绍findbugs在我的项目中作为 gradle 插件我尝试编辑项目的build gradle如下 buildscript repositories mavenCentral maven url https mav
Intent.EXTRA_EMAIL 未填充“收件人”字段

我正在尝试使用intent questions tagged intent从我的应用程序发送电子邮件但电子邮件的收件人字段不会填充如果我添加代码来填写主题或文本它们就可以正常工作仅收件人字段不会填充我也尝试将类型更改为 t
从文件中的每一行创建一个字典

我正在尝试从这个文件创建一个字典键是第一个单词值是后面的所有单词 andrew fred fred judy andrew fred george judy andrew john george 这是我的代码 follows file
AngularJS - 启用 HTML5 模式页面刷新而不会出现 404 错误 [重复]

这个问题在这里已经有答案了我也尝试通过设置 locationProvider html5Mode true 在 ui routing 和 base href 中它删除了哈希值但在刷新时它给出了404错误请帮帮我正如其他人所说启用
在重复的动态类型部分视图中从匿名类型属性发出 HTML 字符串

我将匿名类型传递到动态部分视图中作为 model 其中一个属性是包含一些 HTML 的字符串当我使用HtmlHelper方法来呈现属性 Razor 引擎正在对字符串进行编码从而在页面上生成文字文本 i text i 在这种情况下而不是
PowerShell 舍入和格式浮点到最多 2 位小数？

我发现了很多东西可以将浮点数格式化为常见的已知数字但是如何将浮点数格式化为最多 2 位小数但前提是需要小数例子 1 11 not 1 111 1 12 it was 1 116 round up 1 1 not 1 10 1 not
逐行比较 2 个数据帧的随时间分析

这是我正在使用的数据框的一小部分以供参考 https i stack imgur com 7fdwL jpg我正在 R 中使用一个数据框 MG53 HanLab 其中有一列时间几列名称为 MG53 的列几列名称为 F2 的列以及几列名
有没有办法让 git 忽略整个分支？

这可能违背了 git 的设计理念但是在我的组织中我不断地删除数千个开发人员分支例如Dev
std 函数 std::_Rb_tree_rebalance_for_erase () 中的分段错误

请注意未来的读者不出所料错误出现在我的代码中而不是 std Rb tree rebalance for erase 我对编程有点陌生不确定如何处理似乎来自 std 函数的分段错误我希望我做了一些愚蠢的事情即滥用容器因为我不知道
ValidationMessages.properties 文件之间的冲突

我习惯将所有验证约束收集在一个公共库中在罐子的根部我放了一个ValidationMessages it properties文件一切正常如果我将此库放入 jsf 2 war 项目中所有验证消息都会正确显示但是如果我再放一个就会
JS/CSS 幻灯片效果适用于小提琴，不适用于 html

我的第一个问题是小提琴不工作现在它可以工作了但是如果我将它复制到括号文件中它就不再工作了我确实包含了放置在外部资源中的链接这是小提琴 https jsfiddle net wtbdxx2b 6 https jsfiddle net
Python 更新 SQL 数据库时出错

我有一些看起来像这样的 python 代码 import pypyodbc import pandas as pd home c SQL df pd read sql query sql4 conn3 for y1 in range 0 k
获取已安装服务的版本信息？

我想以编程方式检查是否安装了最新版本的 Windows 服务我有 var ctl ServiceController GetServices Where s gt s ServiceName MyService FirstOrDefaul
PHP 执行时显示加载图像

我想在 php 脚本执行时显示加载图像我读过关于如何做到这一点的不同答案但大多数人都说我应该有一个单独的 php 页面但是我使用单页来显示行那么如何才能显示加载图像我用来获取数据的选择查询示例 stmt mydb gt prepa
在长字符串中插入换行符——自动换行

这是我编写的一个函数用于将长字符串分成不长于给定长度的行 strBreakInLines lt function s breakAt 90 prepend words lt unlist strsplit s if length word
android - 启动另一个应用程序的活动以获取其结果

我有两个应用程序 A 和 B 我从 A 启动 B 以获取结果使用以下代码 Intent fmIntent getPackageManager getLaunchIntentForPackage com example B fmIntent
BLE 设备在完美工作数周后停止与 Android 连接

我有一台配备 Blue Gecko BLE 的设备在各种 Android 手机和平板电脑上一切似乎都工作正常连接数据传输以及断开连接后重新连接注意我们不配对我们的设备它只是连接并且我们不使用自动连接现在的问题是有时某些设备
程序何时会受益于预取和非临时加载/存储？

我用这个做了测试 for i32 i 0 i lt 0x800000 i Hopefully this can disable hardware prefetch i32 k i 997 0x7FFFFF 0x40 mm prefetch

程序何时会受益于预取和非临时加载/存储？

程序何时会受益于预取和非临时加载/存储？ 的相关文章

随机推荐

热门标签

程序何时会受益于预取和非临时加载/存储？的相关文章