Haswell 微架构在性能中没有停滞周期后端

2024-04-01

我在 Haswell CPU（Intel Core i7-4790）上安装了 perf。但“性能列表”不包括“stalled-cycles-frontend”或“stalled-cycles-backend”。我检查了http://www.intel.com/content/www/us/en/processors/architectures-software-developer-manuals.html http://www.intel.com/content/www/us/en/processors/architectures-software-developer-manuals.html从表19-7（第四代智能英特尔酷睿处理器的处理器核心中的非架构性能事件）中没有找到与stalled-cycles-backend相关的性能事件。

所以我的问题是：如何使用 Haswell CPU 内核中的 perf 或其他工具来测量停滞周期后端。内核是3.19，perf版本也是3.19。

Thanks

是的，没有“停滞周期前端”和“停滞周期后端”合成事件的映射perf_events适用于 Ivy Bridge 或 Haswell 等较新处理器的内核子系统。并且在较旧的 Core 2 上没有映射。也许，这个名称/概念/想法不适合现代乱序 CPU 的变化和复杂的微体系结构，而无需对全局“失速”进行简单的标量测量。

代码is in arch/x86/events/intel/core.c http://elixir.free-electrons.com/linux/v4.11/source/arch/x86/events/intel/core.c#L3856，合成事件名称是PERF_COUNT_HW_STALLED_CYCLES_FRONTEND and PERF_COUNT_HW_STALLED_CYCLES_BACKEND:

__init int intel_pmu_init(void)
{...

两者都是从 Nehalem、Westmere、Sandy Bridge 开始定义的：

    case INTEL_FAM6_NEHALEM:
    case INTEL_FAM6_NEHALEM_EP:
    case INTEL_FAM6_NEHALEM_EX:

        /* UOPS_ISSUED.STALLED_CYCLES */
        intel_perfmon_event_map[PERF_COUNT_HW_STALLED_CYCLES_FRONTEND] =
            X86_CONFIG(.event=0x0e, .umask=0x01, .inv=1, .cmask=1);
        /* UOPS_EXECUTED.CORE_ACTIVE_CYCLES,c=1,i=1 */
        intel_perfmon_event_map[PERF_COUNT_HW_STALLED_CYCLES_BACKEND] =
            X86_CONFIG(.event=0xb1, .umask=0x3f, .inv=1, .cmask=1);

    case INTEL_FAM6_WESTMERE:
    case INTEL_FAM6_WESTMERE_EP:
    case INTEL_FAM6_WESTMERE_EX:

        /* UOPS_ISSUED.STALLED_CYCLES */
        intel_perfmon_event_map[PERF_COUNT_HW_STALLED_CYCLES_FRONTEND] =
            X86_CONFIG(.event=0x0e, .umask=0x01, .inv=1, .cmask=1);
        /* UOPS_EXECUTED.CORE_ACTIVE_CYCLES,c=1,i=1 */
        intel_perfmon_event_map[PERF_COUNT_HW_STALLED_CYCLES_BACKEND] =
            X86_CONFIG(.event=0xb1, .umask=0x3f, .inv=1, .cmask=1);


    case INTEL_FAM6_SANDYBRIDGE:
    case INTEL_FAM6_SANDYBRIDGE_X:


        /* UOPS_ISSUED.ANY,c=1,i=1 to count stall cycles */
        intel_perfmon_event_map[PERF_COUNT_HW_STALLED_CYCLES_FRONTEND] =
            X86_CONFIG(.event=0x0e, .umask=0x01, .inv=1, .cmask=1);
        /* UOPS_DISPATCHED.THREAD,c=1,i=1 to count stall cycles*/
        intel_perfmon_event_map[PERF_COUNT_HW_STALLED_CYCLES_BACKEND] =
            X86_CONFIG(.event=0xb1, .umask=0x01, .inv=1, .cmask=1);

仅为 Ivy Bridge 定义了前端停顿

    case INTEL_FAM6_IVYBRIDGE:
    case INTEL_FAM6_IVYBRIDGE_X:

        /* UOPS_ISSUED.ANY,c=1,i=1 to count stall cycles */
        intel_perfmon_event_map[PERF_COUNT_HW_STALLED_CYCLES_FRONTEND] =
            X86_CONFIG(.event=0x0e, .umask=0x01, .inv=1, .cmask=1);

对于较新的 CPU 桌面（Haswell、Broadwell、Skylake、Kaby Lake）和 Phi（KNL、KNM），没有前端和后端停顿的映射：

    case INTEL_FAM6_HASWELL_CORE:
    case INTEL_FAM6_HASWELL_X:
    case INTEL_FAM6_HASWELL_ULT:
    case INTEL_FAM6_HASWELL_GT3E:

    case INTEL_FAM6_BROADWELL_CORE:
    case INTEL_FAM6_BROADWELL_XEON_D:
    case INTEL_FAM6_BROADWELL_GT3E:
    case INTEL_FAM6_BROADWELL_X:


    case INTEL_FAM6_XEON_PHI_KNL:
    case INTEL_FAM6_XEON_PHI_KNM:


    case INTEL_FAM6_SKYLAKE_MOBILE:
    case INTEL_FAM6_SKYLAKE_DESKTOP:
    case INTEL_FAM6_SKYLAKE_X:
    case INTEL_FAM6_KABYLAKE_MOBILE:
    case INTEL_FAM6_KABYLAKE_DESKTOP:

也没有为旧 Core2 定义（没有检查 Atoms）：

http://elixir.free-electrons.com/linux/v4.11/source/arch/x86/events/intel/core.c#L27 http://elixir.free-electrons.com/linux/v4.11/source/arch/x86/events/intel/core.c#L27

static u64 intel_perfmon_event_map[PERF_COUNT_HW_MAX] __read_mostly =
{
    [PERF_COUNT_HW_CPU_CYCLES]      = 0x003c,
    [PERF_COUNT_HW_INSTRUCTIONS]        = 0x00c0,
    [PERF_COUNT_HW_CACHE_REFERENCES]    = 0x4f2e,
    [PERF_COUNT_HW_CACHE_MISSES]        = 0x412e,
    [PERF_COUNT_HW_BRANCH_INSTRUCTIONS] = 0x00c4,
    [PERF_COUNT_HW_BRANCH_MISSES]       = 0x00c5,
    [PERF_COUNT_HW_BUS_CYCLES]      = 0x013c,
    [PERF_COUNT_HW_REF_CPU_CYCLES]      = 0x0300, /* pseudo-encoding */
};

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Haswell 微架构在性能中没有停滞周期后端的相关文章

Intel x86 - 中断服务例程责任

我没有真正意义上的问题但我会尽力澄清内容问题假设我们有一个微内核 PC Intel x86 32 位保护模式中断描述符表 IDT and 中断服务程序 ISR 对于每个CPU异常 ISR 被成功调用例如Division by Zer
英特尔编译器值得吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案非常简单是英特尔编译器 http software intel com en us intel compilers 值得入手吗我主要从事系统
性能计数器类别名称？（C＃）

我正在尝试将性能计数器编程到我的 C 应用程序中该应用程序启动另一个进程并检查该启动进程的处理器使用情况据我了解性能计数器类要求我分配类别名称计数器名称和进程名称我可以很容易地获得进程名称但是互联网上是否有某种列表包含我可以分配
perf_event_open - 如何监视多个事件

有谁知道如何设置perf event attr可以通过以下方式触发 PMU 监视多个类型事件的结构perf event open Like perf record e cycles faults ls 它有两种不同的事件类型 PERF
对于尚未在缓存中的地址，CLFLUSH 如何工作？

我们正在尝试使用 Intel CLFLUSH 指令在用户空间刷新 Linux 中进程的缓存内容我们创建一个非常简单的 C 程序首先访问一个大数组然后调用 CLFLUSH 刷新整个数组的虚拟地址空间我们测量 CLFLUSH 刷新整个数
了解内存性能计数器

更新 2010 年 9 月 30 日由于我对此主题及相关主题进行了很多研究因此我将写下我从此处答案中提供的经验和建议中收集到的任何提示 1 使用内存分析器首先尝试使用 CLR Profiler 并找到消耗最大内存的例程并对其进行微调
系统性能计数器的实例名称是否已本地化？

Windows 中的性能计数器名称是本地化的因此例如计数器 Processor Total Processor Time在 Windows 的其他语言版本中称为其他名称这意味着为了找到正确的名称必须首先找到计数器的索引然后使用Pdh
如何在 Matlab 中将 PARFOR 与 Core i3 并行 4 工作

我有适用于 Ubuntu 64 位的 Matlab R2012b 我有一个 Intel Core i3 CPU M 330 2 13GHz 4 我想用parfor同时并行化 4 个循环因为 Intel Core i3 有 2 个核心和 4
具有与区域设置无关的 ID 的 get-counter

我正在尝试通过 cmdlet 访问以下反向路径get counter以与语言环境无关的方式 Memory Pool Nonpaged Bytes 我按照中的说明进行操作这个线程 https stackoverflow com questio
从 perf 获取用户空间堆栈信息

我目前正在尝试在我正在测试的 PostgreSQL 版本中追踪一些幻像 I O 它是一个多进程服务器将磁盘 I O 关联回特定后端和查询并不简单我还以为Linux的perf工具将是理想的选择但我正在努力捕获块 I O 性能计数器指标并
有没有办法将 kptr_restrict 设置为 0？

我目前在运行 linux perf 时遇到问题主要是因为 proc sys kernel kptr restrict当前设置为 1 但是如果我尝试 proc sys kernel kptr restrict通过回显 0 来如下 echo
写组合缓冲区位于哪里？ x86

Write Combine 缓冲区在物理上是如何连接的我见过说明许多变体的框图 L1 和内存控制器之间 CPU 的存储缓冲区和内存控制器之间 CPU 的 AGU 和或存储单元之间它依赖于微架构吗写缓冲区在不同的处理器中可以有不同的目
x86_64：IMUL 比 2x SHL + 2x ADD 更快吗？

当查看 Visual Studio 2015U2 生成的程序集时 O2 发布模式我看到这段手工优化的 C 代码被翻译回乘法 int64 t calc int64 t a return a lt lt 6 a lt lt 16 a 集会
Intel x86 与 AMD x86 CPU 上的访问性能不一致

我已经实现了一个带有结构内存布局数组的简单线性探测哈希图该结构包含键值和指示条目是否有效的标志默认情况下该结构体由编译器填充因为键和值是 64 位整数但该条目仅占用 8 个布尔值因此我也尝试以未对齐访问为代价来打包结构由于
使用 PerformanceCounters 来定位特定驱动器

伙计们我有以下代码 using System Diagnostics private PerformanceCounter diskRead new PerformanceCounter private PerformanceCounte
使用 rdmsr/rdpmc 提高分支预测精度

我试图了解分支预测单元在 CPU 中如何工作我用过papi还有linux的perf events但他们都没有给出准确的结果对于我的情况这是我的代码 void func int arr int sequence len for int
安装apk时INSTALL_FAILED_NO_MATCHING_ABIS

我尝试将我的应用程序安装到 Android L Preview Intel Atom 虚拟设备中但失败并出现错误 INSTALL FAILED NO MATCHING ABIS 这是什么意思 INSTALL FAILED NO MATCH
使用 perf 查找线程瓶颈并优化挂机时间

对 cpu 周期进行采样perf record如果核心利用率大致恒定则对于寻找优化候选非常有用但对于具有并行性不同的多个阶段的代码计算 cpu 周期将重点强调并行阶段而低估影响挂机时间的顺序或有限并行阶段简而言之天真的 perf
qemu kvm：如何获取性能监控中断？

我在操作系统内核中编写了一些函数以便在指令计数器溢出时发出性能监控中断 PMI 它在我的机器 Intel core i5 上运行良好但是当我使用 qemu 在 qemu 上运行它时 qemu system x86 64 enable k
AVX-512CD（冲突检测）与原子变量访问有何不同？

所以我在看他们展示了如何 void Histogram const float age int const hist const int n const float group width const int m const float o

随机推荐

如何使用 Eclipse PDT（xdebug 和 zend 调试器）调试 PHP 应用程序

我正在开发一个应用程序我正在使用 Eclipse php Helios IDE 来开发 php 应用程序 I 想知道以下事情与这个IDE相关这样我就可以立即高效地实现PHP应用程序 1 如何使用Eclipse PHP Helios ID
Django 管理界面中的只读模型？

如何在管理界面中使模型完全只读它是一种日志表我使用管理功能来搜索排序过滤等但不需要修改日志如果这看起来像重复的这里是not我正在尝试做什么我不是在寻找只读fields 即使将每个字段设为只读您仍然可以创建新记录我不想创建
在导出为 .csv 文件之前连接两个数据框

我正在制作一份大型调查问卷并且为不同问题例如 df1 和 df2 生成频率汇总表 a lt c 1 5 b lt c 4 3 2 1 1 Percent lt c 40 30 20 10 10 df1 lt data frame a b
如何为订单中的位置设置动画？

我想按顺序移动拼图块而不是立即移动这是我的脚本 document ready function left click function for var i 1 i lt length i var string s i toString
高效地将 Swift Array 复制到 iOS Metal 的内存缓冲区

我正在使用 Apple 的新 Metal 框架编写 iOS 应用程序我有一个 Matrix4 对象数组请参阅Ray Wenderlich 的教程 http www raywenderlich com 81399 ios 8 metal
JS-将函数分配给变量[重复]

这个问题在这里已经有答案了众所周知下面这个不会运行 a 函数 so the 不会出现警告框 1st function a alert A return function alert B 我们知道下面的代码将运行 a 函数 and 警报框
在 Firefox 插件中访问历史记录

我正在使用插件生成器开发 Firefox 插件我想定期扫描浏览器的历史记录整个历史记录我正在寻找类似的功能chrome 的历史记录 api http developer chrome com extensions history ht
如何从另一个数据表中获取通过几个列值过滤的子集数据表？

我遇到的问题是我的搜索条件是 Row colName abc AND Row colName def AND Row colName ghic AND Row colName klm AND Row colName xyz AND Row
使用 NSNumberFormatter 从国际货币字符串中获取十进制值

似乎 NSNumberFormatter 无法将欧元可能还有其他货币字符串解析为数字类型有人可以证明我错了吗我尝试使用以下方法从货币字符串中获取数字金额 NSNumberFormatter currencyFormatter NSN
WSO2 DAS 是 WSO2 BAM 的新名称还是后续产品？

我们正在评估 WSO2 API Manager 1 8 0 WSO2 AM 和 WSO2 Business Activity Monitor 2 5 0 WSO2 BAM 从我们的支持合作伙伴 Yenlo 处我们得到了 WSO2 建议建
如何使用 sql server management studio 将 blob 插入数据库

如何轻松地将 blob 插入到varbinary MAX field 举个例子我要插入的是 c picture png该表是我的表该列是 mypictureblob这个地方是recid 1 您可以在 SQL Server Manageme
如何更改 Eclipse for Android 中的 Control+Space 自动完成快捷键

当我在 Android xml 文件例如活动菜单中并输入 android 然后会弹出自动完成功能我可以选择一个选项但是如果我有类似的东西 android showAsAction 将光标放在引号内然后我不会自动完成引号内的选项
解压大zst文件

我有一个 16GB 的压缩 zst 文件我该如何在windows上解压它我没有内存来处理解压版本因此需要将其直接写入文件冒着听起来显而易见的风险您需要一个支持 zstandard 的 Windows 解压缩器 At the zst
基于 ATL 的链接器错误

我最近遇到了 atls lib 的链接问题我用以下内容更新了链接器的附加依赖项行 comctl32 lib C WinDDK 7600 16385 1 lib ATL i386 atls lib C WinDDK 7600 16385 1
如何将十六进制字符串分配给 char[] 变量？

假设我的十六进制字符串 hexStr aecf 如何将十六进制字符串值分配给unsigned char myChar 如下谢谢 myChar 0 0xae myChar 1 0xcf 您可以按如下方式转换数据 char hexstr ae
如何创建可以使用 rundll32.exe 运行而无需指定入口点的本机 C++ DLL

我将如何创建一个可以使用 rundll32 exe 执行的本机 dll不指定入口点例子 C gt rundll32 exe mydll dll 我在 Visual Studio 上创建了一个 DLL 项目但我不知道在哪里放置我的代码 V
对 15 个谜题状态进行哈希处理的有效方法的想法

我正在通过蚁群优化实现一个 15 谜题求解器并且正在考虑一种有效地将每个状态散列为数字的方法因此我浪费了最少的字节状态由 16 个数字的列表表示从 0 到 15 0 是空洞 Like 1 2 3 4 5 6 7 8 9 10 11
Oracle 处理很长的 IN 运算符列表的效率如何

我有以下查询这是一个更复杂的查询的简化版本 SELECT FROM TPM TASK WHERE PROJECTID VERSIONID IN 3 1 24 1 4 1 在代码中我将构建它 PROJECTID VERSIONID 以编程方
对 PictureBox 的透明控制

在我的 C 表单中我有一个标签显示下载事件中的下载百分比 this lblprg Text overallpercent ToString 0 Label 控件的 BackColor 属性设置为透明我希望它显示在 PictureBox
Haswell 微架构在性能中没有停滞周期后端

我在 Haswell CPU Intel Core i7 4790 上安装了 perf 但性能列表不包括 stalled cycles frontend 或 stalled cycles backend 我检查了http www int

Haswell 微架构在性能中没有停滞周期后端

Haswell 微架构在性能中没有停滞周期后端 的相关文章

随机推荐

热门标签

Haswell 微架构在性能中没有停滞周期后端的相关文章