为什么我的超便携笔记本电脑 CPU 无法在 HPC 中保持最佳性能

2023-12-11

我开发了一个高性能Cholesky 分解例程，在单个 CPU 上应具有约 10.5 GFLOP 的峰值性能（无超线程）。但是当我测试它的性能时，有一些我不明白的现象。在我的实验中，我测量了矩阵维度 N 从 250 增加到 10000 时的性能。

在我的算法中，我应用了缓存（带有调整的阻塞因子），并且在计算期间始终以单位步幅访问数据，因此缓存性能是最佳的；消除了TLB和分页问题；
我有 8GB 可用 RAM，实验期间最大内存占用低于 800MB，因此不会出现交换；
在实验过程中，没有像Web浏览器这样的资源消耗大的进程同时运行。只有一些非常便宜的后台进程正在运行，每 2 秒记录一次 CPU 频率和 CPU 温度数据。

我预计无论我测试的 N 是什么，性能（以 GFLOP 为单位）都应保持在 10.5 左右。但在实验中间观察到性能显着下降，如第一张图所示。

CPU频率和CPU温度如图2和3所示。实验在 400 秒内完成。实验开始时温度为51度，当CPU繁忙时温度迅速升至72度。之后慢慢增长到最高78度。 CPU频率基本稳定，温度高时没有下降。

所以，我的问题是：

既然CPU频率没有下降，为什么性能会受到影响？
how exactly does temperature affect CPU performance? Does the increment from 72 degree to 78 degree really make things worse?

CPU info

System: Ubuntu 14.04 LTS
Laptop model: Lenovo-YOGA-3-Pro-1370
Processor: Intel Core M-5Y71 CPU @ 1.20 GHz * 2

Architecture:          x86_64
CPU op-mode(s):        32-bit, 64-bit
Byte Order:            Little Endian
CPU(s):                4
On-line CPU(s) list:   0,1
Off-line CPU(s) list:  2,3
Thread(s) per core:    1
Core(s) per socket:    2
Socket(s):             1
NUMA node(s):          1
Vendor ID:             GenuineIntel
CPU family:            6
Model:                 61
Stepping:              4
CPU MHz:               1474.484
BogoMIPS:              2799.91
Virtualisation:        VT-x
L1d cache:             32K
L1i cache:             32K
L2 cache:              256K
L3 cache:              4096K
NUMA node0 CPU(s):     0,1

CPU 0, 1
driver: intel_pstate
CPUs which run at the same hardware frequency: 0, 1
CPUs which need to have their frequency coordinated by software: 0, 1
maximum transition latency: 0.97 ms.
hardware limits: 500 MHz - 2.90 GHz
available cpufreq governors: performance, powersave
current policy: frequency should be within 500 MHz and 2.90 GHz.
                The governor "performance" may decide which speed to use
                within this range.
current CPU frequency is 1.40 GHz.
boost state support:
  Supported: yes
  Active: yes

更新1（对照实验）

在我最初的实验中，CPU从N=250一直忙到N=10000。很多人（主要是那些在重新编辑之前看到这篇文章的人）怀疑CPU过热是性能下降的主要原因。然后我回去安装了lm-sensorslinux包跟踪这些信息，确实，CPU温度上升了。

但为了完成图片，我做了另一个对照实验。这次，我在每个 N 之间给 CPU 一个冷却时间。这是通过要求程序在 N 次循环迭代开始时暂停几秒钟来实现的。

N在250～2500之间，冷却时间为5s；
N在2750～5000之间，冷却时间为20s；
N在5250～7500之间，冷却时间为40s；
最后对于7750到10000之间的N，冷却时间为60s。

请注意，冷却时间远大于计算所花费的时间。对于 N = 10000，在峰值性能下 Cholesky 分解只需要 30 秒，但我要求 60 秒的冷却时间。

这当然是一个非常无趣高性能计算中的设置：我们希望我们的机器始终以峰值性能工作，直到完成一个非常大的任务。所以这种停顿是没有意义的。但它有助于更好地了解温度对性能的影响。

这次，我们看到所有 N 都达到了峰值性能，正如理论所支持的那样！CPU频率和温度的周期性特征是散热和升压的结果。温度仍然有增加的趋势，只是因为随着N的增加，工作量越来越大。这也证明了需要更多的冷却时间才能充分冷却，正如我所做的那样。

达到峰值性能似乎排除了除温度以外的所有影响。但这确实很烦人。基本上它表示计算机在 HPC 中会感到疲劳，因此我们无法获得预期的性能增益。那么开发HPC算法的意义何在呢？

OK, here are the new set of plots:

不知道为什么我无法上传第6张图。所以在添加第六个数字时根本不允许我提交编辑。所以很抱歉我无法附上 CPU 频率的数字。

更新2（我如何测量CPU频率和温度）

感谢 Zboson 添加 x86 标签。下列bash命令是我用于测量的命令：

while true
do 
  cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_cur_freq >> cpu0_freq.txt  ## parameter "freq0"
  cat sys/devices/system/cpu/cpu1/cpufreq/scaling_cur_freq >> cpu1_freq.txt  ## parameter "freq1"
  sensors | grep "Core 0" >> cpu0_temp.txt  ## parameter "temp0"
  sensors | grep "Core 1" >> cpu1_temp.txt  ## parameter "temp1"
  sleep 2
done

由于我没有将计算固定到 1 个核心，因此操作系统将交替使用两个不同的核心。采取更有意义

freq[i] <- max (freq0[i], freq1[i])
temp[i] <- max (temp0[i], temp1[i])

作为整体测量。

TL:DR: 你的结论是正确的。您的 CPU 的持续性能远未达到峰值。这是正常的：考虑到轻量级散热器、风扇和供电，峰值性能仅作为突发交互式工作负载的短期“奖励”，高于其额定持续性能。

您可以在这台机器上开发/测试，但基准测试会很困难。您需要在集群、服务器或台式机上运行，或者至少在游戏/工作站笔记本电脑上运行。

从你发布的CPU信息来看，你有一个双核超线程 Intel Core M，额定可持续频率 1.20 GHz，布罗德韦尔一代。其最大睿频频率为 2.9GHz，TDP-up 可持续频率为 1.4GHz（6W 时）。

对于短时间突发，它可以运行much比其冷却系统需要处理的速度更快并产生更多的热量。这是什么英特尔的“涡轮增压”功能就是这样。它可以让像您这样的低功耗超便携笔记本电脑在网络浏览器等内容中拥有快速的 UI 性能，因为交互式的 CPU 负载几乎总是突发性的。

台式机/服务器 CPU（Xeon 和 i5/i7，但不是 i3）仍然具有睿频，但持续频率是much更接近最大涡轮增压。例如A哈斯韦尔 i7-4790k具有 4.0GHz 的持续“额定”频率。在该频率及以下频率下，它的消耗（并转化为热量）不会超过其额定 TDP 88W。因此，它需要一个能够处理 88W 功率的冷却系统。当功率/电流/温度允许时，它的时钟频率可达 4.4GHz，功耗超过 88W。（用于计算功率历史记录以保持 88W 持续功率的滑动窗口有时可以在 BIOS 中配置，例如 20 秒或 5 秒。根据运行的代码，4.4GHz 可能不会将电流需求增加到接近峰值的任何位置。具有大量分支错误预测的代码仍然受到 CPU 频率的限制，但这远没有像 Prime95 那样使 256b AVX FP 单元饱和。）

您的笔记本电脑的最大睿频比额定频率高 2.4 倍。高端 Haswell 台式机 CPU 只能升频 1.1 倍。最大持续频率已经非常接近最大峰值限制，因为它需要一个良好的冷却系统来跟上这种热量的产生。还有一个可以提供那么大电流的固态电源。

Core M 的目的是让 CPU 能够can将自身限制在超低功率水平（1.2GHz 时额定 TDP 为 4.5W，1.4GHz 时额定 TDP 为 6W）。因此，笔记本电脑制造商可以安全地设计一个又小又轻的冷却和电力传输系统，并且只能处理那么多的电力。 “场景设计功率”仅为 3.5W，这应该代表实际代码的散热要求，而不是 Prime95 等最大功率的东西。

即使是“普通”ULV 笔记本电脑 CPU 的持续额定功率为 15W，高功率游戏/工作站笔记本电脑 CPU 的额定功率为 45W。当然，笔记本电脑供应商将这些 CPU 放入具有更强大散热器和风扇的机器中。看到维基百科上的表格，并比较桌面/服务器 CPU（也在同一页面上）。

巅峰表现的实现似乎排除了所有影响除了温度之外。但这确实很烦人。基本上它说那台计算机在 HPC 中会感到疲倦，所以我们无法达到预期性能增益。那么开发HPC算法的意义何在呢？

重点是在热限制不太严重的硬件上运行它们！像 Core M 这样的超低功耗 CPU 是一个不错的开发平台，但是not一个好的 HPC 计算平台。

即使是配备 xxxxM CPU（而不是 xxxxU CPU）的笔记本电脑也可以。（例如，设计用于持续运行 CPU 密集型内容的“游戏”或“工作站”笔记本电脑）。或者在 Skylake 系列中，“xxxxH”或“HK”是 45W 移动 CPU，至少是四核。

进一步阅读：

现代微处理器 90 分钟指南！
[现代处理器中的电源传输] - 一般背景，包括 Pentium 4 遇到的“电源墙”。 (https://www.realworldtech.com/power-delivery/） - 对 CPU/主板设计进行真正深入的技术探讨，以及为非常突发的需求提供稳定的低电压的挑战，以及在改变频率时对 CPU 请求更多/更少电压的快速反应。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么我的超便携笔记本电脑 CPU 无法在 HPC 中保持最佳性能的相关文章

子查询与连接

我重构了从另一家公司继承的应用程序的一个缓慢部分以使用内部联接而不是子查询例如 WHERE id IN SELECT id FROM 重构后的查询运行速度提高了约 100 倍 50 秒到 0 3 我预计会有改进但谁能解释为什么它如此剧
Emacs 行编号性能

我试过了linum and nlinum 两者对于超过 100k 行的文件的性能都很糟糕 for x in 1 100000 do echo x done gt 100k txt emacs q 100k txt M x load libr
渲染 ThreeJS 应用程序第一帧时的性能问题

目前当我渲染以下内容时我的 ThreeJS 应用程序的性能受到很大影响第一帧它会导致 Edge 和 IE 11 浏览器冻结 5 秒并弹出窗口指示此窗口没有响应这可能会吓到我的用户使用 Chrome 的性能分析器问题似乎来自几
为什么 pandas 在简单的数学运算上比 numpy 更快？

最近我观察到 pandas 的乘法速度更快我在下面的例子中向您展示了这一点如此简单的操作怎么可能做到这一点这怎么可能呢 pandas 数据帧中的底层数据容器是 numpy 数组测量我使用形状为 10k 10k 的数组数据框 i
X86 预取优化：“计算 goto”线程代码

我有一个相当重要的问题我的计算图有循环和多个计算路径我没有制作一个调度程序循环其中每个顶点将被一一调用而是将所有预先分配的框架对象放置在堆中代码数据这有点类似于线程代码甚至更好 CPS 只是在堆中跳转执行代码每个代
如何在程序中将自己缝合到自己的尾部，无限循环地封装 64KB 代码段？

如果指令的顺序执行经过偏移量 65535 则8086将从同一代码段中的偏移量 0 处获取下一个指令字节接下来的 COM 程序利用这一事实不断将其整个代码总共 32 个字节缝合到自己的尾部环绕在 64KB 代码段中你可以称之为二元
为什么 System.nanoTime() 比 System.currentTimeMillis() 慢（性能）？

今天我做了一个快速基准测试来测试速度性能System nanoTime and System currentTimeMillis long startTime System nanoTime for int i 0 i lt 1000000
将数据从一个线程传递到另一个线程的最快可能方法

我正在使用增强spsc queue将我的东西从一个线程移动到另一个线程这是我的软件中的关键位置之一所以我想尽快完成它我写了这个测试程序 include
为什么对于小数组，for-of 循环比标准 for 循环快，而对于大数组则慢？

在 JavaScript 中我注意到 ES6for of循环的性能与传统的有很大不同for start stop step loop 基准 const n 10000 const arr Array n fill map e i gt i
iPhone 3GS 上的 ARM 与 Thumb 性能比较，非浮点代码

我想知道是否有人有关于 iPhone 3GS 上 ARM 与 Thumb 代码性能的硬性数据特别是对于非浮点 VFP 或 NEON 代码我知道 Thumb 模式下的浮点性能问题更大的 ARM 指令的额外代码大小是否会在某个时刻成为性能
优化 LATERAL join 中的慢速聚合

在我的 PostgreSQL 9 6 2 数据库中我有一个查询该查询根据一些股票数据构建计算字段表它为表中的每一行计算 1 到 10 年的移动平均窗口并将其用于周期性调整具体来说 CAPE CAPB CAPC CAPS 和 CAP
Android 性能：SharedPreferences 的成本

当我的应用程序启动时我使用分片首选项中的值填充容器类这个想法是处理 SharedPreferences 和 PreferenceManager 一次因为我猜它们很重这是一个示例 SharedPreferences prefs Pre
Haskell：IORef 的性能

我一直在尝试在 Haskell 中编码一个需要使用大量可变引用的算法但与纯粹的惰性代码相比它也许并不奇怪非常慢考虑一个非常简单的例子 module Main where import Data IORef import Contr
使用 APDU 命令的有效 NFC 读取比特率是多少？

我目前正在使用 Android IsoDep trancieve 函数发送和接收累计 1628 字节的数据该函数分布在 35 个 APDU 命令选择应用程序身份验证读取中字节计数包括返回的 MAC 校验和以及由 transcie
哪些属性有助于运行时 .Net 性能？

我正在寻找可用于通过向加载器 JIT 编译器或 ngen 提供提示来确保 Net 应用程序获得最佳运行时性能的属性例如我们有可调试属性 http msdn microsoft com en us library k2wxda47 aspx
python 日志记录会刷新每个日志吗？

当我使用标准模块将日志写入文件时logging 每个日志会分别刷新到磁盘吗例如下面的代码会将日志刷新 10 次吗 logging basicConfig level logging DEBUG filename debug log fo
添加冗余赋值可以在未经优化的情况下编译时加快代码速度

我发现一个有趣的现象 include
使用 FileInputStream 时如何确定理想的缓冲区大小？

我有一个从文件创建 MessageDigest 哈希的方法我需要对很多文件 gt 100 000 执行此操作用于读取文件的缓冲区应该设置多大才能最大限度地提高性能大多数人都熟悉基本代码为了以防万一我将在这里重复一遍 Messag
R、Rcpp 与 Armadillo 中矩阵 rowSums() 与 colSums() 的效率

背景来自 R 编程我正在扩展到 C C 形式的编译代码Rcpp 作为循环交换以及一般的 C C 效果的实践练习我实现了 R 的等效项rowSums and colSums 矩阵的函数Rcpp 我知道它们以 Rcpp 糖的形式存在并
为什么n++执行速度比n=n+1快？

在C语言中为什么n 执行速度快于n n 1 int n n int n n n 1 我们的老师在今天的课堂上问了这个问题这不是家庭作业如果您正在开发一个石器时代编译器的情况下石器时代 n比n 比n n 1 机器通常有incre

随机推荐

为什么这个汇编程序会输出相同的字符串两次？

此凯撒密码程序生成解密字符串长度始终为 10 并输出为 output txt 文件例如下面的代码创建 txt 文件 ILIKEASSEM HOWAREYOUU 但是当我运行这段代码时该文件是 ILIKEASSEM ILIKEASSEM
除以零后的余数

我知道数学中不允许除以零但是我可以使用零模吗我应该得到什么答案例如 10 0 5 0 标准将其定义为未定义在几乎所有处理器中求模都是通过与除法相同的功能来执行的在现代较大的处理器中它是一条指令例如 x86 大多数情况下该
CSS 选择器中的空格

在选择器中空格可以指示后代不过我发现空格也可以忽略根据我的测试这就是我的think它的意思是周围可以使用空格和上下文字符例如 and gt 空格可能not用于伪类和元素字符 and 以及属性选择器空格可能not与类和 id
链接服务器 SQLNCLI 问题。 “没有活跃的交易”

我尝试执行存储过程并将其结果简单地插入到临时表中并且收到以下消息无法执行该操作因为 OLE DB 提供程序 SQLNCLI 对于链接服务器 MyServerName 无法开始分布式交易用于链接服务器的 OLE DB 提供程序 SQ
使用 CSS 无限移动多个背景

我有两个背景 body background image url img nemo png url img ocean png 我该如何制作nemo png background左右无限移动但不影响ocean png background
如何使用外部 CSS 覆盖内联样式？

我有使用内联样式的标记但我无权更改此标记如何仅使用 CSS 覆盖文档中的内联样式我不想使用 jQuery 或 JavaScript HTML div style font size 18px color red Hello World
报告长期运行的 Celery 任务的结果

Problem 我已将长时间运行的任务分割为逻辑子任务因此我可以在每个子任务完成时报告其结果然而我试图报告一项实际上永远不会完成的任务的结果而不是在进行过程中产生值并且正在努力使用我现有的解决方案来做到这一点背景我正在为我编写
如何在满足给定条件时终止Python中的多进程？ [复制]

这个问题在这里已经有答案了假设我有这个功能 def f while True x generate something if x condition return x if name main p Pool 4 我想在多进程中运行此函数
使用clone()和printf的段错误

我正在尝试如何clone 在 Linux 3 10 0 327 3 1 el7 x86 64 中为线程实现我正在运行这段代码偶尔会出现段错误我知道如果我使用CLONE THREAD那么就没有办法检查线程是否完成但是为什么printf
如何让列表视图只显示3个项目

我有一个列表视图其中正在加载 10 个项目我希望滚动时只显示 3 个项目我不想通过调整列表高度来做到这一点即使滚动很小意味着没有项目应该部分显示我也只想显示 3 个项目如何实现这一目标提前致谢我将发布一个代码我用它来填充
Android ListActivity行点击

我有一个显示有关玩家的信息的活动这部分工作正常我使用了适配器但是我应该将检测行何时被单击的代码放在哪里 PlayersActivity java package com democratandchronicle billstraini
保存自定义首选项的值

我创建了一个新的首选项它直接延伸自CheckboxPreference 在这个类中我添加了一个简单的新boolean价值我现在的问题是如何存储这个新值如果用户点击正常CheckboxPreference该值自动存储在首选项中我希望这
图例与饼图重叠

在 python 中使用 matplotlib 图例与我的饼图重叠尝试了 loc 的各种选项例如最佳 1 2 3 但无济于事关于如何准确提及图例位置例如从饼图边界给出填充或至少确保它不重叠有什么建议吗简短的回答是您可以使用p
firebase 从 firestore js sdk 缓存检索文档是否收费

我正在使用 firebase JS SDK 离线持久化已启用这会自动将我检索到的文档缓存在 JS SDK 中我执行这个查询 once firebase firestore doc path to doc get twice fireba
在快速路由文件中使用 socket.io

我正在尝试将 Socket io 与 Node js 结合使用并发送到路由逻辑内的套接字我有一个相当标准的 Express 3 设置其中有一个位于路由中的 server js 文件然后我有一个位于路由文件夹中的 index js 该
为什么打印功能没有在正确的时间运行？ [复制]

这个问题在这里已经有答案了这是我的代码 import time as t print hello end t sleep 1 print hello end t sleep 1 print hello end t sleep 1 我的问题
Imagemagick 去饱和黑/白？

想把它变成黑白的不知道该使用 imagick 的什么 handle data file get contents http www bungie net Stats Reach Nightmap ashx http www bungie
AttributeError：“CountVectorizer”对象没有属性“get_feature_names”

该代码之前可以运行没有显示任何错误这是一个情感分析机器学习项目该代码基于字数统计的逻辑回归模型 c CountVectorizer stop words english def text fit X y model clf model
jqGrid 使用“filterToolbar”在客户端进行过滤

我必须向完全在客户端管理的 jqGrid 添加过滤数据仅从服务器加载一次我需要使用 filterToolbar 来过滤网格数据但如果客户端有默认搜索机制则无法找到信息服务器端搜索是做到这一点的唯一方法吗谢谢科斯明不幸的是搜
为什么我的超便携笔记本电脑 CPU 无法在 HPC 中保持最佳性能

我开发了一个高性能Cholesky 分解例程在单个 CPU 上应具有约 10 5 GFLOP 的峰值性能无超线程但是当我测试它的性能时有一些我不明白的现象在我的实验中我测量了矩阵维度 N 从 250 增加到 10000 时的性能

为什么我的超便携笔记本电脑 CPU 无法在 HPC 中保持最佳性能

为什么我的超便携笔记本电脑 CPU 无法在 HPC 中保持最佳性能 的相关文章

随机推荐

热门标签

为什么我的超便携笔记本电脑 CPU 无法在 HPC 中保持最佳性能的相关文章