Ubuntu - 如何判断CPU应用程序当前是否正在使用AVX或SSE？

2024-04-07

我目前在许多具有 GPU 的服务器上运行 BOINC。

服务器运行 GPU 和 CPU BOINC 应用程序。

由于 AVX 和 SSE 在 CPU 应用程序中使用时会降低 CPU 频率，因此我必须选择一起运行哪个 CPU/GPU，因为某些 GPU 应用程序会遇到瓶颈（运行时间完成速度较慢），而其他应用程序则不会。

目前，一些 CPU 应用程序已命名，因此可以清楚地看出它们是否使用 AVX，但大多数应用程序并未使用。

因此，我是否可以运行任何命令以及某种查看方式来查看当前运行的任何 CPU 应用程序是否正在使用 AVX 或 SSE（任何版本）？

另请注意，我是否应该以相同的方式处理任何 FMA 使用情况（例如，它是否会因 CPU 温度增加而降低 CPU 频率）？

Thanks

您可以使用perf top http://man7.org/linux/man-pages/man1/perf-top.1.html查看实时执行的 AVX 和 SSE 指令数量以及可执行文件和共享库名称：

perf top -e fp_arith_inst_retired.128b_packed_single -e fp_arith_inst_retired.128b_packed_double -e fp_arith_inst_retired.256b_packed_single -e fp_arith_inst_retired.256b_packed_double

计数器描述（来自perf list http://man7.org/linux/man-pages/man1/perf-list.1.htmlIntel Coffee Lake CPU 上的输出）：

floating point:
  fp_arith_inst_retired.128b_packed_double          
       [Number of SSE/AVX computational 128-bit packed double precision floating-point instructions retired. Each count represents 2 computations. Applies to SSE* and AVX*
        packed double precision floating-point instructions: ADD SUB MUL DIV MIN MAX SQRT DPP FM(N)ADD/SUB. DPP and FM(N)ADD/SUB instructions count twice as they perform
        multiple calculations per element]
  fp_arith_inst_retired.128b_packed_single          
       [Number of SSE/AVX computational 128-bit packed single precision floating-point instructions retired. Each count represents 4 computations. Applies to SSE* and AVX*
        packed single precision floating-point instructions: ADD SUB MUL DIV MIN MAX RCP RSQRT SQRT DPP FM(N)ADD/SUB. DPP and FM(N)ADD/SUB instructions count twice as they
        perform multiple calculations per element]
  fp_arith_inst_retired.256b_packed_double          
       [Number of SSE/AVX computational 256-bit packed double precision floating-point instructions retired. Each count represents 4 computations. Applies to SSE* and AVX*
        packed double precision floating-point instructions: ADD SUB MUL DIV MIN MAX SQRT DPP FM(N)ADD/SUB. DPP and FM(N)ADD/SUB instructions count twice as they perform
        multiple calculations per element]
  fp_arith_inst_retired.256b_packed_single          
       [Number of SSE/AVX computational 256-bit packed single precision floating-point instructions retired. Each count represents 8 computations. Applies to SSE* and AVX*
        packed single precision floating-point instructions: ADD SUB MUL DIV MIN MAX RCP RSQRT SQRT DPP FM(N)ADD/SUB. DPP and FM(N)ADD/SUB instructions count twice as they
        perform multiple calculations per element]
  fp_arith_inst_retired.scalar_double               
       [Number of SSE/AVX computational scalar double precision floating-point instructions retired. Each count represents 1 computation. Applies to SSE* and AVX* scalar double
        precision floating-point instructions: ADD SUB MUL DIV MIN MAX SQRT FM(N)ADD/SUB. FM(N)ADD/SUB instructions count twice as they perform multiple calculations per element]
  fp_arith_inst_retired.scalar_single               
       [Number of SSE/AVX computational scalar single precision floating-point instructions retired. Each count represents 1 computation. Applies to SSE* and AVX* scalar single
        precision floating-point instructions: ADD SUB MUL DIV MIN MAX RCP RSQRT SQRT FM(N)ADD/SUB. FM(N)ADD/SUB instructions count twice as they perform multiple calculations
        per element]
  fp_assist.any                                     
       [Cycles with any input/output SSE or FP assist]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

GPU

SSE

avx

avx2

boinc

Ubuntu - 如何判断CPU应用程序当前是否正在使用AVX或SSE？的相关文章

GPU训练时Tensorflow 2.5退出代码-1073740791

在 GPU 上训练 Tensorflow 模型时调用 model fit 退出并带有代码 1073740791 0xC0000409 立即地 Epoch 1 500 2021 10 16 20 13 42 154951 I tensorf
进行水平 SSE 向量和（或其他简化）的最快方法

给定一个由三个或四个浮点数组成的向量对它们求和的最快方法是什么 SSE movaps shuffle add movd 总是比 x87 快吗 SSE3 中的水平相加指令值得吗转移到 FPU 然后是 faddp faddp 的成本是多
使用 x64 SIMD 进行半字节改组

我知道字节改组 https www felixcloutier com x86 pshufb指令但我想对半字节 4 位值做同样的事情具体来说我想在 64 位字中混洗 16 个半字节我的洗牌索引也存储为 16 个半字节最有效的实施
AVX2浮点比较并得到0.0或1.0而不是全0或全1位

基本上在生成的向量中我想为所有输入浮点值 gt 1 保存 1 0 而为所有输入浮点值 float f 8 1 2 0 5 1 7 1 9 0 34 22 9 18 6 0 7 float r 8 Must be 1 0 1 1 0 1
为什么 PyTorch nn.Module.cuda() 不将模块张量移动到 GPU，而仅将参数和缓冲区移动到 GPU？

nn Module cuda 将所有模型参数和缓冲区移动到 GPU 但为什么不是模型成员张量呢 class ToyModule torch nn Module def init self gt None super ToyModule se
对整数向量使用 _mm_shuffle_ps 的影响

SSE内在函数包括 mm shuffle ps xmm1 xmm2 immx它允许人们从中选择 2 个元素xmm1与 2 个元素连接xmm2 然而这是针对浮点数的由 ps 单个包装但是如果你转换你的压缩整数 m128i 那么你可以使
带 GPU 的 Lightgbm 分类器

model lgbm LGBMClassifier n estimators 1250 num leaves 128 learning rate 0 009 verbose 1 使用 LGBM 分类器现在有没有办法通过 GPU 来使用它
对于Intel Haswell上的XMM/YMM FP操作，可以使用FMA代替ADD吗？

这个问题适用于 Haswell 上带有 XMM YMM 寄存器的打包单精度浮点运算所以根据awesome awesome table http www agner org optimize instruction tables pdf由
Tensorflow：如何在模型训练过程中实时监控 GPU 性能？

我是 Ubuntu 和 GPU 新手最近在我们的实验室中使用了一台配备 Ubuntu 16 04 和 4 个 NVIDIA 1080ti GPU 的新 PC 该机还拥有i7 16核处理器我有一些基本问题为 GPU 安装 Tensorf
同时使用 2 个 GPU 调用 cudaMalloc 时性能较差

我有一个应用程序可以在用户系统上的 GPU 之间分配处理负载基本上每个 GPU 都有一个 CPU 线程来启动一个GPU处理间隔当由主应用程序线程定期触发时考虑以下图像使用 NVIDIA 的 CUDA 分析器工具生成作为示例GPU
有没有办法使用 GPU 调整图像大小？

有没有办法使用可通过 NET 应用程序使用的 GPU 图形卡调整图像大小我正在寻找一种极其高效的方法来调整图像大小并且听说 GPU 可以比 CPU 更快地完成此操作使用 C 的 GDI 是否有已知的实现或示例代码使用 GPU 来调整
CUDA素数生成

当数据大小增加超过 260k 时我的 CUDA 程序停止工作它不打印任何内容有人能告诉我为什么会发生这种情况吗这是我的第一个 CUDA 程序如果我想要更大的素数如何在 CUDA 上使用大于 long long int 的数据类型
CUDA 中的广义霍夫变换 - 如何加快分箱过程？

正如标题所示我正在对并行计算机视觉技术进行一些个人研究使用 CUDA 我尝试实现 GPGPU 版本的霍夫变换我遇到的唯一问题是在投票过程中我调用atomicAdd 来防止多个同时写入操作但我似乎没有获得太多的性能效率我在网上搜索
多个进程可以共享一个 CUDA 上下文吗？

这个问题是 Jason R 的后续问题comment https stackoverflow com questions 29964392 multiple cuda contexts for one device any sense co
使用 SSE/AVX 获取 __m256d 中存储的值的总和

有没有办法获得存储在 m256d 变量中的值的总和我有这个代码 acc mm256 add pd acc mm256 mul pd row vec acc in this point contains 2 0 8 0 18 0 32 0
无法在 CUDA 中执行设备内核

我正在尝试在全局内核中调用设备内核我的全局内核是矩阵乘法我的设备内核正在查找乘积矩阵每列中的最大值和索引以下是代码 device void MaxFunction float Pd float max int x threadIdx
gcc 编译器开关 (-mavx -mavx2 -mavx512f) 到底有什么作用？

我在 C C 代码中明确使用了英特尔 SIMD 内在扩展为了编译代码我需要在命令行上指定 mavx mavx512 或类似的内容我对这一切都很满意然而从阅读 gcc 手册页来看并不清楚这些命令行标志是否也告诉 gcc 编译器尝试
将两个 32 位整数向量相乘，生成 32 位结果元素向量

将每个 32 位条目乘以 2 的最佳方法是什么 mm256i互相注册 mm256 mul epu32不是我正在寻找的因为它产生 64 位输出我想要每个 32 位输入元素都有一个 32 位结果而且我确信两个 32 位值的乘法不会溢出
使用 AVX 内在函数代替 SSE 并不能提高速度 - 为什么？

我已经使用 Intel 的 SSE 内在函数相当长一段时间了并取得了良好的性能提升因此我希望 AVX 内在函数能够进一步加速我的程序不幸的是直到现在情况并非如此可能我犯了一个愚蠢的错误所以如果有人能帮助我我将非常感激我使用
用于预乘 ARGB 的 SSE alpha 混合

我正在尝试编写一个支持 SSE 的 alpha 合成器这就是我想出的首先混合两个 4 像素向量的代码 alpha blend two 128 bit 16 byte SSE vectors containing 4 pre multi

随机推荐

在“同一行”显示 Django 表单字段

我想在同一行上显示两个表单字段而不是一个接一个地显示目前我得到 Choice a theme Datasystems Cameroun 但我想显示这个表格例如 Choice a theme Datasystems Cameroun
如何从 Android 设备获取 GMT 中的时区偏移量（如 GMT+7:00）？

我正在得到timezone使用此代码的 Android 设备 TimeZone tz TimeZone getDefault String current Time Zone TimeZone getTimeZone tz getID ge
HTML5 画布/Flash。如何访问儿童影片剪辑并使其转到AndPlay？

在 Flash 中我的主时间轴中有 2 帧第一个是选择语言第二个包含导航栏该导航栏是一个影片剪辑其中包含项目影片剪辑这些 item movieclips 包含 2 个帧每种语言一个在 navigation bar movi
如何将 iPhone 音频路由到蓝牙耳机

我正在尝试使用 AVAudioPlayer AVAudioSession 和 AudioSessionSetProperty 将音频输出到蓝牙耳机不是 A2DP 似乎有选择蓝牙耳机作为输入的函数 kAudioSessionProperty
删除Laravel 6/7中的相关模型

有很多相关问题但不幸的是我找不到有效的解决方案我有 Laravel 模型当删除该模型时我想要删除一些相关模型删除模型时运行自定义 SQL 查询我的 Laravel 模型类看起来像如您所见模型可以有不同的关系类型 class
使用 PHP 来像数据库一样使用 Fusion Table 以及如何在使用 oauth 时关闭提示页面

我正在开发一个 PHP 应用程序它仅使用 Google Fusion Tables 作为后台数据库该应用程序包括一个用于基本安全的简单登录部分我下载了 google api php client 并使用 oAuth 成功建立了与我的
如何将对象从 MongoDB 发送到 jade？

我正在尝试使用客户端 JS 访问从 MongoDB 检索的对象具体来说我希望能够循环并使用对象内的数组这是我的服务器端 JS 成功找到了results并将它们记录到终端 app get post id function req res
为什么Excel在VBA代码的公式中添加@？ [复制]

这个问题在这里已经有答案了我想问一下excel公式中的我在下面写了公式根据某些条件计算出中位数当我直接在单元格中手动编写公式时该公式有效但每次我尝试通过下面的 VBA 代码填充公式时 ThisWorkbook Sheets Pi
WPF：组织结构图 TreeView 条件格式

该公司具有传统的复杂组织结构使用字母 n 而不是实际数字来定义级别数量我将尝试用等宽字体表达我想要实现的结构 Alice Bob Fred Jack Kim Lucy Charlie Greg Darren Henry Eric 正如您
在烛台图上方绘制移动平均线

我使用以下方法计算了移动平均线pandas DataFrame rolling 所以我的数据框看起来像这样 CurrencyPair TimeStamp Open High Low Close MA50 40 EURUSD 2017 07
Rider - .editorconfig：不尊重文件范围的命名空间

我正在使用 Rider 2021 3 3 最新版本并且当我的计算机上有最新的 NET SDK NET 6 时在的里面 editorconfig文件中我添加了以下内容 csharp namespace body file scoped
Vega-lite 线标记在远处显示工具提示

我在 VegaLite 中有以下图表在 Vega 编辑器中打开 https vega github io editor url vega lite N4IgJAzgxgFgpgWwIYgFwhgF0wBwqgegIDc4BzJAOjIEt
Hive 表是从 Spark 创建的，但在 Hive 中不可见

从火花使用 DataFrame write mode SaveMode Ignore format orc saveAsTable myTableName 表正在保存我可以使用下面命令的 hadoop 看到fs ls apps hive w
请求的身份验证凭据无效。需要 OAuth 2 访问令牌、登录 cookie 或其他有效的身份验证凭据

我有一个用编写的控制台应用程序C 在 NET Core 2 2框架之上我正在尝试使用我的应用程序连接 Google 我的商家 API 来创建posts https developers google com my business con
在 Windows 上的自定义控件中处理任意文本输入的正确、现代方法是什么？ WM_CHAR？注塑机？ TSF？

我希望能够支持自定义 Windows 控件中的文本输入就像 EDIT 和 Rich Edit 控件已经做的那样但不对其中任何一个控件进行子类化该控件当前使用 Direct2D 和 DirectWrite 绘制文本并在带有平台更新的
使用 TH QuasiQuote 中的 DataKinds 生成类型注释

在使用模板 haskell 的 haskell 项目中我尝试生成一个具有类型注释作为幻像类型的表达式一个简单的例子是这样的情况DataKinds and KindSignatures like LANGUAGE DataKinds Ki
使用 sf 列调整 Leaflet (R) 中的边界

我正在 Shiny 中制作一个小应用程序它保存国家和地区的数据用户可以在其中选择一个区域然后的想法是我在应用程序中拥有的传单地图将放大并聚焦于所选区域即用户单击欧洲地图会放大到欧洲我不知道应该如何使用这些简单的功能geome
如何在 Windows Azure Active Directory 身份验证后获取访问令牌

我们已经使用 url 中给出的流程成功实现了活动目录身份验证http msdn microsoft com en us library windowsazure dn151790 aspx http msdn microsoft com e
ruby - 简化字符串乘法连接

s 是一个字符串这看起来很冗长我怎样才能简化它 if x 2 z s elsif x 3 z s s elsif x 4 z s s s elsif x 5 z s s s s elsif x 6 z s s s s s Thanks
Ubuntu - 如何判断CPU应用程序当前是否正在使用AVX或SSE？

我目前在许多具有 GPU 的服务器上运行 BOINC 服务器运行 GPU 和 CPU BOINC 应用程序由于 AVX 和 SSE 在 CPU 应用程序中使用时会降低 CPU 频率因此我必须选择一起运行哪个 CPU GPU 因为某些 G

Ubuntu - 如何判断CPU应用程序当前是否正在使用AVX或SSE？

Ubuntu - 如何判断CPU应用程序当前是否正在使用AVX或SSE？ 的相关文章

随机推荐

热门标签

Ubuntu - 如何判断CPU应用程序当前是否正在使用AVX或SSE？的相关文章