intel

在 Fortran 中传递不连续的数组部分

我正在使用 intel fortran 编译器和 intel mkl 进行性能检查我将一些数组部分传递给 Fortran 77 接口调用如下 call dgemm transa transb sz s P P a Ts tilde sz

Fortran intel intelmkl

加载操作在调度、完成或其他时间时是否从 RS 中释放？

On modern Intel1 x86 are load uops freed from the RS Reservation Station at the point they dispatch2 or when they comple

x86 intel cpuarchitecture microarchitecture

AVX/SSE 轮向下浮动并返回整数向量？

有没有办法使用 AVX SSE 获取浮点数向量向下舍入并生成整数向量所有底层内在方法似乎都会产生一个最终的浮点向量这很奇怪因为四舍五入会产生一个整数 SSE 可以根据您选择的截断向零或当前舍入模式通常是 IEEE 默认模式最

c intel SSE intrinsics avx

CMake - 使用 Intel 编译器生成 Visual Studio 项目

是否有一种简单或黑客的方法来生成使用 cmake 中的英特尔编译器的 Visual Studio 2008 项目我找到了一些notes http www cmake org pipermail cmake 2009 February

visualstudio2008 CMake intel

为什么 Meltdown 和 Spectre 错误这么长时间都没有被发现？

为什么 Meltdown 和 Spectre 错误这么长时间都没有被发现近 20 年来这些错误一直存在于 CPU 中考虑到对所有使用这些处理器的计算机的严重影响为什么不尽早发现呢答案非常简单现代 CPU 拥有数十亿个晶体管例如

intel amdprocessor spectre

如何从 C# 与英特尔新的 DRNG（RDRAND 指令）交互？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我希望从 C 程序集中使用英特尔的数字随机数生成器 Ivy Bridge 中的 RDRAND 指令我查看了 cpp 库但我希望有一个更

c Random Cryptography intel rdrand

如何减轻 Intel jcc 勘误表对 gcc 的影响？

如果我有一个芯片受英特尔 jcc 勘误表 https stackoverflow com questions 61016077 32 byte aligned routine does not fit the uops cache 6101

gcc x86 intel gnuassembler compilerflags

为什么存在 REP LODS AL 指令？

换句话说在任何情况下我可能需要这个指示吗根据英特尔指令手册该指令的作用如下将 E CX 字节从 DS E SI 加载到 AL 以 NASM 为例 section data src db 0 1 2 3 section code mo

Assembly x86 intel amdprocessor

Python 执行速度：笔记本电脑与台式机

我正在运行一个进行简单数据处理的程序解析文本填充字典对结果数据计算一些函数该程序仅使用CPU RAM和HDD 从 Windows 命令行运行输入输出到本地硬盘屏幕上没有显示或打印任何内容没有网络相同的程序运行在台式机 W

python performance intel

IB读、IB写、OB读、OB写是什么意思？它们作为 Intel® PCM 的输出，同时监控 PCIe 带宽

我正在尝试使用英特尔性能计数器监视器 PCM 工具测量 NIC 设备的 PCIe 带宽但是我无法理解它的输出为了测量 PCIe 带宽我执行了二进制 pcm iio 该二进制文件有助于测量每个 PCIe 设备的监视器 PCIe 带宽

x86 performancetesting intel intelpmu Mellanox

关于超线程中 L1 缓存的自适应模式

我是一名学生最近正在研究超线程我对 L1 数据缓存上下文模式这个功能有点困惑 In the 架构优化手册 http www intel com content www us en architecture and technology

performance intel cpuarchitecture cpucache hyperthreading

如何生成符号信息以与 Linux 版本的英特尔 VTune Amplifier 一起使用？

我正在使用英特尔 VTune Amplifier XE 2011 来分析我的程序的性能我希望能够在分析结果中查看源代码文档说我需要提供符号信息不幸的是它没有说明在编译我的程序时如何生成该符号信息在 VTune 的 Windows

performance intel intelvtune profiling

启用/禁用硬件锁定消除

我使用的是 glibc 2 24 版本它包含用于使用事务同步扩展例如 xbegin 和 xend 实现 pthread mutex lock 的锁省略路径硬件应该支持锁省略hle我认为CPU标志是为了硬件锁消除我使用的处理器是采用

c x86 intel glibc inteltsx

Sandy-Bridge CPU规格

我能够将有关 Sandy Bridge E 架构的一些信息整合在一起但我并不完全确定所有参数例如L2 缓存的大小任何人都可以确认它们都是正确的吗我的主要来源是64 ia 32 架构优化手册 pdf http www intel

CPU intel cpuregisters cpuarchitecture cpucache

L2 取指未命中率远高于 L1 取指未命中率

我正在生成一个综合 C 基准测试旨在通过以下 Python 脚本导致大量指令获取丢失 usr bin env python import tempfile import random import sys if name main fun

performance intel cpuarchitecture cpucache perf

如何从 C 文件中获取完整的汇编代码？

我目前正在尝试找出从相应的 C 源文件生成等效汇编代码的方法我使用 C 语言已经好几年了但对汇编语言的经验很少我能够使用以下命令输出汇编代码 S海湾合作委员会中的选项然而生成的汇编代码包含调用指令这些指令又跳转到另一个函数例如

c gcc Assembly intel

现代英特尔处理器有多少种超标量方式？

我刚刚了解了超标量处理器 https en wikipedia org wiki Superscalar processor https en wikipedia org wiki Superscalar processor 我还了解到随

x86 intel cpuarchitecture microarchitecture

使用 AVX 一次性进行 4 个水平双精度求和

该问题可以描述如下 Input m256d a b c d Output m256d s a 0 a 1 a 2 a 3 b 0 b 1 b 2 b 3 c 0 c 1 c 2 c 3 d 0 d 1 d 2 d 3 到目前为止我所做的工作

Sum intel avx

运行任何英特尔 AVX 函数后，数学函数需要更多周期[重复]

这个问题在这里已经有答案了我注意到数学函数如 ceil round 等在运行任何 intel AVX 函数后会占用更多 CPU 周期请参阅以下示例 include

c Linux gcc intel avx