Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
在 Fortran 中传递不连续的数组部分
我正在使用 intel fortran 编译器和 intel mkl 进行性能检查 我将一些数组部分传递给 Fortran 77 接口 调用如下 call dgemm transa transb sz s P P a Ts tilde sz
Fortran
intel
intelmkl
加载操作在调度、完成或其他时间时是否从 RS 中释放?
On modern Intel1 x86 are load uops freed from the RS Reservation Station at the point they dispatch2 or when they comple
x86
intel
cpuarchitecture
microarchitecture
AVX/SSE 轮向下浮动并返回整数向量?
有没有办法使用 AVX SSE 获取浮点数向量 向下舍入并生成整数向量 所有底层内在方法似乎都会产生一个最终的浮点向量 这很奇怪 因为四舍五入会产生一个整数 SSE 可以根据您选择的截断 向零 或当前舍入模式 通常是 IEEE 默认模式 最
c
intel
SSE
intrinsics
avx
CMake - 使用 Intel 编译器生成 Visual Studio 项目
是否有一种简单 或黑客 的方法来生成使用 cmake 中的英特尔编译器的 Visual Studio 2008 项目 我找到了一些notes http www cmake org pipermail cmake 2009 February
visualstudio2008
CMake
intel
为什么 Meltdown 和 Spectre 错误这么长时间都没有被发现?
为什么 Meltdown 和 Spectre 错误这么长时间都没有被发现 近 20 年来 这些错误一直存在于 CPU 中 考虑到对所有使用这些处理器的计算机的严重影响 为什么不尽早发现呢 答案非常简单 现代 CPU 拥有数十亿个晶体管 例如
intel
amdprocessor
spectre
如何从 C# 与英特尔新的 DRNG(RDRAND 指令)交互? [关闭]
Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我希望从 C 程序集中使用英特尔的数字随机数生成器 Ivy Bridge 中的 RDRAND 指令 我查看了 cpp 库 但我希望有一个更
c
Random
Cryptography
intel
rdrand
如何减轻 Intel jcc 勘误表对 gcc 的影响?
如果我有一个芯片受英特尔 jcc 勘误表 https stackoverflow com questions 61016077 32 byte aligned routine does not fit the uops cache 6101
gcc
x86
intel
gnuassembler
compilerflags
为什么存在 REP LODS AL 指令?
换句话说 在任何情况下我可能需要这个指示吗 根据英特尔指令手册 该指令的作用如下 将 E CX 字节从 DS E SI 加载到 AL 以 NASM 为例 section data src db 0 1 2 3 section code mo
Assembly
x86
intel
amdprocessor
Python 执行速度:笔记本电脑与台式机
我正在运行一个进行简单数据处理的程序 解析文本 填充字典 对结果数据计算一些函数 该程序仅使用CPU RAM和HDD 从 Windows 命令行运行 输入 输出到本地硬盘 屏幕上没有显示或打印任何内容 没有网络 相同的程序运行在 台式机 W
python
performance
intel
IB读、IB写、OB读、OB写是什么意思?它们作为 Intel® PCM 的输出,同时监控 PCIe 带宽
我正在尝试使用英特尔 性能计数器监视器 PCM 工具测量 NIC 设备的 PCIe 带宽 但是 我无法理解它的输出 为了测量 PCIe 带宽 我执行了二进制 pcm iio 该二进制文件有助于测量每个 PCIe 设备的监视器 PCIe 带宽
x86
performancetesting
intel
intelpmu
Mellanox
关于超线程中 L1 缓存的自适应模式
我是一名学生 最近正在研究超线程 我对 L1 数据缓存上下文模式这个功能有点困惑 In the 架构优化手册 http www intel com content www us en architecture and technology
performance
intel
cpuarchitecture
cpucache
hyperthreading
如何生成符号信息以与 Linux 版本的英特尔 VTune Amplifier 一起使用?
我正在使用英特尔 VTune Amplifier XE 2011 来分析我的程序的性能 我希望能够在分析结果中查看源代码 文档说我需要提供符号信息 不幸的是 它没有说明在编译我的程序时如何生成该符号信息 在 VTune 的 Windows
performance
intel
intelvtune
profiling
启用/禁用硬件锁定消除
我使用的是 glibc 2 24 版本 它包含用于使用事务同步扩展 例如 xbegin 和 xend 实现 pthread mutex lock 的锁省略路径 硬件应该支持锁省略hle我认为CPU标志是为了硬件锁消除 我使用的处理器是采用
c
x86
intel
glibc
inteltsx
Sandy-Bridge CPU规格
我能够将有关 Sandy Bridge E 架构的一些信息整合在一起 但我并不完全确定所有参数 例如L2 缓存的大小 任何人都可以确认它们都是正确的吗 我的主要来源是64 ia 32 架构 优化 手册 pdf http www intel
CPU
intel
cpuregisters
cpuarchitecture
cpucache
L2 取指未命中率远高于 L1 取指未命中率
我正在生成一个综合 C 基准测试 旨在通过以下 Python 脚本导致大量指令获取丢失 usr bin env python import tempfile import random import sys if name main fun
performance
intel
cpuarchitecture
cpucache
perf
如何从 C 文件中获取完整的汇编代码?
我目前正在尝试找出从相应的 C 源文件生成等效汇编代码的方法 我使用 C 语言已经好几年了 但对汇编语言的经验很少 我能够使用以下命令输出汇编代码 S海湾合作委员会中的选项 然而 生成的汇编代码包含调用指令 这些指令又跳转到另一个函数 例如
c
gcc
Assembly
intel
现代英特尔处理器有多少种超标量方式?
我刚刚了解了超标量处理器 https en wikipedia org wiki Superscalar processor https en wikipedia org wiki Superscalar processor 我还了解到 随
x86
intel
cpuarchitecture
microarchitecture
使用 AVX 一次性进行 4 个水平双精度求和
该问题可以描述如下 Input m256d a b c d Output m256d s a 0 a 1 a 2 a 3 b 0 b 1 b 2 b 3 c 0 c 1 c 2 c 3 d 0 d 1 d 2 d 3 到目前为止我所做的工作
Sum
intel
avx
运行任何英特尔 AVX 函数后,数学函数需要更多周期[重复]
这个问题在这里已经有答案了 我注意到数学函数 如 ceil round 等 在运行任何 intel AVX 函数后会占用更多 CPU 周期 请参阅以下示例 include
c
Linux
gcc
intel
avx
«
1
2
3
4
5
6
7
...13
»