Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
使用 AVX 与 NaN 进行比较
我正在尝试创建一个快速解码器BPSK使用AVX英特尔的内在本质 我有一组复数 它们表示为交错浮点数 但由于BPSK仅需要调制实部 或偶数索引浮点数 每一个漂浮物x被映射到0 when x lt 0 and to 1 if x gt 0 这是
c
SIMD
avx
CUDA/OpenCL 中的现实死锁示例
对于我正在编写的教程 我正在寻找一个 现实 且简单的示例 说明由于不了解 SIMT SIMD 而导致的死锁 我想出了这个片段 这似乎是一个很好的例子 任何意见将不胜感激 int x threadID 2 if threadID gt x v
synchronization
CUDA
parallelprocessing
opencl
SIMD
没有编译器优化的 SSE 内在函数
我是 SSE 内在函数的新手 并尝试通过它来优化我的代码 这是我的程序 用于计算等于给定值的数组元素 我将代码更改为 SSE 版本 但速度几乎没有改变 我想知道我是否以错误的方式使用SSE 此代码用于不允许我们启用编译器优化选项的分配 无
c
compileroptimization
SIMD
SSE
.NET Framework 4.5 是否提供 SSE4/AVX 支持?
我想 我听说过 但不知道在哪里 upd 我告诉过JiT 不 NET 中不存在您可以自己编写机器代码的情况 代码生成完全取决于即时编译器 它当然能够根据机器处理器的功能定制其代码生成 ngen exe 必须始终在目标计算机上运行的重要原因之一
NET
SIMD
net45
avx
sse4
击败或满足 OS X memset(和 memset_pattern4)
我的问题是基于另一个SO问题 为什么 mm stream ps 会产生 L1 LL 缓存未命中 https stackoverflow com questions 9068246 why does mm stream ps produce
c
performance
Optimization
Assembly
SIMD
gcc 是否使用 Intel 的 SSE 4.2 指令进行文本处理(如果可用)?
I read here https ieeexplore ieee org document 5762731英特尔推出的SSE 4 2 instructions用于加速字符串处理 引用文章中的内容 SSE 4 2指令集首先在Intel的Co
c
gcc
SSE
SIMD
如何使用向量 SSE 运算将图像像素数据的字节数组转换为灰度
我在转换存储在中的图像数据时遇到问题byte array到灰度 我想使用矢量 SIMD 操作 因为将来需要编写 ASM 和 C DLL 文件来测量操作时间 当我阅读有关 SIMD 的内容时 我发现 SSE 命令是在 128 位寄存器上运行的
c
imageprocessing
vectorization
SSE
SIMD
如何将 __m128d simd 向量的内容存储为双精度,而不将其作为联合访问?
我想要优化的代码基本上是一个简单但大型的算术公式 自动分析代码以并行计算独立的乘法 加法应该相当简单 但我读到自动向量化仅适用于循环 我已经读过多次了 应该不惜一切代价避免通过联合或其他方式访问向量中的单个元素 而应该用 mm shuffl
c
x86
SIMD
intrinsics
sse2
如何交换256位AVX(YMM)寄存器中的低128位和高128位
我正在移植 SSE SIMD 代码以使用 256 位 AVX 扩展 但似乎找不到任何可以混合 洗牌 移动高 128 位和低 128 位的指令 背景故事 我真正想要的是VHADDPS mm256 hadd ps表现得像HADDPS mm ha
x86
SIMD
avx
如何解读uops.info?
我查了一下说明在 uops info 上尝试找出 1 延迟是多少 以及 2 我可以执行多少个并发负载 我在解释结果时遇到困难 下面的屏幕截图 上面也有链接 What do the different variants of the inst
Assembly
x86
x8664
SIMD
avx512
SIMD 需要多核 CPU 吗?
实现SIMD是否需要多核CPU 在阅读有关 SIMD 的维基百科时 我发现了以下短语 多个处理元素 那么这句话和 多核CPU 有什么区别呢 每个核心都有自己独立的SIMD执行单元 在一个内核中使用 SIMD 指令不会消耗其他内核中的执行资源
CPU
cpuarchitecture
SIMD
使用qmake成功编译SSE指令(但无法识别SSE2)
我正在尝试编译并运行从 Unix 迁移到 Windows 的代码 我的代码是纯 C 不使用 Qt 类 在 Unix 下没问题 我还使用 Qt Creator 作为 IDEqmake exe with spec win32 g 用于编译 正如
c
MinGW
SSE
SIMD
intrinsics
使用指令内在函数在 Hexagon DSP 中启用 HVX SIMD
我使用 Hexagon SDK 3 0 编译 HVX DSP 架构的示例应用程序 有许多与 Hexagon LLVM 相关的工具可供使用 位于以下文件夹 Qualcomm HEXAGON Tools 7 2 12 Tools bin 我编写
c
Assembly
SIMD
intrinsics
hexagondsp
NEON 简单向量赋值内在?
Having r1 r3 and r4类型的uint32x4 t加载到 NEON 寄存器中我有以下代码 r3 veorq u32 r0 r3 r4 r1 r1 vandq u32 r1 r3 r4 veorq u32 r4 r2 r1 ve
c
arm
SIMD
neon
intrinsics
我的代码中无效的“剥离/剩余”循环
我有这个功能 bool interpolate const Mat im float ofsx float ofsy float a11 float a12 float a21 float a22 Mat res bool ret fals
c
parallelprocessing
vectorization
SIMD
inteladvisor
SIMD 对超标量乱序 CPU 有什么好处?
我一直在阅读最近可用的 AVX 512 说明 我觉得有一个基本概念我不理解 对于已经执行乱序执行的超标量 CPU SIMD 有什么好处 考虑以下伪汇编代码 使用 SIMD load 16 floats to register simd a
SIMD
使用 AVX2 指令选择性地异或列表的元素
我想用 AVX2 指令加速以下操作 但我找不到方法 我得到了一个大数组uint64 t data 100000 uint64 t 和一个数组unsigned char indices 100000 字节数 我想输出一个数组uint64 t
Optimization
x86
SIMD
avx
avx2
使用 SSE 将向量乘以常数
我有一些在 4D 向量上运行的代码 目前我正在尝试将其转换为使用 SSE 我在 64b linux 上同时使用 clang 和 gcc 仅对向量进行操作就可以很好地理解这一点 但现在我必须将整个向量乘以一个常数 像这样 float y 4
c
gcc
Clang
SSE
SIMD
使用 AVX2 向量化随机初始化并使用十进制数字数组打印 BigInt?
如何将我的代码传递给 AVX2 代码并获得与以前相同的结果 是否可以使用 m256i在 LongNumInit 中 LongNumPrint 函数代替uint8 t L 或某种类似类型的变量 我对 AVX 的了解相当有限 我调查了很多 但是
c
SIMD
avx
bigint
avx2
使用 SIMD 解决循环数据依赖性 - 在 sgn 值的 int8_t 数组中查找 -1 和 +1 之间的转换
我尝试实现性能提升 并在 SIMD 方面取得了一些良好的经验 到目前为止 我正在使用 OMP 并希望使用内在函数进一步提高我的技能 在下面的场景中 由于元素 n 1 测试所需的 last value 的数据依赖性 我未能改进 甚至矢量化 环
c
performance
Optimization
SIMD
avx2
«
1 ...
3
4
5
6
7
8
9
10
»