Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
SSE比FPU慢?
我有一大段代码 其主体部分包含这段代码 result nx m Lx ny m Ly m Lz sqrt nx nx ny ny 1 我将其矢量化如下 一切都已经是float m128 r mm mul ps mm set ps ny nx
c
Optimization
SSE
vectorization
SIMD
SSE 和 AVX 的 SIMD 数学库
我正在寻找 SSE 和 AVX 的 SIMD 数学库 最好是开源的 我的意思是 例如 如果我有一个带有 8 个浮点值的 AVX 寄存器 v 我希望 sin v 立即返回所有八个值的 sin AMD 有一个专有库 LibMhttp devel
SSE
SIMD
avx
mathh
用于通用 SIMD(SSE、AVX、NEON)测试零匹配的高效 C 向量。 (求FP最大绝对值和指数)
我想看看是否可以编写一些可以高效编译的通用 SIMD 代码 主要用于 SSE AVX 和 NEON 该问题的简化版本是 找到浮点数数组的最大绝对值并返回该值和索引 导致问题的是最后一部分 即最大值的索引 似乎没有一种很好的方法来编写具有分支
c
gcc
SIMD
SSE
neon
如何在 XMM 寄存器之间移动 128 位值?
汇编中看似微不足道的问题 我想将整个 XMM0 寄存器复制到 XMM3 我试过了 movdq xmm3 xmm0 但 MOVDQ 不能用于在两个 XMM 寄存器之间移动值 我该怎么办 It s movapd movaps or movdqa
Assembly
SIMD
SSE
在 AVX 寄存器内循环字节的有效方法
摘要 tl 博士 除了进行 2 倍移位并将结果混合在一起之外 还有什么方法可以按位旋转 YMM 寄存器中的字节 使用 AVX 对于 YMM 寄存器中的每 8 个字节 我需要向左旋转 7 个字节 每个字节都需要比前一个字节向左旋转一位 因此
c
SSE
SIMD
avx
avx2
如何优化SIMD转置函数(8x4 => 4x8)?
我需要使用 AVX 优化 8x4 和 4x8 浮点矩阵的转置 我用阿格纳 福格的矢量类库 http www agner org optimize vectorclass 青色任务 构建 BVH 并求和最小 最大 每个循环的最后阶段都会使用转
c
matrix
SIMD
avx
如何将 8 个打包的 32 位整数(在 __m256i 中)的 +-1 符号打包为 64 位整数的字节?
给定一个 m256i打包 32 位有符号整数的价值 如何获取每个字节所在的单个 64 位数字1如果原始的相应 32 位有符号整数 m256i大于或等于0 并得到 1如果该 32 位整数是负数 AVX2 可能还有 AVX512 很有趣 这是另
c
performance
SIMD
intrinsics
avx2
如何将“long long”(或 __int64)转换为 __m64
转换的正确方法是什么 int64值对 m64与 SSE 一起使用的价值 有了gcc你就可以使用 mm set pi64x include
VisualStudio
visualc
SSE
SIMD
mmx
在 CUDA 中使用 SIMD 实现位旋转运算符
我知道 StackOverflow 不是用来向其他人询问代码的 但让我说一下 我正在尝试在 CUDA C 设备代码中实现一些 AES 函数 在尝试实现左字节旋转运算符时 我很不安地发现没有原生 SIMD 内在功能 所以我开始了一个幼稚的实现
c
CUDA
bitwiseoperators
SIMD
C++ SSE SIMD框架[关闭]
Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 有谁知道开源 C x86 SIMD 内在函数库 英特尔在其集成性能基元库中提供了我所需要的东西 但由于版权问题 我无法使用它 EDIT 我
c
SSE
SIMD
intrinsics
检查运行时是否支持 SSE [重复]
这个问题在这里已经有答案了 我想检查运行时是否支持 SSE4 或 AVX 以便我的程序可以利用处理器特定的指令 而无需为每个处理器创建二进制文件 如果我可以在运行时确定它 我可以使用一个接口并在不同的指令集之间切换 GCC 有一种方法可以做
c
SSE
SIMD
avx
AVX2 有符号 8 位元素的整数乘法,产生有符号 16 位结果?
我有两个 m256i 向量 填充了 32 个 8 位整数 像这样的东西 int8 a0 new int8 32 2 int8 a1 new int8 32 3 m256i v0 mm256 loadu si256 m256i a0 m256
c
SIMD
avx
avx2
如何实现四个 i8 元素组的高效 _mm256_madd_epi8 点积?
Intel 提供了一个名为 mm256 madd epi16 的 C 风格函数 基本上 m256i mm256 madd epi16 m256i a m256i b 将 a 和 b 中的压缩有符号 16 位整数相乘 生成中间有符号 32 位
c
x86
SIMD
intrinsics
avx2
SIMD 和多线程之间的区别[关闭]
Closed 这个问题需要多问focused help closed questions 目前不接受答案 在并行编程范例中遇到的 SIMD 和多线程概念之间有什么区别 SIMD means 单指令 多数据 https en wikipedi
Multithreading
parallelprocessing
SIMD
SSE (SIMD):向量乘标量
我在程序中执行的常见操作是按标量缩放向量 V s 例如 1 2 3 4 2 2 4 6 8 除了首先在向量中的每个位置加载标量 例如 mm set ps 2 2 2 2 然后相乘之外 是否有 SSE 或 AVX 指令可以执行此操作 这就是我
c
x86
SSE
SIMD
从连续的字序列中提取任意范围的位的最有效方法是什么?
假设我们有一个std vector 或任何其他序列容器 有时它是一个双端队列 它存储uint64 t元素 现在 让我们将该向量视为一个序列size 64连续的位 我需要找到由给定的位组成的单词 begin end 范围 鉴于end begi
c
Algorithm
BitManipulation
SIMD
intrinsics
如何使用 SIMD 比较两个向量并获得单个布尔结果?
我有两个分别包含 4 个整数的向量 我想使用 SIMD 命令来比较它们 假设根据比较结果生成一个结果向量 其中每个条目为 0 或 1 然后 我想将结果向量与 4 个零的向量进行比较 只有当它们相等时才执行某些操作 你知道我可以使用哪些 SI
Assembly
x86
SSE
SIMD
如何在 MSVC 中启用 SSE4.1 和 SSE3(但不是 AVX)
我正在尝试使用 MSVC 启用不同的 simd 支持 有一个页面讨论启用一些simd 例如SSE2 AVX AVX2https learn microsoft com en us cpp build reference arch x86 r
visualc
SSE
SIMD
sse4
对 C99 可变长度数组 (VLA) 使用限制限定符
我正在探索 C99 中简单循环的不同实现如何根据函数签名自动矢量化 这是我的代码 define PRAGMA SIMD Pragma simd define PRAGMA SIMD ifdef INTEL COMPILER define A
C99
SIMD
variablelengtharray
restrictqualifier
autovectorization
GCC 和 MSVC 中是否存在“simdduction(:)”?
simd pragma 可以与 icc 编译器一起使用来执行归约运算符 pragma simd pragma simd reduction acc pragma ivdep for int i 0 i lt N i acc x i msvc
visualc
gcc
vectorization
SIMD
ICC
«
1
2
3
4
5
6
7
...10
»