Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何实现四个 i8 元素组的高效 _mm256_madd_epi8 点积?
Intel 提供了一个名为 mm256 madd epi16 的 C 风格函数 基本上 m256i mm256 madd epi16 m256i a m256i b 将 a 和 b 中的压缩有符号 16 位整数相乘 生成中间有符号 32 位
c
x86
SIMD
intrinsics
avx2
SIMD 将 12 位字段解包为 16 位
我需要从每个 24 位输入中解压缩两个 16 位值 3 字节 gt 4 字节 我已经以幼稚的方式做到了 但我对表现不满意 例如 InBuffer 是 m128i value1 uint16 t InBuffer 0 11 bit range
c
avx
bitfields
avx2
pixelformat
使用 AVX 模拟 32 字节的移位
我正在将使用 SSE2 内在函数编写的矢量化代码迁移到 AVX2 内在函数 令我非常失望的是 我发现班次指令 mm256 slli si256 and mm256 srli si256仅分别对 AVX 寄存器的两半进行操作 并在中间引入零
c
SIMD
intrinsics
sse2
avx2
为什么在使用 pshufb shuffle 作为半字节查找表之前需要屏蔽?
这段代码来自https github com WojciechMula sse popcount blob master popcnt avx2 lookup cpp https github com WojciechMula sse po
c
SIMD
SSE
avx
avx2
AVX2 的 gcc 目标禁用 SSE 指令集
我们有一个要使用 AVX2 编译的翻译单元 仅此一个 它预先告诉 GCC 文件中的第一行 pragma GCC target arch core avx2 tune core avx2 这曾经适用于 GCC 4 8 和 4 9 但从 6 开
c
gcc
avx2
SIMD:位包有符号整数
可以使用 位打包 技术来压缩无符号整数 在无符号整数块中 仅存储有效位 从而当块中的所有整数都 小 时进行数据压缩 该方法被称为FOR https www elastic co blog frame of reference and roa
SSE
SIMD
avx
avx2
avx512
AVX2 中的条件指令
您能给出 AVX2 中可用的条件指令列表吗 到目前为止 我发现了以下内容 mm256 blendv 可供选择a and b基于掩码c 是否有条件乘法和条件加法等 另外 如果接受指示imm8计数 比如 mm256 blend 你能解释一下如何
conditionalstatements
vectorization
x8664
instructionset
avx2
当我使用 MKL 时,为什么 Tensorflow 会发出有关 AVX2 的警告?
我正在使用具有 MKL 支持的 Tensorflow Anaconda 发行版 from tensorflow python framework import test util test util IsMklEnabled 这段代码打印T
tensorflow
Keras
Anaconda
intelmkl
avx2
使用 AVX2 指令选择性地异或列表的元素
我想用 AVX2 指令加速以下操作 但我找不到方法 我得到了一个大数组uint64 t data 100000 uint64 t 和一个数组unsigned char indices 100000 字节数 我想输出一个数组uint64 t
Optimization
x86
SIMD
avx
avx2
使用 AVX2 向量化随机初始化并使用十进制数字数组打印 BigInt?
如何将我的代码传递给 AVX2 代码并获得与以前相同的结果 是否可以使用 m256i在 LongNumInit 中 LongNumPrint 函数代替uint8 t L 或某种类似类型的变量 我对 AVX 的了解相当有限 我调查了很多 但是
c
SIMD
avx
bigint
avx2
使用 SIMD 解决循环数据依赖性 - 在 sgn 值的 int8_t 数组中查找 -1 和 +1 之间的转换
我尝试实现性能提升 并在 SIMD 方面取得了一些良好的经验 到目前为止 我正在使用 OMP 并希望使用内在函数进一步提高我的技能 在下面的场景中 由于元素 n 1 测试所需的 last value 的数据依赖性 我未能改进 甚至矢量化 环
c
performance
Optimization
SIMD
avx2
使用 SIMD,如何有条件地仅移动 alpha 通道值为 255 的像素?
我目前正在向量化一些代码以使用 AVX2 内在函数存储 32 位像素数据 由于 AVX2 寄存器是 256 位 因此我可以同时操作 8 个像素 我目前的代码可以从一个缓冲区加载 8 个像素 然后将它们存储到另一个缓冲区 Load 256 b
c
x86
SIMD
avx2
简单数组处理循环的 AVX 512 与 AVX2 性能对比
Closed 这个问题需要调试细节 目前不接受答案 我目前正在研究一些优化并比较 DSP 应用程序的矢量化可能性 这对于 AVX512 来说似乎是理想的选择 因为这些只是简单的不相关数组处理循环 但在新的 i9 上 与 AVX2 相比 使用
performance
x86
microoptimization
avx2
avx512
有没有办法将 8bitX32 ymm 寄存器右/左打乱 N 个位置(c++)
正如标题所说 我需要一种方法将 256 avx register 寄存器中所有元素的位置移动 洗牌 N 个位置 我发现的所有关于此的信息都使用 32 或 64 位值 builtin ia32 permvarsf256 等 非常感谢您的帮助
c
SIMD
Clang
avx2
在 AVX2 中重现 _mm256_sllv_epi16 和 _mm256_sllv_epi8
我很惊讶地看到 mm256 sllv epi16 8 m256i v1 m256i v2 and mm256 srlv epi16 8 m256i v1 m256i v2 不在英特尔内联指南我没有找到任何解决方案来仅使用 AVX2 重新创建
c
BitManipulation
avx
avx2
在 64 位 x 64 位乘法中使用 Karasuba 算法真的有效吗?
我在 AVX2 上工作 需要计算 64 位 x64 位 gt 128 位加宽乘法 并以最快的方式获得 64 位高位部分 既然AVX2没有这样的指令 那么我使用Karatsuba算法来提高效率和获得速度是否合理 不会 在现代架构中 Karat
c
performance
parallelprocessing
SIMD
avx2
如何处理SIGSEGV、Segmentation failure。使用 Avx2 时
如何处理SIGSEGV Segmentation failure 使用 Avx2 时 mm256 load pd mm256 store pd solved mm256 load pd 我在调用时收到了分段错误 mm256 load pd
c
avx2
与 AVX/AVX2 一起使用的最低 OS X 版本是什么?
我有一个图像绘制例程 为 SSE SSE2 SSE3 SSE4 1 SSE4 2 AVX 和 AVX2 编译多次 我的程序通过检查 CPUID 标志来动态调度这些二进制变体之一 在 Windows 上 我检查 Windows 版本 如果操作
MacOS
SSE
avx
avx2
为什么仅采用 AVX 的处理器在许多 SIMD 算法方面的性能优于 AVX2 处理器?
我一直在研究 C 和 C 中 SIMD 算法的优势 发现在许多情况下 在 AVX 处理器上使用 128 位寄存器比在具有 AVX2 的处理器上使用 256 位寄存器提供更好的改进 但我不这么认为 不明白为什么 我所说的改进是指在同一台机器上
c
SIMD
avx
avx2
为什么两者都有? vperm2f128 (avx) 与 vperm2i128 (avx2)
avx引入指令vperm2f128 通过暴露 mm256 permute2f128 si256 而avx2引入了vperm2i128 通过暴露 mm256 permute2x128 si256 它们似乎都在做完全相同的事情 并且它们各自的延
intel
SIMD
avx
avx2
«
1
2
3
»