intrinsics

使用 LLVM C API 生成对内部函数的调用

我正在编写一些使用 LLVM C API 的代码如何使用内在函数例如llvm cos f64 or llvm sadd with overflow i32 每当我尝试通过生成一个全局来做到这一点LLVMAddGlobal 具有正确的类型

LLVM intrinsics

AVX __m256i 有符号 32 位元素的整数除法

我试图在 AVX 机器上进行 SIMD 划分并收到编译错误这是我的代码 m256i help int arr 8 int arr2 8 help mm256 load si256 m256i arr m256i temp temp mm2

c SIMD intrinsics avx

gcc、simd 内在函数和快速数学概念

大家好我正在尝试掌握一些有关浮点 SIMD 数学内在函数和 gcc 的快速数学标志的概念更具体地说我在 x86 cpu 上使用 MinGW 和 gcc v4 5 0 我已经搜索了一段时间这就是我认为我目前所理解的当我在没有标志

gcc SIMD intrinsics fastmath

CPU的矩阵访问和乘法优化

我在 java 中制作了一些内在优化的矩阵包装器在 JNI 的帮助下需要对此予以肯定你能给出一些关于矩阵优化的提示吗我要实施的是矩阵可以表示为四组缓冲区数组一组用于水平访问一组用于垂直访问一组用于对角线访问以及一个命令缓

Java c Optimization matrix intrinsics

如何将 8 个打包的 32 位整数（在 __m256i 中）的 +-1 符号打包为 64 位整数的字节？

给定一个 m256i打包 32 位有符号整数的价值如何获取每个字节所在的单个 64 位数字1如果原始的相应 32 位有符号整数 m256i大于或等于0 并得到 1如果该 32 位整数是负数 AVX2 可能还有 AVX512 很有趣这是另

c performance SIMD intrinsics avx2

具有 SSE4.1 内在函数的双线性滤波器

我现在正在尝试找出一种一次仅针对一个过滤样本的相当快速的双线性过滤函数作为习惯使用内在函数的练习最高可达 SSE41 就可以了到目前为止我有以下内容 inline m128i DivideBy255 8xUint16 const m1

c Optimization Filtering SSE intrinsics

C++ SSE SIMD框架[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案有谁知道开源 C x86 SIMD 内在函数库英特尔在其集成性能基元库中提供了我所需要的东西但由于版权问题我无法使用它 EDIT 我

c SSE SIMD intrinsics

错误：“_mm512_loadu_epi64”未在此范围内声明

我正在尝试创建一个最小的再现器本期报告 https github com weidai11 cryptopp issues 753 AVX 512 似乎存在一些问题它在配备 Skylake 处理器的最新 Apple 机器上发布根据GCC

c gcc x86 intrinsics avx512

如何实现四个 i8 元素组的高效 _mm256_madd_epi8 点积？

Intel 提供了一个名为 mm256 madd epi16 的 C 风格函数基本上 m256i mm256 madd epi16 m256i a m256i b 将 a 和 b 中的压缩有符号 16 位整数相乘生成中间有符号 32 位

c x86 SIMD intrinsics avx2

AVX 4 位整数

我需要执行以下操作 w i scale v i point 比例和点是固定的而v 是 4 位整数的向量我需要计算w 对于任意输入向量v 我想使用 AVX 内在函数来加速这个过程然而 v i 是 4 位整数的向量问题是如何使用内在函数

c vectorization intrinsics avx

从连续的字序列中提取任意范围的位的最有效方法是什么？

假设我们有一个std vector 或任何其他序列容器有时它是一个双端队列它存储uint64 t元素现在让我们将该向量视为一个序列size 64连续的位我需要找到由给定的位组成的单词 begin end 范围鉴于end begi

c Algorithm BitManipulation SIMD intrinsics

Arm Neon Intrinsics 与手动组装

https web archive org web 20170227190422 http hilbert space de p 22 https web archive org web 20170227190422 http hilber

arm neon intrinsics

如何结合 constexpr 和矢量化代码？

我正在为 x64 和 neon 开发 C 内在包装器我希望我的函数是 constexpr 我的动机类似于Constexpr 和 SSE 内在函数 https stackoverflow com questions 51880079 con

c openmp constexpr intrinsics

SSE 比较内在函数 - 如何从比较中得到 1 或 0？

我正在尝试使用 SSE 内在函数编写相当于 if 语句的内容我在用 m128 mm cmplt ps m128 a m128 b 进行比较 a 0xffffffff or 0x0如果比较分别为真或假我想将这些值转换为 1 和 0 为了做

c ifstatement Comparison SSE intrinsics

AVX/SSE 轮向下浮动并返回整数向量？

有没有办法使用 AVX SSE 获取浮点数向量向下舍入并生成整数向量所有底层内在方法似乎都会产生一个最终的浮点向量这很奇怪因为四舍五入会产生一个整数 SSE 可以根据您选择的截断向零或当前舍入模式通常是 IEEE 默认模式最

c intel SSE intrinsics avx

相当于其他编译器中gcc/clang的march=native？

我想知道除了 gcc 和 clang 之外是否还有其他编译器提供类似 march native选项如果有该选项是什么我已经从另一个问题中明白了在 Visual C 中自动构建最佳可用平台相当于 gcc 的 march native

CMake crossplatform compileroptimization intrinsics

使用 AVX 模拟 32 字节的移位

我正在将使用 SSE2 内在函数编写的矢量化代码迁移到 AVX2 内在函数令我非常失望的是我发现班次指令 mm256 slli si256 and mm256 srli si256仅分别对 AVX 寄存器的两半进行操作并在中间引入零

c SIMD intrinsics sse2 avx2

如何使用 gcc 或 clang 模拟 _mm256_loadu_epi32？

英特尔的内在指南列出了内在 m256i mm256 loadu epi32 void const mem addr Instruction vmovdqu32 ymm m256 CPUID Flags AVX512VL AVX512F De

c intrinsics avx512

临时/“不可寻址”固定大小数组？

这个标题缺乏更好的名字我不确定我是否能够足够清楚地解释自己我正在寻找一种通过索引访问数据类型的方法但不强制编译器将其保留在数组中该问题发生在编写基于 SSE AVX 内在函数的低级代码时为了便于编程我想编写如下代码其中固定

c intrinsics

使用 clang 内置函数与标准函数的优点

Clang 和 GCC 定义了一堆内置函数我将在这里使用余数的示例 builtin sqrt x 然而标准 C99 定义了以下内容math h sqrt x clang 为已经存在的方法定义内置函数有什么意义我本以为常见的数学函数例

c gcc Clang intrinsics