Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
使用 LLVM C API 生成对内部函数的调用
我正在编写一些使用 LLVM C API 的代码 如何使用内在函数 例如llvm cos f64 or llvm sadd with overflow i32 每当我尝试通过生成一个全局来做到这一点LLVMAddGlobal 具有正确的类型
LLVM
intrinsics
AVX __m256i 有符号 32 位元素的整数除法
我试图在 AVX 机器上进行 SIMD 划分并收到编译错误 这是我的代码 m256i help int arr 8 int arr2 8 help mm256 load si256 m256i arr m256i temp temp mm2
c
SIMD
intrinsics
avx
gcc、simd 内在函数和快速数学概念
大家好 我正在尝试掌握一些有关浮点 SIMD 数学内在函数和 gcc 的快速数学标志的概念 更具体地说 我在 x86 cpu 上使用 MinGW 和 gcc v4 5 0 我已经搜索了一段时间 这就是我 认为我 目前所理解的 当我在没有标志
gcc
SIMD
intrinsics
fastmath
CPU的矩阵访问和乘法优化
我在 java 中制作了一些内在优化的矩阵包装器 在 JNI 的帮助下 需要对此予以肯定 你能给出一些关于矩阵优化的提示吗 我要实施的是 矩阵可以表示为四组缓冲区 数组 一组用于水平访问 一组用于垂直访问 一组用于对角线访问 以及一个命令缓
Java
c
Optimization
matrix
intrinsics
如何将 8 个打包的 32 位整数(在 __m256i 中)的 +-1 符号打包为 64 位整数的字节?
给定一个 m256i打包 32 位有符号整数的价值 如何获取每个字节所在的单个 64 位数字1如果原始的相应 32 位有符号整数 m256i大于或等于0 并得到 1如果该 32 位整数是负数 AVX2 可能还有 AVX512 很有趣 这是另
c
performance
SIMD
intrinsics
avx2
具有 SSE4.1 内在函数的双线性滤波器
我现在正在尝试找出一种一次仅针对一个过滤样本的相当快速的双线性过滤函数 作为习惯使用内在函数的练习 最高可达 SSE41 就可以了 到目前为止我有以下内容 inline m128i DivideBy255 8xUint16 const m1
c
Optimization
Filtering
SSE
intrinsics
C++ SSE SIMD框架[关闭]
Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 有谁知道开源 C x86 SIMD 内在函数库 英特尔在其集成性能基元库中提供了我所需要的东西 但由于版权问题 我无法使用它 EDIT 我
c
SSE
SIMD
intrinsics
错误:“_mm512_loadu_epi64”未在此范围内声明
我正在尝试创建一个最小的再现器本期报告 https github com weidai11 cryptopp issues 753 AVX 512 似乎存在一些问题 它在配备 Skylake 处理器的最新 Apple 机器上发布 根据GCC
c
gcc
x86
intrinsics
avx512
如何实现四个 i8 元素组的高效 _mm256_madd_epi8 点积?
Intel 提供了一个名为 mm256 madd epi16 的 C 风格函数 基本上 m256i mm256 madd epi16 m256i a m256i b 将 a 和 b 中的压缩有符号 16 位整数相乘 生成中间有符号 32 位
c
x86
SIMD
intrinsics
avx2
AVX 4 位整数
我需要执行以下操作 w i scale v i point 比例和点是固定的 而v 是 4 位整数的向量 我需要计算w 对于任意输入向量v 我想使用 AVX 内在函数来加速这个过程 然而 v i 是 4 位整数的向量 问题是如何使用内在函数
c
vectorization
intrinsics
avx
从连续的字序列中提取任意范围的位的最有效方法是什么?
假设我们有一个std vector 或任何其他序列容器 有时它是一个双端队列 它存储uint64 t元素 现在 让我们将该向量视为一个序列size 64连续的位 我需要找到由给定的位组成的单词 begin end 范围 鉴于end begi
c
Algorithm
BitManipulation
SIMD
intrinsics
Arm Neon Intrinsics 与手动组装
https web archive org web 20170227190422 http hilbert space de p 22 https web archive org web 20170227190422 http hilber
arm
neon
intrinsics
如何结合 constexpr 和矢量化代码?
我正在为 x64 和 neon 开发 C 内在包装器 我希望我的函数是 constexpr 我的动机类似于Constexpr 和 SSE 内在函数 https stackoverflow com questions 51880079 con
c
openmp
constexpr
intrinsics
SSE 比较内在函数 - 如何从比较中得到 1 或 0?
我正在尝试使用 SSE 内在函数编写相当于 if 语句的内容 我在用 m128 mm cmplt ps m128 a m128 b 进行比较 a 0xffffffff or 0x0如果比较分别为真或假 我想将这些值转换为 1 和 0 为了做
c
ifstatement
Comparison
SSE
intrinsics
AVX/SSE 轮向下浮动并返回整数向量?
有没有办法使用 AVX SSE 获取浮点数向量 向下舍入并生成整数向量 所有底层内在方法似乎都会产生一个最终的浮点向量 这很奇怪 因为四舍五入会产生一个整数 SSE 可以根据您选择的截断 向零 或当前舍入模式 通常是 IEEE 默认模式 最
c
intel
SSE
intrinsics
avx
相当于其他编译器中gcc/clang的march=native?
我想知道除了 gcc 和 clang 之外是否还有其他编译器提供类似 march native选项 如果有 该选项是什么 我已经从另一个问题中明白了 在 Visual C 中自动构建最佳可用平台 相当于 gcc 的 march native
CMake
crossplatform
compileroptimization
intrinsics
使用 AVX 模拟 32 字节的移位
我正在将使用 SSE2 内在函数编写的矢量化代码迁移到 AVX2 内在函数 令我非常失望的是 我发现班次指令 mm256 slli si256 and mm256 srli si256仅分别对 AVX 寄存器的两半进行操作 并在中间引入零
c
SIMD
intrinsics
sse2
avx2
如何使用 gcc 或 clang 模拟 _mm256_loadu_epi32?
英特尔的内在指南列出了内在 m256i mm256 loadu epi32 void const mem addr Instruction vmovdqu32 ymm m256 CPUID Flags AVX512VL AVX512F De
c
intrinsics
avx512
临时/“不可寻址”固定大小数组?
这个标题缺乏更好的名字 我不确定我是否能够足够清楚地解释自己 我正在寻找一种通过索引访问 数据类型 的方法 但不强制编译器将其保留在数组中 该问题发生在编写基于 SSE AVX 内在函数的低级代码时 为了便于编程 我想编写如下代码 其中固定
c
intrinsics
使用 clang 内置函数与标准函数的优点
Clang 和 GCC 定义了一堆内置函数 我将在这里使用余数的示例 builtin sqrt x 然而 标准 C99 定义了以下内容math h sqrt x clang 为已经存在的方法定义内置函数有什么意义 我本以为常见的数学函数 例
c
gcc
Clang
intrinsics
«
1
2
3
4
5
»