Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
未使用 v0 的“vperm v0,v0,v0,v17”有何作用?
我正在研究一个SHA 256 实施 https github com noloader SHA Intrinsics blob master sha256 p8 cxx using Power8 内置 https github com no
c
gcc
SHA
intrinsics
powerpc
在 C++ 中使用 SSE 将两个 32 位整数向量相乘的最快方法
我有两个无符号向量 大小均为 4 vector
c
x86
SSE
SIMD
intrinsics
如何在 ARM Cortex-a8 中使用乘法和累加内在函数?
如何使用GCC提供的乘累加内在函数 float32x4 t vmlaq f32 float32x4 t float32x4 t float32x4 t 谁能解释一下我必须传递给这个函数的三个参数 我的意思是源寄存器和目标寄存器以及函数返回什
c
arm
SIMD
intrinsics
neon
“向量长长”的可用性是什么?
我正在一台旧的 PowerMac G5 上进行测试 它是一台 Power4 机器 构建失败 make g DNDEBUG g2 O3 mcpu power4 maltivec c ppc simd cpp ppc crypto h 36 e
64bit
SIMD
intrinsics
powerpc
altivec
如何使用 ARM64 执行多项式乘法?
Microsoft 最近发布了 ARM64 构建工具 作为 Visual Studio 15 9 的一部分 我正在完成 ARM64 的移植 我在多项式乘法方面遇到麻烦 我遇到的问题是 微软没有提供预期的数据类型 例如poly64 t 或者像
c
VisualStudio
intrinsics
ARM64
如何测量 x86 纳秒以下的运行时间?
我搜索并使用了许多方法来测量经过的时间 为此目的有很多问题 例如 this https stackoverflow com questions 6749621 how to create a high resolution timer in
c
performance
x86
intrinsics
LLVM:无法选择:内在%llvm.spu.si.sf
我收到这个错误 gt clang std c99 c derivative c o derivative a fatal error error in backend Cannot select intrinsic llvm spu si
LLVM
Clang
intrinsics
如何使用 Intel 内在函数检查 CPU 是否支持 AVX 扩展?
我正在使用英特尔内在函数编写程序 我想用 mm permute pd内在的 仅在具有 AVX 的 CPU 上可用 对于没有 AVX 的 CPU 我可以使用 mm shuffle pd但根据规格 它比 mm permute pd Intel
c
intel
intrinsics
如何将 __m128d simd 向量的内容存储为双精度,而不将其作为联合访问?
我想要优化的代码基本上是一个简单但大型的算术公式 自动分析代码以并行计算独立的乘法 加法应该相当简单 但我读到自动向量化仅适用于循环 我已经读过多次了 应该不惜一切代价避免通过联合或其他方式访问向量中的单个元素 而应该用 mm shuffl
c
x86
SIMD
intrinsics
sse2
各种编译器上的 RDRAND 和 RDSEED 内在函数?
英特尔 C 编译器和 或 GCC 是否支持以下内容 就像 MSVC 自 2012 年 2013 年以来所做的那样 include
c
gcc
intrinsics
ICC
rdrand
使用qmake成功编译SSE指令(但无法识别SSE2)
我正在尝试编译并运行从 Unix 迁移到 Windows 的代码 我的代码是纯 C 不使用 Qt 类 在 Unix 下没问题 我还使用 Qt Creator 作为 IDEqmake exe with spec win32 g 用于编译 正如
c
MinGW
SSE
SIMD
intrinsics
C++ 编译器可以消除未读取的易失性局部变量吗
说 我有这个代码 int f volatile int c c 34 return abc The 易失性 int c从来没有读过 但它被标记为volatile 编译器可以完全消除它吗 我在 Visual C 2010 中的测试显示了矛盾的
c
visualc
C11
volatile
intrinsics
使用指令内在函数在 Hexagon DSP 中启用 HVX SIMD
我使用 Hexagon SDK 3 0 编译 HVX DSP 架构的示例应用程序 有许多与 Hexagon LLVM 相关的工具可供使用 位于以下文件夹 Qualcomm HEXAGON Tools 7 2 12 Tools bin 我编写
c
Assembly
SIMD
intrinsics
hexagondsp
NEON 简单向量赋值内在?
Having r1 r3 and r4类型的uint32x4 t加载到 NEON 寄存器中我有以下代码 r3 veorq u32 r0 r3 r4 r1 r1 vandq u32 r1 r3 r4 veorq u32 r4 r2 r1 ve
c
arm
SIMD
neon
intrinsics
硬件 SIMD 向量指针和相应类型之间的“reinterpret_cast”是否是未定义的行为?
是否合法reinterpret cast a float to a m256 和访问float通过不同的指针类型的对象 constexpr size t m256 float step sz sizeof m256 sizeof float
c
x86
languagelawyer
undefinedbehavior
intrinsics
小阵列最快的偏移读取
为了速度 我想读取第 9 个寄存器中的值引用的 8 个寄存器之一 我认为执行此操作的最快方法是使用 3 个条件跳转 检查第 9 个中的 3 位 登记 这应该比使用偏移量执行此操作的标准方法具有更短的延迟 内存读取 但这仍然需要至少 6 个时
performance
Assembly
x86
cpuarchitecture
intrinsics
_mm_extract_epi8(...) 采用非文字整数作为参数的内在函数
我最近一直在使用 SSE 内在函数int mm extract epi8 m128i src const int ndx 根据参考文献 从按索引选择的打包整数数组元素中提取整数字节 这正是我想要的 但是 我通过以下方式确定索引 mm cmp
c
SSE
intrinsics
如何取消设置和最右边的设置位
有一个相对知名的技巧可以取消设置最右边的一个位 y x x 1 0b001011100 0b001011011 0b001011000 我发现自己有一个紧密的循环来清除最右边的 n 位 但是有更简单的代数技巧吗 假设 n 相对较大 对于 6
BitManipulation
intrinsics
integerarithmetic
使用 AVX 内在函数对 __m512i 中的 8 位整数求和
AVX512 为我们提供了内在函数来对一个单元格中的所有单元求和 mm512向量 然而 他们的一些对应物缺失了 没有 mm512 reduce add epi8 yet mm512 reduce add ps horizontal sum
c
x86
SIMD
intrinsics
avx
与 NEON 内在函数的数据类型兼容性
我正在使用来自 C 代码的 NEON 内在函数进行 ARM 优化 我理解并掌握了大部分打字问题 但我陷入了这一问题 指令vzip u8返回一个uint8x8x2 t值 实际上是两个数组uint8x8 t 我想将返回值分配给一个普通的uint
gcc
arm
neon
intrinsics
«
1
2
3
4
5
»