Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
numpy around/rint 与 astype(int) 相比慢
所以如果我有类似的东西x np random rand 60000 400 200 iPython 的 timeit says x astype int 需要 0 14 毫秒 np rint x and np around x 需要1 01
python
c
Assembly
NumPy
SSE
矢量加载/存储和聚集/分散的每个元素原子性?
考虑一个像这样的数组atomic
x86
atomic
SSE
avx
avx512
SIMD编程语言[关闭]
Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 目前不接受答案 在过去的几年中 我进行了大量的 SIMD 编程 大部分时间我都依赖编译器内部函数 例如用于 SSE 编程的函数 或编程汇编来实现真正漂亮的功能 东西
programminglanguages
SSE
SIMD
ispc
x86 上的堆栈对齐
在 x86 32 位 平台上 当运行使用 gcc 4 8 1 编译的代码时 出现了一个神秘的总线错误 march pentium4 我将问题追溯到 SSE 指令 movdqa xmm5 0x50 esp esp 0xbfffedac mov
Linux
gcc
x86
SSE
关于 NaN 运算的问题
我的 SSE FPU 生成以下 NaN 当我执行任何基本的对偶运算 如 ADDSD SUBSD MULSD 或 DIVSD 并且两个操作数之一为 NaN 时 结果具有 NaN 操作数的符号 并且结果尾数的低 51 位将加载NaN 操作数尾数
floatingpoint
x86
SSE
NaN
IEEE754
有符号零的最小值和最大值
我担心以下情况 min 0 0 0 0 max 0 0 0 0 minmag x x maxmag x x 根据维基百科 IEEE 754 2008说的是关于最小值和最大值 定义了最小和最大操作 但为输入值相等但表示不同的情况留有一些余地
c
floatingpoint
SSE
IEEE754
数学“pow”函数 gcc 的 SSE 向量化
我试图对包含数学库中 pow 函数的使用的循环进行矢量化 我知道英特尔编译器支持对 sse 指令使用 pow 但我似乎无法让它与 gcc 一起运行 我认为 这是我正在处理的情况 int main int i 0 float a 256 b
c
Optimization
loops
SSE
vectorization
向量化模运算
我正在尝试编写一些相当快速的分量向量加法代码 我正在使用 我相信是有符号的 64 位整数 函数是 void addRq int64 t a const int64 t b const int32 t dim const int64 t q
c
Assembly
x8664
SSE
intrinsics
向量的数据如何对齐?
如果我想处理数据std vector对于 SSE 我需要 16 字节对齐 我怎样才能做到这一点 我需要编写自己的分配器吗 或者默认分配器是否已与 16 字节边界对齐 C 标准需要分配函数 malloc and operator new 为任
c
vector
SSE
memoryalignment
allocator
MOVDQA 和 MOVNTDQA 以及 WB/WC 标记区域的 VMOVDQA 和 VMOVNTDQ 有什么区别?
通过使用标记为 WB 回写 和 WC 写组合 的内存的指令之间的主要区别是什么 MOVDQA and MOVNTDQA 以及之间有什么不同VMOVDQA and VMOVNTDQ 是不是 内存已标记为 WC 指令 NT 与平常没有什么不同
Assembly
x86
SSE
SIMD
avx
在 SSE2/SSSE3 上转置 8 个 16 位元素寄存器
我是 SSE asm 的新手 如果这是显而易见的或多余的 我深表歉意 有没有比执行 24 个 unpck lh ps 和 8 16 混洗以及使用 8 个额外寄存器更好的方法来转置包含 16 位值的 8 个 SSE 寄存器 注意最多使用 SS
Assembly
matrix
x86
SSE
SIMD
编写 std::copysign 的可移植 SSE/AVX 版本
我目前正在使用 SSE 和 AVX 内在函数编写 QR 分解 线性系统求解器 的矢量化版本 其中一个子步骤需要选择与另一个值相反 等于的值的符号 在串行版本中 我为此使用了 std copysign 现在我想为 SSE AVX 寄存器创建一
c
x8664
SSE
SIMD
avx
SIMD 最小磁极和最大磁极
我想实现SIMD最小磁极和最大磁极函数 据我了解这些功能是 minmag a b a lt b a b maxmag a b a gt b a b 我想要这些浮点型和双精度型 我的目标硬件是 Haswell 我真正需要的是计算两者的代码 这
Assembly
floatingpoint
x86
SSE
avx
如何对 __m128 类型变量中的浮点元素取反(更改符号)?
是否有任何单个指令或函数可以反转符号 m128 内的每个浮点数 IE a r0 r1 r2 r3 gt a r0 r1 r2 r3 我知道这可以通过 mm sub ps mm set1 ps 0 0 a 但它不是可能很慢吗 mm set1
c
x86
vectorization
SSE
SIMD
如何知道opencv中SSE2是否激活
我有一个版本的 OpenCV 2 4 10 库 它是为 Windows 上的 Intel X64 构建的 我如何知道 CV SSE2 是否处于活动状态 我没有代码 我只有库 DLL 和标头 Thanks 您可以使用该功能检查SSE2是否启用
c
opencv
64bit
SSE
SSE2:双精度对数函数
我需要日志功能的开源 无许可证限制 实现 带有签名的东西 m128d mm log pd m128d 它可在 Intel Short Vector Math Library ICC 的一部分 中找到 但 ICC 既不是免费的也不是开源的 我
c
Optimization
SSE
SIMD
如何用最少的指令将两个四元数相乘?
经过一番思考 我想出了以下使用 SSE 乘以两个四元数的代码 include
c
Assembly
SSE
multiplication
quaternions
AVX2基于面具打包剩下的最有效的方法是什么?
如果您有一个输入数组和一个输出数组 但您只想写入那些通过特定条件的元素 那么在 AVX2 中执行此操作最有效的方法是什么 我在 SSE 看到过这样的操作 从 https deplinenoise files wordpress com 20
c
vectorization
SSE
SIMD
avx2
如何使用 SVML 指令 [重复]
这个问题在这里已经有答案了 我正在尝试计算exponential使用 SIMD 的函数 我发现了这个功能 我已经包含了 immintrin h 在我的代码中 我的CPU也有一个SSE旗帜 但gcc正在抱怨error mm exp pd wa
c
x86
SSE
SIMD
OpenGL Vertex Buffer Objects(VBOs)
OpenGL Vertex Buffer Objects VBOs 分类 OpenGL2010 05 20 12 53 3714人阅读 评论 13 收藏 举报 buffer float list struct 存储 工作 原创文章转载请注明
3d开源引擎
cocos2dx
OpenGL
SSE
碰撞
«
1 ...
5
6
7
8
9
10
11
»