Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
需要对我的 SSE/Assembly 尝试提出一些建设性的批评
我正在努力将一些代码转换为 SSE 虽然我有正确的输出 但它比标准 C 代码慢 我需要执行此操作的代码是 float ox p2x px c py s m float oy p2y px s py c m 我得到的 SSE 代码是 void
Assembly
x86
SSE
如何使用 SSE 将 _m128i 转换为无符号整数?
我制作了一个用于图像分离的功能 define ARGB COLOR a r g b a lt lt 24 r lt lt 16 g lt lt 8 b inline UINT PosterizeColor const UINT color
c
imageprocessing
SSE
SIMD
xorshift128+ 的 AVX/SSE 版本
我正在努力制作尽可能最快的高质量 RNG 读过http xorshift di unimi it http xorshift di unimi it xorshift128 似乎是一个不错的选择 C代码是 include
c
performance
SSE
avx
使用 SSE 获取 __m128i 向量中的最大值?
我刚刚开始使用 SSE 我很困惑如何获取最大整数值 max of a m128i 例如 m128i t mm setr ps 0 1 2 3 max t 3 四处搜寻让我发现MAXPS说明 但我似乎找不到如何使用它 xmmintrin h
c
Assembly
x86
SSE
从 __m128i 中查找最小/最大值
我想使用 SIMD 运算查找字节数组中的最小值 最大值 到目前为止 我能够遍历数组并将最小值 最大值存储到 m128i 变量中 但这意味着我正在查找的值混合在其他值中 确切地说是其他 15 个值 我找到了这些讨论here https sta
c
x86
SSE
SIMD
为什么在使用 pshufb shuffle 作为半字节查找表之前需要屏蔽?
这段代码来自https github com WojciechMula sse popcount blob master popcnt avx2 lookup cpp https github com WojciechMula sse po
c
SIMD
SSE
avx
avx2
SSE2 8x8 字节矩阵转置代码在 Haswell+ 上的速度是 ivy Bridge 上的两倍
我使用大量 punpckl pextrd 和pinsrd 编写了代码 它们旋转 8x8 字节矩阵 作为使用循环平铺旋转黑白图像的较大例程的一部分 我用 IACA 对其进行了分析 看看是否值得执行 AVX2 例程 令人惊讶的是 代码在 Has
performance
Assembly
x86
SSE
SIMD
如何判断内存是否对齐?
我是使用 SSE SSE2 指令优化代码的新手 到目前为止我还没有走得太远 据我所知 常见的 SSE 优化函数如下所示 void sse func const float const ptr int len if ptr is aligne
c
Optimization
memory
SSE
SIMD
使用 Intel AVX 存储打包双精度向量中的各个双精度值
我正在使用 Intel AVX 指令的 C 内在函数编写代码 如果我有一个压缩双向量 a m256d 将它们存储到内存中的不同位置 即我需要将它们扇出到不同的位置 以便它们不再打包 的最有效方法 即最少的操作数 是什么 伪代码 m256d
x86
x8664
SSE
avx
常见的 SIMD 技术
在哪里可以找到有关常见 SIMD 技巧的信息 我有一个指令集 并且知道如何编写不复杂的 SIMD 代码 但我知道 SIMD 现在更加强大 它可以容纳复杂的条件无分支代码 例如 ARMv6 以下指令序列将 Rd 的每个字节设置为 Ra 和 R
arm
SSE
SIMD
neon
mmx
SSE:如果不为零则倒数
如何使用 SSE 指令取浮点数的倒数 逆 但是仅适用于非零 values 背景如下 我想规范化向量数组 以便每个维度具有相同的平均值 在 C 中 可以将其编码为 float vectors num dim input data step 1
c
Normalization
SSE
SIMD:位包有符号整数
可以使用 位打包 技术来压缩无符号整数 在无符号整数块中 仅存储有效位 从而当块中的所有整数都 小 时进行数据压缩 该方法被称为FOR https www elastic co blog frame of reference and roa
SSE
SIMD
avx
avx2
avx512
哪些版本的 Windows 支持/需要哪些 CPU 多媒体扩展? (如何检查SSE或AVX是否完全可用?)
到目前为止 我已经设法发现 SSE 和 SSE2 对于 Windows 8 及更高版本是必需的 当然对于任何 64 位操作系统 AVX 仅受 Windows 7 SP1 或更高版本支持 在 Windows 上使用 SSE3 SSSE3 SS
Windows
Assembly
SSE
avx
avx512
使用 sse 指令进行复杂的 Mul 和 Div
通过 SSE 指令执行复杂的乘法和除法是否有益 我知道使用 SSE 时加法和减法表现更好 有人可以告诉我如何使用 SSE 执行复杂的乘法以获得更好的性能吗 为了完整起见 可以下载 英特尔 64 和 IA 32 架构优化参考手册 here h
x86
SSE
SIMD
complexnumbers
SSE 错误 - 使用 m128i_i32 定义 __m128i 变量的字段
定义一个 m128i变量以这种方式 m128i a a m128i i32 0 65000 我收到以下错误 错误 请求 a 中的非类成员 m128i i32 类型 m128i 又名 vector 2 long long int a m128
c
SSE
没有编译器优化的 SSE 内在函数
我是 SSE 内在函数的新手 并尝试通过它来优化我的代码 这是我的程序 用于计算等于给定值的数组元素 我将代码更改为 SSE 版本 但速度几乎没有改变 我想知道我是否以错误的方式使用SSE 此代码用于不允许我们启用编译器优化选项的分配 无
c
compileroptimization
SIMD
SSE
仅使用 SSE2 提取 SSE 混洗的 32 位值
我正在尝试以有效的方式从 128 位寄存器中提取 4 个字节 问题是每个值都在一个单独的 32 位中 120 0 0 0 55 0 0 0 42 0 0 0 120 0 0 0 我想将128位转换为32位它的形式 120 55 42 120
c
Optimization
SSE
SSE 浮点运算可以重现吗?
x87 FPU 因使用内部 80 位精度模式而闻名 这通常会导致跨编译器和机器出现意外且不可重现的结果 在我的搜索中 https stackoverflow com questions 14864238 coercing floating
NET
floatingpoint
SSE
IEEE754
x87
gcc 是否使用 Intel 的 SSE 4.2 指令进行文本处理(如果可用)?
I read here https ieeexplore ieee org document 5762731英特尔推出的SSE 4 2 instructions用于加速字符串处理 引用文章中的内容 SSE 4 2指令集首先在Intel的Co
c
gcc
SSE
SIMD
如何使用向量 SSE 运算将图像像素数据的字节数组转换为灰度
我在转换存储在中的图像数据时遇到问题byte array到灰度 我想使用矢量 SIMD 操作 因为将来需要编写 ASM 和 C DLL 文件来测量操作时间 当我阅读有关 SIMD 的内容时 我发现 SSE 命令是在 128 位寄存器上运行的
c
imageprocessing
vectorization
SSE
SIMD
«
1 ...
4
5
6
7
8
9
10
11
»