Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
C# 和 SIMD:高加速和低加速。怎么了?
问题介绍 我正在尝试加快我正在编写的 2d 光线追踪器的相交代码 我使用 C 和 System Numerics 库来提高 SIMD 指令的速度 问题是我得到了奇怪的结果 有超顶加速和相当低的加速 我的问题是 为什么一个是在屋顶之上 而另一
c
performance
x8664
SIMD
avx
C++ 优化矩阵乘法微内核中的 L1 缓存使用
我的任务是实现一个优化的矩阵乘法微内核 用于计算C A B在 C 中 从以下代码片段开始 我遇到了一些违反直觉的行为 我需要一些帮助来更好地理解正在发生的事情 void mat mul double A double B double C
c
Optimization
matrixmultiplication
avx
cpucache
xorshift128+ 的 AVX/SSE 版本
我正在努力制作尽可能最快的高质量 RNG 读过http xorshift di unimi it http xorshift di unimi it xorshift128 似乎是一个不错的选择 C代码是 include
c
performance
SSE
avx
AVX 将 64 位整数转换为 64 位浮点数
我想使用 AVX 将 4 个打包 64 位整数转换为 4 个打包 64 位浮点数 我尝试过类似的事情 int 64t ls int64 t mm malloc 256 32 ls 0 a ls 3 d mm256i packed mm256
c
casting
avx
ICC 是否满足复数乘法的 C99 规范?
考虑这个简单的代码 include
c
Assembly
complexnumbers
avx
ICC
为什么在使用 pshufb shuffle 作为半字节查找表之前需要屏蔽?
这段代码来自https github com WojciechMula sse popcount blob master popcnt avx2 lookup cpp https github com WojciechMula sse po
c
SIMD
SSE
avx
avx2
使用 Intel AVX 存储打包双精度向量中的各个双精度值
我正在使用 Intel AVX 指令的 C 内在函数编写代码 如果我有一个压缩双向量 a m256d 将它们存储到内存中的不同位置 即我需要将它们扇出到不同的位置 以便它们不再打包 的最有效方法 即最少的操作数 是什么 伪代码 m256d
x86
x8664
SSE
avx
SIMD:位包有符号整数
可以使用 位打包 技术来压缩无符号整数 在无符号整数块中 仅存储有效位 从而当块中的所有整数都 小 时进行数据压缩 该方法被称为FOR https www elastic co blog frame of reference and roa
SSE
SIMD
avx
avx2
avx512
哪些版本的 Windows 支持/需要哪些 CPU 多媒体扩展? (如何检查SSE或AVX是否完全可用?)
到目前为止 我已经设法发现 SSE 和 SSE2 对于 Windows 8 及更高版本是必需的 当然对于任何 64 位操作系统 AVX 仅受 Windows 7 SP1 或更高版本支持 在 Windows 上使用 SSE3 SSSE3 SS
Windows
Assembly
SSE
avx
avx512
使用 AVX 指令禁用 exp() 优化?
我正在使用 AVX 内在函数在 VC 中编写前馈网络 我通过 C 中的 PInvoke 调用此代码 当调用计算大循环 包括函数 exp 的函数时 对于 160M 的循环大小 我的性能约为 1000 毫秒 我一打电话any使用 AVX 内在函
visualc
x86
EXP
avx
使用 AVX 一次性进行 4 个水平双精度求和
该问题可以描述如下 Input m256d a b c d Output m256d s a 0 a 1 a 2 a 3 b 0 b 1 b 2 b 3 c 0 c 1 c 2 c 3 d 0 d 1 d 2 d 3 到目前为止我所做的工作
Sum
intel
avx
运行任何英特尔 AVX 函数后,数学函数需要更多周期[重复]
这个问题在这里已经有答案了 我注意到数学函数 如 ceil round 等 在运行任何 intel AVX 函数后会占用更多 CPU 周期 请参阅以下示例 include
c
Linux
gcc
intel
avx
使用 AVX 与 NaN 进行比较
我正在尝试创建一个快速解码器BPSK使用AVX英特尔的内在本质 我有一组复数 它们表示为交错浮点数 但由于BPSK仅需要调制实部 或偶数索引浮点数 每一个漂浮物x被映射到0 when x lt 0 and to 1 if x gt 0 这是
c
SIMD
avx
.NET Framework 4.5 是否提供 SSE4/AVX 支持?
我想 我听说过 但不知道在哪里 upd 我告诉过JiT 不 NET 中不存在您可以自己编写机器代码的情况 代码生成完全取决于即时编译器 它当然能够根据机器处理器的功能定制其代码生成 ngen exe 必须始终在目标计算机上运行的重要原因之一
NET
SIMD
net45
avx
sse4
如何交换256位AVX(YMM)寄存器中的低128位和高128位
我正在移植 SSE SIMD 代码以使用 256 位 AVX 扩展 但似乎找不到任何可以混合 洗牌 移动高 128 位和低 128 位的指令 背景故事 我真正想要的是VHADDPS mm256 hadd ps表现得像HADDPS mm ha
x86
SIMD
avx
使用 AVX2 指令选择性地异或列表的元素
我想用 AVX2 指令加速以下操作 但我找不到方法 我得到了一个大数组uint64 t data 100000 uint64 t 和一个数组unsigned char indices 100000 字节数 我想输出一个数组uint64 t
Optimization
x86
SIMD
avx
avx2
使用 AVX2 向量化随机初始化并使用十进制数字数组打印 BigInt?
如何将我的代码传递给 AVX2 代码并获得与以前相同的结果 是否可以使用 m256i在 LongNumInit 中 LongNumPrint 函数代替uint8 t L 或某种类似类型的变量 我对 AVX 的了解相当有限 我调查了很多 但是
c
SIMD
avx
bigint
avx2
使用 SIMD 查找素数列表 - SSE/AVX
我很好奇是否有人对如何使用 SIMD 查找素数列表有建议 我特别感兴趣如何使用 SSE AVX 来做到这一点 我一直在研究的两种算法是试除法和埃拉托斯特尼筛法 我设法找到一种使用 SSE 进行试除的方法 我找到了一种更快的除法方法 该方法非
Optimization
primes
SSE
SIMD
avx
使用 Ivy Bridge 和 Haswell 循环展开以实现最大吞吐量
我正在使用 AVX 同时计算八个点积 在我当前的代码中 我做了这样的事情 在展开之前 常春藤桥 桑迪桥 m256 areg0 mm256 set1 ps a m for int i 0 i
c
x86
intel
SSE
avx
YASM:vmovaps 指令导致分段错误
Problem movaps给我一个分段错误 Context x86 64指令vmovaps设计用于与 Core i 系列处理器 我正在运行该系统 上的 AVX 寄存器一起使用 AVX 寄存器的宽度是 SSE 寄存器的两倍 分别为 256
Assembly
x8664
nasm
memoryalignment
avx
«
1
2
3
4
5
6
»