avx

C# 和 SIMD：高加速和低加速。怎么了？

问题介绍我正在尝试加快我正在编写的 2d 光线追踪器的相交代码我使用 C 和 System Numerics 库来提高 SIMD 指令的速度问题是我得到了奇怪的结果有超顶加速和相当低的加速我的问题是为什么一个是在屋顶之上而另一

c performance x8664 SIMD avx

C++ 优化矩阵乘法微内核中的 L1 缓存使用

我的任务是实现一个优化的矩阵乘法微内核用于计算C A B在 C 中从以下代码片段开始我遇到了一些违反直觉的行为我需要一些帮助来更好地理解正在发生的事情 void mat mul double A double B double C

c Optimization matrixmultiplication avx cpucache

xorshift128+ 的 AVX/SSE 版本

我正在努力制作尽可能最快的高质量 RNG 读过http xorshift di unimi it http xorshift di unimi it xorshift128 似乎是一个不错的选择 C代码是 include

c performance SSE avx

AVX 将 64 位整数转换为 64 位浮点数

我想使用 AVX 将 4 个打包 64 位整数转换为 4 个打包 64 位浮点数我尝试过类似的事情 int 64t ls int64 t mm malloc 256 32 ls 0 a ls 3 d mm256i packed mm256

c casting avx

ICC 是否满足复数乘法的 C99 规范？

考虑这个简单的代码 include

c Assembly complexnumbers avx ICC

为什么在使用 pshufb shuffle 作为半字节查找表之前需要屏蔽？

这段代码来自https github com WojciechMula sse popcount blob master popcnt avx2 lookup cpp https github com WojciechMula sse po

c SIMD SSE avx avx2

使用 Intel AVX 存储打包双精度向量中的各个双精度值

我正在使用 Intel AVX 指令的 C 内在函数编写代码如果我有一个压缩双向量 a m256d 将它们存储到内存中的不同位置即我需要将它们扇出到不同的位置以便它们不再打包的最有效方法即最少的操作数是什么伪代码 m256d

x86 x8664 SSE avx

SIMD：位包有符号整数

可以使用位打包技术来压缩无符号整数在无符号整数块中仅存储有效位从而当块中的所有整数都小时进行数据压缩该方法被称为FOR https www elastic co blog frame of reference and roa

SSE SIMD avx avx2 avx512

哪些版本的 Windows 支持/需要哪些 CPU 多媒体扩展？（如何检查SSE或AVX是否完全可用？）

到目前为止我已经设法发现 SSE 和 SSE2 对于 Windows 8 及更高版本是必需的当然对于任何 64 位操作系统 AVX 仅受 Windows 7 SP1 或更高版本支持在 Windows 上使用 SSE3 SSSE3 SS

Windows Assembly SSE avx avx512

使用 AVX 指令禁用 exp() 优化？

我正在使用 AVX 内在函数在 VC 中编写前馈网络我通过 C 中的 PInvoke 调用此代码当调用计算大循环包括函数 exp 的函数时对于 160M 的循环大小我的性能约为 1000 毫秒我一打电话any使用 AVX 内在函

visualc x86 EXP avx

使用 AVX 一次性进行 4 个水平双精度求和

该问题可以描述如下 Input m256d a b c d Output m256d s a 0 a 1 a 2 a 3 b 0 b 1 b 2 b 3 c 0 c 1 c 2 c 3 d 0 d 1 d 2 d 3 到目前为止我所做的工作

Sum intel avx

运行任何英特尔 AVX 函数后，数学函数需要更多周期[重复]

这个问题在这里已经有答案了我注意到数学函数如 ceil round 等在运行任何 intel AVX 函数后会占用更多 CPU 周期请参阅以下示例 include

c Linux gcc intel avx

使用 AVX 与 NaN 进行比较

我正在尝试创建一个快速解码器BPSK使用AVX英特尔的内在本质我有一组复数它们表示为交错浮点数但由于BPSK仅需要调制实部或偶数索引浮点数每一个漂浮物x被映射到0 when x lt 0 and to 1 if x gt 0 这是

c SIMD avx

.NET Framework 4.5 是否提供 SSE4/AVX 支持？

我想我听说过但不知道在哪里 upd 我告诉过JiT 不 NET 中不存在您可以自己编写机器代码的情况代码生成完全取决于即时编译器它当然能够根据机器处理器的功能定制其代码生成 ngen exe 必须始终在目标计算机上运行的重要原因之一

NET SIMD net45 avx sse4

如何交换256位AVX（YMM）寄存器中的低128位和高128位

我正在移植 SSE SIMD 代码以使用 256 位 AVX 扩展但似乎找不到任何可以混合洗牌移动高 128 位和低 128 位的指令背景故事我真正想要的是VHADDPS mm256 hadd ps表现得像HADDPS mm ha

x86 SIMD avx

使用 AVX2 指令选择性地异或列表的元素

我想用 AVX2 指令加速以下操作但我找不到方法我得到了一个大数组uint64 t data 100000 uint64 t 和一个数组unsigned char indices 100000 字节数我想输出一个数组uint64 t

Optimization x86 SIMD avx avx2

使用 AVX2 向量化随机初始化并使用十进制数字数组打印 BigInt？

如何将我的代码传递给 AVX2 代码并获得与以前相同的结果是否可以使用 m256i在 LongNumInit 中 LongNumPrint 函数代替uint8 t L 或某种类似类型的变量我对 AVX 的了解相当有限我调查了很多但是

c SIMD avx bigint avx2

使用 SIMD 查找素数列表 - SSE/AVX

我很好奇是否有人对如何使用 SIMD 查找素数列表有建议我特别感兴趣如何使用 SSE AVX 来做到这一点我一直在研究的两种算法是试除法和埃拉托斯特尼筛法我设法找到一种使用 SSE 进行试除的方法我找到了一种更快的除法方法该方法非

Optimization primes SSE SIMD avx

使用 Ivy Bridge 和 Haswell 循环展开以实现最大吞吐量

我正在使用 AVX 同时计算八个点积在我当前的代码中我做了这样的事情在展开之前常春藤桥桑迪桥 m256 areg0 mm256 set1 ps a m for int i 0 i

c x86 intel SSE avx

YASM：vmovaps 指令导致分段错误

Problem movaps给我一个分段错误 Context x86 64指令vmovaps设计用于与 Core i 系列处理器我正在运行该系统上的 AVX 寄存器一起使用 AVX 寄存器的宽度是 SSE 寄存器的两倍分别为 256

Assembly x8664 nasm memoryalignment avx