给定 4 个字节的寄存器(对于 SIMD,为 16 个字节),必须有一种有效的方法来使用一些指令对寄存器中的字节进行排序。
提前致谢。
找到了!它出现在 Furtak、Amaral 和 Nieviadomski 于 2007 年发表的论文“使用 SIMD 寄存器和指令在排序算法中启用指令级并行性”中。第 4 节。
它使用 4 个 SSE 寄存器,有 12 个步骤,运行 19 条指令,包括加载和存储。
同一篇论文在使用 SIMD 动态构建排序网络方面也有一些出色的工作。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)