具有 PCLMULQDQ 的快速 CRC 未反映

2024-02-24

我正在尝试写一个PCLMULQDQ 优化的 CRC-32 https://www.intel.com/content/dam/www/public/us/en/documents/white-papers/fast-crc-computation-generic-polynomials-pclmulqdq-paper.pdf执行。特定的 CRC-32 变体适用于我不拥有的变体，但我试图以库形式提供支持。在令人惊奇的模型 https://github.com/madler/crcany/blob/master/allcrcs.txt形式，它有以下参数：

width=32 poly=0xaf init=0xffffffff refin=false refout=false xorout=0x00000000 check=0xa5fd3138（省略了我认为是的残留物0x00000000但说实话我不知道那是什么）

该算法的基本非基于表/按位实现（由crcany) is:

uint32_t crc32byond_bit(uint32_t crc, void const *mem, size_t len) {
    unsigned char const *data = mem;
    if (data == NULL)
        return 0xffffffff;
    for (size_t i = 0; i < len; i++) {
        crc ^= (uint32_t)data[i] << 24;
        for (unsigned k = 0; k < 8; k++) {
            crc = crc & 0x80000000 ? (crc << 1) ^ 0xaf : crc << 1;
        }
    }
    return crc;
}

首先，我从根本上不理解描述该算法的论文。我不知道是什么样的东西K1 = [x^(512+64) mod P(x)]方法。（x是什么？它从哪里来？我不知道。）我是一名专业的软件工程师；我是一名软件工程师。不是学者。坦白说，我根本看不懂这个符号，而且维基百科文章 https://en.wikipedia.org/wiki/Mathematics_of_cyclic_redundancy_checks没有为我做太多事情。也许是我在线性代数方面的弱点再次困扰着我。

我知道一些我希望利用的公共实现：

wuffs https://github.com/google/wuffs/blob/main/std/crc32/common_up_x86_sse42.wuffs
folly https://github.com/facebook/folly/blob/main/folly/hash/detail/ChecksumDetail.cpp
CRC32快速 https://github.com/srijs/rust-crc32fast/blob/master/src/specialized/pclmulqdq.rs

But:

他们使用位反射算法，我不确定如何创建非反射变体。
他们好像不看报纸？例如，wuffs和crc32fast特别指出他们不使用K6，但论文却让K6显得必要。

我发现了一个英特尔实施soft-crc https://github.com/intel/soft-crc/blob/34a84bfd8278ff48e6aa67f0746618242266c8a2/crc.h#L377 but it 似乎没有使用相同的常量 https://github.com/intel/soft-crc/blob/34a84bfd8278ff48e6aa67f0746618242266c8a2/crc.h#L51-L72（K4-K6？μ？）

/**
 * PCLMULQDQ CRC computation context structure
 */
struct crc_pclmulqdq_ctx {
        /**
         * K1 = reminder X^128 / P(X) : 0-63
         * K2 = reminder X^192 / P(X) : 64-127
         */
        uint64_t k1;
        uint64_t k2;

        /**
         * K3 = reminder X^64 / P(X) : 0-63
         * q  = quotient X^64 / P(X) : 64-127
         */
        uint64_t k3;
        uint64_t q;

        /**
         * p   = polynomial / P(X) : 0-63
         * res = reserved : 64-127
         */
        uint64_t p;
        uint64_t res;
};

I believe我需要的聚常数0xAF are:

Px  = 0x1_0000_00AF
k1  = 0x0_5B5A_E0C7
k2  = 0x0_1BD8_1099
k3  = 0x0_1157_936A
k4  = 0x0_1010_1111
k5  = 0x0_0029_5F23
k6  = 0x0_0000_4455
μ   = 0x1_0000_00AF

（来源：打印 crc32-x86-sse42-magic-numbers.go https://github.com/google/wuffs/blob/a55e0a02a2befbd110dd2b76300b4f1caf3d3840/script/print-crc32-x86-sse42-magic-numbers.go with const px = "100000000000000000000000010101111", or 0xaf | (1 << 32))

我希望得到帮助

了解文章中使用的符号和公式（以及为什么实现似乎与文章有所不同？），
将现有实现转换为非反射变体，或者也许
一些伪代码？

我这里有6套16、32、64位crc的代码，非反射和反射。该代码是为 Visual Studio 设置的。注释已添加到英特尔 github 站点上缺少的常量中。

https://github.com/jeffareid/crc https://github.com/jeffareid/crc

32位非反射在这里：

https://github.com/jeffareid/crc/tree/master/crc32f https://github.com/jeffareid/crc/tree/master/crc32f

您需要更改 crc32fg.cpp 中生成常数的多项式。你想要的多项式实际上是：

0x00000001000000afull

我对 crc32fg.cpp 进行了此更改，以在本答案末尾生成 rk.. 常量。

x 是什么？

CRC 使用具有 1 位系数的多项式。例如 0x0B 实际上是 x^3 + x + 1。

XMM寄存器可以读|写16个字节|一次 128 位，但 PCLMULQDQ 只能对两个 64 位操作数进行无进位乘法以产生 128 位乘积。因此，128 位被分成两个 64 位操作数，然后每个操作数乘以一个常数以向前“折叠”。由于 XMM 寄存器可以在一定程度上并行操作，因此使用 8 个 XMM 寄存器来读取 |写入 128 字节 |一次 1024 位。每个折叠步骤“前进”16 个字节 | 128位数据转发128字节| 1024 位，乘以常数。低 64 位乘以 x^(1024) mod poly 以创建“高级”1024 位的 128 位乘积。高 64 位乘以 x^(1024+64) mod poly 以创建高级字节 1024+64 位的 128 位乘积（需要 +64，因为该乘积基于 128 位的高 64 位）数据）。两个 128 位乘积被异或在一起，然后与数据 128 字节 | 进行异或。 1024 位之后在缓冲区中。

请注意，Intel 文档中的示例使用 4 个 XMM 寄存器将数据前进 64 个字节 |一次 512 位，但是我见过的 github 示例和我在 github 存储库中使用的示例使用 8 个 XMM 寄存器并前进 128 个字节 |一次 1024 位。对于支持AVX512的处理器数量相对较少| ZMM寄存器，有前进256字节的例子 |一次 2048 位。我没有配备 AVX512 的计算机，因此我没有任何代码。

由于 XMM 读|写是小端字节序，因此 PSHUFB 用于在每次读取后反转字节。

该代码主要基于使用 65 位多项式的 64 位 CRC，但对于 32 位 CRC，可以通过将较低 32 位设置为零来处理。对于 32 位 CRC，大多数常数只有 32 位，并左移 32 位以简化 PCLMULQDQ 的使用，并进行调整以补偿移位，因此不是 x^(a) mod poly，而是 (x^( a-32) mod 聚)

折叠过程不会产生 CRC，它只是转换数据以推进数据。处理完所有数据后，8 个 XMM 寄存器将使用常量 rk09、rk10、...、rk19、rk20、rk01、rk02 折叠为一个 128 位值。此时（标签 _128_done:）有 128 位数据，并且由于代码基于 64 位 CRC 逻辑，因此逻辑上附加了 64 位零，因此实际上它是一个 192 位值，其中虚构的低 64 位是全部为零。高 64 位向前折叠 128 位，导致 XMM7 中的 128 位值准备好计算 64 位 CRC，但由于这是 32 位 CRC，因此 XMM7 有 96 位数据左移 32 位。高 32 位向前折叠 64 位（在这种情况下，96 位值和 rk06 都左移 32 位，因此在这种情况下 rk06 折叠 64 位（x^64 mod poly）并左移 32 位. 结果是 XMM7 中的 64 位值左移 32 位。

64位数除以33位多项式的商只需要64位数的高32位，因此左移的64位值具有高32位，可以方便计算商。除法实际上是乘以 x^64 / 多项式，PCLMULQDQ 将仅指定使用 XMM7 的高 64 位部分来使用左移 64 位数字的高 32 位。实际的CRC计算基于以下逻辑：

quotient = upper 32 bits of 64 bit value / polynomial
product  = quotient * polynomial
CRC      = 64 bit value XOR product

除法是通过乘以倒数来完成的：x^64 / poly。由于多项式及其逆为 33 位，因此它们无法左移 32 位，因此代码在每次乘法后将乘积左移 4 个字节。 CRC 以 XMM7 的第 32 至 63 位结束，pextrd eax,xmm7,1用于获取那些 32 位。

我修改了 crc32fg.cpp 以使用 CRC 多项式 0x1000000af，这就是我得到的。对于这个多项式，rk07 == rk08，但是对于其他多项式，它们会不同。

rk01    dq      000295f2300000000h      ; x^(32* 3) mod P(x) << 32
rk02    dq      0fafa517900000000h      ; x^(32* 5) mod P(x) << 32
rk03    dq      05cd86bb500000000h      ; x^(32*31) mod P(x) << 32
rk04    dq      0af6f37a300000000h      ; x^(32*33) mod P(x) << 32
rk05    dq      000295f2300000000h      ; x^(32* 3) mod P(x) << 32
rk06    dq      00000445500000000h      ; x^(32* 2) mod P(x) << 32
rk07    dq      000000001000000afh      ; floor(2^64/P(x))
rk08    dq      000000001000000afh      ; P(x)
rk09    dq      09bd57b5d00000000h      ; x^(32*27) mod P(x) << 32
rk10    dq      0b7a4d76400000000h      ; x^(32*29) mod P(x) << 32
rk11    dq      01ae0004200000000h      ; x^(32*23) mod P(x) << 32
rk12    dq      0e7720be600000000h      ; x^(32*25) mod P(x) << 32
rk13    dq      09c7fc8fe00000000h      ; x^(32*19) mod P(x) << 32
rk14    dq      03885faf800000000h      ; x^(32*21) mod P(x) << 32
rk15    dq      0b477ad7100000000h      ; x^(32*15) mod P(x) << 32
rk16    dq      00ac2ae3d00000000h      ; x^(32*17) mod P(x) << 32
rk17    dq      05eae9dbe00000000h      ; x^(32*11) mod P(x) << 32
rk18    dq      0784a483800000000h      ; x^(32*13) mod P(x) << 32
rk19    dq      07d21bf2000000000h      ; x^(32* 7) mod P(x) << 32
rk20    dq      0faebd3d300000000h      ; x^(32* 9) mod P(x) << 32

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

具有 PCLMULQDQ 的快速 CRC 未反映的相关文章

什么时候汇编比C更快？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案 Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话但却具有历史意义目前不接受新的
orpd等SSE2指令有什么意义？

The orpd指令是压缩双精度浮点值的按位逻辑或这不是做完全相同的事情吗por 按位逻辑或如果是这样拥有它还有什么意义呢请记住 SSE1orps https www felixcloutier com x86 orps首先实
为什么不能执行 mov [eax], [ebx] [重复]

这个问题在这里已经有答案了我可以做这个 mov eax ebx 和这个 mov eax ebx 甚至这个 mov eax ebx 但不是这个错误C2415 mov eax ebx 只是wtf 为什么它与 ptr1 ptr2 相同为什
NASM 轮班操作员

您将如何在寄存器上进行 NASM 中的位移位我读了手册它似乎只提到了这些操作员 gt gt lt lt 当我尝试使用它们时 NASM 抱怨移位运算符处理标量值您能解释什么是标量值并举例说明如何使用 gt gt and lt lt 另外
C/C++ 特殊 CPU 功能的使用

我很好奇新的编译器是否使用了新 CPU 中内置的一些额外功能例如 MMX SSE 3DNow 所以我的意思是在最初的 8086 中甚至没有 FPU 所以旧的编译器甚至不能使用它但新的编译器可以因为 FPU 是每个新 CPU 的一
为什么 Visual Studio 使用 xchg ax,ax

我正在查看程序的反汇编因为它崩溃了并注意到很多 xchg ax ax 我用谷歌搜索了一下发现它本质上是一个 nop 但是为什么 Visual Studio 会执行 xchg 而不是 noop 该应用程序是一个C NET3 5 64位应
在linux x86平台上学习ARM所需的工具[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我有一个 x86 linux 机器在阅读一些关于 ARM 的各种信息时我很好奇现在我想花一些时间学
从汇编程序获取命令行参数

通读专业汇编语言书籍似乎它提供了用于读取命令行参数的错误代码我纠正了一点现在它从段错误变成了读取参数计数然后是段错误这是完整的代码 data output1 asciz There are d params n output2
有没有办法使用 i387 fsqrt 指令获得正确的舍入？

有没有办法使用 i387 fsqrt 指令获得正确的舍入除了改变精确模式在 x87 控制字中我知道这是可能的但这不是一个合理的解决方案因为它存在令人讨厌的重入型问题如果 sqrt 操作中断精度模式将出错我正在处理的问题如下 x
大会，你好世界问题

我正在 Linux 上学习 asm noobuntu 10 04 我得到了以下代码 http asm sourceforge net intro hello html http asm sourceforge net intro hello
弹出 x86 堆栈以访问函数 arg 时出现分段错误

我正在尝试链接 x86 程序集和 C 我的C程序 extern int plus 10 int include
为什么如果内存组织为字，则程序计数器加 1；如果内存组织为字节，则程序计数器加 2？

如果在计算机中一条指令是 16 位并且如果存储器被组织为 16 位字则通过在当前指令的地址中加 1 来计算下一条指令的地址如果内存是按字节组织的可以单独寻址那么我们需要在当前指令地址上加二得到顺序执行的下一条指令的地址为什么会
阴影空间示例

EDIT 我接受了下面的答案并添加了我自己的代码的最终修订版希望它向人们展示影子空间分配的实际示例而不是更多的文字编辑 2 我还设法在 YouTube 视频所有内容的注释中找到了一个调用约定 PDF 的链接其中有一些关于 Li
AVX-512 指令编码 - {er} 含义

在 Intel x86 指令集参考中有许多 AVX 512 指令在指令中具有可选的 er 例如 VADDPD 的一种形式定义为 EVEX NDS 512 66 0F W1 58 r VADDPD zmm1 k1 z zmm2 zmm3 m
为什么 clang 使用 -O0 生成低效的 asm（对于这个简单的浮点和）？

我正在 llvm clang Apple LLVM 版本 8 0 0 clang 800 0 42 1 上反汇编此代码 int main float a 0 151234 float b 0 2 float c a b printf f c
如何仅使用单个数组在 JavaScript 中模拟调用堆栈

我正在看维基百科页面 https en wikipedia org wiki Call stack在调用堆栈上并尝试理解这个图像据我所知哈哈 const memory memory 0 3 top of stack pointer m
LC3 LEA指令和存储的值

我对这个问题感到困惑指令后寄存器0中存储的值是多少 LEA R0 A 被处决了吗为什么答案是x370C 我认为应该将A的地址加载到R0中如果是这样我们怎么知道地址有人可以帮忙吗非常感谢 ORIG X3700 LEA R0 A LD
从类模板参数为 asm 生成唯一的字符串文字

我有一个非常特殊的情况我需要为类模板中声明的变量生成唯一的汇编程序名称我需要该名称对于类模板的每个实例都是唯一的并且我需要将其传递给asm关键字 see here https gcc gnu org onlinedocs gcc 12
为什么在展开的 ADD 循环内重新初始化寄存器会使其运行速度更快，即使循环内有更多指令？

我有以下代码 include
32 位到 64 位内联汇编移植

我有一段 C 代码在 GNU Linux 环境下用 g 编译它加载一个函数指针它如何执行并不重要使用一些内联汇编将一些参数推送到堆栈上然后调用该函数代码如下 unsigned long stack 1 23 33 43 save

随机推荐

如何通过 Django Channels 使用多个 websocket 连接？

我已经愉快地使用 Django Channels 几个月了但是我在 Django 项目中添加了第二个依赖于 websocket 的应用程序但遇到了麻烦我得到的错误是websocket connection failed websoc
AWS API Gateway HTTP 代理模式

我正在尝试使用 AWS API Gateway 将请求代理到我在 docker 容器中运行的一些 REST 端点我为集成类型 HTTP 设置了 API 网关方法并选中了使用 HTTP 代理集成但这不仅仅是代理我的请求它剥离了路径参
陷入解决 Anaconda 环境问题

我正在运行 OSX Catalina 下载 Anaconda 后我遇到了问题downloading external packages 我在 GUI 和终端中都尝试过但进程一直卡在解决环境我知道创建新环境可能是一种解决方法但我宁愿
AngularJS ForEach 将新项目推送到对象中

我有一个 JavaScript 对象其中包含零售商列表 var listRetailers url http www fake1 com img images 1logo jpg url http www fake2 com img im
在捆绑 NSBundle 中找不到名为“Main”的故事板

在我的应用程序的开发过程中我决定从使用 UIStoryboard 更改为 xib 文件现在我收到错误在捆绑 NSBundle 中找不到名为 Main 的故事板如何在我的应用程序的模拟器部分解决此问题去除 Main storyboa
入口路由 API 前缀问题

paths backend serviceName booknotes front end service servicePort 80 path backend serviceName booknotes back end service
如何通过附加到 Chrome 来使用 VS 在 IIS 上调试 Blazor Webassemble？

我正在尝试通过将调试器附加到 Chrome 来调试 VS 2019 中的 Blazor Webassemble 5 0 1 应用程序我无法使用 VS 中的直接调试因为我有一个包含多个模块 RCL 的模块化项目结构放置在不同的VS解
Bash 脚本 - 斐波那契

我试图制作一个递归函数来计算输入数字的斐波那契数列顺便说一句我陷入了如何获取递归获得的值的困境 bin bash Function Fibonacci fib number 1 if number lt 2 then tmp numbe
安卓修改apk文件名的方法

我需要更改我的 Android 应用程序的 apk 文件的名称我正在使用 Eclipse 进行构建如何实现这一目标右键单击您的项目 Android 工具 gt 导出未签名的应用程序 gt 将其命名为您想要的任何名称 apk
JWT（JSON Web 令牌）前端 webpack 错误

import React useEffect useState from react import jwt from jsonwebtoken import useNavigate from react router dom import
msbuild：构建为 appxbundle（AppxBundle=始终不工作）

我有一个共享的 Windows8 1 项目其中包含电话和桌面项目我定义了不同的配置来构建用于桌面的 x86 x64 和用于手机的 ARM msbuild 工作正常没有错误但输出文件夹或其他任何地方上没有最终的 appxbundl
获取所有 POST 数据并通过电子邮件发送

我正在尝试使用 PHP 邮件功能向自己发送一封包含所有帖子变量的电子邮件到目前为止我有这个 message foreach POST as key gt value echo Field htmlspecialchars key is h
当其他成员设置为新值时，C 联合成员给出特定/错误的值。为什么下面的 C 代码会输出这样的结果？

include
IE 创建字体图标奇怪的下划线

我正在使用 fontello 字体图标除了 Internet Explorer 之外它们都可以完美运行它们也不会对悬停状态做出反应所以我现在遇到的问题是字体图标下有一条奇怪的下划线我已经尝试过文本装饰边框底部有没有人对此有任
JDK8与Windows XP兼容吗？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我发现可以在 Windows XP 上安装 JDK8 为了避免安装错误我们必须更改jdk 8u11 windows i586 exe使用
仅获取存储桶的顶级对象

我的问题与此类似如何使用node js获取谷歌云存储文件夹中的文件列表 https stackoverflow com questions 49684942 how to get a list of files in a google cl
C++ 中使用 #include 和 #include 的区别

使用有什么区别 include
PopOver 自动调整位置

我遇到了 PopOver 的问题我希望它能够在所有位置自动调整如果右侧找不到空间则会从左侧打开但我希望它对顶部底部做同样的事情即如果顶部找不到空间则应在底部打开反之亦然难道我就没有什么办法可以为各方做到这一点吗 data
错误：尝试解析模块 @apollo/client React Native 时

安装新版本的 apollo 客户端后出现此错误我尝试了其他版本并降级但没有任何结果我还尝试在 Metro config js 中指定解析 cjs 类型的文件 apollo client main cjs 但什么也没有 Error err
具有 PCLMULQDQ 的快速 CRC *未反映*

我正在尝试写一个PCLMULQDQ 优化的 CRC 32 https www intel com content dam www public us en documents white papers fast crc computatio

具有 PCLMULQDQ 的快速 CRC *未反映*

具有 PCLMULQDQ 的快速 CRC *未反映* 的相关文章

随机推荐

热门标签

具有 PCLMULQDQ 的快速 CRC 未反映

具有 PCLMULQDQ 的快速 CRC 未反映的相关文章