我正在尝试使用 nVidia CUDA 在 CTR 模式下实现 AES-256。我已经成功编写了用于密钥扩展的 CPU 代码,现在我需要实现实际的 AES-256 算法。根据维基百科,我见过的一些代码,特别是this PDF(第 9 页),AES 轮次可以作为一系列表查找来实现。我的问题是如何生成这些表?我知道我需要 4 KB 来存储这些表,这不是问题。我花了一整天的时间试图找到这些桌子但没有成功。我发布的 PDF 链接提到了查找表 T0、T1、T2 和 T3,但我不知道这些是什么。它还提到了轮键4、5、6和7,但我也不明白这些索引指的是什么。
我最接近弄清楚如何生成这些查找表的是来自这个项目。代码里面有一条注释说:
Te0[x] = S [x].[02, 01, 01, 03];
Te1[x] = S [x].[03, 02, 01, 01];
Te2[x] = S [x].[01, 03, 02, 01];
Te3[x] = S [x].[01, 01, 03, 02];
但是,我并不完全确定我知道该符号的含义(是矩阵乘法还是其他什么?)。我唯一认识到的是混合列部分常数矩阵,以及 S 盒矩阵。
[编辑] 既然有人指出了 - 查找实现实际上怎么会更慢?在此处实施不使用查找表的 AES 是否明智?