为什么在使用 pshufb shuffle 作为半字节查找表之前需要屏蔽？

2023-12-29

这段代码来自https://github.com/WojciechMula/sse-popcount/blob/master/popcnt-avx2-lookup.cpp https://github.com/WojciechMula/sse-popcount/blob/master/popcnt-avx2-lookup.cpp.

std::uint64_t popcnt_AVX2_lookup(const uint8_t* data, const size_t n) {

    size_t i = 0;

    const __m256i lookup = _mm256_setr_epi8(
        /* 0 */ 0, /* 1 */ 1, /* 2 */ 1, /* 3 */ 2,
        /* 4 */ 1, /* 5 */ 2, /* 6 */ 2, /* 7 */ 3,
        /* 8 */ 1, /* 9 */ 2, /* a */ 2, /* b */ 3,
        /* c */ 2, /* d */ 3, /* e */ 3, /* f */ 4,

        /* 0 */ 0, /* 1 */ 1, /* 2 */ 1, /* 3 */ 2,
        /* 4 */ 1, /* 5 */ 2, /* 6 */ 2, /* 7 */ 3,
        /* 8 */ 1, /* 9 */ 2, /* a */ 2, /* b */ 3,
        /* c */ 2, /* d */ 3, /* e */ 3, /* f */ 4
    );

    const __m256i low_mask = _mm256_set1_epi8(0x0f);

    __m256i acc = _mm256_setzero_si256();

#define ITER { \
        const __m256i vec = _mm256_loadu_si256(reinterpret_cast<const __m256i*>(data + i)); \
        const __m256i lo  = _mm256_and_si256(vec, low_mask); \
\\\     ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ why do we need this? 
        const __m256i hi  = _mm256_and_si256(_mm256_srli_epi16(vec, 4), low_mask); \
        const __m256i popcnt1 = _mm256_shuffle_epi8(lookup, lo); \
        const __m256i popcnt2 = _mm256_shuffle_epi8(lookup, hi); \
        local = _mm256_add_epi8(local, popcnt1); \
        local = _mm256_add_epi8(local, popcnt2); \
        i += 32; \
    }

    while (i + 8*32 <= n) {
        __m256i local = _mm256_setzero_si256();
        ITER ITER ITER ITER
        ITER ITER ITER ITER
        acc = _mm256_add_epi64(acc, _mm256_sad_epu8(local, _mm256_setzero_si256()));
    }

...rest are unrelated to the question

该代码用于替换builtin_popcnt 函数，该函数以二进制格式计算给定输入中1 的数量。令我困扰的是这两行：

const __m256i lo  = _mm256_and_si256(vec, low_mask); \
const __m256i hi  = _mm256_and_si256(_mm256_srli_epi16(vec, 4), low_mask); \

根据英特尔内在指南 ,the _mm256_shuffle_epi8指令仅查看打包字符 b 的低 4 位：

__m256i _mm256_shuffle_epi8 (__m256i a, __m256i b)
FOR j := 0 to 15
    i := j*8
    IF b[i+7] == 1
        dst[i+7:i] := 0
    ELSE
        index[3:0] := b[i+3:i] 
\\\     ^^^^^^^^^^^^^^^^^^^^^^ only look at lower 4 bits
        dst[i+7:i] := a[index*8+7:index*8]
    FI
    IF b[128+i+7] == 1
        dst[128+i+7:128+i] := 0
    ELSE
        index[3:0] := b[128+i+3:128+i]
        dst[128+i+7:128+i] := a[128+index*8+7:128+index*8]
    FI
ENDFOR
dst[MAX:256] := 0

所以如果我没记错的话，你可以这样做

const __m256i lo  = vec; \
const __m256i hi  = _mm256_srli_epi16(vec, 4); \

我是 AVX 新手，如果有什么问题请告诉我。

[v]pshufb不幸的是，查看输出元素的高位为零。在您引用的伪代码中：

    IF b[i+7] == 1                 # if high-bit set
        dst[i+7:i] := 0            # zero that output element
    ELSE
         ... the part you were looking at   # else index the source

内在函数指南仅在伪代码中介绍它，而不是文本。
和往常一样，asm 手动输入 https://www.felixcloutier.com/x86/pshufb描述更具描述性：

如果设置了随机控制掩码的每个字节的最高有效位（位[7]），则将常量零写入结果字节中

它对于某些问题很有用，但对于pshufb作为半字节查找表，它确实需要 2[v]pand指示。包括高半字节，因为 x86 没有 SIMD 字节移位。最狭窄的存在psrlw16 位元素，因此即使每隔一个字节也会被垃圾移位到其高位。除非已知您的输入数据始终清除这些位位置。

AVX-512VBMI（Ice Lake 及更新版本）vpermb https://www.felixcloutier.com/x86/vpermb没有这个缺点，但它是车道交叉的，因此它在支持它的 CPU 上有 3c 延迟，而不是 1。幸运的是，与 Ice Lake 不同的是，它在 Ice Lake 上仍然只有 1 uopvperm2tw and vpermt2b即使在冰湖上（https://uops.info https://uops.info).

但在任何未来通过解码为 2x 256 位一半来执行 AVX-512 的 CPU 上，它可能会更慢，就像未来的一些英特尔效率核心一样。（我猜，Alder Lake E 核具有 128 位宽 EU，并且已经将 256 位向量分成两半，并且支持每条指令 4 个微指令的 AVX-512 将开始变得愚蠢。不幸的是，英特尔没有设计一种仅以 128 和 256 位宽度公开新 AVX-512 功能的方法（例如屏蔽和更好的随机播放，vpternlogd, etc.))

Zen 4 可以高效处理 512 位指令，仍然是单微指令，最坏情况下只有 256 位指令一半的吞吐量，相同的微指令占用一个执行单元 2 个周期。

因此，与 Zen 1 不同，在 Zen 1 中，车道交叉 AVX1/2 会随机播放vpermq and vperm2f128是几个 uop，因为洗牌单元实际上只有 128 位宽，Zen 4 的吞吐量为 1/时钟vpermb zmm，与 2/时钟vpermb ymm/xmm。 512 位版本有 6 个周期延迟，ymm 为 4 个周期，xmm 为 2 个周期。（https://uops.info/ https://uops.info/)

Using vpermb作为直接替代品vpshufb，LUT 仍然可以从 16 字节源广播加载，因为它只是在每个通道中重复。然后，只要索引 0、16、32 和 48 都读取相同的值，您就可以将第 4 个以上的位保留为不为零，等等。

或者当然它开辟了更广泛的 LUT 的可能性，例如极其高效的 base64 编码vpmultishiftqb用于并行位域提取。（https://github.com/aklomp/base64/blob/master/lib/arch/avx512/enc_reshuffle_translate.c https://github.com/aklomp/base64/blob/master/lib/arch/avx512/enc_reshuffle_translate.c or https://github.com/WojciechMula/base64simd https://github.com/WojciechMula/base64simd)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么在使用 pshufb shuffle 作为半字节查找表之前需要屏蔽？的相关文章

在C语言中使用“void”

我很困惑为什么我们需要通过void转换为 C 函数 int f void return 0 versus int f return 0 什么是正确的做法以及为什么 In C int f 是一种老式的声明它说f需要固定但未指定数量和类型的参
在搜索 List 时，为什么 Enumerable.Any(Func predicate) 比带有 if 语句的 foreach 慢

最近有件事引起了我的好奇心 Why is the Enumerable Any Func
使用具有现有访问令牌的 Google API .NET 客户端

用例如下移动应用程序正在通过 Google 对用户进行身份验证并且在某些时候我们需要将用户的视频发布到他的 YouTube 帐户出于实际原因实际发布应该由后端完成已经存储在那里的大文件由于用户已经通过应用程序的身份验证因此应
向 ExpandoObject 添加方法时，“关键字 'this' 在静态属性、静态方法或静态字段初始值设定项中无效”

我尝试向 ExpandoObject 添加一个动态方法该方法将返回属性动态添加给它但它总是给我错误我在这里做错了什么吗 using System using System Collections Generic using Sys
如何创建可以像 UserControl 一样编辑的 TabPage 子类？

我想创建一个包含一些控件的 TabPage 子类并且我想通过设计器来控制这些控件的布局和属性但是如果我在设计器中打开子类我将无法像在 UserControl 上那样定位它们我不想创建一个带有 UserControl 实例的 Tab
32 位应用程序的特征最大矩阵大小

所以我正在寻找Eigen http eigen tuxfamily org index php title Main Page当我尝试声明大于 10000x10000 的矩阵时包崩溃我需要声明一个像这样的矩阵可靠地大约有 13000
从 MVC 迁移到 ASP.NET Core 3.1 中的端点路由时，具有角色的 AuthorizeAttribute 不起作用

我正在尝试将我的项目从 UseMVC asp net core 2 2 兼容样式升级到 UseEndpoint Routing 并且我的所有请求都被重定向到我的验证失败页面它与声明有关如果我删除 Authorize Roles Adm
C++：重写已弃用的虚拟方法时出现弃用警告

我有一个纯虚拟类它有一个纯虚拟方法应该是const 但不幸的是不是该接口位于库中并且该类由单独项目中的其他几个类继承我正在尝试使用这个方法const不会破坏兼容性至少在一段时间内但我找不到在非常量方法重载时产生警告的方法以下
Clang 编译器 (x86)：80 位长双精度

我正在尝试在 x86 Windows 平台上使用本机 80 位长双精度海湾合作委员会选项 mlong double 80 https gcc gnu org onlinedocs gcc x86 Options html似乎不适用于 cl
对齐 GridView 中的行值

我需要在 asp net 3 5 中右对齐 gridview 列中的值我怎样才能做到这一点
从多个类访问串行端口

我正在尝试使用串行端口在 arduino 和 C 程序之间进行通信我对 C 编程有点陌生该程序有多种用户控制形式每一个都需要访问串口来发送数据我需要做的就是从每个类的主窗体中写入串行端口我了解如何设置和写入串行端口这是我的 Fo
当前的 c++ 工作草案与当前标准有何不同

通过搜索该标准的 PDF 版本我最终找到了这个链接C 标准措辞草案 http www open std org jtc1 sc22 wg21 docs papers 2012 n3376 pdf从 2011 年开始我意识到我可以购买最终
将数据打印到文件

我已经超载了 lt lt 运算符使其写入文件并写入控制台我已经为同一个函数创建了 8 个线程并且我想输出 hello hi 如果我在无限循环中运行这个线程例程文件中的o p是 hello hi hello hi hello hi e
如何在c#中的内部类中访问外部类的变量[重复]

这个问题在这里已经有答案了我有两个类我需要声明两个类共有的变量如果是嵌套类我需要访问内部类中的外部类变量请给我一个更好的方法来在 C 中做到这一点示例代码 Class A int a Class B Need to access
将构建日期放入“关于”框中

我有一个带有关于框的 C WinForms 应用程序我使用以下方法将版本号放入关于框中 FileVersionInfo GetVersionInfo Assembly GetExecutingAssembly Location F
剪贴板在 .NET 3.5 和 4 中的行为有所不同，但为什么呢？

我们最近将一个非常大的项目从 NET Framework 3 5 升级到 4 最初一切似乎都工作正常但现在复制粘贴操作开始出现错误我已经成功制作了一个小型的可复制应用程序它显示了 NET 3 5 和 4 中的不同行为我还找到了一种解
WinRT 定时注销

我正在开发一个 WinRT 应用程序要求之一是应用程序应具有定时注销功能这意味着在任何屏幕上如果应用程序空闲了 10 分钟应用程序应该注销并导航回主屏幕显然执行此操作的强力方法是在每个页面的每个网格上连接指针按下事件并在触
Googletest：如何异步运行测试？

考虑到一个包含数千个测试的大型项目其中一些测试需要几分钟才能完成如果按顺序执行整套测试需要一个多小时才能完成通过并行执行测试可以减少测试时间据我所知没有办法直接从 googletest mock 做到这一点就像 async选项
实例化 Microsoft.Office.Interop.Excel.Application 对象时出现错误：800700c1

实例化 Microsoft Office Interop Excel Application 以从 winforms 应用程序生成 Excel 时出现以下错误这之前是有效的但突然间它停止工作了尽管代码和 Excel 版本没有变化我
是否可以在 C# 中强制接口实现为虚拟？

我今天遇到了一个问题试图重写尚未声明为虚拟的接口方法的实现在这种情况下我无法更改接口或基本实现而必须尝试其他方法但我想知道是否有一种方法可以强制类使用虚拟方法实现接口 Example interface IBuilder

随机推荐

NHibernate 的优点和缺点

使用 NHibernate 的优点缺点是什么应该和不应该使用 NHibernate 构建什么样的应用程序既然别人都说了优点我就只说缺点吧缺点由于元数据准备而增加了启动时间不适合桌面类应用程序没有orm背景的巨大学习曲线微
使用 LINQ 从大型结果集中高效选择随机行（ala TABLESAMPLE）

我想从一个非常大的表数百万行上的复杂查询的结果中选择一些随机行我正在使用 SQL Server 2008 有效地执行此操作的正确方法似乎是表格示例 http technet microsoft com en us library ms
连接+三元

在 PHP 中有没有办法使用三元条件连接两个字符串当我尝试这样做时我得到的只是else而不是想要的something else 只需将整个三元运算符放在括号中如下所示为什么你必须这样做答案是运算符优先级请参阅手册了解更多信息
在 Mercurial 中，如何设置和使用每个用户平台相关的 hgrc？

系统级 hgrc 文件位于 etc mercurial and
如何更改 Android 上按钮的文本对齐方式（Xamarin Forms）？

我使用 Xamarin 表单在 iOS 上按钮显示的文本对齐很好对齐文本 iOS https i stack imgur com zEDQp png 但在 Android 上按钮的文本对齐方式始终显示居中对齐文本 Android
为什么 float('nan') 在 python 中不等于自身[重复]

这个问题在这里已经有答案了 In 6 a float nan In 7 a a Out 7 False Why 有两个原因一是现实原因一是历史原因历史原因是这使得测试 NaN 变得微不足道如果该值不等于其自身则为 NaN 实际原
MongoDB 在索引列上选择 count(distinct x) - 计算大型数据集的唯一结果

I have gone through several articles and examples and have yet to find an efficient way to do this SQL query in MongoDB
如何在Python中编写调度程序以在任何特定时间点执行Python脚本？

我正在运行两个 python 脚本 test py test1 py 使用 bash 脚本运行 sh 蟒蛇测试 py 蟒蛇测试1 py 每 2 小时运行一次我想在某个时间点终止这个正在运行的 bash 脚本并想重新启动相同的进程 Cr
如何使用 NSVisualEffectView 将窗口与背景混合

对于旧版本的 Swift Xcode 似乎有很多问题但由于某种原因它无法与最新的更新一起使用我创建了一个 NSVisualEffectView blurryView 并将子视图添加到我的主视图中 class ViewControlle
如何让 VS2010 识别 SpecFlow 生成的 mstest？

我已将 Specflow 配置为以 MsTest 框架而不是 NUnit 为目标方法是在 specs 类库的 app config 中指定它
xjc 绑定自定义在 jaxb 2.1.3 中不起作用。它适用于 jaxb 2.0

我在 JDK 1 6 0 中的 jaxb 2 0 中开发了一个绑定自定义文件并且运行良好现在我在 JDK 1 6 0 13 中使用 jaxb 2 1 3 它给了我错误错误 xxx 出现在多个属性中这就是绑定文件应该通过重命名它们来处
违反完整性约束：1452 laravel

我在 laravel 中有两个通过以下迁移创建的表用户迁移 public function up Schema create users function table table gt increments id gt unsigned
检查输入日期是否有效的 C 程序

我被要求纠正一个程序该程序检查用户输入的日期是否合法我尝试编写它但我猜逻辑不正确 Legitimate date include
如何从表单上传 2GB 以上的大文件到 .NET Core API 控制器？

通过 Postman 上传大文件时从使用 php 编写的表单的前端我遇到了同样的问题我从 Azure Web App 收到一条 502 bad gateway 错误消息 502 Web 服务器在充当 Web 服务器时收到无效响应网关
如何将Spark Row的数据集转换为字符串？

我已经编写了使用 SparkSQL 访问 Hive 表的代码这是代码 SparkSession spark SparkSession builder appName Java Spark Hive Example master local
保持图像的形式

我做了2份表格 Form2 有设置背景图像的按钮我懂了 this BackgroundImage new Bitmap Properties Resources 1334821694552 new Size 800 500 1334821
为什么 glReadPixels 这么慢并且有其他选择吗？

我需要在每一帧上截取屏幕截图并且需要非常高的性能我正在使用 freeGlut 我发现里面可以这样完成glutIdleFunc thisCallbackFunction GLubyte data GLubyte malloc 3 m sc
未倾斜的孩子未对齐

Note 这个问题是关于输出的问题并且not关于创建任何形状我最近创建了一个形状 prog position relative top 20px width 150px height 120px background green dis
Linux中netstat和ss的区别？

在Linux中 netstat命令告诉我们系统中活动套接字的信息我明白那个netstat uses proc net tcp获取系统网络信息 Since netstat手册页说 netstat 已过时因此我们应该使用 ss NOTE T
为什么在使用 pshufb shuffle 作为半字节查找表之前需要屏蔽？

这段代码来自https github com WojciechMula sse popcount blob master popcnt avx2 lookup cpp https github com WojciechMula sse po

为什么在使用 pshufb shuffle 作为半字节查找表之前需要屏蔽？

为什么在使用 pshufb shuffle 作为半字节查找表之前需要屏蔽？ 的相关文章

随机推荐

热门标签

为什么在使用 pshufb shuffle 作为半字节查找表之前需要屏蔽？的相关文章