用于预乘 ARGB 的 SSE alpha 混合

2024-05-08

我正在尝试编写一个支持 SSE 的 alpha 合成器，这就是我想出的。首先，混合两个 4 像素向量的代码：

// alpha blend two 128-bit (16 byte) SSE vectors containing 4 pre-multiplied ARGB values each
//
__attribute__((always_inline))
static inline __m128i blend4(__m128i under, __m128i over) {
    // shuffle masks for alpha and 255 vector for 255-alpha
    //
    // NOTE: storing static __m128i here with _mm_set_si128 was _very_ slow, compiler doesn't seem
    // to know it can store this as a const, so it had guard variables and did real static initialization,
    // stick with arrays.
    //
    static const uint64_t allo[2] __attribute__((aligned(16))) = { 0x03ff03ff03ff03ff, 0x07ff07ff07ff07ff };
    static const uint64_t alhi[2] __attribute__((aligned(16))) = { 0x0bff0bff0bff0bff, 0x0fff0fff0fff0fff };
    static const uint64_t m255[2] __attribute__((aligned(16))) = { 0xff00ff00ff00ff00, 0xff00ff00ff00ff00 };

    // replicate top two pixels from under
    __m128i underhi = (__m128i)_mm_movehl_ps(
        (__m128)under,
        (__m128)under
    );

    __m128i u16_0 = _mm_cvtepu8_epi16(under);                   // convert 8-bit fields to 16-bit with zero extension
    __m128i u16_1 = _mm_cvtepu8_epi16(underhi);  
    __m128i al8_0 = _mm_shuffle_epi8 (over, *(__m128i*)&allo);  // replicate (alpha << 8) to each field
    __m128i al8_1 = _mm_shuffle_epi8 (over, *(__m128i*)&alhi);
    __m128i mal_0 = _mm_sub_epi8     (*(__m128i*)&m255, al8_0); // compute 255-alpha
    __m128i mal_1 = _mm_sub_epi8     (*(__m128i*)&m255, al8_1);
    __m128i mul_0 = _mm_mulhi_epu16  (u16_0, mal_0);            // under*(255-over.alpha)
    __m128i mul_1 = _mm_mulhi_epu16  (u16_1, mal_1);
    __m128i pixel = _mm_packus_epi16 (mul_0, mul_1);

    // add to background pixel with saturation
    return _mm_adds_epi8(over, pixel);
}

其次，一个包装器展开多个像素操作并聚合加载/存储。达到约 32 像素/iter 似乎是最佳点：

// perform N 4-pixel blending operations at once, load/blend/store paradigm.  We take a template parameter
// for the size so the compiler is more likely to unroll the loops for us.
// 
template <ssize_t N>
__attribute__((always_inline, optimize("unroll-loops")))
static inline void blendN(__m128i *dst, const __m128i *punder, const __m128i *pover, bool single=false) {
    __m128i under[N];
    __m128i  over[N];
    __m128i  cc = _mm_loadu_si128(pover);

    // load
    for (ssize_t ii=0; ii < N; ii++) {
        under[ii] =              _mm_loadu_si128(punder+ii);
        over[ii] = single ? cc : _mm_loadu_si128( pover+ii);
    }

    // blend
    for (ssize_t ii=0; ii < N; ii++) {
        under[ii] = blend4(under[ii], over[ii]);
    }

    // store
    for (ssize_t ii=0; ii < N; ii++) {
        _mm_storeu_si128(dst+ii, under[ii]);
    }
}

如此称呼：

 // blend 32/16/8/4 pixels at a time
    ssize_t ii=0;
    for (ii *= 2; ii < len/32; ii++) { blendN<8>(vdst+8*ii, vunder+8*ii, vover+8*ii); }
    for (ii *= 2; ii < len/16; ii++) { blendN<4>(vdst+4*ii, vunder+4*ii, vover+4*ii); }
    for (ii *= 2; ii < len/8;  ii++) { blendN<2>(vdst+2*ii, vunder+2*ii, vover+2*ii); }
    for (ii *= 2; ii < len/4;  ii++) { blendN<1>(vdst+1*ii, vunder+1*ii, vover+1*ii); }

    // handle remainder
    ii *= 4;
    for (; ii < len; ii++) {
        *(pdst+ii) = blend(*(punder+ii), *(pover+ii));
    }

使用此功能，我可以在 i7-2600K 上获得大约 2.5 英寸/周期的吞吐量。很好奇是否有人可以对我的 SIMD 提出改进建议。

编辑：这是与 Peter Cordes 交谈后的一些更新代码。

__attribute__((always_inline))
static inline __m128i blend4(__m128i under, __m128i over) {
    // shuffle masks for alpha and 255 vector for 255-alpha
    //
    // NOTE: storing static __m128i is _very_ slow, compiler doesn't seem to know it can store
    // this as a const, so it had guard variables and did real static initialization. Stick with 
    // just const
    //
    const __m128i allo = (__m128i)_mm_setr_epi32(0x03ff03ff, 0x03ff03ff, 0x07ff07ff, 0x07ff07ff);
    const __m128i alhi = (__m128i)_mm_setr_epi32(0x0bff0bff, 0x0bff0bff, 0x0fff0fff, 0x0fff0fff);
    const __m128i zero = (__m128i)_mm_setr_epi32(0x00000000, 0x00000000, 0x00000000, 0x00000000);
    const __m128  m255 = (__m128 )_mm_setr_epi32(0xff00ff00, 0xff00ff00, 0xff00ff00, 0xff00ff00);

    __m128i u16_0 =   _mm_cvtepu8_epi16(under);               // convert 8-bit fields to 16-bit with zero extension
    __m128i u16_1 =   _mm_unpackhi_epi8(under, zero);
    __m128i al8_0 =   _mm_shuffle_epi8 (over,  allo);         // replicate (alpha << 8) to each field
    __m128i al8_1 =   _mm_shuffle_epi8 (over,  alhi);
    __m128i mal_0 = (__m128i)_mm_xor_ps(m255, (__m128)al8_0); // compute 255-alpha
    __m128i mal_1 = (__m128i)_mm_xor_ps(m255, (__m128)al8_1);
    __m128i mul_0 =   _mm_mulhi_epu16  (u16_0, mal_0);        // under*(255-over.alpha)
    __m128i mul_1 =   _mm_mulhi_epu16  (u16_1, mal_1);
    __m128i pixel =   _mm_packus_epi16 (mul_0, mul_1);

    // add to background pixel with saturation
    return _mm_adds_epi8(over, pixel);
}

最大的变化是使用 unpackhi 而不是 cvtepu8 将像素下的前 8 个字节扩展到 16 位。然后使用异或而不是减法来计算 255-alpha。 xor 可以在多个端口上运行，而不是减法仅限于一个端口。在我的 i7-2600K 上，这大约每秒混合 22 亿像素，这似乎足够了。

不是对你的问题的直接回答，但对于评论来说太长了，也许它对某人有用。

将 alpha 排列到每个 16 位通道的上半部分的技巧，以便您可以使用_mm_mulhi_epu16用一条指令将乘积放入低位确实很巧妙。我的问题略有不同，因为我没有预乘 Alpha，并且我需要能够指定整个纹理的不透明度。我将代码扩展为以下内容：

__m128i blend4(__m128i under, __m128i over, float opacity) {
    const __m128i alpha16 = _mm_set1_epi16(alpha * 255);
    const __m128i allo = (__m128i) _mm_setr_epi32(0xff03ff03, 0xff03ff03, 0xff07ff07, 0x0ff7ff07);
    const __m128i alhi = (__m128i) _mm_setr_epi32(0xff0bff0b, 0xff0bff0b, 0xff0fff0f, 0x0fffff0f);
    const __m128i zero = (__m128i) _mm_setr_epi32(0x00000000, 0x00000000, 0x00000000, 0x00000000);
    const __m128i i255 = (__m128i) _mm_setr_epi32(0xff00ff00, 0xff00ff00, 0xff00ff00, 0xff00ff00);

    __m128i under0 = _mm_cvtepu8_epi16(under);
    __m128i under1 = _mm_unpackhi_epi8(under, zero);
    __m128i over0 = _mm_cvtepu8_epi16(over);
    __m128i over1 = _mm_unpackhi_epi8(over, zero);
    __m128i alpha0 = _mm_mullo_epi16(_mm_shuffle_epi8(over, allo), alpha16);
    __m128i alpha1 = _mm_mullo_epi16(_mm_shuffle_epi8(over, alhi), alpha16);
    __m128i invAlpha0 = _mm_xor_si128(i255, alpha0);
    __m128i invAlpha1 = _mm_xor_si128(i255, alpha1);
    __m128i underMul0 = _mm_mulhi_epu16(under0, invAlpha0);
    __m128i underMul1 = _mm_mulhi_epu16(under1, invAlpha1);
    __m128i overMul0 = _mm_mulhi_epu16(over0, alpha0);
    __m128i overMul1 = _mm_mulhi_epu16(over1, alpha1);
    __m128i underFinal = _mm_packus_epi16(underMul0, underMul1);
    __m128i overFinal = _mm_packus_epi16(overMul0, overMul1);
    return _mm_adds_epu8(overFinal, underFinal);
}

我最初将 alpha 混入每个通道的下半部分，以便结果的高位在乘以后最终位于每个通道的上半部分alpha16，然后从那里_mm_mulhi_epu16技巧照常进行。剩下的只是简单的阿尔法乘法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

用于预乘 ARGB 的 SSE alpha 混合的相关文章

将字段中的位扩展到掩码中所有（重叠+相邻）集位的最快方法？

假设我有 2 个名为 IN 和 MASK 的二进制输入实际字段大小可能是 32 到 256 位具体取决于用于完成任务的指令集每次调用时两个输入都会改变 Inputs IN 1100010010010100 MASK 000111101
当前的 x86 架构是否支持非临时加载（来自“正常”内存）？

我知道有关此主题的多个问题但是我没有看到任何明确的答案或任何基准测量因此我创建了一个处理两个整数数组的简单程序第一个数组a非常大 64 MB 第二个数组b很小无法放入 L1 缓存程序迭代a并将其元素添加到相应的元素中b在模块化
更改组合框下拉列表边框的颜色

My code Private Sub ComboBox2 DrawItem sender As Object e As DrawItemEventArgs Handles ComboBox2 DrawItem If e Index lt
CISC 机器 - 它们不只是将复杂指令转换为 RISC 吗？

也许我在架构上存在误解但如果机器有比如说乘法指令该指令是否未转换为更小的指令或者过于复杂以至于最终与等效的 RISC 指令具有相同的速度乘法是一个不好的例子它在两种体系结构中都是一条指令将上面的乘法替换为 CISC 中更
如何在 SVG 元素上使用箭头标记？

我需要在 d3 js 中创建一个箭头但我找到的只是带有节点图的示例我需要的是简单地制作一个从 A 点到 B 点的箭头我尝试实现以下示例中的部分代码 http bl ocks org 1153292 http bl ocks org 1
优化大数据读写（C++）

我正在寻求优化 C 模拟应用程序的读取写入大量数据称为映射的数据本质上由整数双精度数浮点数和单个枚举组成该地图数据的大部分大小是固定的但一小部分可能会变化从几KB到几KB 大小几个这样的映射通常是数百万个在应用程序启
PAE（物理地址扩展）如何实现大于4GB的地址空间？

维基百科文章的摘录物理地址扩展 http en wikipedia org wiki Physical Address Extension x86 处理器硬件架构通过用于选择附加内存的附加地址线进行了增强因此物理地址大小从 32 位增加到
挑战：优化取消列出[简单]

因为 SO 最近有点慢所以我发布了一个简单的问题如果大鱼们能在这场比赛中留在替补席上并给新秀们一个回应的机会我将不胜感激有时我们的对象具有大量的大列表元素向量您如何将这个对象取消列出到单个向量中证明你的方法比unlist
当 mov 指令导致页面错误并且在 x86 上禁用中断时会发生什么？

我最近在自定义 Linux 内核 2 6 31 5 x86 驱动程序中遇到一个问题其中 copy to user 会定期不将任何字节复制到用户空间它将返回传递给它的字节数表明它没有复制任何内容经过代码检查我们发现代码在调用 cop
如何有效地扫描每次迭代交替的 2 位掩码

给定 2 个位掩码应交替访问 0 1 0 1 我尝试获得运行时高效的解决方案但找不到比以下示例更好的方法 uint32 t mask 2 uint8 t mask index 0 uint32 t f tzcnt u32 mask ma
Java中的整数缓存[重复]

这个问题在这里已经有答案了可能的重复奇怪的Java拳击 https stackoverflow com questions 3130311 weird java boxing 最近我看到一个演示其中有以下 Java 代码示例 Inte
分组符号最大长度平衡子序列

将 B 视为分组符号和的序列如果 B 的长度为 0 或 B 具有以下形式之一则称 B 为平衡序列 X Y 或 X Y 或 X Y 其中 X 和 Y 本身是平衡的平衡示例现在的问题是找到一种有效的算法来找到给定输入的最大长度平衡子
适用于图形应用程序的快速、像素精度 2D 绘图 API？

我想创建一个跨平台的绘图程序编写应用程序的一个要求是画布上具有像素级精度例如我想编写自己的画线算法而不是依赖别人的我不想要任何形式的抗锯齿同样需要像素级控制我希望屏幕上的用户交互快速且响应灵敏取决于我编写快速算法的能力理
难以理解汇编命令“加载有效地址”[重复]

这个问题在这里已经有答案了可能的重复 LEA 指令的目的是什么 https stackoverflow com questions 1658294 whats the purpose of the lea instruction LEA指
如何向 C# XmlDocument 添加新的根元素？

我有一个不受我控制的 XmlDocument 其结构如下
gcc 删除内联汇编代码

看起来 gcc 4 6 2 删除了它认为函数中未使用的代码 test c int main void goto exit handler asm volatile jmp 0x0 exit return 0 拆解main 0x0804840
平衡括号问题的优化解

给定一个仅包含字符的字符串 and 判断输入字符串是否有效输入字符串在以下情况下有效左括号必须由相同类型的括号封闭左括号必须按正确的顺序关闭请注意空字符串也被视为有效示例1 Input Output true Example 2
优化 - 步进可能表现奇怪：iOS/Unity

我正在尝试将 Unity 集成到 iOS 应用程序中我已经遵循了这个教程http www agnosticdev com blog entry swift integrating unity and vuforia ios swift p
为什么 OpenGL 有远裁剪平面，以及使用什么惯用法来处理这个问题？

我一直在学习 OpenGL 持续困扰我的一个话题是远裁剪平面虽然我可以理解近剪裁平面和侧剪裁平面它们永远不会产生任何实际效果因为它们之外的对象无论如何都不会被渲染背后的推理但远剪裁平面似乎只是一个烦恼由于 OpenGL 背后的人
java绕中心旋转矩形

我想围绕其中心点旋转一个矩形它应该保留在应该绘制的位置并在该空间中旋转这是我的代码 AffineTransform transform new AffineTransform transform rotate Math toRadian

随机推荐

如何在 Flutter 中开始加载主题

我希望用户可以在我的应用程序中更改并保存主题颜色但是我不知道如何在应用程序开始运行时加载保存的主题颜色比如我想在下面的评论处直接加载保存的主题颜色我尝试了共享首选项但是 SharedPreference 实例需要运行await 这
为什么不重新评估 Binding.scala 路由器？

我正在尝试通过 Binding scala 为个人项目构建通用路由器我定义了一个PageState trait sealed trait WhistState def text String def hash String def ren
Xcode 9 - Alamofire Pod。命令 /bin/sh 失败，退出代码为 1

Users Alex Library Developer Xcode DerivedData MyProject ehabmnclpzlywhabrefntacibonm Build Intermediates noindex Archiv
为什么现代 JavaScript 框架不鼓励与 DOM 直接交互

在处理 AngularJS Angular 和 React 等 JS 框架时我发现不鼓励直接与 DOM 交互如果忽略警告通常会导致错误当我说与 DOM 交互时我的意思是使用document getElementById myE
操作系统崩溃的常见原因[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有兴趣了解操作系统崩溃不限于Windows崩溃最常见的技术原因从操作系统编程的角度有哪些我正在寻找一个不像打开太多应用
如何通过 Sequelize CLI 将主键类型设置为 UUID

我正在通过以下方式创建数据库模型序列化 CLI https github com sequelize cli用这个命令 sequelize model create name User attributes firstname string
打印 sqlalchemy 行

我想做的就是打印 sqlalchemy 表行的一行假设我有 from sqlalchemy import Column Integer String from sqlalchemy ext declarative import decla
根据多个值过滤字典列表

我有一个字典列表我想根据多个条件进行过滤该列表的简化版本如下所示 orders name v price 123 location Mars name x price 223 location Mars name x price 124
PostgreSQL 触发器不返回任何内容

我在创建时有一个 PostgreSQL 触发器它基本上将插入重定向到子表中插入记录后我想中止请求以避免重复数据据我所知执行此操作的唯一方法是返回NULL在触发器中问题是我需要返回记录才能获取 ID 如果我回来NULL 我得到 N
DataGridView：如何让回车键添加新行而不是更改当前单元格？

如何让 Enter 键在 Winforms 中起作用DataGridViewTextBoxCell就像在普通 Winform 中一样TextBox 向文本添加新行而不是更改当前单元格嗯我知道如何解决这个问题了首先创建一个类名为C
Node Js：Redis 作业在完成其任务后未完成

希望你们做得很好我在我的 Nodejs 项目中实现了 BullMQ Bull 的下一个主要版本来安排发送电子邮件的作业例如发送忘记密码请求的电子邮件所以我编写了如下所示的代码用户服务 await resetPasswordJo
login_required 装饰器不起作用，flask-Login 允许匿名用户

我装饰了一个方法login required 但令我惊讶的是它不是执行完全允许匿名用户进入打印current user方法内返回
随机打乱列表[重复]

这个问题在这里已经有答案了可能的重复在 C 中随机化 List https stackoverflow com questions 273313 randomize a listt in c sharp 随机播放随机重新排列 List
在 servlet 中的 URL 中使用变量的最简单方法

在 servlet 中的 URL 中使用变量的最简单方法是什么 Eg http somesite com MyServlet ID 这就是所谓的路径信息您可以使用HttpServletRequest getPathInfo http ja
如何在没有 WSGI 的情况下为 Gunicorn 配置 ExecStart？

Systemd 和 Gunicorn 需要某种 wsgi 文件作为最后一个参数ExecStart http docs gunicorn org en latest deploy html highlight ExecStart system
React i18next Backend-Path 在本地和生产环境中不同

我正在使用一个反应应用程序react i18next并加载翻译i18next xhr backend i18n use Backend use initReactI18next passes i18n down to react i18ne
Bash 中的 Shellshock 漏洞背后的行为是有记录的还是有意为之？

最近的一个漏洞 CVE 2014 6271 http web nvd nist gov view vuln detail vulnId CVE 2014 6271 如何Bash http en wikipedia org wiki Bash
leaflet.js 符合 GDPR 的集成

是否有可能以符合 gdpr 的方式使用 leaflet js 原因是 leaflet js 对地图服务器的所有大多数 api 调用都会创建第 3 方 cookie 在访问者决定使用地图 API osm gmaps 等之前 GDPR 法律
如何对 Laravel Mailable 进行断言

在测试中我想使用以下方法对 Mailable 做出一些断言Mail assertSent 像这样 Mail assertSent MyMailable class function mail use user return mail gt
用于预乘 ARGB 的 SSE alpha 混合

我正在尝试编写一个支持 SSE 的 alpha 合成器这就是我想出的首先混合两个 4 像素向量的代码 alpha blend two 128 bit 16 byte SSE vectors containing 4 pre multi

用于预乘 ARGB 的 SSE alpha 混合

用于预乘 ARGB 的 SSE alpha 混合 的相关文章

随机推荐

热门标签

用于预乘 ARGB 的 SSE alpha 混合的相关文章