SSE 双线性插值

2024-02-26

我正在紧密循环中实现双线性插值，并尝试使用 SSE 对其进行优化，但我从中得到的加速为零。

这是代码，非 SIMD 版本使用简单的向量结构，可以定义为struct Vec3f { float x, y, z; }实现乘法和加法运算符：

#ifdef USE_SIMD
    const Color c11 = pixelCache[y1 * size.x + x1];
    const Color c12 = pixelCache[y2 * size.x + x1];
    const Color c22 = pixelCache[y2 * size.x + x2];
    const Color c21 = pixelCache[y1 * size.x + x2];

    __declspec(align(16)) float mc11[4] = { 1.0, c11.GetB(), c11.GetG(), c11.GetR() };
    __declspec(align(16)) float mc12[4] = { 1.0, c12.GetB(), c12.GetG(), c12.GetR() };
    __declspec(align(16)) float mc22[4] = { 1.0, c22.GetB(), c22.GetG(), c22.GetR() };
    __declspec(align(16)) float mc21[4] = { 1.0, c21.GetB(), c21.GetG(), c21.GetR() };

    // scalars in vector form for SSE
    const float s11 = (x2-x)*(y2-y);
    const float s12 = (x2-x)*(y-y1);
    const float s22 = (x-x1)*(y-y1);
    const float s21 = (x-x1)*(y2-y);

    __declspec(align(16)) float ms11[4] = {1.0, s11, s11, s11};
    __declspec(align(16)) float ms12[4] = {1.0, s12, s12, s12};
    __declspec(align(16)) float ms22[4] = {1.0, s22, s22, s22};
    __declspec(align(16)) float ms21[4] = {1.0, s21, s21, s21};

    __asm {
        movaps xmm0, mc11
        movaps xmm1, mc12
        movaps xmm2, mc22
        movaps xmm3, mc21

        movaps xmm4, ms11
        movaps xmm5, ms12
        movaps xmm6, ms22
        movaps xmm7, ms21

        mulps xmm0, xmm4
        mulps xmm1, xmm5
        mulps xmm2, xmm6
        mulps xmm3, xmm7

        addps xmm0, xmm1
        addps xmm0, xmm2
        addps xmm0, xmm3

        movaps mc11, xmm0
    }
#else
    const Vec3f c11 = toFloat(pixelCache[y1 * size.x + x1]);
    const Vec3f c12 = toFloat(pixelCache[y2 * size.x + x1]);
    const Vec3f c22 = toFloat(pixelCache[y2 * size.x + x2]);
    const Vec3f c21 = toFloat(pixelCache[y1 * size.x + x2]);

    const Vec3f colour =
            c11*(x2-x)*(y2-y) +
            c21*(x-x1)*(y2-y) +
            c12*(x2-x)*(y-y1) +
            c22*(x-x1)*(y-y1);
#endif

重新排列 asm 代码以重用寄存器（最终只有三个 xmm 寄存器）没有产生任何效果。我也尝试过使用内在函数：

// perform bilinear interpolation
const Vec3f c11 = toFloat(pixelCache[y1 * size.x + x1]);
const Vec3f c12 = toFloat(pixelCache[y2 * size.x + x1]);
const Vec3f c22 = toFloat(pixelCache[y2 * size.x + x2]);
const Vec3f c21 = toFloat(pixelCache[y1 * size.x + x2]);

// scalars in vector form for SSE
const float s11 = (x2-x)*(y2-y);
const float s12 = (x2-x)*(y-y1);
const float s22 = (x-x1)*(y-y1);
const float s21 = (x-x1)*(y2-y);

__m128 mc11 = _mm_set_ps(1.f, c11.b, c11.g, c11.r);
__m128 mc12 = _mm_set_ps(1.f, c12.b, c12.g, c12.r);
__m128 mc22 = _mm_set_ps(1.f, c22.b, c22.g, c22.r);
__m128 mc21 = _mm_set_ps(1.f, c21.b, c21.g, c21.r);

__m128 ms11 = _mm_set_ps(1.f, s11, s11, s11);
__m128 ms12 = _mm_set_ps(1.f, s12, s12, s12);
__m128 ms22 = _mm_set_ps(1.f, s22, s22, s22);
__m128 ms21 = _mm_set_ps(1.f, s21, s21, s21);

mc11 = _mm_mul_ps(mc11, ms11);
mc12 = _mm_mul_ps(mc12, ms12);
mc22 = _mm_mul_ps(mc22, ms22);
mc21 = _mm_mul_ps(mc21, ms21);

mc11 = _mm_add_ps(mc11, mc12);
mc11 = _mm_add_ps(mc11, mc22);
mc11 = _mm_add_ps(mc11, mc21);

Vec3f colour;
_mm_storeu_ps(colour.array, mc11);

但无济于事。我错过了什么，还是不可能在这里获得任何额外的速度？

为什么要浮点数？给定 a、b、c、d 和 xerr、yerr 在 0-256 范围内的压缩像素 argb，一个简单的示例是：

// =================================================================================================================
// xs_Bilerp
// =================================================================================================================
finline uint32 xs_Bilerp (uint32 a, uint32 b, uint32 c, uint32 d, uint32 xerr, uint32 yerr)
{
    #define xs_rbmask    0x00ff00ff
    #define xs_agmask    0xff00ff00

    if (a==b && c==d && a==d)   return a;

    const uint32 arb        =   a & xs_rbmask;
    const uint32 crb        =   c & xs_rbmask;
    const uint32 aag        =   a & xs_agmask;
    const uint32 cag        =   c & xs_agmask;

    const uint32 rbdx1      =  (b & xs_rbmask) - arb;
    const uint32 rbdx2      =  (d & xs_rbmask) - crb;
    const uint32 agdx1      = ((b & xs_agmask)>>8) - (aag >> 8);
    const uint32 agdx2      = ((d & xs_agmask)>>8) - (cag >> 8);

    const uint32 rb1        = (arb      + ((rbdx1 * xerr) >> 8)) & xs_rbmask;
    const uint32 ag1        = (aag      + ((agdx1 * xerr)     )) & xs_agmask;
    const uint32 rbdy       = ((crb     + ((rbdx2 * xerr) >> 8)) & xs_rbmask)       - rb1;
    const uint32 agdy       = (((cag    + ((agdx2 * xerr)     )) & xs_agmask)>>8)   - (ag1 >> 8);

    const uint32 rb         = (rb1 + ((rbdy * yerr) >> 8)) & xs_rbmask;
    const uint32 ag         = (ag1 + ((agdy * yerr)     )) & xs_agmask;

    return ag | rb;
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

Assembly

graphics

SSE

SSE 双线性插值的相关文章

为什么libc++的shared_ptr实现使用完整内存屏障而不是宽松内存屏障？

在boost的实现中shared ptr 它用放松内存排序以增加其引用计数 https github com boostorg smart ptr blob master include boost smart ptr detail sp
我的线程图像生成应用程序如何将其数据传输到 GUI？

Mandelbrot 生成器的缓慢多精度实现线程化使用 POSIX 线程 Gtk 图形用户界面我有点失落了这是我第一次尝试编写线程程序我实际上并没有尝试转换它的单线程版本只是尝试实现基本框架到目前为止它是如何工作的简要描述 M
使用具有现有访问令牌的 Google API .NET 客户端

用例如下移动应用程序正在通过 Google 对用户进行身份验证并且在某些时候我们需要将用户的视频发布到他的 YouTube 帐户出于实际原因实际发布应该由后端完成已经存储在那里的大文件由于用户已经通过应用程序的身份验证因此应
向 ExpandoObject 添加方法时，“关键字 'this' 在静态属性、静态方法或静态字段初始值设定项中无效”

我尝试向 ExpandoObject 添加一个动态方法该方法将返回属性动态添加给它但它总是给我错误我在这里做错了什么吗 using System using System Collections Generic using Sys
如何创建可以像 UserControl 一样编辑的 TabPage 子类？

我想创建一个包含一些控件的 TabPage 子类并且我想通过设计器来控制这些控件的布局和属性但是如果我在设计器中打开子类我将无法像在 UserControl 上那样定位它们我不想创建一个带有 UserControl 实例的 Tab
从 MVC 迁移到 ASP.NET Core 3.1 中的端点路由时，具有角色的 AuthorizeAttribute 不起作用

我正在尝试将我的项目从 UseMVC asp net core 2 2 兼容样式升级到 UseEndpoint Routing 并且我的所有请求都被重定向到我的验证失败页面它与声明有关如果我删除 Authorize Roles Adm
从多个类访问串行端口

我正在尝试使用串行端口在 arduino 和 C 程序之间进行通信我对 C 编程有点陌生该程序有多种用户控制形式每一个都需要访问串口来发送数据我需要做的就是从每个类的主窗体中写入串行端口我了解如何设置和写入串行端口这是我的 Fo
如何从 C# 控制器重定向到外部 url

我使用 C 控制器作为网络服务在其中我想将用户重定向到外部网址我该怎么做 Tried System Web HttpContext Current Response Redirect 但没有成功使用控制器的重定向 http msdn
C 语言中 =+（等于加）是什么意思？

我碰到与标准相反今天在一些 C 代码中我不太确定这里发生了什么我在文档中也找不到它 In ancientC 版本相当于它的残余物与最早的恐龙骨头一起被发现例如 B 引入了广义赋值运算符使用x y to add y to x
即使手动设置显示环境变量后，WSL Ubuntu 也会显示“错误：无法打开显示”

我在 WSL Ubuntu 上使用 g 我使用 git 克隆了 GLFW 存储库使用了ccmake命令配置并生成二进制文件然后使用make在 build 目录中最终创建 a文件我安装了所有OpenGL相关的库 usr ld 我不记得我
当模板类不包含可用的成员函数时，如何在编译时验证模板参数？

我有以下模板struct template
如何挤出平面 2D 网格并赋予其深度

我有一组共面连接的三角形即二维网格现在我需要将其在 z 轴上挤出几个单位网格由一组顶点定义渲染器通过与三角形数组匹配来理解这些顶点网格示例顶点 0 0 0 10 0 0 10 10 0 0 10 0 所以这里我们有一个二维正方
System.Runtime.InteropServices.COMException（0x80040154）：[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我在 C 项目中遇到异常 System Runtime InteropServices COMException 0x80040154 检
g++ 对于看似不相关的变量“警告：迭代...调用未定义的行为”

考虑以下代码strange cpp include
将代码拆分为标头/源文件

我从 Asio 的示例页面中获取了以下代码 class tcp connection public boost enable shared from this
当前的 x86 架构是否支持非临时加载（来自“正常”内存）？

我知道有关此主题的多个问题但是我没有看到任何明确的答案或任何基准测量因此我创建了一个处理两个整数数组的简单程序第一个数组a非常大 64 MB 第二个数组b很小无法放入 L1 缓存程序迭代a并将其元素添加到相应的元素中b在模块化
结构体指针的动态数组

我必须使用以下代码块来完成学校作业严格不进行任何修改 typedef struct char firstName char lastName int id float mark pStudentRecord pStudentRecord
使用 C# 从 DateTime 获取日期

愚蠢的问题给定日期时间中的日期我知道它是星期二例如我如何知道它的 tue 2 和 mon 1 等 Thanks 您正在寻找星期几 http msdn microsoft com en us library system datetim
使用 CSharpCodeProvider 类编译 C# 7.3 的 C# 编译器版本是什么？

我想使用 Microsoft CSharp CSharpCodeProvider 类来编译 C 7 3 代码编译器版本在 IDictionary 中指定在创建新的 CSharpCodeProvider 时将其作为输入例如 Compil
Googletest：如何异步运行测试？

考虑到一个包含数千个测试的大型项目其中一些测试需要几分钟才能完成如果按顺序执行整套测试需要一个多小时才能完成通过并行执行测试可以减少测试时间据我所知没有办法直接从 googletest mock 做到这一点就像 async选项

随机推荐

在 Android WebView 中启用 WebGL

如何在 Android 5 1 1 模拟器的 WebView 小部件中启用 WebGL 我通过检查了 WebGL 状态Webgl 报告 http webglreport com结果是此浏览器支持 WebGL 但它被禁用或不可用有时这是由
JTable + TableModel 缓存获取事件以进行延迟实例化？

设想您正在使用带有自定义 TableModel 的 JTable 来查看位于数据库或网络或其他位置的某些集合的内容完成这项工作的强力方法是立即加载整个集合假设由于所需资源的原因这是不切实际的解决该问题的简单方法是在 JTable
AWS Cognito-删除登录页面中的注册

我正在使用 Aws Cognito 但无法找到从 Cognito 登录页面删除注册按钮的解决方案谢谢 Cognito 用户池提供了默认登录页面其中包含忘记密码登录和注册但我想从该页面隐藏删除注册在 AWS 管理控制台中转到 C
使用 Flying Saucer 将 xhtml 字符串转换为 PDF 的最简单方法是什么？

我一直在使用飞碟 http code google com p flying saucer 一段时间以来取得了令人惊叹的成果我可以像这样通过 uri 设置文档 ITextRenderer renderer new ITextRender
django-allauth 未捕获的引用错误

我无法弄清楚为什么我会得到未捕获的引用错误 allauth 未定义点击 Facebook 链接时 https obscure harbor 7751 herokuapp com accounts signup https obscure
如何与核心数据创建多对多关系？斯威夫特，Xcode

我有 2 个实体实体 1 人实体2 书籍人们实体有一个属性它是他们最喜欢的书籍的字符串名称数组我需要创建一种关系以某种方式将一个人最喜欢的书映射到相应的书籍实体对象我不知道该怎么做到目前为止我首先通过将目的地设置为书籍
有没有办法在第一次失败后停止 DataAnnotation 验证？

在我的 ViewModel 中我使用多个 DataAnnotation 来验证表单数据每个字段通常有 2 3 个注释例如电子邮件地址字段可能如下所示 Required ErrorMessage Please enter an ema
您应该将 SQL 存储过程存储在源代码管理中吗？

当开发包含大量存储过程的应用程序时是否应该将它们存储在某种源版本控制系统例如源安全 TFS SVN 中如果是这样为什么是否有一种方便的前端方法可以使用 SQL Server Management Studio 来执行此操作是的
为什么 Django REST Framework 中的 SessionAuthentication 永远不会返回 HTTP401

看着the docs http www django rest framework org api guide authentication sessionauthentication and 来源 https github com tom
蟒蛇 | mktime溢出错误

我已经在网上搜索过但找不到针对此问题的合适解决方案 OverflowError mktime argument out of range 导致该异常的代码 t 1956 3 2 0 0 0 0 0 0 ser time mktime t
IE 是唯一不允许 Flash 对象操作的浏览器（或版本）吗？

我已经尝试了多种方法通过 Javascript 编辑 Flash 对象嵌入它似乎适用于除 IE 之外的所有浏览器因此我正在考虑将 IE 扔出此应用程序的窗口除非有较旧的使用过的其他浏览器版本也不允许您编辑对象一个例子是 docu
ASP.NET MVC，“需要票证”属性

我正在尝试构建一个允许用户执行某些操作的系统但他们的帐户每次执行操作时都必须有一个特定的票证例如假设他们希望创建一个Product 他们需要一个CreateProductTicket 当然我可以简单地使用一些 if 语句来做到这一
jQuery 验证 - 两个字段，只需填写一个

我正在使用jQuery 验证插件 http bassistance de jquery plugins jquery plugin validation 在我的表格上我的表格上有一个电话字段和一个手机号码场地我该如何制作以便用
在 SVG 路径中填充形状/图标 (js)

我有一个带有路径的 SVG
带有交叉验证的 scikits 混淆矩阵

我正在使用 scikits 接口通过交叉验证 stratifiedKfold 训练 svm 分类器对于每个测试集 k 个我都会得到一个分类结果我想要一个包含所有结果的混淆矩阵 Scikits 有一个混淆矩阵接口 sklearn met
意外的tornado.ioloop.PeriodicCallback行为

试图弄清楚如何PeriodicCallback已经安排好了我写了这个脚本 import time import tornado ioloop t0 time time def foo time sleep 1 print time tim
在 jenkins docker 容器内执行 docker host 命令

我有一个运行 jenkins 的 docker 容器我想在这个容器内部启动其他容器所以在这个容器外部我尝试用以下命令启动我的詹金斯控制器 docker run v var run docker sock var run docker
如何缩小 Ruby 源文件？

我有一种情况我希望能够minify 未编译 Ruby 脚本目标是减少脚本的整体字符数执行一定程度的混淆使其他人难以修改代码我们可以假设是的我知道我在做什么而且我确实想缩小和混淆代码 Ruby 源代码具有简单的语法并且不使
列出 Google Drive 中所有文件的脚本：Api、cURL 和 Bash

这是一个 bash 脚本使用 cURL 列出我的 Google Drive 帐户不是与我分享文件只有我自己的文件您必须在您的帐户中授予对 Google Drive API 的访问权限并在脚本中填充变量 idclient and i
SSE 双线性插值

我正在紧密循环中实现双线性插值并尝试使用 SSE 对其进行优化但我从中得到的加速为零这是代码非 SIMD 版本使用简单的向量结构可以定义为struct Vec3f float x y z 实现乘法和加法运算符 ifdef USE

SSE 双线性插值

SSE 双线性插值 的相关文章

随机推荐

热门标签

SSE 双线性插值的相关文章