SIMD 或非 SIMD - 跨平台

2024-02-15

我需要一些想法如何编写一些可并行问题的 C++ 跨平台实现，以便我可以利用 SIMD（SSE、SPU 等）（如果可用）。我希望能够在运行时在 SIMD 和非 SIMD 之间切换。

您建议我如何解决这个问题？（当然我不想针对所有可能的选项多次实现该问题）

我可以看到这对于 C++ 来说可能不是一件容易的任务，但我相信我错过了一些东西。到目前为止我的想法看起来像这样...... 类 cStream 将是单个字段的数组。使用多个 cStream，我可以实现 SoA（数组结构）。然后使用一些 Functor，我可以伪造需要在整个 cStream 上执行的 Lambda 函数。

// just for example I'm not expecting this code to compile
cStream a; // something like float[1024]
cStream b;
cStream c;

void Foo()
{
    for_each(
        AssignSIMD(c, MulSIMD(AddSIMD(a, b), a)));
}

其中 for_each 将负责递增流的当前指针，以及使用 SIMD 和不使用 SIMD 内联函子主体。

像这样：

// just for example I'm not expecting this code to compile
for_each(functor<T> f)
{
#ifdef USE_SIMD
    if (simdEnabled)
        real_for_each(f<true>()); // true means use SIMD
    else
#endif
        real_for_each(f<false>());
}

请注意，如果 SIMD 已启用，则会检查一次，并且循环围绕主函子。

如果有人感兴趣，这是我用来测试我在阅读 Paul 发布的库时提出的新想法的脏代码。

谢谢保罗！

// This is just a conceptual test
// I haven't profile the code and I haven't verified if the result is correct
#include <xmmintrin.h>


// This class is doing all the math
template <bool SIMD>
class cStreamF32
{
private:
    void*       m_data;
    void*       m_dataEnd;
    __m128*     m_current128;
    float*      m_current32;

public:
    cStreamF32(int size)
    {
        if (SIMD)
            m_data = _mm_malloc(sizeof(float) * size, 16);
        else
            m_data = new float[size];
    }
    ~cStreamF32()
    {
        if (SIMD)
            _mm_free(m_data);
        else
            delete[] (float*)m_data;
    }

    inline void Begin()
    {
        if (SIMD)
            m_current128 = (__m128*)m_data;
        else
            m_current32 = (float*)m_data;
    }

    inline bool Next()
    {
        if (SIMD)
        {
            m_current128++;
            return m_current128 < m_dataEnd;
        }
        else
        {
            m_current32++;
            return m_current32 < m_dataEnd;
        }
    }

    inline void operator=(const __m128 x)
    {
        *m_current128 = x;
    }
    inline void operator=(const float x)
    {
        *m_current32 = x;
    }

    inline __m128 operator+(const cStreamF32<true>& x)
    {
        return _mm_add_ss(*m_current128, *x.m_current128);
    }
    inline float operator+(const cStreamF32<false>& x)
    {
        return *m_current32 + *x.m_current32;
    }

    inline __m128 operator+(const __m128 x)
    {
        return _mm_add_ss(*m_current128, x);
    }
    inline float operator+(const float x)
    {
        return *m_current32 + x;
    }

    inline __m128 operator*(const cStreamF32<true>& x)
    {
        return _mm_mul_ss(*m_current128, *x.m_current128);
    }
    inline float operator*(const cStreamF32<false>& x)
    {
        return *m_current32 * *x.m_current32;
    }

    inline __m128 operator*(const __m128 x)
    {
        return _mm_mul_ss(*m_current128, x);
    }
    inline float operator*(const float x)
    {
        return *m_current32 * x;
    }
};

// Executes both functors
template<class T1, class T2>
void Execute(T1& functor1, T2& functor2)
{
    functor1.Begin();
    do
    {
        functor1.Exec();
    }
    while (functor1.Next());

    functor2.Begin();
    do
    {
        functor2.Exec();
    }
    while (functor2.Next());
}

// This is the implementation of the problem
template <bool SIMD>
class cTestFunctor
{
private:
    cStreamF32<SIMD> a;
    cStreamF32<SIMD> b;
    cStreamF32<SIMD> c;

public:
    cTestFunctor() : a(1024), b(1024), c(1024) { }

    inline void Exec()
    {
        c = a + b * a;
    }

    inline void Begin()
    {
        a.Begin();
        b.Begin();
        c.Begin();
    }

    inline bool Next()
    {
        a.Next();
        b.Next();
        return c.Next();
    }
};


int main (int argc, char * const argv[]) 
{
    cTestFunctor<true> functor1;
    cTestFunctor<false> functor2;

    Execute(functor1, functor2);

    return 0;
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

metaprogramming

functor

SIMD

SIMD 或非 SIMD - 跨平台的相关文章

在C语言中使用“void”

我很困惑为什么我们需要通过void转换为 C 函数 int f void return 0 versus int f return 0 什么是正确的做法以及为什么 In C int f 是一种老式的声明它说f需要固定但未指定数量和类型的参
进程何时获得 SIGABRT（信号 6）？

C 中进程获得 SIGABRT 的场景有哪些该信号是否始终来自进程内部或者该信号可以从一个进程发送到另一个进程吗有没有办法识别哪个进程正在发送该信号 abort 向调用进程发送SIGABRT信号就是这样abort 基本上有效 abo
ASP.NET MVC 中的经典 ASP (C#)

我有一个应用程序想要最终转换为 ASP NET MVC 我想要进行全面的服务升级到 ASP NET 但想要使用当前的 ASP 内容来运行当前的功能这样我就可以在对新框架进行增量升级的同时升级小部分该站点严重依赖于不太成熟的 VB6
迭代变量并查找特定类型实例的技术

我想迭代进程中内存中的变量通过插件动态加载并查找特定类型的实例以前我可以找到特定类型或内存中的所有类型我可以创建类型的实例我可以获取作为不同类型的字段包含的实例但我无论如何都不知道只是搜索特定类型的实例一种方法是使用 W
C# 中的接口继承

我试图解决我在编写应用程序时遇到的相当大的对我来说问题请看这个为了简单起见我将尝试缩短代码我有一个名为的根接口IRepository
构造函数中显式关键字的使用

我试图了解 C 中显式关键字的用法并查看了这个问题C 中的explicit关键字是什么意思 https stackoverflow com questions 121162 但是那里列出的示例实际上是前两个答案对于用法并不是很清楚
JSON 数组到 C# 列表

如何将这个简单的 JSON 字符串反序列化为 C 中的列表 on4ThnU7 n71YZYVKD CVfSpM2W 10kQotV 这样 List
C++ 异步线程同时运行

我是 C 11 中线程的新手我有两个线程我想让它们同时启动我可以想到两种方法如下然而似乎它们都没有按照我的预期工作他们在启动另一个线程之前启动一个线程任何提示将不胜感激另一个问题是我正在研究线程队列所以我会有两个消费者和
暂停下载线程

我正在用 C 编写一个非常简单的批量下载程序该程序读取要下载的 URL 的 txt 文件我已经设置了一个全局线程和委托来更新 GUI 按下开始按钮即可创建并启动该线程我想要做的是有一个暂停按钮使我能够暂停下载直到点击恢复
当前的 c++ 工作草案与当前标准有何不同

通过搜索该标准的 PDF 版本我最终找到了这个链接C 标准措辞草案 http www open std org jtc1 sc22 wg21 docs papers 2012 n3376 pdf从 2011 年开始我意识到我可以购买最终
如何将“外部模板”与由同一类中的模板化成员使用的嵌套类一起使用？

首先一些背景信息我尝试以 Herb Sutter 在他的解决方案中介绍的方式使用 Pimpl 习语得到了 101 http herbsutter com gotw 101 这在头文件中看起来像这样 include pimpl h h
将数据打印到文件

我已经超载了 lt lt 运算符使其写入文件并写入控制台我已经为同一个函数创建了 8 个线程并且我想输出 hello hi 如果我在无限循环中运行这个线程例程文件中的o p是 hello hi hello hi hello hi e
生产代码中的 LRU 实现

我有一些 C 代码需要使用 LRU 技术实现缓存替换目前我知道两种实现LRU缓存替换的方法每次访问缓存数据时使用时间戳最后比较替换时的时间戳使用缓存项的堆栈如果最近访问过它们则将它们移动到顶部因此最后底部将包含 LRU 候选
当模板类不包含可用的成员函数时，如何在编译时验证模板参数？

我有以下模板struct template
System.Runtime.InteropServices.COMException（0x80040154）：[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我在 C 项目中遇到异常 System Runtime InteropServices COMException 0x80040154 检
是否可以有一个 out ParameterExpression？

我想定义一个 Lambda 表达式out范围有可能做到吗下面是我尝试过的 C Net 4 0 控制台应用程序的代码片段正如您在 procedure25 中看到的我可以使用 lambda 表达式来定义具有输出参数的委托但是当我想使
耐用功能是否适合大量活动？

我有一个场景需要计算 500k 活动都是小算盘由于限制我只能同时计算 30 个想象一下下面的简单示例 FunctionName Crawl public static async Task
带重定向标准流的 C# + telnet 进程立即退出

我正在尝试用 C 做一个脚本化 telnet 项目有点类似于Tcl期望 http expect nist gov 我需要为其启动 telnet 进程并重定向和处理其 stdin stdout 流问题是生成的 telnet 进程在
使用 Crypto++ 获取 ECDSA 签名

我必须使用 Crypto 在变量中获取 ECDSA 签名我在启动 SignMessage 后尝试获取它但签名为空我怎样才能得到它你看过 Crypto wiki 吗上面有很多东西椭圆曲线数字签名算法 http www cryptop
匿名结构体作为返回类型

下面的代码编译得很好VC 19 00 23506 http rextester com GMUP11493 标志 Wall WX Za 与VC 19 10 25109 0 标志 Wall WX Za permissive 这可以在以下位置检

随机推荐

如何比较两个DateTimeOffSet？

我有一个 DateTimeOffSet 类型的变量我想过滤 2010 年 1 月 1 日之后创建的所有项目所以我写了以下查询 var date new DateTimeOffset 2010 01 01 0 0 0 new TimeSp
如何在 SQL Server 中编写（MySQL）“LIMIT”？

如何将带有 LIMIT 的 MySQL 查询转换为 SQL Server 查询 SELECT FROM tableEating WHERE person identity LIMIT 1 LIMIT 在 T SQL 中不起作用使用 TOP
VS 2013 多设备混合应用程序无法部署到设备，未找到设备

我使用新的 VS 2013 Phonegap cordova 模板来创建混合应用程序 It all works fine using emulators and the ripple media emulators but when i c
如何使 javascript 与 Ajax UpdatePanel 一起工作

我正在尝试在我的表单上添加验证我在表单字段中使用 AJAX 控件当我删除更新面板和 AJAX 控件时我的验证开始工作但是当将两者放在一起时我的验证不起作用我怎样才能让他们一起工作
将字节数组打印到热敏打印机 Java

我正在使用 java 应用程序对 FedEx 进行 Web 服务调用并尝试将标签打印到本地 USB 连接的热敏打印机我将从 FedEx 获取字节数组作为响应并希望将其打印到连接热敏打印机的客户端计算机 DocAttributeSet
将对象从 JSP 页面传递回 Servlet

简而言之我想知道如何通过object从 JSP 页面返回到 Servlet 具体来说我有一个表单元素其操作标记引用了 servlet 在提交表单时我想嵌入一个object in HttpServletRequest要求object以
加载 ASP.NET 网页时缺少 Underscore.js 的 Javascript“.map”文件 [重复]

这个问题在这里已经有答案了我有一个网页它是在 Azure 上运行的 ASP NET 网站的一部分目前已经运行良好一段时间了出乎意料的是我突然在浏览器尝试下载 Underscore js 的 map 时遇到问题我做了一些阅读显然
翻译 date("d F Y (H:i) 函数 php

我是巴西人有一个 wordpress 插件使用 date d F Y H i date Output 2013 年 1 月 16 日 00 54 但葡萄牙语应该是 16 Janeiro 2013 00 54 我该如何更改它 PS 我认为日
如何通过 Qt 样式表自定义 Qt 应用程序的标题栏？

我可以在 Qt 样式表中自定义 Qt 应用程序的控件但是我找不到自定义标题栏的方法我找到了一些解决方案但这需要修改应用程序本身的代码无论如何您是否可以仅使用 Qt 样式表来自定义它标题栏 http en wikipedia o
避免快速自动链接框架

我有一个示例项目 https github com Usipov SwiftAutoFrameworksLinkage由一个主要目标 LinkerTests 和一个依赖的动态框架 Dynamic 如果运行该项目您将看到以下 dyld 二进
通过 angularjs 中的路由进行重定向

我有以下要求应显示包含编辑和删除链接的所有项目的列表当用户单击编辑时应出现带有文本框和保存按钮的编辑表单现在当用户编辑数据并单击保存按钮时应保存数据并且列表页面应再次显示修改后的数据一切正常但我如何通过 AngularJS
SQL Server使用C#执行备份

我研究了使用 C 通过 SMO 创建数据库备份的可能性该任务非常简单代码也很简单我只有一个问题如何检查备份是否真正创建 Sql备份 Sql备份 http msdn microsoft com en us library micros
如何在不使用 QtCreator 的情况下将 dll 文件复制到 Qt 中的输出目录？

我有一个基于 Qt 的应用程序它使用许多在项目外部构建的 dll 这些 dll 被签入源代码因为我们不会非常频繁地重建它们它们需要几个小时才能构建我不希望它们出现在主项目中我想在构建完成后将这些 dll 复制到适当的目录发布调
Powershell 表达式没有给出结果

我创建了一个应返回 OU 规范名称的表达式一个小轮廓 Search ADAccount LockedOut UsersOnly Select Object Name SamAccountName Name OU Expression Ge
在 Django 中将变量从模板传递到视图的更有效方法是什么？

我的问题涉及将变量从模板传递到 Django 中查看我知道如何在 URL 中以及通过表单传递变量我遇到的第一个问题是 url 可以被操纵这不是我想要的有什么办法可以防止这种情况发生吗现在这就是我的创可贴
如何编写一个使用 image magick 将图像切成碎片的 bash 脚本？

我有许多输入图像其中包含多个较小的图像所有图像都位于一行中所有包含的图像尺寸相同因此例如图像input png may be 480x48并包含 1048x48图像全部排成一排使用imagemagickconvert工具或
卸载App后如何删除数据？

我正在开发一个 Android 应用程序它在 SD 卡中创建一个文件夹并存储一些图像我想在卸载应用程序时删除该文件夹请指导我简单不可能目前当您自己的应用程序被卸载时不会触发卸载事件因此你无法以任何方式对此做出反应唯一的例
jQuery/Ajax 加载的 DOM 脚本何时实际执行？

好吧我觉得问这个问题有点愚蠢类似问题有很多点击但我似乎无法回答正确如果我通过 jQuery Ajax 修改 DOM 加载的脚本何时实际解析执行下面的代码适用于 F F 但不适用于 Chrome 或 Opera 工作意味着它执行
App Engine 无缓存 JSP

我想在我的 Google 应用引擎网站上禁用 JSP 文件的缓存我有这个
SIMD 或非 SIMD - 跨平台

我需要一些想法如何编写一些可并行问题的 C 跨平台实现以便我可以利用 SIMD SSE SPU 等如果可用我希望能够在运行时在 SIMD 和非 SIMD 之间切换您建议我如何解决这个问题当然我不想针对所有可能的选项多次实现该问题

SIMD 或非 SIMD - 跨平台

SIMD 或非 SIMD - 跨平台 的相关文章

随机推荐

热门标签

SIMD 或非 SIMD - 跨平台的相关文章