如何优化这个 CUDA 内核

2024-04-23

我已经分析了我的模型，似乎该内核约占我总运行时间的 2/3。我一直在寻找优化它的建议。代码如下。

__global__ void calcFlux(double* concs, double* fluxes, double* dt)
{
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    fluxes[idx]=knowles_flux(idx, concs);
    //fluxes[idx]=flux(idx, concs);
}

__device__ double knowles_flux(int r, double *conc)
{
    double frag_term = 0;
    double flux = 0;
    if (r == ((maxlength)-1))
    {
        //Calculation type : "Max"
        flux = -km*(r)*conc[r]+2*(ka)*conc[r-1]*conc[0];
    }
    else if (r > ((nc)-1))
    {
        //Calculation type : "F"
        //arrSum3(conc, &frag_term, r+1, maxlength-1);
        for (int s = r+1; s < (maxlength); s++)
        {
            frag_term += conc[s];
        }
        flux = -(km)*(r)*conc[r] + 2*(km)*frag_term - 2*(ka)*conc[r]*conc[0] + 2*(ka)*conc[r-1]*conc[0];
    }
    else if (r == ((nc)-1))
    {
        //Calculation type : "N"
        //arrSum3(conc, &frag_term, r+1, maxlength-1);
        for (int s = r+1; s < (maxlength); s++)
        {
            frag_term += conc[s];
        }
        flux = (kn)*pow(conc[0],(nc)) + 2*(km)*frag_term - 2*(ka)*conc[r]*conc[0];
    }
    else if (r < ((nc)-1))
    {
    //Calculation type : "O"
        flux = 0;
    }
    return flux;
}

只是为了让您了解为什么 for 循环是一个问题，该内核是在大约 maxlength = 9000 个元素的数组上启动的。就我们现在的目的而言，nc 的范围是 2-6。下面说明了该内核如何处理传入数组 (conc)。对于此数组，需要对不同的元素组应用五种不同类型的计算。

Array element : 0 1 2 3 4 5 6 7 8 9 ... 8955 8956 8957 8958 8959 8960
Type of calc  : M O O O O O N F F F ...   F   F    F    F    F   Max

我现在一直在尝试解决的潜在问题是四重 if-else 和 for 循环的分支分歧。

我处理分支分歧的想法是将该内核分解为四个独立的设备功能或内核，分别处理每个区域并同时启动。我不确定这是否比仅仅让分支发散更好，如果我没记错的话，这会导致四种计算类型串行运行。

为了处理 for 循环，您会注意到有一个被注释掉的 arrSum3 函数，它是我根据之前（可能写得不好）编写的并行归约内核编写的。使用它代替 for 循环大大增加了我的运行时间。我觉得有一种聪明的方法可以完成我想要用 for 循环做的事情，但我只是不那么聪明，我的顾问厌倦了我“浪费时间”思考它。

感谢任何帮助。

EDIT

完整代码位于此处：https://stackoverflow.com/q/21170233/1218689 https://stackoverflow.com/q/21170233/1218689

假设 sgn() 和 abs() 不是从“if”和“else”派生的

__device__ double knowles_flux(int r, double *conc)
{
    double frag_term = 0;
    double flux = 0;

        //Calculation type : "Max"
        //no divergence
        //should prefer 20-30 extra cycles instead of a branching.
        //may not be good for CPU
        fluxA = (1-abs(sgn(r-(maxlength-1)))) * (-km*(r)*conc[r]+2*(ka)*conc[r-1]*conc[0]);
        //is zero if r and maxlength-1 are not equal

        //always compute this in shared memory so work will be equal for all cores, no divergence

        // you should divide kernel into several pieces to do a reduction
        // but if you dont want that, then you can try :
        for (int s = 0;s<someLimit ; s++) // all count for same number of cycles so no divergence
        {
            frag_term += conc[s] * (   abs(sgn( s-maxlength ))*sgn(1- sgn( s-maxlength ))  )* (      sgn(1+sgn(s-(r+1)))  );
        }
         //but you can make easier of this using "add and assign" operation
         // in local memory (was it __shared in CUDA?)
         //  global conc[] to local concL[] memory(using all cores)(100 cycles)
         // for(others from zero to upper_limit)
         // if(localID==0)
         // {
         //    frag_termL[0]+=concL[s]             // local to local (10 cycles/assign.)
         //    frag_termL[0+others]=frag_termL[0]; // local to local (10 cycles/assign.)
         // }  -----> uses nearly same number of cycles but uses much less energy
         //using single core (2000 instr. with single core vs 1000 instr. with 2k cores)
         // in local memory, then copy it to private registers accordingly using all cores



        //Calculation type : "F"

        fluxB = (  abs(sgn(r-(nc-1)))*sgn(1+sgn(r-(nc-1)))   )*(-(km)*(r)*conc[r] + 2*(km)*frag_term - 2*(ka)*conc[r]*conc[0] + 2*(ka)*conc[r-1]*conc[0]);
        // is zero if r is not greater than (nc-1)



        //Calculation type : "N"


        fluxC = (   1-abs(sgn(r-(nc-1)))   )*((kn)*pow(conc[0],(nc)) + 2*(km)*frag_term - 2*(ka)*conc[r]*conc[0]);
        //zero if r and nc-1 are not equal



    flux=fluxA+fluxB+fluxC; //only one of these can be different than zero

    flux=flux*(   -sgn(r-(nc-1))*sgn(1-sgn(r-(nc-1)))  )
    //zero if r > (nc-1)

    return flux;
}

好吧，让我稍微打开一下：

if(a>b) x+=y;

可以看作

if a-b is negative sgn(a-b) is -1
then adding 1 to that -1 gives zero ==> satisfies lower part of comparison(a<b)
x+= (sgn(a-b) +1) = 0 if a<b (not a>b), x unchanged

if(a-b) is zero, sgn(a-b) is zero
then we should multiply the upper solution with sgn(a-b) too!
x+= y*(sgn(a-b) +1)*sgn(a-b)
means
x+= y*( 0  +  1) * 0 = 0           a==b is satisfied too!

lets check what happens if a>b
x+= y*(sgn(a-b) +1)*sgn(a-b)
x+= y*(1 +1)*1  ==> y*2 is not acceptable, needs another sgn on outherside

x+= y* sgn((sgn(a-b)+1)*sgn(a-b))

x+= y* sgn((1+1)*1)

x+= y* sgn(2)   

x+= y only when a is greater than b

当有太多的时候

abs(sgn(r-(nc-1))

然后你可以重新使用它作为

tmp=abs(sgn(r-(nc-1))

.....  *tmp*(tmp-1) ....
...... +tmp*zxc[s] .....
......  ......

进一步减少总周期！寄存器访问可以达到 TB/s 级别，因此不应该成为问题。就像为全球访问所做的那样：

tmpGlobal= conc[r];

...... tmpGlobal * tmp .....
.... tmpGlobal +x -y ....

所有私有寄存器每秒都以 TB 为单位执行操作。

警告：reading如果 conc[0] 的实际地址已经不是真正的零，那么只要将 conc[-1] 的实际地址乘以零，来自 conc[-1] 的数据就不会导致任何错误。但writing是危险的。

如果你无论如何都需要逃离 conc[-1] ，你也可以将索引乘以一些绝对值！看：

 tmp=conc[i-1] becomes   tmp=conc[abs((i-1))] will always read from positive index, the value will be multiplied by zero later anyway. This was lower bound protection.
  You can apply a higher bound protection too. Just this adds even more cycles.

如果在访问 conc[r-1] 和 conc[r+1] 时处理纯标量值不够快，请考虑使用向量洗牌操作。向量元素之间的洗牌操作比通过本地内存将其复制到另一个核心/线程更快。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何优化这个 CUDA 内核的相关文章

为什么模板类的静态成员不唯一

看一下下面的代码 include
如何将动态数据写入 MVC 3 Razor 中的页面布局？

我有带有 Razor 引擎的 MVC 3 C 项目将动态数据写入 Layout cshtml 的方法和最佳实践是什么例如也许我想在网站的右上角显示用户名该名称来自会话数据库或基于用户登录的任何内容更新我也在寻找将某些数据渲染到
基于多线程的 RabbitMQ 消费者

我们有一个 Windows 服务它监听单个 RabbitMQ 队列并处理消息我们希望扩展相同的 Windows 服务以便它可以监听 RabbitMQ 的多个队列并处理消息不确定使用多线程是否可以实现这一点因为每个线程都必须侦听阻
C# 中输入按键

我尝试了这段代码 private void textBox1 KeyPress object sender KeyPressEventArgs e if Convert ToInt32 e KeyChar 13 MessageBox Sho
这种对有效类型规则的使用是否严格遵守？

C99和C11中的有效类型规则规定没有声明类型的存储可以用任何类型写入并且存储非字符类型的值将相应地设置存储的有效类型抛开 INT MAX 可能小于 123456789 的事实不谈以下代码对有效类型规则的使用是否严格符合 inclu
在 T4 代码生成中，如何从引用的程序集中获取类型？

由于 T4 在项目上下文之外运行因此我无权访问当前程序集或其他程序集如何注册对引用程序集的访问然后从中获取类型我猜您想访问项目中建筑物的程序集我在下面的示例代码中所做的是将一个名为 TestLib 的项目添加到我的解决方案中我将
仅针对某些异常类型中断

我知道异常处理是一件非常重要的事情我们在所有项目中都在这样做主要原因是记录客户发生的错误这工作正常根本不是问题但是当我仍在使用 Visual Studio 编码和运行应用程序时我根本不需要任何异常处理我希望调试器正好停在应用
如何修复此 YCrCb -> RBG 转换公式？

我使用的公式来自这个问题 https stackoverflow com questions 8838481 kcvpixelformattype 420ypcbcr8biplanarfullrange frame to uiimage c
我们什么时候应该在.NET中使用NativeMemory.Alloc()？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案 NET6 C 引入NativeMemory类但我不知道什么时候应该使用NativeMemory Alloc 而不是普通的数组实例化
如何检查给定调用站点的重载决策集

如何检查重载解析集我在多个调用站点中使用了 4 个相互竞争的函数在一个调用站点中我期望调用一个函数但编译器会选择另一个函数我不知道为什么这不是微不足道的为了了解发生了什么我正在使用enable if disable if打开
WPF ComboBox 中具有本地化名称的枚举

我有一个列出枚举的组合框 enum StatusEnum Open 1 Closed 2 InProgress 3
C# 中不区分大小写的替换不使用正则表达式？

有没有一种方法可以在不使用 C 中的正则表达式的情况下对字符串进行不区分大小写的替换像这样的东西 string x Hello x x Replace hello hello world 你可以尝试类似的东西 string str Hel
C# 中的类和模块有什么用

有人可以解释一下类和模块之间的区别吗你什么时候使用其中一种而不是另一种我正在使用 C 更新我的意思是相当于 VB 模块的 C 版本这在很大程度上取决于您所指的模块 Visual Basic 的模块 C 中没有真正等效的 VB Ne
为什么将未使用的返回值转换为 void？

int fn void whatever void fn 是否有任何理由将未使用的返回值强制转换为 void 或者我认为这完全是浪费时间 David s answer https stackoverflow com questions 68
没有 FPU 的处理器中的浮点计算

是否可以在没有浮点单元的嵌入式处理器中执行浮点运算是的您只需要在软件中完成即可你的编译器可能会提供支持 http gcc gnu org onlinedocs gccint Soft float library routines ht
曲线/路径骨架二值图像处理

我正在尝试开发一个可以处理图像骨架的路径曲线的代码我想要一个来自两点之间骨架的点向量该代码在添加一些点后结束我没有找到解决方案 include opencv2 highgui highgui hpp include opencv2
SQL Server CE 不兼容的数据库版本

我有一个 SQL Server CE 4 0 数据库 sdf文件当我尝试从我的应用程序 WPF 对数据库进行查询时出现以下错误数据库版本不兼容如果这是兼容文件请运行修复其他情况请参考文档数据库版本 4000000 请求的版本
在地图上使用 find

如何使用 find 和 aconst iterator如果你有一个地图定义为 typedef std pair
从最大到最小的3个整数

我是 C 初学者我使用编程使用 C 的原理与实践第二版问题如下编写一个程序提示用户输入三个整数值然后以逗号分隔的数字顺序输出这些值如果两个值相同则应将它们排列在一起 include
使用 lpSolve 优化 R 团队名单

我是 R 新手有一个想要解决的特定幻想运动队优化问题我见过其他帖子使用 lpSolve 来解决类似的问题但我似乎无法理解代码下面的示例数据表每个球员都在一个球队中扮演着特定的角色有薪水并且每场比赛都有平均得分我需要的限制是

随机推荐

如何传递文件名参数 gitconfig diff textconv？

有关的文档textconv at https git wiki kernel org index php Textconv https git wiki kernel org index php Textconv有简洁的措辞 gitconf
通过 JavaMail 发送到 Gmail 时的 TLS 问题

事实证明 JavaMail 比我想象的要令人沮丧一些我在网上查看了几个有关如何通过 Gmail 服务器但不通过 SSL 发送简单 SMTP 电子邮件的示例在尝试了几个不同的代码示例之后当我调用时我不断得出相同的示例异常transp
为什么我在使用 WifiP2pManager 时总是显示 BUSY？

我正在尝试使用 Wi Fi Direct 连接两个 Android 设备在我的 HTC 手机 One SV 上它似乎可以工作但在我的第二台设备 LG Optimus 4xhd 上它不起作用在我的 onResume 函数中我启动以下线
类型“TNestedInterface”必须可转换为“INestedInterfaceTest”才能将其用作参数“TNestedInterface”

public interface INestedInterfaceTest
如何在android gridview中为行设置不同的列

我想要一个与此类似的网格视图每个奇数行将有两个大尺寸图像偶数行将有四个较小图像我怎样才能实现这一点我有类似的东西我用新的 RecyclerView 解决了我创建了一个带有 a 的片段回收视图 https developer an
如何修复 Chrome 开发者窗口中的“待处理”状态？

When I try to include social media scripts into my page I get the pending status in Chrome on some computers not all of
无法获得 WRITE_SETTINGS 权限

当我在 Android M Preview 3 上的目标 API 为 23 时我似乎无法获取 Manifest permission WRITE SETTTINGS 权限 requestPermissions new String Man
如何将 UITableViewCell 与 UITableViewCellStyle 一起使用并正确重用单元格？

我想用UITableViewCellStyle Subtitle默认表格单元格的样式我在中找到了答案一个如此的答案 https stackoverflow com questions 24062285 how to set uitable
如何完全删除 QLayout 的边距（特定于 Mac OS）

Let me explain a simplified situation In Qt Creator create a QHBoxLayout containing a QPushButton and another QHBoxLayou
在 CakePHP 中向 Containable 添加条件

以前我依赖递归但我没有得到一些解决方案然后我发现 Containable 对于这些问题工作得很好我正在开发一个电影评论网站我需要显示与特定类型相关的电影列表我有下面的代码 example genre drama options a
在 Rails 中扩展 ruby gem

假设我有一个 Rails 应用程序它从 gem 例如 CMS 获取大部分功能如果我现在需要添加一些自定义例如向用户添加属性最佳实践方法是什么如果我自定义 gem 那么将来更新 gem 时将会遇到问题这里采取的最佳方法是什么这
我可以强制 CloudFormation 解析 Secrets Manager 中的值吗？

在下面缩写为 CloudFormation 模板中我尝试配置 AWS Lambda 函数以从注入其环境的 AWS Secrets Manager 获取值 Resources Function Type AWS Serverless F
如何向pairs()图中添加颜色键？

Goal 我有一个调整过的pairs情节在R我想为其添加一个颜色键面板背景位于pairs绘图显示由数字矩阵确定的某些颜色我想要在右侧有一个颜色键pairs显示这些颜色和一些指示数字的标签的图我找到了一些添加颜色键的方法image 绘图
Android相机无法从后台服务拍照

我已经实现了一项从后台线程拍照的服务但照片永远不会在我的任何设备上拍摄这是代码下面记录输出 public class PhotoCaptureService extends Service private static final S
jQuery，如何通过选中复选框来调用 url

我有这个 span Facebook span
iPhone 5 屏幕高度错误

我在 3 5 英寸屏幕上开发了一个应用程序现在我为 4 英寸屏幕制作了一个新的 Storyboard 我喜欢按照以下方式在 appdelegate 上的 Storyboard 之间切换我记录了屏幕高度它给了我 480 00000 检查
来自不同框架的扩展方法的名称冲突

作为测试我创建了两个框架两个框架都包含此扩展 public extension UIDevice var extraInfo UIDeviceExtraInfo return UIDeviceExtraInfo public class
Python：基于nosetest是否运行的条件变量

我正在运行鼻子测试它有一个设置功能需要加载与生产数据库不同的数据库我使用的 ORM 是 peewee 它要求在定义中设置模型的数据库所以我需要设置一个条件变量但我不知道使用什么条件来检查 nostest 是否正在运行该文件我在
Numpy排列浮点不一致

我有一个相当简单的 numpy 任务创建一个长数组每个元素递增 0 001 当然 np arange就是答案我将自己限制为默认精度 float64 对结果的一个简单检查是数组的每 1000 个元素应该具有相同的小数部分我通过绘图检查
如何优化这个 CUDA 内核

我已经分析了我的模型似乎该内核约占我总运行时间的 2 3 我一直在寻找优化它的建议代码如下 global void calcFlux double concs double fluxes double dt int idx blockI

如何优化这个 CUDA 内核

如何优化这个 CUDA 内核 的相关文章

随机推荐

热门标签

如何优化这个 CUDA 内核的相关文章