global 函数如何像 C/C++ 那样返回值或中断

2023-11-23

最近我一直在 CUDA 上进行字符串比较工作，我想知道 __global__ 函数在找到我正在寻找的确切字符串时如何返回一个值。

我的意思是，我需要包含大量线程的 __global__ 函数来同时在一个大字符串池中查找某个字符串，并且我希望一旦捕获到确切的字符串， __global__ 函数就可以停止所有线程并返回回到主函数，并告诉我“他做到了”！

我正在使用 CUDA C。我怎样才能实现这一目标？

在 CUDA（或 NVIDIA GPU）中，一个线程无法中断所有正在运行的线程的执行。你不能在发现结果后立即退出内核，这在今天是不可能的。

但你可以让所有线程退出尽快地当一个线程找到结果后。这是一个如何做到这一点的模型。

__global___ void kernel(volatile bool *found, ...) 
{
    while (!(*found) && workLeftToDo()) {

       bool iFoundIt = do_some_work(...); // see notes below

       if (iFoundIt) *found = true;
    }
}

关于此的一些注释。

注意使用volatile。这个很重要。
确保初始化found— 必须是一个设备指针 — 到false在启动内核之前！
当另一个线程更新时，线程不会立即退出found。仅当它们下次返回到 while 循环顶部时才会退出。
你如何实施do_some_work很重要。如果工作量太大（或变化太大），那么找到结果后退出的延迟将会很长（或变化）。如果工作量太少，那么您的线程将花费大部分时间进行检查found而不是做有用的工作。
do_some_work还负责分配任务（即计算/递增索引），以及如何做到这一点是特定于问题的。
如果您启动的块数远大于当前 GPU 上内核的最大占用率，并且在第一个运行的线程块“波”中未找到匹配项，则该内核（以及下面的内核）可能会死锁。如果在第一波中找到匹配项，则后面的块将仅在之后运行found == true，这意味着它们将启动，然后立即退出。解决方案是仅启动可同时驻留的尽可能多的块（也称为“最大启动”），并相应地更新任务分配。
如果任务数量比较少，可以更换while与if并运行足够的线程来覆盖任务数量。这样就不会出现死锁（但上一点的第一部分适用）。
workLeftToDo()是特定于问题的，但是当没有剩余工作要做时它会返回 false，这样我们就不会在这种情况下陷入僵局未找到匹配项.

现在，上述情况可能会导致过度的分区露营（所有线程都在同一内存上运行），特别是在没有 L1 缓存的旧架构上。因此，您可能想要编写一个稍微复杂的版本，使用每个块的共享状态。

__global___ void kernel(volatile bool *found, ...) 
{
    volatile __shared__ bool someoneFoundIt;

    // initialize shared status
    if (threadIdx.x == 0) someoneFoundIt = *found;
    __syncthreads();

    while(!someoneFoundIt && workLeftToDo()) {

       bool iFoundIt = do_some_work(...); 

       // if I found it, tell everyone they can exit
       if (iFoundIt) { someoneFoundIt = true; *found = true; }

       // if someone in another block found it, tell 
       // everyone in my block they can exit
       if (threadIdx.x == 0 && *found) someoneFoundIt = true;

       __syncthreads();
    }
}

这样，每个块有一个线程轮询全局变量，并且只有找到匹配的线程才会写入它，因此全局内存流量被最小化。

另外： __global__ 函数是无效的，因为很难定义如何将数千个线程的值返回到单个 CPU 线程中。对于用户来说，在设备或零拷贝内存中设计一个适合其目的的返回数组很简单，但很难建立通用机制。

免责声明：在浏览器中编写的代码，未经测试，未经验证。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

global 函数如何像 C/C++ 那样返回值或中断的相关文章

从 CUDA 设备写入输出文件

我是 CUDA 编程的新手正在将 C 代码重写为并行 CUDA 新代码有没有一种方法可以直接从设备写入输出数据文件而无需将数组从设备复制到主机我假设如果cuPrintf存在一定有地方可以写一个cuFprintf 抱歉如果答案已经
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
内联 PTX 汇编代码强大吗？

我看到一些代码示例人们在 C 代码中使用内联 PTX 汇编代码 CUDA工具包中的文档提到PTX很强大为什么会这样呢如果我们在 C 代码中使用这样的代码我们会得到什么好处内联 PTX 使您可以访问未通过 CUDA 内在函数公开的指
最小化 MC 模拟期间存储的 cuRAND 状态数量

我目前正在 CUDA 中编写蒙特卡罗模拟因此我需要生成lots使用随机数cuRAND图书馆每个线程处理一个巨大的元素floatarray 示例中省略并在每次内核调用时生成 1 或 2 个随机数通常的方法参见下面的示例似乎是为每
CUDA 5.0错误LNK2001：cuda方法无法解析的外部符号

我的链接器有错误 1 gt ManifestResourceCompile 1 gt All outputs are up to date 1 gt kernel cu obj error LNK2001 unresolved extern
CUDA NSight 未随 Windows 8 上的 CUDA 5.0 安装文件一起安装？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案据我所知 Nvidia 网站上没有 Nsight Eclipse 的下载链接它说它将由 CUDA 5 安装本机安装但并没有随CUDA安装一起安装
Bank 在字长方面存在冲突

我读过一些关于共享内存的好文章但我对银行冲突有初步疑问据说如果线程 1 和线程 2 从存储体 0 访问字 0 则不存在存储体冲突但如果他们访问不同的单词就会出现银行冲突但我的问题是不同的单词如何可以驻留在一个银行中由于bank
CUDA计算能力2.0。全局内存访问模式

CUDA 计算能力 2 0 Fermi 全局内存访问通过 768 KB L2 缓存进行看起来开发人员不再关心全局内存库但全局内存仍然非常慢因此正确的访问模式很重要现在的重点是尽可能多地使用重用 L2 我的问题是如何我将感谢一
OpenCV 2.4.3rc 和 CUDA 4.2：“OpenCV 错误：没有 GPU 支持”

我在这张专辑中上传了几张截图 https i stack imgur com TELST jpg https i stack imgur com TELST jpg 我正在尝试在 Visual Studio 2008 中的 OpenCV 中
GPU上动态分配内存

是否可以在内核内的 GPU 全局内存上动态分配内存我不知道我的答案有多大因此我需要一种方法为答案的每个部分分配内存 CUDA 4 0 允许我们使用 RAM 这是一个好主意还是会降低速度可以在内核中使用 malloc 检查以下内容摘自
将内核链接到 PTX 函数

我可以使用 PTX 文件中包含的 PTX 函数作为外部设备函数将其链接到另一个应调用该函数的 cu 文件吗这是另一个问题CUDA 将内核链接在一起 https stackoverflow com questions 20636800 c
在 Cuda 中简单添加两个 int，结果始终相同

我开始了学习Cuda的旅程我正在玩一些 hello world 类型的 cuda 代码但它不起作用我不知道为什么代码非常简单取两个整数并将它们添加到 GPU 上并返回结果但无论我将数字更改为什么我都会得到相同的结果如果数学那
使用推力来处理 CUDA 类中的向量？

我对 C 类的推力的适用性有疑问我正在尝试实现一个类对象该对象接收顶点的 x y z 坐标作为 ver1 ver2 和 ver3 然后分配给一个三角形并计算面积和法向量然而我不太明白如何创建一类推力向量这是我从文件中读取的顶点坐
完全禁用 NVCC 优化

我正在尝试测量 GPU 上的峰值单精度触发器为此我正在修改 PTX 文件以在寄存器上执行连续的 MAD 指令不幸的是编译器正在删除所有代码因为它实际上没有做任何有用的事情因为我没有执行任何数据的加载存储是否有编译器标志或编译指
如何从C++头文件调用CUDA文件？

我知道从 c 文件调用 cu 文件的方法但现在我想从 C 头文件调用 cu 文件有可能做到吗如果是这样我应该如何设置我的项目请帮忙这是一个有效的例子 file1 h int hello file2 h include
为什么 CUDA 内存复制速度会这样，有一些恒定的驱动程序开销？

在我的旧 GeForce 8800GT 上使用 CUDA 内存时我总是会遇到奇怪的 0 04 毫秒开销我需要将 1 2K 传输到设备的常量内存中处理其中的数据并从设备中仅获取一个浮点值我有一个使用 GPU 计算的典型代码 alloc
如何使用 Visual Studio 2008 调试 CUDA 内核代码？

嘿我正在使用带有 CUDA 3 2 的 Visual Studio 2008 我正在尝试调试具有此签名的函数 MatrixMultiplication Kernel lt lt
Simpson 的 Thrust 集成代码在两台使用 NVC++ 的机器上输出不同的结果

我写了一个数值积分代码 include
在 CUDA 内核中使用虚拟函数

所以我想在设备上分配一个具有虚拟函数的对象然后调用内核并执行其中一些虚拟函数我尝试了两种方法来做到这一点但都不起作用 1 使用 cudaMalloc 和 cudaMemcpy 从主机分配和复制对象这会复制包含主机内存指针的虚拟函数表
如何在 Java 编程中使用 GPU

我这些天都在使用 CUDAC 来访问 GPU 但现在我的导游要求我使用 Java 和 GPU 于是我在网上搜索发现Rootbeer是最好的选择但我无法理解如何使用 Rootbeer 运行程序可以有一个吗告诉我使用 Rootbeer 的步

随机推荐

为什么Scala中Array.map的定义是“throw new Error()”

的源代码map for Array is override def map B f A gt B Array B throw new Error 但以下有效 val name Array String new Array 1 name 0
如何使用nestjs/mongoose在模式类中定义mongoose方法？

我想在模式类中实现方法如下所示 import SchemaFactory Schema Prop from nestjs mongoose import Document from mongoose import bcrypt from
如何使用实验性 API 将大文件写入 Blobstore？

我陷入困境我使用tipfy 作为框架在scribd 存储和blobstore 中上传文件我的网络表单的操作不是由 blobstore create upload url 创建的我只是使用 url for myhandler 我这样做是
当因变量是因子/分类变量时的线性模型（lm）？

我想用以下方法进行线性回归lm功能我的因变量是一个称为AccountStatus 1 0 days in arrears 2 30 60 days in arrears 3 60 90 days in arrears and 4 90 d
使用变形的列表过滤器

我实现了一个损坏的filter使用变形的函数recursion schemes黑客库 import Data Functor Foldable xfilter a gt Bool gt a gt a xfilter f ana projec
AttributeError：“模块”对象没有属性

我正在尝试获取两个立体图像的深度图我已经从本文档我收到以下错误 Traceback most recent call last File depth py line 9 in
JavaScript 中 Java 的 Thread.sleep() 相当于什么？ [复制]

这个问题在这里已经有答案了相当于Java的什么Thread sleep 在 JavaScript 中简单的答案是没有这样的功能你拥有的最接近的东西是 var millisecondsToWait 500 setTimeout func
是否可以将数据添加到文件而不重写？

我处理非常大的二进制文件每个文件几个 GB 到多个 TB 这些文件以旧格式存在升级需要将标头写入文件的前面我可以创建一个新文件并重写数据但有时这可能需要很长时间我想知道是否有任何更快的方法来完成此升级该平台仅限于 Linux 我
为什么JavaScript只有在IE中打开开发者工具一次后才能工作？

IE9 Bug JavaScript 仅在打开开发人员工具一次后才起作用我们的网站为用户提供免费的pdf下载并且有一个简单的输入密码下载功能但是它在 Internet Explorer 中根本不起作用你可以亲自看看这个exam
使用 vite 和 vue3 构建过程后资产未显示

跑步时npm run build我的照片在下面src assets 在 dist 目录生产版本中不可用所以网站上没有显示在开发模式下它肯定可以工作有什么想法如何让它们在构建后可用吗资产于src assets必须在代码中引用通过i
如何对 Leaflet JS 地图进行单元测试？

你如何进行单元测试传单 JS maps 我真的在为同样的问题而苦苦挣扎以下是使用 js 测试库 mocha 进行的一些测试的链接 http blog mathieu leplatre info test your leaflet appl
数组参数中的数组长度

我在读C 编程现代方法通过 K N King 学习 C 编程语言当前章节介绍了函数以及数组参数据解释可以使用如下结构来表示数组参数的长度 1 void myfunc int a int b int a int b int proto
两个具有自动存储期限的不同对象在地址比较下是否可以比较相等？

特别是是否允许不同函数中的两个自动变量的地址比较相等如下所示 sink c include
防弹 Groovy 脚本嵌入

我正在开发一个服务器应用程序可以通过用户提供的 Groovy 脚本进行扩展显然我想确保这些脚本在非常严格的沙箱中运行它们不能破坏核心应用程序代码或消耗太多资源以使服务器超载我研究了各种可能性最终的解决方案可能是这些的组合在非常
如何检查Android手机是否支持TEE？

我读过这两篇文章 One and Two 但我还有疑问我使用 KeyStore Android 9 生成 AES 密钥并使用isInsideSecureHardware 检查密钥是否存在的方法isInsideSecure硬件我得到回报
Python 和 Django - 如何在内存和临时文件中使用

我需要一些在内存和临时文件中使用文件操作的示例我搜索了很多很好的示例教程发现只有基本的读写附加操作我需要了解如何在 Django 中读取在保存发布完成之前上传的文件图像因为Django是Python 所以我认为先了解Py
更新到最新的 JQuery UI 和日期选择器导致日期选择器始终可见

我们刚刚更新到 JQuery 1 5 2 min 和 JQuery ui 1 8 11 min 并且也在使用最新的 datepicker js 文件我说文件是因为我们也在使用 datepicker 的一些本地化版本在更新之前我们使用以
是否可以将异步方法声明为返回 void 以消除 CS4014 警告？

Visual Studio 会针对此代码发出警告因为未等待此调用因此在调用完成之前将继续执行当前方法 static void Main string args FireAndForget lt Warning CS4014 Do som
单个 SQL Server 语句是否具有原子性和一致性？

是SQL Server中的一条语句ACID 我的意思是给定单个 T SQL 语句未包装在BEGIN TRANSACTION COMMIT TRANSACTION 是该语句的操作 Atomic 要么执行所有数据修改要么不执行任何数据修改
__global__ 函数如何像 C/C++ 那样返回值或中断

最近我一直在 CUDA 上进行字符串比较工作我想知道 global 函数在找到我正在寻找的确切字符串时如何返回一个值我的意思是我需要包含大量线程的 global 函数来同时在一个大字符串池中查找某个字符串并且我希望一旦捕获到确切的字

__global__ 函数如何像 C/C++ 那样返回值或中断

__global__ 函数如何像 C/C++ 那样返回值或中断 的相关文章

随机推荐

热门标签

global 函数如何像 C/C++ 那样返回值或中断

global 函数如何像 C/C++ 那样返回值或中断的相关文章