有没有一种有效的方法来优化我的序列化代码？

2024-05-06

这个问题缺乏细节。因此，我决定创建另一个问题而不是编辑这个问题。新问题在这里：我可以并行化我的代码吗？还是不值得？ https://stackoverflow.com/questions/17937438/can-i-parallelize-my-code-or-it-is-not-worth

我有一个在 CUDA 中运行的程序，其中一段代码在循环内运行（序列化，如下所示）。这段代码是在包含地址和/或 NULL 指针的数组中进行搜索。所有线程都执行下面的代码。

while (i < n) {
    if (array[i] != NULL) {
        return array[i];
    }
    i++;
}
return NULL;

Where n的大小是array并且数组位于共享内存中。我只对与 NULL（第一个匹配）不同的第一个地址感兴趣。

整个代码（我只发布了一段，整个代码很大）运行得很快，但是代码的“核心”（即重复较多的部分）是序列化的，如您所见。我想知道是否可以使用某些优化算法并行化这部分（搜索）。

就像我说的，程序已经在 CUDA 中（以及设备中的数组），因此它不会有从主机到设备的内存传输，反之亦然。

我的问题是：n不大。很难大于 8。

我尝试对其进行并行化，但我的“新”代码比上面的代码花费了更多时间。

我正在研究归约和最小运算，但我已经检查过它在以下情况下很有用：n is big.

那么，有什么建议吗？我可以有效地并行化它，即以较低的开销吗？

简单来说，GPGPU 代码的主要限制因素之一是内存管理。在大多数计算机中，将内存复制到设备 (GPU) 是一个缓慢的过程。

如图所示http://www.ncsa.illinois.edu/~kindr/papers/ppac09_paper.pdf http://www.ncsa.illinois.edu/~kindr/papers/ppac09_paper.pdf:

“获得有效的关键要求 GPU 子例程库的加速是最小化主机和 GPU 之间的 I/O。”

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

GPGPU

有没有一种有效的方法来优化我的序列化代码？的相关文章

无法从静态初始化代码启动 CUDA 内核

我有一个在其构造函数中调用内核的类如下所示标量场 h include
使用内置显卡，没有NVIDIA显卡，可以使用CUDA和Caffe库吗？

使用内置显卡没有 NVIDIA 显卡可以使用 CUDA 和 Caffe 库吗我的操作系统是 ubuntu 15 CPU为 Intel i5 4670 3 40GHz 4核内存为12 0GB 我想开始学习深度学习 CUDA 适用于 N
使用 CUDA __device__ 函数时出现链接器错误 2005 和 1169（多重定义的符号）（默认情况下应内联）

这个问题与以下问题有很大关系 A 如何将CUDA代码分成多个文件 https stackoverflow com questions 2090974 how to separate cuda code into multiple files
Golang调用CUDA库

我正在尝试从 Go 代码中调用 CUDA 函数我有以下三个文件 test h int test add void test cu global void add int a int b int c c a b int test add v
cudaMemcpyToSymbol 的问题

我正在尝试复制到恒定内存但我不能因为我对 cudaMemcpyToSymbol 函数的用法有误解我正在努力追随this http developer download nvidia com compute cuda 4 1 rel t
在 cuda 的 nvcc 编译器中使用 C++20

我正在尝试使用std countr zero 函数从
同时使用 2 个 GPU 调用 cudaMalloc 时性能较差

我有一个应用程序可以在用户系统上的 GPU 之间分配处理负载基本上每个 GPU 都有一个 CPU 线程来启动一个GPU处理间隔当由主应用程序线程定期触发时考虑以下图像使用 NVIDIA 的 CUDA 分析器工具生成作为示例GPU
CUDA程序导致nvidia驱动程序崩溃

当我超过大约 500 次试验和 256 个完整块时我的 monte carlo pi 计算 CUDA 程序导致我的 nvidia 驱动程序崩溃这似乎发生在 monteCarlo 内核函数中任何帮助都会受到赞赏 include
CUDA素数生成

当数据大小增加超过 260k 时我的 CUDA 程序停止工作它不打印任何内容有人能告诉我为什么会发生这种情况吗这是我的第一个 CUDA 程序如果我想要更大的素数如何在 CUDA 上使用大于 long long int 的数据类型
CUDA 中的广义霍夫变换 - 如何加快分箱过程？

正如标题所示我正在对并行计算机视觉技术进行一些个人研究使用 CUDA 我尝试实现 GPGPU 版本的霍夫变换我遇到的唯一问题是在投票过程中我调用atomicAdd 来防止多个同时写入操作但我似乎没有获得太多的性能效率我在网上搜索
多个进程可以共享一个 CUDA 上下文吗？

这个问题是 Jason R 的后续问题comment https stackoverflow com questions 29964392 multiple cuda contexts for one device any sense co
Visual Studio - 过滤掉 nvcc 警告

我正在编写 CUDA 程序但收到令人讨厌的警告 Warning Cannot tell what pointer points to assuming global memory space 这是来自 nvcc 我无法禁用它有没有办法过
仅使用 CUDA 进行奇异值计算

我正在尝试使用新的cusolverDnSgesvdCUDA 7 0 用于计算奇异值的例程完整代码如下 include cuda runtime h include device launch parameters h include
运行时 API 应用程序中的 cuda 上下文创建和资源关联

我想了解如何在 cuda 运行时 API 应用程序中创建 cuda 上下文并与内核关联我知道这是由驱动程序 API 在幕后完成的但我想了解一下创作的时间线首先我知道 cudaRegisterFatBinary 是第一个 cuda a
CUDA Visual Studio 2010 Express 构建错误

我正在尝试在 64 位 Windows 7 上使用 Visual Studio 2010 Express 在 Windows 上开始 CUDA 编程我花了一段时间来设置环境然后我刚刚编写了我的第一个程序 helloWorld cu 目前
加速Cuda程序

要更改哪一部分来加速此代码代码到底在做什么 global void mat Matrix a Matrix b int tempData new int 2 tempData 0 threadIdx x tempData 1 blockI
有没有一种有效的方法来优化我的序列化代码？

这个问题缺乏细节因此我决定创建另一个问题而不是编辑这个问题新问题在这里我可以并行化我的代码吗还是不值得 https stackoverflow com questions 17937438 can i parallelize my
cuda中内核的并行执行

可以说我有三个全局数组它们已使用 cudaMemcpy 复制到 GPU 中但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配以便分配页面锁定的内存而不是简单的全局分配 int a 100 b 100 c 100 cu
VS 程序在调试模式下崩溃，但在发布模式下不崩溃？

我正在 VS 2012 中运行以下程序来尝试 Thrust 函数查找 include cuda runtime h include device launch parameters h include
内联 PTX 汇编代码强大吗？

我看到一些代码示例人们在 C 代码中使用内联 PTX 汇编代码 CUDA工具包中的文档提到PTX很强大为什么会这样呢如果我们在 C 代码中使用这样的代码我们会得到什么好处内联 PTX 使您可以访问未通过 CUDA 内在函数公开的指

随机推荐

Android IllegalStateException：片段 null 必须是公共静态类才能从实例状态正确重新创建

我的 Android 应用程序出现以下异常 FATAL EXCEPTION main java lang IllegalStateException Fragment null must be a public static class t
我可以在导航抽屉的片段中使用 CollapsingToolbarLayout

我可以在导航抽屉的片段中使用 CollapsingToolbarLayout 吗我尝试这个样本 http www androidhive info 2015 04 android getting started with material
为什么我无法通过 Powershell DSC 在无人值守模式下配置 TFS Build Service？

使用以下 DSC 配置仅资源部分的片段删除 SO 的前导码诊断和 Start DscConfiguration 部分 Package TFSServer2013 Name Microsoft Team Foundation Serve
错误：找不到符号 array.add(element);

我有一个程序它从文件中读取获取每个单词并将其作为字符串添加到数组中我在将字符串添加到数组时遇到了一些麻烦我收到错误 SortingWords java 73 error cannot find symbol array add el
SendKeys 或 SendTextEntry 到游戏

我想制作一个程序来保存一些服务器 IP 地址并在用户想要使用时使用其中一个并且游戏不支持复制粘贴命令因此如果玩家想要加入另一个服务器就必须浪费时间输入IP地址我想让我的程序在用户按下 F12 按钮时在游戏的 IP 地址框中输入地
如何翻译 Sonata Admin Bundle 中的标签

我正在使用 Symfony 2 3 和 Sonata Admin Bundle 我知道我可以用这种方式翻译标签 gt add shortDescription null array label gt shortDescriptionTran
用于分页 ASP.Net 的中继器内的链接按钮

我正在制作一个带有搜索的网页该搜索从 MSSQL 中获取大量信息我所做的是一个存储过程仅返回要在网站上看到的页面现在我正在处理分页因为我需要显示类似于谷歌的内容如果您在第 1 页它们会显示前 10 页如果您在第 19 页它
MessageQueueException (0x80004005)：对消息队列系统的访问被拒绝

我有一个现有的应用程序可以在 Windows 2003 服务器上正常运行我已将其移至 Windows 2008r2 当应用程序尝试访问队列时出现以下错误我的应用程序池的 Indentity 用户可以完全控制我的消息队列有谁对如何解
从选定位置导入 Python 模块

假设我有三个脚本 Main py 包含所有导入 1 py 随机脚本 2 py 随机脚本 pyinstaller F onedir Main py 80mb pyinstaller F onedir 1 py 80mb pyinstaller
在 Python 中创建垂直 NumPy 数组

我在 Python 中使用 NumPy 来处理数组这是我用来创建垂直数组的方法 import numpy as np a np array 1 2 3 有没有一种简单更直接的方法来创建垂直数组您可以使用reshape or vstac
Scala：如何将“MatchesRegex”细化与包含反引号的正则表达式（细化库）一起使用？

The refined https github com fthomas refined库允许定义与给定匹配的细化regex 如图所示Readme import eu timepit refined import eu timepit re
如何在 Intellij IDEA 中构建和运行 Storm Topology

我按照 Storm Starter 说明并在 IntelliJ 中导入了 Twitter Storm 为了测试我编辑了感叹拓扑一点并使用以下 Maven 命令来构建并运行它 mvn f m2 pom xml compile exec ja
可运行的 JAR 无法与引用的库一起使用

我想创建一个可运行的 JAR 其中包含引用的库即jackson http jackson codehaus org 在 Eclipse 中通过导出过去有fat jar这似乎是 Eclipse 提供导出到可运行 JAR 之前的 goto
foo.Name undefined（类型接口{}没有字段或方法名称）

我使用本机 golang 包 container list 来管理堆栈中的 inotify 事件当我访问堆栈的项目时我的类型失败我认为 import golang org x exp inotify container list lo
C# 接口实现关系只是“Can-Do”关系？

今天有人告诉我 C 中的接口实现只是 Can Do 关系而不是 Is A 关系这与我长期以来所相信的LSP 里氏替换原理相冲突我一直认为所有的继承都应该意味着 Is A 关系所以如果接口实现只是一种 Can Do 关系如果有一
UICollectionView 单元格旋转后不水平

我有一个 UICollectionView 带有一个用于创建单元格的按钮该单元格应按创建顺序显示在空间允许的情况下横向和纵向 1 2 3 4 文本视图受到灵活宽度的限制以填充单元格单元格的大小取决于设备和旋转每行允许 1 2 3
是否可以仅在一张表上运行“symfonydoctrine build --all”任务？

如果我运行以下任务它会构建所有内容并清除数据库 php symfony doctrine build all 我希望此任务仅针对我放入 schema yml 的新表运行是否可以我认为你应该为此使用迁移首先您需要恢复初始状态当模式
实时搜索错误

我正在获取用户偏好和角色一切正常并且数据接收正确默认值放置在单选按钮上以突出显示用户当前拥有的选项我正在使用 Antd Design Table 组件问题当我将用户首选项更改为打印文档时它确实通过数据库的状态成功更改了它但是现
“该网站似乎使用了滚动链接定位效果。这可能不适用于异步平移”

我从 Firefox 收到了这个不寻常的警告它所指的定位效果是div我将旋转作为滚动高度的一个因素我从来没有遇到过任何问题但是这是我应该担心的事情吗如果没有这个警告是否有这样的效果演示此问题的 JavaScript 是 gear
有没有一种有效的方法来优化我的序列化代码？

这个问题缺乏细节因此我决定创建另一个问题而不是编辑这个问题新问题在这里我可以并行化我的代码吗还是不值得 https stackoverflow com questions 17937438 can i parallelize my

有没有一种有效的方法来优化我的序列化代码？

有没有一种有效的方法来优化我的序列化代码？ 的相关文章

随机推荐

热门标签

有没有一种有效的方法来优化我的序列化代码？的相关文章