CUDA 中的广义霍夫变换 - 如何加快分箱过程？

2024-04-19

正如标题所示，我正在对并行计算机视觉技术进行一些个人研究。使用 CUDA，我尝试实现 GPGPU 版本的霍夫变换。我遇到的唯一问题是在投票过程中。我调用atomicAdd() 来防止多个同时写入操作，但我似乎没有获得太多的性能效率。我在网上搜索过，但没有找到任何方法可以显着提高投票过程的性能。

如果您能提供有关投票过程的任何帮助，我们将不胜感激。

我不熟悉霍夫变换，因此发布一些伪代码可能会有所帮助。但如果您对投票感兴趣，您可以考虑使用 CUDA 投票内在指令来加速这一过程。

请注意，这需要 2.0 或更高版本的计算能力（Fermi 或更高版本）。

如果您想计算一个线程中的线程数block对于特定条件成立的情况，您可以使用__syncthreads_count().

bool condition = ...; // compute the condition
int blockCount = __syncthreads_count(condition); // must be in non-divergent code

如果您想计算一个线程中的线程数grid对于条件为 true 的情况，您可以执行以下操作atomicAdd

bool condition = ...; // compute the condition
int blockCount = __syncthreads_count(condition); // must be in non-divergent code
atomicAdd(totalCount, blockCount);

如果需要计算小于条件为 true 的块的组中的线程数，可以使用__ballot() and __popc()（人口统计）。

// get the count of threads within each warp for which the condition is true
bool condition = ...; // compute the condition in each thread
int warpCount = __popc(__ballot()); // see the CUDA programming guide for details

希望这可以帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

GPU

GPGPU

houghtransform

CUDA 中的广义霍夫变换 - 如何加快分箱过程？的相关文章

Tensorflow：如何在模型训练过程中实时监控 GPU 性能？

我是 Ubuntu 和 GPU 新手最近在我们的实验室中使用了一台配备 Ubuntu 16 04 和 4 个 NVIDIA 1080ti GPU 的新 PC 该机还拥有i7 16核处理器我有一些基本问题为 GPU 安装 Tensorf
如何将CUDA时钟周期转换为毫秒？

我想用一些代码来测量时间within我的内核需要我已经关注了这个问题 https stackoverflow com questions 11209228 timing different sections in cuda kernel连
“计算能力”是什么意思？ CUDA？

我是CUDA编程新手对此了解不多您能告诉我 CUDA 计算能力是什么意思吗当我在大学服务器上使用以下代码时它向我显示了以下结果 for device 0 device lt deviceCount device cudaDevic
OpenCV GPU Farneback 光流在多线程中表现不佳

我的应用程序使用 Opencv GPU 类gpu FarnebackOpticalFlow计算输入视频的一对连续帧之间的光流为了加速该过程我利用 OpenCV 的 TBB 支持在多线程中运行该方法然而多线程性能并不像单线程那样为了
使用 Python (OpenCV) 中的霍夫线变换从模拟时钟读取时间

我一直在尝试编写一个程序在图片上找到钟面然后继续从中读取时间定位效果相当好但阅读时间不是那么多 cv2 HoughLines 函数返回线条所在的角度从图像顶部开始测量以及它们与图像左上角的距离经过一些调整后我成功地说服我的
多个进程可以共享一个 CUDA 上下文吗？

这个问题是 Jason R 的后续问题comment https stackoverflow com questions 29964392 multiple cuda contexts for one device any sense co
cuda cpu功能-gpu内核重叠

我在尝试开发以练习 CUDA 的 CUDA 应用程序时遇到并发问题我想通过使用 cudaMemecpyAsync 和 CUDA 内核的异步行为来共享 GPU 和 CPU 之间的工作但我无法成功重叠 CPU 执行和 GPU 执行它与主机
使用 OpenCL 或其他 GPGPU 框架在现代 x86 硬件上的 CPU 和 GPU 之间共享数据

AMD Kaveri 的 hUMA 异构统一内存访问和 Intel 第四代 CPU 证明了 CPU 和 GPU 硬件的不断统一应该允许 CPU 和 GPU 之间进行无副本的数据共享我想知道最新的 OpenCL 或其他 GPGPU 框
MPI+CUDA 与纯 MPI 相比有何优势？

加速应用程序的常用方法是使用 MPI 或更高级别的库例如在幕后使用 MPI 的 PETSc 并行化应用程序然而现在每个人似乎都对使用 CUDA 来并行化他们的应用程序或使用 MPI 和 CUDA 的混合来解决更雄心勃勃更大的问题感兴
如何确定完整的 CUDA 版本 + 颠覆版本？

Linux 上的 CUDA 发行版曾经有一个名为version txt例如 CUDA Version 10 2 89 这非常有用但是从 CUDA 11 1 开始该文件不再存在我如何在 Linux 上通过命令行确定并检查 path t
CUDA Visual Studio 2010 Express 构建错误

我正在尝试在 64 位 Windows 7 上使用 Visual Studio 2010 Express 在 Windows 上开始 CUDA 编程我花了一段时间来设置环境然后我刚刚编写了我的第一个程序 helloWorld cu 目前
CUDA 估计 2D 网格数据的每块线程数和块数

首先我要说的是我已经仔细阅读了所有类似的问题确定每个块的线程和每个网格的块 https stackoverflow com questions 4391162 cuda determining threads per block blo
Nvcc 的版本与 CUDA 不同

我安装了 cuda 7 但是当我点击 nvcc version 时它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
如何在 CUDA 中执行多个矩阵乘法？

我有一个方阵数组int M 10 以便M i 定位第一个元素i th 矩阵我想将所有矩阵相乘M i 通过另一个矩阵N 这样我就收到了方阵数组int P 10 作为输出我看到有不同的可能性分配不同元素的计算M i 到不同的线程例如我
Yocto for Nvidia Jetson 由于 GCC 7 而失败 - 无法计算目标文件的后缀

我正在尝试将 Yocto 与 meta tegra 一起使用 https github com madisongh meta tegra https github com madisongh meta tegra 为 Nvidia Jets
加速Cuda程序

要更改哪一部分来加速此代码代码到底在做什么 global void mat Matrix a Matrix b int tempData new int 2 tempData 0 threadIdx x tempData 1 blockI
“分页文件太小，无法完成此操作”尝试训练 YOLOv5 对象检测模型时出错

我有大约 50000 个图像和注释文件用于训练 YOLOv5 对象检测模型我在另一台计算机上仅使用 CPU 训练模型没有问题但需要太长时间因此我需要 GPU 训练我的问题是当我尝试使用 GPU 进行训练时我不断收到此错误 OSE
使用 CUDA 进行逐元素向量乘法

我已经在 CUDA 中构建了一个基本内核来执行逐元素两个复向量的向量向量乘法内核代码插入如下 multiplyElementwise 它工作正常但由于我注意到其他看似简单的操作如缩放向量在 CUBLAS 或 CULA 等库中进行了
NV_path_rendering替代方案[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我刚刚观看了 Siggraph 2012 的一个非常令人印象深刻的演示 http nvidia fullviewmedia com sig
如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

这是一个关于编程的概念问题总而言之我有两个数组向量我需要对一个数组向量进行排序并将更改传播到另一个数组向量中这样如果我对 arrayOne 进行排序则对于排序中的每个交换 arrayTwo 也会发生同样的情况现在我知

随机推荐

node-gyp 配置得到“gyp ERR！找到 VS”

我正在尝试开始有关节点 c c 附加组件这node gyp命令出错我已经安装了vs2019 我的命令是 node gyp configure msvs version 2019 详细输出是 gyp info it worked if i
@Override 注解的问题

我正在制作一个类似于 Banko 小程序的 Java 应用程序当我点击 public void init 方法时我进展顺利当我完成后除此之外的所有内容都已编译完毕它告诉我添加 Override 注释我尝试过但每当我这样做时无
如何在 Android 中创建 https 连接？

我在 Stackoverflow 中找到了很多帖子但无法找到适用的解决方案如何在 Android 中创建 https 连接代码是 HttpParams httpParameters new BasicHttpParams ConnMa
ComponentDidUpdate 使用情况和最大更新深度超出

我有一个设置屏幕我可以从用户那里获取一些信息例如年龄体重和性别在获得这些信息后我计算用户每天应该喝多少水我想自动计算这个金额而不需要任何计算按钮不变违规超出最大更新深度当组件在 componentWillUpdate 或
无法使用我的机器的 IP 地址运行我的 Node.Js 应用程序，但可以使用 localhost

所以我设置了一个 Node js 应用程序来侦听我机器的端口 5050 所以当我去http localhost 5050 myapp http localhost 5050 myapp我的应用程序加载良好我使用的是express框架因此
rel-canonical 还应该包括协议 (http/https) 吗？

我正在将我的网站从 http 迁移到 https 尽管它仍然支持通过 http 访问目前我的所有页面都在 HTML 中设置了准确的 rel canonical 元标记但显然它们都指向规范的 http url 我现在是否也应该将它们更新为
具有隐式数组大小的模板参数

下面是一个简化的模板类它接受数组作为模板参数但是我还必须传递数组的大小作为参数我想自动推导它并只写 const char TextArray zero one two Array
如何将自定义多变量函数应用于 R 中数据框的每一行？

假设我有一个数据框其中的列名为 foo 和 bar mydata lt data frame foo rnorm 100 bar rnorm 100 假设我有一个自定义标量函数它需要标量输入 x 和 y 并产生标量输出例如 myfun
如何控制径向渐变中椭圆的高度

我正在尝试使用径向渐变作为我的背景下面是代码 div width 778px height 100px background radial gradient ellipse at top center green yellow 229px
运算符“==”不能应用于“char”和“string”类型的操作数

我正在开发一个自我指导的简单程序来练习迄今为止学到的概念我的项目与国际象棋相关在本例中具体是棋盘 a h 列和 1 8 行系统会询问用户特定棋子的当前位置希望输入为列字母后跟行数字为了验证这一点我首先检查该值是否作为两个字符的
模块“tensorflow._api.v2.train”没有属性“GradientDescentOptimizer”

我使用Python 3 7 3并安装了tensorflow 2 0 0 alpha0 但是存在一些问题例如模块 tensorflow api v2 train 没有属性 GradientDescentOptimizer 这是我的全部代码
如何在CWorkerThread中编写简单的后台线程

我正在尝试在 Internet Explorer 的附加组件中异步运行函数我正在用 VC 编写 BHO 按照建议here https stackoverflow com questions 4285346 threading in bho
使用 ruby 解压缩（zip、tar、tag.gz）文件

我想解压很多 zip 文件是否有模块或脚本可以检查 zip 文件的格式并对其进行解压缩这应该适用于Linux 我不关心其他操作系统要从 tar gz 文件中提取文件您可以使用随 Ruby 分发的包中的以下方法 require rub
“constexpr”函数的“noexcept”行为

的措辞 expr unary noexcept 改变于C 17 之前 n4140 5 3 7 noexcept 运算符 expr unary noexcept https timsong cpp github io cppwp n4140
无模板 Django + AJAX：Django 的 CSRF 令牌会在浏览会话过程中更新吗？

我当前的设置是 AngularJS Django 1 5 我完全放弃了 Django 模板引擎的使用即后端几乎是一个 API 服务器由于我没有使用csrf tokentemplate 标签 Django 反过来不会设置和发送csrft
将 qDebug 重定向到 QTextEdit

我想用qInstallMessageHandler handler 重定向qDebug to QTextEdit 我在类中定义了一个处理函数 void Spider redirect QtMsgType type const QMessag
视图内的滚动视图无法正常反应本机

在这里我正在尝试一个简单的代码但如果保留在另一个视图中滚动视图将无法工作代码是这样的 return
android studio 立即删除我的复制和粘贴导入语句

我有一个由 android studio 0 8x 设置的项目空白活动但是当我粘贴 ctrl v 一些导入语句时如下所示 import android app Activity import android content res R
判断一个变量是否在数组中？ [复制]

这个问题在这里已经有答案了我有一个变量 var code de 我有一个数组 var countryList de fr it es 有人可以帮助我因为我需要检查该变量是否在 CountryList 数组内我的尝试在这里 if cod
CUDA 中的广义霍夫变换 - 如何加快分箱过程？

正如标题所示我正在对并行计算机视觉技术进行一些个人研究使用 CUDA 我尝试实现 GPGPU 版本的霍夫变换我遇到的唯一问题是在投票过程中我调用atomicAdd 来防止多个同时写入操作但我似乎没有获得太多的性能效率我在网上搜索

CUDA 中的广义霍夫变换 - 如何加快分箱过程？

CUDA 中的广义霍夫变换 - 如何加快分箱过程？ 的相关文章

随机推荐

热门标签

CUDA 中的广义霍夫变换 - 如何加快分箱过程？的相关文章