af::convolve在CUDA中局限性

2023-05-16

使用在Cuda出现访问冲突问题（opengcl正常）：

 af::convolve(I * I, kernel);

报错：

0x00007FFC6443ADAC (af.dll)处(位于 XXXX.exe 中)引发的异常: 0xC0000005: 读取位置 0xFFFFFFFFFFFFFFFF 时发生访问冲突

官方解释：

我之前说的是对的，CUDA后端对二维空间卷积有以下限制：

只允许使用 5 到 17 号的方形内核/过滤器

非方形内核/过滤器在任何维度上最多可以有 5 个大小

我认为这些是基于共享内存使用和性能问题决定的。

我建议您选择此类尺寸的频域。
注意：
opengcl不受此限制，但不能使用cuda加速了

参考网站：

Issues · arrayfire/arrayfire · GitHub

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

convolve

CUDA

中局限性

af::convolve在CUDA中局限性的相关文章

CUDA全局内存事务的成本

根据 CUDA 5 0 编程指南如果我同时使用 L1 和 L2 缓存在 Fermi 或 Kepler 上则所有全局内存操作都使用 128 字节内存事务完成但是如果我仅使用 L2 则使用 32 字节内存事务第 F 4 2 章让我
优化三角矩阵计算的 CUDA 内核的执行

我正在开发我的第一个 Cuda 应用程序并且我的内核吞吐量低于预期这似乎是目前最大的瓶颈内核的任务是计算一个 N N 大小的矩阵 DD 包含数据矩阵上所有元素之间的平方距离数据矩阵 Y 的大小为 N D 以支持多维数据并存储为行
C 中带括号和不带括号的循环处理方式不同吗？

我在调试器中单步执行一些 C CUDA 代码如下所示 for uint i threadIdx x i lt 8379 i 256 sum d PartialHistograms blockIdx x i HISTOGRAM64 BIN
CUDA错误：在python中使用并行时初始化错误

我的代码使用 CUDA 但运行速度仍然很慢因此我将其更改为使用 python 中的多处理 pool map 并行运行但我有CUDA ERROR initialization error 这是函数 def step M self ite
使用常量内存打印地址而不是cuda中的值

我试图在代码中使用常量内存并从内核分配常量内存值而不是使用 cudacopytosymbol include
为什么GK110有192个核心和4个扭曲？

我想感受一下开普勒的架构但这对我来说没有意义如果一个 warp 有 32 个线程其中 4 个被调度执行则意味着 128 个核心正在使用 64 个核心处于空闲状态白皮书中提到了独立指令那么64核是为这些指令保留的吗如果是这样
如何在 Windows 上的 nvidia GPU 的 Visual Studio 2010 中配置 OpenCL？

我在华硕笔记本电脑上的 Wwindows 7 操作系统上使用 NVIDIA GeForce GTX 480 GPU 我已经为 CUDA 4 2 配置了 Visual Studio 2010 如何在 Visual Studio 2010 上为
Golang调用CUDA库

我正在尝试从 Go 代码中调用 CUDA 函数我有以下三个文件 test h int test add void test cu global void add int a int b int c c a b int test add v
当我有表面声明时，如何为 sm_1X 和 sm_2X 编译 CUDA 程序

我正在编写一个使用表面重新采样并写入纹理来提高性能的库 surface
在linux上编译一个基本的OpenCV + Cuda程序

我过去在linux上使用过opencv 但没有使用过cuda 几个月来我一直在与以下编译错误作斗争在尝试了许多解决方案后我放弃并使用 Windows 不过我真的很想在 Linux 上工作这是我用来编译 opencv gpu 网站上给
仅使用 CUDA 进行奇异值计算

我正在尝试使用新的cusolverDnSgesvdCUDA 7 0 用于计算奇异值的例程完整代码如下 include cuda runtime h include device launch parameters h include
如何并行从数组中删除零值

如何使用 CUDA 并行有效地从数组中删除零值有关零值数量的信息是预先可用的这应该可以简化这项任务重要的是数字必须保持源数组中的顺序当被复制到结果数组时 Example 该数组将例如包含以下值 0 0 19 7 0 3 5 0 0
运行时 API 应用程序中的 cuda 上下文创建和资源关联

我想了解如何在 cuda 运行时 API 应用程序中创建 cuda 上下文并与内核关联我知道这是由驱动程序 API 在幕后完成的但我想了解一下创作的时间线首先我知道 cudaRegisterFatBinary 是第一个 cuda a
CUDA 常量内存是否应该被均匀地访问？

我的 CUDA 应用程序的恒定内存小于 8KB 既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化如果是如何确保所有线程同时访问同一地址既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化是的这缓存本身每
尝试构建我的 CUDA 程序时出现错误 MSB4062

当我尝试构建我的第一个 GPU 程序时出现以下错误有什么建议可能会出什么问题吗错误 1 错误 MSB4062 Nvda Build CudaTasks SanitizePaths 任务无法从程序集 C Program 加载文件 M
有没有一种有效的方法来优化我的序列化代码？

这个问题缺乏细节因此我决定创建另一个问题而不是编辑这个问题新问题在这里我可以并行化我的代码吗还是不值得 https stackoverflow com questions 17937438 can i parallelize my
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
将 nvidia 运行时添加到 docker 运行时

我正在运行虚拟机GCP配备特斯拉 GPU 并尝试部署一个PyTorch基于应用程序使用 GPU 加速我想让 docker 使用这个 GPU 可以从容器访问它我设法在主机上安装了所有驱动程序并且该应用程序在那里运行良好但是当我尝试在
“gld/st_throughput”和“dram_read/write_throughput”指标之间有什么区别？

在 CUDA 可视化分析器版本 5 中我知道 gld st requested throughput 是应用程序请求的内存吞吐量然而当我试图找到硬件的实际吞吐量时我很困惑因为有两对似乎合格的指标它们是 gld st throug
CUDA 中指令重放的其他原因

这是我从 nvprof CUDA 5 5 获得的输出 Invocations Metric Name Metric Description Min Max Avg Device Tesla K40c 0 Kernel MyKernel do

随机推荐

GDAL图像重采样

span class token macro property span class token directive hash span span class token directive keyword include span spa
C#入门基础教程

文章目录 C 基础入门基本用法 xff08 理解面向对象编程 xff09 示例1 xff1a 创建线类关键字数据类型数值类型布尔与文本类型引用类型指针类型示例2 xff1a 数值类型示例3 xff1a 文本类型示例4 xff1a Obje
1. 在VS2019上配置PIE.NET-SDK插件式环境（c#）

1 开发环境部署确保Win10系统安装Visual Studio2019安装PIESDK Net V6 3 Windows X64 exe 2 创建工程 1 选Windows窗口应用 xff0c 不然后面找不到 Net framwork
std::string、const char*、QString之间相互转换

字符串转换 std string 转 const char std string str 61 34 string 34 const char cstr 61 str c str const char 转 std string span c
Cannot convert a symbolic Tensor (simple_rnn/strided_slice:0) to a numpy array. 报错（解决方法）

1 报错问题 xff1a xff08 来自 Python深度学习 P164 165 xff09 在运行以下代码的时候 xff0c 报错 xff1a Cannot convert a symbolic Tensor simple rnn s
图像几何校正

几何校正中混淆的概念名词描述几何校正几何畸变会给基于遥感图像的定量分析变化检测图像融合地图测量或更新等处理带来误差 xff08 主要指二维平面坐标 xff09 xff0c 所以需要针对图像的几何畸变进行校正 xff0c 也就是几何校
解决VS2015 安装失败问题，如安装包损坏或丢失

搜索包路径选择下面这个路径
1.ODBC连接Postgresql

SQLDriverConnect SQLDriverConnect 是 SQLConnect 的替代方法它支持需要比 SQLConnect 中的三个参数更多的连接信息的数据源对话框来提示用户输入所有连接信息 xff0c 以及系统信息中未
ImportError: DLL load failed while importing Qsci

pyqt5报错 xff1b ImportError span class token operator span DLL load failed span class token keyword while span importing Q
关于编译QGIS3.22.12配置的python库

注意 xff1a 安装了多个python环境的很容易编译出错 xff1b 其中3 22需要配置python3 9的环境在编译QGIS过程中的报错报错1 xff1a No module named span class token cha
Qt中设置删除提示框

Qt中设置删除提示框 QMessageBox StandardButton sButton 61 QMessageBox question NULL QObject tr 34 提示 34 QObject tr 34 该数据是否删除 34
你真的对图像格式了解么？

图像是人类视觉的基础 xff0c 是自然景物的客观反映 xff0c 是人类认识世界和人类本身的重要源泉图是物体反射或透射光的分布 xff0c 像是人的视觉系统所接受的图在人脑中所形成的印象或认识 xff0c 照片绘画剪贴画地图
配置Qt中pro、pri文件

002helloWorld pro span class token macro property span class token directive hash span span class token directive keywor
构建一个字符串类

文章目录 1 构建字符串数据 2 创建那些函数给外界调用 1 构造函数以及设计构造函数初值 2 类内带有指针考虑3个特殊重要函数 3 考虑辅助函数 3 定义具体函数 1 设计构造函数内容
PostgreSQL查询

PostgreSQL 数据库连接 QT xff1a 建立到数据库的连接 QSqlDatabase db 61 QSqlDatabase addDatabase 34 QPSQL 34 db setHostName 34 localhost
Conda install 报错：An HTTP error occurred when trying to retrieve this URL. HTTP errors are often...

1 问题描述 xff1a 准备在Anaconda prompt执行以下命令 xff1a conda install c stellargraph stellargraph 报错 xff1a An HTTP error occurred wh
svn原理----revert，回滚

一子命令Svn revert 取消所有的本地编辑下面我们来看一下子命令Svn revert例子 xff1a 丢弃对一个文件的修改 xff1a Svn revert foo c Reverted foo c 如果你希望恢复一整个目录的文件
Qt 自定义控件提升，头文件找不到的问题

Qt 自定义控件提升 xff0c 头文件找不到的问题在附加包含目录添加 xff1a
分析int(*p)[4] = a

面试题 xff1a 二级指针 include lt iostream gt int main int a 3 4 61 0 1 2 3 4 5 6 7 8 9 10 11 int p 4 61 a std cout lt lt p 43 1
af::convolve在CUDA中局限性

使用在Cuda出现访问冲突问题 xff08 opengcl正常 xff09 xff1a af convolve I I kernel 报错 xff1a 0x00007FFC6443ADAC af dll 处位于 XXXX exe 中引发

热门标签