是否可以在设备函数中调用cufft库调用？

2024-04-08

我在主机代码中使用 cuFFT 库调用，它们工作正常，但我想从内核调用 cuFFT 库。早期版本的 CUDA 没有这种支持，但是有了动态并行性，这可能吗？

如果有任何关于如何实现这一目标的示例，那就太好了。

尽管在 Kepler (cc 3.5) 卡上引入了动态并行性，但 cuFFT 仍然是一个主机 API，目前无法使用 cuFFT 在设备代码中创建或执行 FFT 运算。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

NVIDIA

cufft

是否可以在设备函数中调用cufft库调用？的相关文章

如何获取要执行的 PTX 文件

我知道如何生成 ptx文件来自 cu以及如何生成 cubin文件来自 ptx 但我不知道如何获得最终的可执行文件更具体地说我有一个sample cu文件编译为sample ptx 然后我使用 nvcc 来编译sample ptx to
OpenCL 在调用 clGetPlatformIDs 时崩溃

我是 OpenCL 新手在配备 Intel R HD Graphics 4000 运行 Windows 7 的 Core i5 计算机上工作我安装了支持 OpenCL 的最新 Intel 驱动程序 GpuCapsViewer 确认我有
构建 Erlang 服务器场（用于业余爱好项目）最便宜的方法是什么？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案假设我们有一个本质上并行的问题需要用 Erlang 软件来解决我们有很多并行进程每个进程都执行顺序代码不是数字运算并且我们向它们投入的 C
使用常量内存打印地址而不是cuda中的值

我试图在代码中使用常量内存并从内核分配常量内存值而不是使用 cudacopytosymbol include
指定 NVCC 用于编译主机代码的编译器

运行 nvcc 时它始终使用 Visual C 编译器 cl exe 我怎样才能让它使用GCC编译器设置CC环境变量到gcc没有修复它我在可执行文件帮助输出中也找不到任何选项在 Windows 上 NVCC 仅支持 Visual C
如何在 gitlab-ci docker 执行器中使用 cuda

我们正在使用 gitlab 持续集成来构建和测试我们的项目最近其中一个项目添加了 CUDA 的要求以启用 GPU 加速我不想改变我们的管道 docker 和 gitlab ci 对我们来说运行良好所以我想以某种方式让 docker
为什么GK110有192个核心和4个扭曲？

我想感受一下开普勒的架构但这对我来说没有意义如果一个 warp 有 32 个线程其中 4 个被调度执行则意味着 128 个核心正在使用 64 个核心处于空闲状态白皮书中提到了独立指令那么64核是为这些指令保留的吗如果是这样
Ubuntu 11.10/12.04 上的 CUDA“无兼容设备”错误

一段时间以来我一直在尝试在我的笔记本电脑上设置 Ubuntu 环境来进行 CUDA 编程我目前双启动 Windows 8 和 Ubuntu 12 04 并想在 Ubuntu 上安装 CUDA 5 该笔记本电脑配有 GeForce GT
cuda中的count3非常慢

我在 CUDA 中编写了一个小程序用于计算 C 数组中有多少个 3 并打印它们 include
使用内置显卡，没有NVIDIA显卡，可以使用CUDA和Caffe库吗？

使用内置显卡没有 NVIDIA 显卡可以使用 CUDA 和 Caffe 库吗我的操作系统是 ubuntu 15 CPU为 Intel i5 4670 3 40GHz 4核内存为12 0GB 我想开始学习深度学习 CUDA 适用于 N
CUDA：如何检查计算能力是否正确？

使用较高计算能力编译的 CUDA 代码将在计算能力较低的设备上完美执行很长一段时间然后有一天在某些内核中默默地失败我花了半天时间追寻一个难以捉摸的错误结果发现构建规则已经sm 21而该设备 Tesla C2050 是2 0 是否有任何
CUDA 中的广义霍夫变换 - 如何加快分箱过程？

正如标题所示我正在对并行计算机视觉技术进行一些个人研究使用 CUDA 我尝试实现 GPGPU 版本的霍夫变换我遇到的唯一问题是在投票过程中我调用atomicAdd 来防止多个同时写入操作但我似乎没有获得太多的性能效率我在网上搜索
使 CUDA 内存不足

我正在尝试训练网络但我明白了我将批量大小设置为 300 并收到此错误但即使我将其减少到 100 我仍然收到此错误更令人沮丧的是在 1200 个图像上运行 10 epoch 大约需要 40 分钟有什么建议吗错了我怎样才能加快这
如何在 Visual Studio 2010 中设置 CUDA 编译器标志？

经过坚持不懈的得到error identifier atomicAdd is undefined 我找到了编译的解决方案 arch sm 20旗帜但是如何在 VS 2010 中传递这个编译器标志呢我已经尝试过如下Project gt P
Nvcc 的版本与 CUDA 不同

我安装了 cuda 7 但是当我点击 nvcc version 时它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
如何在 CUDA 中执行多个矩阵乘法？

我有一个方阵数组int M 10 以便M i 定位第一个元素i th 矩阵我想将所有矩阵相乘M i 通过另一个矩阵N 这样我就收到了方阵数组int P 10 作为输出我看到有不同的可能性分配不同元素的计算M i 到不同的线程例如我
设置最大 CUDA 资源

我想知道是否可以设置 CUDA 应用程序的最大 GPU 资源例如如果我有一个 4GB GPU 但希望给定的应用程序只能访问 2GB 如果它尝试分配更多就会失败理想情况下这可以在进程级别或 CUDA 上下文级别上设置不目前没有允
CUDA 常量内存是否应该被均匀地访问？

我的 CUDA 应用程序的恒定内存小于 8KB 既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化如果是如何确保所有线程同时访问同一地址既然它都会被缓存我是否需要担心每个线程访问相同的地址以进行优化是的这缓存本身每
Yocto for Nvidia Jetson 由于 GCC 7 而失败 - 无法计算目标文件的后缀

我正在尝试将 Yocto 与 meta tegra 一起使用 https github com madisongh meta tegra https github com madisongh meta tegra 为 Nvidia Jets
cuda中有模板化的数学函数吗？ [复制]

这个问题在这里已经有答案了我一直在寻找 cuda 中的模板化数学函数但似乎找不到在普通的 C 中如果我调用std sqrt它是模板化的并且将根据参数是浮点数还是双精度数执行不同的版本我想要这样的 CUDA 设备代码我的内核将真

随机推荐

将 pybind11 与调用外部函数的动态库链接时出现未定义符号错误

我正在尝试将 pybind11 模块与 so动态库并且该库调用未在动态库中实现的函数 so文件它在普通的 C 可执行文件中工作正常但会引发Undefined Symbolpython导入时出错这是一个简单的演示来重现我的问题功能S
在nodejs中，如何检查端口是否正在侦听或正在使用

我在这里会非常具体希望了解这一点的人可以编辑以重新表述一般情况目前当您运行 node debug 时它会生成一个进程来侦听端口 5858 然后在父进程中尝试连接到该端口但是如果您正在运行另一个节点调试会话则当前节点调试
在react-router 2中以编程方式重定向到页面

我在用反应路由器 2 我想在成功登录或执行某些操作后以编程方式重定向到页面我的路线文件是这样的路线 js
Python 3.5 - Selenium - 如何处理新窗口并等待它完全加载？

我正在做浏览器自动化并且在某个时刻被阻止此刻我要求浏览器单击一个按钮该按钮又打开一个新窗口但有时互联网太慢因此这个新窗口需要一些时间来加载我想知道如何让 Selenium 等待这个新窗口完全加载这是我的代码 driver s
为什么 Java 客户端在运行时需要 WSDL？

为 Java WS 客户端生成工件后为什么需要 wsdllocation 参考为什么运行时需要 WSDL 我可能会看到一些验证的原因但这不应该是可选的吗简介虽然从设计角度来看 WSDL 对于 Web 服务客户端来说并不是必需的但
Django：定义反向ForeignKey的名称

我有两个模型 class Foo models Model foo field class Bar models Model foo models ForeignKey Foo on delete models CASCADE bar fi
如何在没有实现任何模式的情况下操纵控件？

我正在尝试通过实施自动化测试UIAutomation对于我们的项目但许多控件不是标准的并且也没有为这些控件实现适当的模式我应该如何通过操作控件UI自动化框架在这种情况下例如我们产品中的按钮是通过 Pane 实现的并且调用的模式也
.NET CLR 线程池耗尽 - 实现错误？

我编写了一个简单的基于异步的负载测试库它还有一个控制台界面可以从命令行进行测试基本上它同时运行大量请求聚合它们并显示摘要和简单的直方图没有什么花哨但我在本地系统中运行了大量测试因此我想确保测试工具能够使用尽可能少的资源来获得
如何从 64 位 .NET 应用程序打开 WOW64 注册表项

我的 NET 应用程序任何 CPU 需要读取 32 位程序创建的注册表值在 64 位 Windows 上它位于注册表中的 Wow6432Node 项下我读到您不应该对 Wow6432Node 进行硬编码那么使用 NET 访问它的正
如何根据条件创建一个可以是多个字符串之一的常量？

我想要不断地使用let这可能是几个值之一例如 if condition1 constant hi else if condition2 constant hello else if condition3 constant hey else
如何在Python中从邻接列表中选择子矩阵？

我有一个邻接列表其中每个数组代表该行的非零列例如下面的 adj 列表中的第 0 个数组意味着第 2 列和第 6 列为 1 其他所有列均为 0 adj list 2 6 1 3 24 2 4 3 5 21 4 6 10 1 5 7 6
如何检测离子含量是否有滚动条？

我想在离子内容上有或没有滚动条时隐藏或显示元素更具体地说我想在没有滚动条时显示一个按钮在列表中加载更多项目并在有滚动条的地方隐藏它因此更多项目的加载是由 ion infinite scroll 完成的我的 Ionic 应用程序也
1 个节点存在 pod 在 kubernetes 集群中无法容忍的污点

今天我的 kubernetes 集群 v1 15 2 给我这个错误 1 node s had taints that the pod didn t tolerate并且 Pod 无法启动它告诉我一个节点有污点我检查节点状态并且工作正常
使用浏览器缓存进行增量更新

客户端 AngularJS 应用程序从服务器获取相当大的列表列表可能有数百或数千个元素这可能意味着未压缩的几兆字节并且一些用户管理员获得更多数据我不打算让客户端获得部分结果因为排序和过滤不应该打扰服务器压缩效果很好大约为
无法在 openpyxl 中保存 Excel 电子表格 - Python

当我在 openpyxl 中时我无法保存正在处理的活动文件 wb obj load workbook filename C Users timde PycharmProjects starshipit test xlsx read onl
nginx 和 apache2 上的 WordPress 重定向太多

我刚刚在 ubuntu 14 04 LTS 上安装了 wordpress Nginx 充当 apache2 的反向代理 wp admin 工作正常但我无法打开主页 Nginx 服务器代码 server listen 80 root var
INNER JOIN ON 与 WHERE 子句

为简单起见假设所有相关字段都是NOT NULL 你可以做 SELECT table1 this table2 that table2 somethingelse FROM table1 table2 WHERE table1 foreig
如何重用所有场景的标题部分？

我想重复使用header全部部分view controller scene header 部分表示绿色视图和标签 AMAR LIFE Here is my may 1st view controller scene 这是我的第一个视图控制器
R闪亮的分层下拉列表

我们需要在 R闪亮中创建一个分层下拉列表该列表至少有 3 个级别您能帮我确定正确的库吗请参考下面的图片供您参考目前我们正在使用下面的代码但是我们在下拉列表中得到了不正确的列 ui R library shiny library s
是否可以在设备函数中调用cufft库调用？

我在主机代码中使用 cuFFT 库调用它们工作正常但我想从内核调用 cuFFT 库早期版本的 CUDA 没有这种支持但是有了动态并行性这可能吗如果有任何关于如何实现这一目标的示例那就太好了尽管在 Kepler cc 3 5

是否可以在设备函数中调用cufft库调用？

是否可以在设备函数中调用cufft库调用？ 的相关文章

随机推荐

热门标签

是否可以在设备函数中调用cufft库调用？的相关文章