是否可以在设备函数中调用cufft库调用?

2024-04-08

我在主机代码中使用 cuFFT 库调用,它们工作正常,但我想从内核调用 cuFFT 库。早期版本的 CUDA 没有这种支持,但是有了动态并行性,这可能吗?

如果有任何关于如何实现这一目标的示例,那就太好了。


尽管在 Kepler (cc 3.5) 卡上引入了动态并行性,但 cuFFT 仍然是一个主机 API,目前无法使用 cuFFT 在设备代码中创建或执行 FFT 运算。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

是否可以在设备函数中调用cufft库调用? 的相关文章

  • 如何获取要执行的 PTX 文件

    我知道如何生成 ptx文件来自 cu以及如何生成 cubin文件来自 ptx 但我不知道如何获得最终的可执行文件 更具体地说 我有一个sample cu文件 编译为sample ptx 然后我使用 nvcc 来编译sample ptx to
  • OpenCL 在调用 clGetPlatformIDs 时崩溃

    我是 OpenCL 新手 在配备 Intel R HD Graphics 4000 运行 Windows 7 的 Core i5 计算机上工作 我安装了支持 OpenCL 的最新 Intel 驱动程序 GpuCapsViewer 确认我有
  • 构建 Erlang 服务器场(用于业余爱好项目)最便宜的方法是什么? [关闭]

    Closed 这个问题是无关 help closed questions 目前不接受答案 假设我们有一个 本质上并行 的问题需要用 Erlang 软件来解决 我们有很多并行进程 每个进程都执行顺序代码 不是数字运算 并且我们向它们投入的 C
  • 使用常量内存打印地址而不是cuda中的值

    我试图在代码中使用常量内存 并从内核分配常量内存值 而不是使用 cudacopytosymbol include
  • 指定 NVCC 用于编译主机代码的编译器

    运行 nvcc 时 它始终使用 Visual C 编译器 cl exe 我怎样才能让它使用GCC编译器 设置CC环境变量到gcc没有修复它 我在可执行文件帮助输出中也找不到任何选项 在 Windows 上 NVCC 仅支持 Visual C
  • 如何在 gitlab-ci docker 执行器中使用 cuda

    我们正在使用 gitlab 持续集成来构建和测试我们的项目 最近 其中一个项目添加了 CUDA 的要求以启用 GPU 加速 我不想改变我们的管道 docker 和 gitlab ci 对我们来说运行良好 所以我想以某种方式让 docker
  • 为什么GK110有192个核心和4个扭曲?

    我想感受一下开普勒的架构 但这对我来说没有意义 如果一个 warp 有 32 个线程 其中 4 个被调度 执行 则意味着 128 个核心正在使用 64 个核心处于空闲状态 白皮书中提到了独立指令 那么64核是为这些指令保留的吗 如果是这样
  • Ubuntu 11.10/12.04 上的 CUDA“无兼容设备”错误

    一段时间以来 我一直在尝试在我的笔记本电脑上设置 Ubuntu 环境来进行 CUDA 编程 我目前双启动 Windows 8 和 Ubuntu 12 04 并想在 Ubuntu 上安装 CUDA 5 该笔记本电脑配有 GeForce GT
  • cuda中的count3非常慢

    我在 CUDA 中编写了一个小程序 用于计算 C 数组中有多少个 3 并打印它们 include
  • 使用内置显卡,没有NVIDIA显卡,可以使用CUDA和Caffe库吗?

    使用内置显卡 没有 NVIDIA 显卡 可以使用 CUDA 和 Caffe 库吗 我的操作系统是 ubuntu 15 CPU为 Intel i5 4670 3 40GHz 4核 内存为12 0GB 我想开始学习深度学习 CUDA 适用于 N
  • CUDA:如何检查计算能力是否正确?

    使用较高计算能力编译的 CUDA 代码将在计算能力较低的设备上完美执行很长一段时间 然后有一天在某些内核中默默地失败 我花了半天时间追寻一个难以捉摸的错误 结果发现构建规则已经sm 21而该设备 Tesla C2050 是2 0 是否有任何
  • CUDA 中的广义霍夫变换 - 如何加快分箱过程?

    正如标题所示 我正在对并行计算机视觉技术进行一些个人研究 使用 CUDA 我尝试实现 GPGPU 版本的霍夫变换 我遇到的唯一问题是在投票过程中 我调用atomicAdd 来防止多个同时写入操作 但我似乎没有获得太多的性能效率 我在网上搜索
  • 使 CUDA 内存不足

    我正在尝试训练网络 但我明白了 我将批量大小设置为 300 并收到此错误 但即使我将其减少到 100 我仍然收到此错误 更令人沮丧的是 在 1200 个图像上运行 10 epoch 大约需要 40 分钟 有什么建议吗 错了 我怎样才能加快这
  • 如何在 Visual Studio 2010 中设置 CUDA 编译器标志?

    经过坚持不懈的得到error identifier atomicAdd is undefined 我找到了编译的解决方案 arch sm 20旗帜 但是如何在 VS 2010 中传递这个编译器标志呢 我已经尝试过如下Project gt P
  • Nvcc 的版本与 CUDA 不同

    我安装了 cuda 7 但是当我点击 nvcc version 时 它打印出 6 5 我想在 GTX 960 卡上安装 Theano 库 但它需要 nvcc 7 0 我尝试重新安装cuda 但它没有更新nvcc 当我运行 apt get i
  • 如何在 CUDA 中执行多个矩阵乘法?

    我有一个方阵数组int M 10 以便M i 定位第一个元素i th 矩阵 我想将所有矩阵相乘M i 通过另一个矩阵N 这样我就收到了方阵数组int P 10 作为输出 我看到有不同的可能性 分配不同元素的计算M i 到不同的线程 例如 我
  • 设置最大 CUDA 资源

    我想知道是否可以设置 CUDA 应用程序的最大 GPU 资源 例如 如果我有一个 4GB GPU 但希望给定的应用程序只能访问 2GB 如果它尝试分配更多 就会失败 理想情况下 这可以在进程级别或 CUDA 上下文级别上设置 不 目前没有允
  • CUDA 常量内存是否应该被均匀地访问?

    我的 CUDA 应用程序的恒定内存小于 8KB 既然它都会被缓存 我是否需要担心每个线程访问相同的地址以进行优化 如果是 如何确保所有线程同时访问同一地址 既然它都会被缓存 我是否需要担心每个线程访问相同的地址以进行优化 是的 这缓存本身每
  • Yocto for Nvidia Jetson 由于 GCC 7 而失败 - 无法计算目标文件的后缀

    我正在尝试将 Yocto 与 meta tegra 一起使用 https github com madisongh meta tegra https github com madisongh meta tegra 为 Nvidia Jets
  • cuda中有模板化的数学函数吗? [复制]

    这个问题在这里已经有答案了 我一直在寻找 cuda 中的模板化数学函数 但似乎找不到 在普通的 C 中 如果我调用std sqrt它是模板化的 并且将根据参数是浮点数还是双精度数执行不同的版本 我想要这样的 CUDA 设备代码 我的内核将真

随机推荐

  • 将 pybind11 与调用外部函数的动态库链接时出现未定义符号错误

    我正在尝试将 pybind11 模块与 so动态库 并且该库调用未在动态库中实现的函数 so文件 它在普通的 C 可执行文件中工作正常 但会引发Undefined Symbolpython导入时出错 这是一个简单的演示来重现我的问题 功能S
  • 在nodejs中,如何检查端口是否正在侦听或正在使用

    我在这里会非常具体 希望了解这一点的人可以编辑以重新表述一般情况 目前 当您运行 node debug 时 它会生成一个进程来侦听端口 5858 然后在父进程中尝试连接到该端口 但是 如果您正在运行另一个 节点调试 会话 则当前 节点调试
  • 在react-router 2中以编程方式重定向到页面

    我在用反应路由器 2 我想在成功登录或执行某些操作后以编程方式重定向到页面 我的路线文件是这样的 路线 js
  • Python 3.5 - Selenium - 如何处理新窗口并等待它完全加载?

    我正在做浏览器自动化 并且在某个时刻被阻止 此刻 我要求浏览器单击一个按钮 该按钮又打开一个新窗口 但有时互联网太慢 因此这个新窗口需要一些时间来加载 我想知道如何让 Selenium 等待这个新窗口完全加载 这是我的代码 driver s
  • 为什么 Java 客户端在运行时需要 WSDL?

    为 Java WS 客户端生成工件后 为什么需要 wsdllocation 参考 为什么运行时需要 WSDL 我可能会看到一些验证的原因 但这不应该是可选的吗 简介 虽然从设计角度来看 WSDL 对于 Web 服务客户端来说并不是必需的 但
  • Django:定义反向ForeignKey的名称

    我有两个模型 class Foo models Model foo field class Bar models Model foo models ForeignKey Foo on delete models CASCADE bar fi
  • 如何在没有实现任何模式的情况下操纵控件?

    我正在尝试通过实施自动化测试UIAutomation对于我们的项目 但许多控件不是标准的 并且也没有为这些控件实现适当的模式 我应该如何通过操作控件UI自动化框架在这种情况下 例如 我们产品中的按钮是通过 Pane 实现的 并且调用的模式也
  • .NET CLR 线程池耗尽 - 实现错误?

    我编写了一个简单的基于异步的负载测试库 它还有一个控制台界面可以从命令行进行测试 基本上 它同时运行大量请求 聚合它们 并显示摘要和简单的直方图 没有什么花哨 但我在本地系统中运行了大量测试 因此我想确保测试工具能够使用尽可能少的资源来获得
  • 如何从 64 位 .NET 应用程序打开 WOW64 注册表项

    我的 NET 应用程序 任何 CPU 需要读取 32 位程序创建的注册表值 在 64 位 Windows 上 它位于注册表中的 Wow6432Node 项下 我读到您不应该对 Wow6432Node 进行硬编码 那么使用 NET 访问它的正
  • 如何根据条件创建一个可以是多个字符串之一的常量?

    我想要不断地使用let这可能是几个值之一 例如 if condition1 constant hi else if condition2 constant hello else if condition3 constant hey else
  • 如何在Python中从邻接列表中选择子矩阵?

    我有一个邻接列表 其中每个数组代表该行的非零列 例如 下面的 adj 列表中的第 0 个数组意味着第 2 列和第 6 列为 1 其他所有列均为 0 adj list 2 6 1 3 24 2 4 3 5 21 4 6 10 1 5 7 6
  • 如何检测离子含量是否有滚动条?

    我想在离子内容上有或没有滚动条时隐藏或显示元素 更具体地说 我想在没有滚动条时显示一个按钮 在列表中加载更多项目 并在有滚动条的地方隐藏它 因此更多项目的加载是由 ion infinite scroll 完成的 我的 Ionic 应用程序也
  • 1 个节点存在 pod 在 kubernetes 集群中无法容忍的污点

    今天我的 kubernetes 集群 v1 15 2 给我这个错误 1 node s had taints that the pod didn t tolerate并且 Pod 无法启动 它告诉我一个节点有污点 我检查节点状态并且工作正常
  • 使用浏览器缓存进行增量更新

    客户端 AngularJS 应用程序 从服务器获取相当大的列表 列表可能有数百或数千个元素 这可能意味着未压缩的几兆字节 并且一些用户 管理员 获得更多数据 我不打算让客户端获得部分结果 因为排序和过滤不应该打扰服务器 压缩效果很好 大约为
  • 无法在 openpyxl 中保存 Excel 电子表格 - Python

    当我在 openpyxl 中时 我无法保存正在处理的活动文件 wb obj load workbook filename C Users timde PycharmProjects starshipit test xlsx read onl
  • nginx 和 apache2 上的 WordPress 重定向太多

    我刚刚在 ubuntu 14 04 LTS 上安装了 wordpress Nginx 充当 apache2 的反向代理 wp admin 工作正常 但我无法打开主页 Nginx 服务器代码 server listen 80 root var
  • INNER JOIN ON 与 WHERE 子句

    为简单起见 假设所有相关字段都是NOT NULL 你可以做 SELECT table1 this table2 that table2 somethingelse FROM table1 table2 WHERE table1 foreig
  • 如何重用所有场景的标题部分?

    我想重复使用header全部部分view controller scene header 部分表示绿色视图和标签 AMAR LIFE Here is my may 1st view controller scene 这是我的第一个视图控制器
  • R闪亮的分层下拉列表

    我们需要在 R闪亮中创建一个分层下拉列表 该列表至少有 3 个级别 您能帮我确定正确的库吗 请参考下面的图片供您参考 目前我们正在使用下面的代码 但是我们在下拉列表中得到了不正确的列 ui R library shiny library s
  • 是否可以在设备函数中调用cufft库调用?

    我在主机代码中使用 cuFFT 库调用 它们工作正常 但我想从内核调用 cuFFT 库 早期版本的 CUDA 没有这种支持 但是有了动态并行性 这可能吗 如果有任何关于如何实现这一目标的示例 那就太好了 尽管在 Kepler cc 3 5