cuda：设备函数内联和不同的.cu 文件

2023-11-29

两个事实：CUDA 5.0 允许您在不同的对象文件中编译 CUDA 代码，以便稍后链接。 CUDA 架构 2.x 不再自动内联函数。

像往常一样，在 C/C++ 中，我实现了一个函数__device__ int foo() in functions.cu并将其标题放入functions.hu。功能foo在其他 CUDA 源文件中调用。

当我检查时functions.ptx，我看到foo()溢出到本地内存。为了测试的目的，我评论了所有的内容foo()刚刚成功return 1;根据.ptx。（我无法想象它是什么，因为该函数什么也不做！）

但是，当我移动执行时foo()到头文件functions.hu并添加__forceinline__限定符，则不会将任何内容写入本地内存！

这里发生了什么？为什么CUDA不自动内联这么简单的函数？

单独的头文件和实现文件的全部目的是让我的代码维护更加轻松。但是如果我必须在标题中添加一堆函数（或全部）并且__forceinline__它们，那么它就违背了 CUDA 5.0 不同编译单元的目的......

有没有办法解决？

简单、真实的例子：

函数.cu:

__device__  int  foo
        (const uchar param0,
        const uchar *const param1,
        const unsigned short int param2,
        const unsigned short int param3,
        const uchar param4) 
{    
    return 1; //real code commented out.
}

上述函数溢出到本地内存。

函数.ptx：

.visible .func  (.param .b32 func_retval0) _Z45fooPKhth(
        .param .b32 _Z45foohPKhth_param_0,
        .param .b64 _Z45foohPKhth_param_1,
        .param .b32 _Z45foohPKhth_param_2,
        .param .b32 _Z45foohPKhth_param_3
)
{
        .local .align 8 .b8     __local_depot72[24];
        .reg .b64       %SP;
        .reg .b64       %SPL;
        .reg .s16       %rc<3>;
        .reg .s16       %rs<4>;
        .reg .s32       %r<2>;
        .reg .s64       %rd<2>;

并非所有本地内存使用都会导致溢出。被调用的函数需要遵循 ABI 调用约定，其中包括在本地内存中创建堆栈帧。当 nvcc 传递命令行开关 -Xptxas -v 时，编译器将堆栈使用情况和溢出报告为其子组件。

目前（CUDA 5.0），CUDA 工具链不支持跨编译单元边界的函数内联，就像某些主机编译器所做的那样。因此，在单独编译的灵活性（例如，仅重新编译编译时间较长的大型项目的一小部分，以及创建设备端库的可能性）与通常由函数带来的性能增益之间存在权衡内联（例如，消除由于 ABI 调用约定造成的开销，实现额外的优化，例如跨函数边界的恒定传播）。

单个编译单元内的函数内联由编译器启发式控制，该编译器启发式尝试确定内联是否可能在性能方面有利可图（如果可能的话）。这意味着并非所有函数都可以内联。程序员可以使用函数属性覆盖启发式__forcinline__ and __noinline__.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

cuda：设备函数内联和不同的.cu 文件的相关文章

用于类型比较的 Boost 静态断言

以下问题给我编译器错误我不知道如何正确编写它 struct FalseType enum value false struct TrueType enum value true template
带 GPU 的 Lightgbm 分类器

model lgbm LGBMClassifier n estimators 1250 num leaves 128 learning rate 0 009 verbose 1 使用 LGBM 分类器现在有没有办法通过 GPU 来使用它
cudaMemcpyToSymbol 的问题

我正在尝试复制到恒定内存但我不能因为我对 cudaMemcpyToSymbol 函数的用法有误解我正在努力追随this http developer download nvidia com compute cuda 4 1 rel t
使用 QuasirandomGenerator （对于傻瓜来说）

我是 CUDA 的新手我正在努力在内核中生成随机数我知道有不同的实现而且在 SDK 4 1 中有一个 Niederreiter 拟随机序列生成器的示例我不知道从哪里开始我有点悲伤感觉自己像个傻瓜有人可以制作一个使用 Nied
为什么 gcc 和 NVCC (g++) 会看到两种不同的结构大小？

我正在尝试将 CUDA 添加到 90 年代末编写的现有单线程 C 程序中为此我需要混合两种语言 C 和 C nvcc 是 c 编译器问题在于 C 编译器将结构视为特定大小而 C 编译器将相同的结构视为略有不同的大小那很糟我对此感
如何在C++中的cudaDeviceReset()之后重用tensorflow？

我正在使用 C 开发一个大型 CUDA 应用程序该应用程序运行各种模型需要完全释放所有 GPU 内存否则其他操作将失败我能够在关闭所有 tf 会话并运行 cudaDeviceReset 后释放所有内存但之后我无法运行任何新的张量流
在 cuda 的 nvcc 编译器中使用 C++20

我正在尝试使用std countr zero 函数从
在linux上编译一个基本的OpenCV + Cuda程序

我过去在linux上使用过opencv 但没有使用过cuda 几个月来我一直在与以下编译错误作斗争在尝试了许多解决方案后我放弃并使用 Windows 不过我真的很想在 Linux 上工作这是我用来编译 opencv gpu 网站上给
Visual Studio - 过滤掉 nvcc 警告

我正在编写 CUDA 程序但收到令人讨厌的警告 Warning Cannot tell what pointer points to assuming global memory space 这是来自 nvcc 我无法禁用它有没有办法过
如何在使用 GPU 支持编译的 macOS 上安装 Xgboost？

我尝试在过去 3 天的 MacOS Mojave 10 14 6 上安装集成了 GPU 支持的 xgboost 但是没有成功我尝试了两种方法 pip 安装 xgboost xgboost 安装在这里并且在没有 GPU 选项的情况下成功运
仅使用 CUDA 进行奇异值计算

我正在尝试使用新的cusolverDnSgesvdCUDA 7 0 用于计算奇异值的例程完整代码如下 include cuda runtime h include device launch parameters h include
如何确定完整的 CUDA 版本 + 颠覆版本？

Linux 上的 CUDA 发行版曾经有一个名为version txt例如 CUDA Version 10 2 89 这非常有用但是从 CUDA 11 1 开始该文件不再存在我如何在 Linux 上通过命令行确定并检查 path t
如何并行从数组中删除零值

如何使用 CUDA 并行有效地从数组中删除零值有关零值数量的信息是预先可用的这应该可以简化这项任务重要的是数字必须保持源数组中的顺序当被复制到结果数组时 Example 该数组将例如包含以下值 0 0 19 7 0 3 5 0 0
CUDA Visual Studio 2010 Express 构建错误

我正在尝试在 64 位 Windows 7 上使用 Visual Studio 2010 Express 在 Windows 上开始 CUDA 编程我花了一段时间来设置环境然后我刚刚编写了我的第一个程序 helloWorld cu 目前
在 Mac OS X 10.7.4 上使用 OpenCL 禁用 Nvidia 看门狗

我有一个 OpenCL 程序对于小问题运行良好但是当运行较大的问题超过 Nvidia 硬件上运行内核的 8 10 秒时间限制时虽然我没有将显示器连接到我正在计算的 GPU Nvidia GTX580 上但一旦内核运行大约 8 10
加速Cuda程序

要更改哪一部分来加速此代码代码到底在做什么 global void mat Matrix a Matrix b int tempData new int 2 tempData 0 threadIdx x tempData 1 blockI
iOS 上的 OpenCV - GPU 使用情况？

我正在尝试开发一个 iOS 应用程序可以对来自相机的视频执行实时效果就像 iPad 上的 Photobooth 一样我熟悉 OpenCV 的 API 但如果大多数处理是在 CPU 上完成而不是在 GPU 上完成我担心 iOS 上的性
cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？

假设我有一个与设备关联的活动 CUDA 上下文i 我现在打电话cudaSetDevice i 会发生什么 Nothing 主上下文取代了堆栈顶部主上下文被压入堆栈事实上这似乎是不一致的我编写了这个程序在具有单个设备的机器上运行 i
TensorRT 多线程

我正在尝试使用 python API 来使用 TensorRt 我试图在多个线程中使用它其中 Cuda 上下文与所有线程一起使用在单个线程中一切正常我使用 docker 和 tensorrt 20 06 py3 图像 onnx 模型和
Tensorflow：docker 镜像和 -gpu 后缀

在具有 GPU 支持的 Tensorflow 的 Docker 映像中例如 tensorflow tensorflow 2 2 0 gpu 安装的python包是tensorflow gpu 如图所示pip freeze 安装任何依赖于的

随机推荐

tableView重新加载数据不起作用

我在标签栏应用程序中有一个表格视图我正在加载数据viewDidLoad managedObjectContext nil managedObjectContext RecipesAppDelegate UIApplication shar
Sonar-使用 try-with-resources 或在“finally”子句 java8 流中关闭此“流”

Sonarqube 给我以下错误使用 try with resources 或在 finally 子句中关闭此 Stream List
将图像存储在文件系统中并使用mysql进行索引

我是 MySQL 的新手我有一个网站可以检索并允许用户将照片上传到该网站我将把照片存储为文件夹调用中的文件系统 users images 我如何使用文件系统从 MySQL 调用照片我知道人们谈论索引是有意义的但不确定如何编码如果
Firestore 根据不同集合的条件进行规则

我有一个 Firestore 数据库其中包含两个集合用户和锦标赛用户具有参与者角色和管理员角色并由用户文档中的 isParticipant 和 isAdmin 布尔值指示 users userId isParticipant
图像查看器片段 (Android)

我正在尝试创建一个简单的片段单击时仅显示图像我收到许多错误包括 ExampleFragment 类型的方法 findViewbyId int 未定义 Inflater 无法解析和 imageview main 无法解析或不是字段 i
使用通配符的 XSLT 函数 document()

是否有可能使用通配符document XSLT 中的函数如下 document xml 这是同一个问题 http www biglist com lists xsl list archives 200108 msg00542 html 然而
如何对哈希图中重复出现的键关联的值求和

我想在哈希图中添加相同键的值例如 ABC gt 123 DEF gt 456 ABC gt 123 XXX gt 111 XXX gt 222 应该变成 ABC gt 246 DEF gt 456 XXX gt 333 这是我到目前为止的
让 R 控制台以红色突出显示错误

很多时候我将用于评估的代码粘贴到 R 控制台中有时我粘贴的语句中间会出现错误但我会错过它们因为它们与屏幕上的其他内容融为一体有没有办法通过颜色编码使它们脱颖而出在 Linux 或 Mac 上您只需加载colorout包您的
如何从 Netbeans 上的 Servlet 中的项目类路径获取图像

我制造了一个 headerNetbeans 中网页目录中的文件夹并添加了一个名为header png 现在我想使用以下代码在 servlet 中访问此图像文件 BufferedImage image ImageIO read getClas
如何调用命令并将路径作为参数传递给命令

我正在抓狂地尝试调用命令但将路径作为参数传递给 exe 例如我想接受这个命令 powershell Invoke Command ComputerName localhost ScriptBlock param command C wi
如何在 JButton 图标上方和下方设置文本？

我想设置文字上面和下面 a JButton的图标目前为了实现这一目标我重写布局管理器并使用三个JLabel实例即 2 个用于文本 1 个用于图标但这似乎是一个肮脏的解决方案有没有更直接的方法来做到这一点 Note 我不是在寻找多
如何在t-sql中读取xml？

谁能告诉我如何从以下 xml 中选择值我想获得如下行 Col1 键 Col2 键 Col3 值 1 1 value 1 2 value2 1 3 value3 2 4 value4 2 5 value5 2 6 value6 这是 XML
如何复制 SCH_S、SCH_M 死锁

我有一个大型迁移脚本大约 2000 行由于某些元数据上的死锁而失败根据我在其上捕获的一些 xEvents 数据锁定类型为 SCH S 和 SCH M 该脚本非常复杂因此我尝试使用最少的脚本重新创建相同的场景以便我可以进一步研究它
Lucene.Net 在我的主机上失败，因为它调用 GetTempPath()。有什么解决办法吗？

我在共享主机上的 ASP NET 应用程序中使用 Lucene Net 得到如下所示的堆栈跟踪有什么解决办法吗 SecurityException 请求 System Security Permissions EnvironmentPer
如何在liquibase中声明变量和mysql更新

我想在liquibase中编写以下sql代码设置 value1 字符串1 设置 value2 字符串2 更新用户设置类别 REPLACE category value1 value2 如何在 liquibase 中以 xml 或 sql
MAUI：如何在 SingleProject 中使用部分类来实现平台特定的实现以及 net7.0 作为 TargetFramework？

我正在使用部分类在 NET MAUI 应用程序中实现特定于平台的行为 Stem public partial class MyServices public partial void DoSomething Android iOS MacC
const char myVar* 与 const char myVar[] [重复]

这个问题在这里已经有答案了可能的重复使用字符指针和字符数组之间的区别有什么区别 const char myVar Hello World const char myVar Hello World 如果有的话指针可以重新分配而数组则
ER_NOT_SUPPORTED_AUTH_MODE - MySQL 服务器

连接失败Node js Server to MySQL Database 我有MariaDB 安装在 Node js 服务器但我决定改用 SQL 数据库我卸载了彻底删除了玛丽亚数据库之后我开始安装社区埃德 MySQL 数据库
删除具有破坏性——但并非总是如此？

我对 Common Lisp 的破坏性 DELETE 函数有点困惑它似乎按预期工作除非该项目是列表中的第一项 CL USER gt defvar test list 1 2 3 TEST CL USER gt delete 1 test
cuda：设备函数内联和不同的.cu 文件

两个事实 CUDA 5 0 允许您在不同的对象文件中编译 CUDA 代码以便稍后链接 CUDA 架构 2 x 不再自动内联函数像往常一样在 C C 中我实现了一个函数 device int foo in functions cu并将

cuda：设备函数内联和不同的.cu 文件

cuda：设备函数内联和不同的.cu 文件 的相关文章

随机推荐

热门标签

cuda：设备函数内联和不同的.cu 文件的相关文章