解读CUDA Compiler Driver NVCC - Ch.3

2023-11-10

前言


上一篇文章简单了介绍了nvcc预定义的宏,以及支持的编译阶段,对应的输入文件后缀和输出文件的默认名。本篇文章了解CUDA源文件编译的整个workflow。

Overview


CUDA编译的工作原理如下:输入程序经过设备编译编译预处理,编译为CUDA二进制(cubin)和/或PTX中间代码,被放置在一个fatbinary。 输入程序再次预处理以供主机编译,嵌入到 fatbinary, 并将 CUDA 特定 C++ 扩展转换为标准 C++ 构造。 然后 C++ 主机编译器将把带有嵌入式 fatbinary 的host code编译成host object。

每当主机程序启动设备代码时,CUDA 运行时系统都会检查嵌入式 fatbinary 以获得当前 GPU 的适当 fatbinary image。

CUDA 程序默认采用the whole program compilation mode全程序编译模式编译,即设备代码不能从单独的文件中引用实体。在全程序编译模式下,设备链接步骤不起作用。单独编译和整个程序编译的更多信息,将在第六章进行介绍。

总结


本文主要的take away: CUDA源文件会先被针对device进行预编译,然后编译为中间文件fatbinary, 然后由主机编译把host code with fatbinary为 host object. 

下一篇文章会详细介绍关于GPU 编译相关的内容。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

解读CUDA Compiler Driver NVCC - Ch.3 的相关文章

随机推荐

  • 明星漫画

    明星漫画 转载于 https www cnblogs com Dicky archive 2005 02 24 122393 html
  • 《C++编程规范:101条规则、准则与最佳实践》——1.5做代码审查

    本节书摘来自异步社区出版社 C 编程规范 101条规则 准则与最佳实践 一书中的第1章 第1 5节 作者 加 Herb Sutter 罗 Andrei 更多章节内容可以访问云栖社区 异步社区 公众号查看 1 5做代码审查 摘要审查代码 更多
  • 数组sort方法的使用

    sort 方法是数组自带的一种排序方法 数组在原数组上进行排序 不生成副本 如果调用该方法时没有使用参数 将按字母顺序对数组中的元素进行排序 说得更精确点 是按照字符编码的顺序进行排序 要实现这一点 首先应把数组的元素都转换成字符串 如有必
  • Spring_day01

    Spring day01 一 spring入门 1 什么是框架 源自于建筑学 隶属土木工程 后发展到软件工程领域 软件工程框架 经过验证的 具有一定功能的 半成品软件 经过验证 具有一定功能 半成品 2 框架的作用 3 spring是一个轻
  • C51单片机实验——LCD 1602液晶显示器

    实验名称 利用1602实现数字时钟 实验环境 普中实验系统 Keil Vision 4软件 实验目的 1 掌握1602液晶显示器的工作原理和接口方法 2 利用本课程前面所学的知识 实现数字时钟功能 硬件连线 LCD1602的RS R W 和
  • Arduino core for ESP8266 安装失败问题处理方法

    文章目录 目的 离线开发板数据包 鱼 安装最新开发板数据包 渔 总结 目的 理论上Arduino IDE安装开发板数据包是非常方便的 不过在国内的网络环境下有时候就会很纠结 另外Arduino IDE对于下载数据这块也存在问题 经常下着下着
  • 【LeetCode - 658】找到 K 个最接近的元素

    文章目录 1 题目描述 2 解题思路 3 解题代码 1 题目描述 2 解题思路 题目给定的函数返回的是 List 类型 List 有一个方法和字符串类似 为 subList a b 返回 list 区间 a b 的子序列 先把给定的 arr
  • xshell以及xftp免费版

    https www netsarang com zh free for home school
  • GdiPlus

    GDI是Graphics Device Interface的缩写 含义是图形设备接口 它的主要任务是负责系统与绘图程序之间的信息交换 处理所有Windows程序的图形输出 在Windows操作系统下 绝大多数具备图形界面的应用程序都离不开G
  • C ~ 文件读写

    一个文件 无论它是文本文件还是二进制文件 都是代表了一系列的字节 如何创建 打开 关闭文本文件或二进制文件 C 语言不仅提供了访问顶层的函数 也提供了底层 OS 调用来处理存储设备上的文件 打开文件 可以使用 fopen 函数来创建一个新的
  • 二叉树-判断另一棵树的子树(Java)

    另一棵的子树 力扣572题 题目 给你两棵二叉树 root 和 subRoot 检验 root 中是否包含和 subRoot 具有相同结构和节点值的子树 如果存在 返回 true 否则 返回 false 二叉树 tree 的一棵子树包括 t
  • 关于qt.qpa.plugin: Could not load the Qt platform plugin “windows“ in ““ even though it was found.问题

    将如下三个文件 Anaconda3 Lib site packages PySide2 plugins platforms qminimal dll Anaconda3 Lib site packages PySide2 plugins p
  • HTML标签的语法格式

    HTML 中的标签就像关键字一样 每个标签都有自己的语义 含义 例如 p 标签代表段落 b 标签代表加粗 根据标签的不同 浏览器会使用不同的方式展示标签中的内容 在实际开发中 有时我们也将 HTML 标签称为 HTML 元素 HTML 标签
  • 在Makefile中无缝连接字符串

    今天在写Makefile时 忽然遇到了一个问题 如何把几个字符串无缝的连接起来 我自然而然的想到了使用 比如 1 2 3 4 5 6 7 8 9
  • IDEA实用插件

    目录 1 Convert YAML and Properties File 2 GitToolBox 3 JPA Buddy 4 Translation 5 iBATIS MyBatis plugin 6 lombok 7 Backgrou
  • Docker 的使用

    docker 的使用 什么是镜像 镜像是一个文件系统 提供了容器运行时需要用到的文件和参数配置 相当于安装操作系统时需要用到 ISO 文件 1 创建docker镜像 并放在容器中 创建自己的镜像 docker create it ubunt
  • PS透明屏,在科技展示中,有哪些优点展示?

    PS透明屏是一种新型的显示技术 它将传统的显示屏幕与透明材料相结合 使得屏幕能够同时显示图像和透过屏幕看到背后的物体 这种技术在商业展示 广告宣传 产品展示等领域有着广泛的应用前景 PS透明屏的工作原理是利用透明材料的特性 通过控制屏幕上的
  • Mysql -- 设置中国时区时间

    Mysql 设置中国时区时间 查看mysql的时区设置 mysql gt show variables like time zone 修改mysql的时区设置 注 mysql的默认时区是UTC 8 00是中国所在时区 东八区 mysql g
  • Leetcode 21. 合并两个有序链表

    Leetcode 21 合并两个有序链表 1 问题分析 2 问题解决 3 总结 1 问题分析 题目链接 https leetcode cn com problems merge two sorted lists 本质上就是一个链表操作问题
  • 解读CUDA Compiler Driver NVCC - Ch.3

    前言 上一篇文章简单了介绍了nvcc预定义的宏 以及支持的编译阶段 对应的输入文件后缀和输出文件的默认名 本篇文章了解CUDA源文件编译的整个workflow Overview CUDA编译的工作原理如下 输入程序经过设备编译编译预处理 编