CUDA编程性能分析工具 nvprof/ncu --metrics参数含义

2023-11-09

摘要

在网上没有比较全的中文 ncu --metrics 参数含义，于是自己整理了一下官方和外国友人的笔记。

nvprof 和 ncu

nvprof 是过去比较常用的命令行工具，但在终端直接输入nvprof ./*.o会得到以下 Warning

======== Warning: nvprof is not supported on devices with compute capability 8.0 and higher.
                  Use NVIDIA Nsight Systems for GPU tracing and CPU sampling and NVIDIA Nsight Compute for GPU profiling.
                  Refer https://developer.nvidia.com/tools-overview for more details.

目前主流的 CUDA 驱动不再支持nvprof命令，但我们仍可以在 NVIDIA Nsight Systems 中使用，在终端输入 nsys nvprof ./*.o就可以看到CUDA 程序执行的具体内容。

另外，nvprof --metrics 命令的功能被转换到了 ncu --metrics 命令中，下面就对 nvprof/ncu --metrics命令的参数作详细解释，nsys 和 ncu 工具都有可视化版本，这里只讨论命令行版本。

List

inst_per_warp: 每个 warp 执行的平均指令数
branch_efficiency: 非发散分支与总分支的比率
warp_execution_efficiency: 每个 warp 的平均活动线程数与 SM 支持的每个 warp 的最大线程数之比
warp_nonpred_execution_efficiency: 执行非谓词指令的每个 warp 的平均活动线程数与 SM 支持的每个 warp 的最大线程数之比
inst_replay_overhead: 每条指令执行的平均重放次数
shared_load_transactions_per_request: 每次共享内存加载时执行的平均共享内存加载事务数
shared_store_transactions_per_request: 每次共享内存加载时执行的平均共享内存写入事务数
local_load_transactions_per_request: 每次本地内存加载执行的本地内存加载事务平均数
local_store_transactions_per_request: 为每个本地内存存储执行的本地内存存储交易的平均数量
gld_transactions_per_request: 为每个全局内存加载执行的全局内存加载事务的平均数。
gst_transactions_per_request: 为每个全局内存存储执行的平均全局内存存储事务数
shared_store_transactions: 共享内存存储事务数
shared_load_transactions: 共享内存加载事务数
local_load_transactions: 本地内存加载事务数
local_store_transactions: 本地内存存储事务数
gld_transactions: 全局内存加载事务数
gst_transactions: 全局内存存储事务数
sysmem_read_transactions: 系统内存读取事务数
sysmem_write_transactions: 系统内存写入事务数
l2_read_transactions: 所有读取请求在 L2 缓存中接收到的内存读取事务
l2_write_transactions: 所有写入请求在 L2 缓存中接收到的内存写入事务
dram_read_transactions: 设备内存读取事务
dram_write_transactions: 设备内存写入事务
global_hit_rate: 统一 L1/tex 缓存中全局加载的命中率
local_hit_rate: 本地加载和存储的命中率
gld_requested_throughput: 请求的全局内存负载吞吐量
gst_requested_throughput: 请求的全局内存存储吞吐量
gld_throughput: 全局内存负载吞吐量
gst_throughput: 全局内存存储吞吐量
local_memory_overhead: 本地内存流量占 L1 和 L2 缓存之间总内存流量之比
tex_cache_hit_rate: 统一缓存命中率
l2_tex_read_hit_rate: 来自纹理缓存的所有读取请求在 L2 缓存中的命中率
l2_tex_write_hit_rate: 来自纹理缓存的所有写入请求在 L2 缓存中的命中率
dram_read_throughput: 设备内存读取吞吐量
dram_write_throughput: 设备内存写入吞吐量
tex_cache_throughput: 统一缓存吞吐量
l2_tex_read_throughput: 在 L2 缓存中接收到的来自纹理缓存的内存读取吞吐量
l2_tex_write_throughput: 在 L2 缓存中接收到的来自纹理缓存的内存写入吞吐量
l2_read_throughput: 在 L2 缓存中接收到的所有内存读取吞吐量
l2_write_throughput: 在 L2 缓存中接收到的所有内存写入吞吐量
sysmem_read_throughput: 系统内存读取吞吐量
sysmem_write_throughput: 系统内存写入吞吐量
local_load_throughput: 本地内存加载吞吐量
local_store_throughput: 本地内存存储吞吐量
shared_load_throughput: 共享内存负载吞吐量
shared_store_throughput: 共享内存存储吞吐量
gld_efficiency: 请求的全局内存负载吞吐量与所需的全局内存负载吞吐量的比率
gst_efficiency: 请求的全局内存存储吞吐量与所需的全局内存存储吞吐量的比率
tex_cache_transactions: 统一缓存读取事务
flop_count_dp: 非谓词线程执行的双精度浮点运算数（加法、乘法和乘法累加）。每个乘法累加运算对计数贡献 2。
flop_count_dp_add: 非断言线程执行的双精度浮点加法运算次数
flop_count_dp_fma: 非谓词线程执行的双精度浮点乘累加运算次数，每个乘法累加运算使计数加一
flop_count_dp_mul: 非谓词线程执行的双精度浮点乘法运算次数
flop_count_sp: 非谓词线程执行的单精度浮点运算数（加法、乘法和乘法累加），每个乘法累加运算使计数加二（不包括特殊操作）
flop_count_sp_add: 非断言线程执行的单精度浮点加法运算次数
flop_count_sp_fma: 非谓词线程执行的单精度浮点乘累加运算次数。每个乘法累加运算使计数加一
flop_count_sp_mul: 非谓词线程执行的单精度浮点乘法运算次数
flop_count_sp_special: 非谓词线程执行的单精度浮点特殊操作数
inst_executed: 执行的指令数
inst_issued: 发出的指令数
dram_utilization: 设备内存利用率相对于理论峰值利用率的级别，范围为 0 到 10
sysmem_utilization: 系统内存利用率相对于理论峰值利用率的级别
stall_inst_fetch: 由于尚未获取下一条汇编指令而发生的停顿百分比
stall_exec_dependency: 由于指令所需的输入尚不可用而发生的停顿百分比
stall_memory_dependency: 由于所需资源不可用或未完全利用而无法执行内存操作，或者由于给定类型的太多请求未完成而导致的停顿百分比
stall_texture: 由于纹理子系统被充分利用或有太多未完成的请求而发生的停顿百分比
stall_sync: 由于 warp 在 __syncthreads() 调用时被阻塞而发生的停顿百分比
stall_other: 由于各种原因发生的停顿百分比
stall_constant_memory_dependency: 由于立即常量高速缓存未命中而发生的停顿百分比
stall_pipe_busy: 由于计算管道繁忙而无法执行计算操作而发生的停顿百分比
shared_efficiency: 请求的共享内存吞吐量与所需共享内存吞吐量的比率
inst_fp_32: 非谓词线程（算术、比较等）执行的单精度浮点指令数
inst_fp_64: 非谓词线程（算术、比较等）执行的双精度浮点指令数
inst_integer: 非谓词线程执行的整数指令数
inst_bit_convert: 非谓词线程执行的位转换指令数
inst_control: 非谓词线程（跳转、分支等）执行的控制流指令数
inst_compute_ld_st: 非谓词线程执行的计算加载/存储指令数
inst_misc: 非谓词线程执行的杂项指令数
inst_inter_thread_communication: 非谓词线程执行的线程间通信指令数
issue_slots: 使用的问题槽数
cf_issued: 发出的控制流指令数
cf_executed: 执行的控制流指令数
ldst_issued: 发出的本地、全局、共享和纹理内存加载和存储指令的数量
ldst_executed: 执行的本地、全局、共享和纹理内存加载和存储指令的数量
atomic_transactions: 全局内存原子和减少事务
atomic_transactions_per_request: 为每个原子和归约指令执行的全局内存原子和归约事务的平均数量
l2_atomic_throughput: 在 L2 缓存中接收到的原子和减少请求的内存读取吞吐量
l2_atomic_transactions: 在 L2 缓存中接收到的内存读取事务，用于原子请求和缩减请求
l2_tex_read_transactions: 在 L2 缓存中接收到的内存读取事务，用于来自纹理缓存的读取请求
stall_memory_throttle: 由于内存节流而发生的停顿百分比
stall_not_selected: 由于未选择 warp 而发生的停顿百分比
l2_tex_write_transactions: 在 L2 缓存中接收到的内存写入事务，用于来自纹理缓存的写入请求
flop_count_hp: 非谓词线程执行的半精度浮点运算数（加法、乘法和乘法累加），每个乘法累加运算使计数加二
flop_count_hp_add: 非断言线程执行的半精度浮点加法运算的次数
flop_count_hp_mul: 非谓词线程执行的半精度浮点乘法运算次数
flop_count_hp_fma: 非谓词线程执行的半精度浮点乘累加运算次数。每个乘法累加运算使计数加一
inst_fp_16: 非谓词线程（算术、比较等）执行的半精度浮点指令数
ipc: 每个周期执行的指令
issued_ipc: 每个周期发出的指令
issue_slot_utilization: 发出至少一条指令的发布槽的百分比，在所有周期中取平均值
sm_efficiency: 至少一个 warp 在特定 SM 上处于活动状态的时间百分比
achieved_occupancy: 每个活动周期的平均活动 warp 与 SM 支持的最大 warp 数之比
eligible_warps_per_cycle: 每个活动周期有资格发布的平均 warp 数
shared_utilization: 共享内存相对于理论峰值利用率的利用率级别
l2_utilization: L2 缓存利用率相对于理论峰值利用率的级别，范围为 0 到 10
tex_utilization: 统一缓存利用率相对于理论峰值利用率的级别
ldst_fu_utilization: 执行共享加载、共享存储和恒定加载指令的 SM 的利用率级别
cf_fu_utilization: 执行控制流指令的 SM 的利用率级别，范围为 0 到 10
tex_fu_utilization: 执行全局、局部和纹理内存指令的 SM 的利用率级别，范围为 0 到 10
special_fu_utilization: 执行 sin、cos、ex2、popc、flo 和类似指令的 SM 的利用率级别，范围为 0 到 10
half_precision_fu_utilization: 执行 16 位浮点指令和整数指令的 SM 的利用率级别，范围为 0到10
single_precision_fu_utilization: 执行单精度浮点指令和整数指令的 SM 的利用率级别
double_precision_fu_utilization: 执行双精度浮点指令的 SM 的利用率级别
flop_hp_efficiency: 实现的半精度浮点运算与理论峰值的比值
flop_sp_efficiency: 实现的单精度浮点运算与理论峰值的比值
flop_dp_efficiency: 实现的双精度浮点运算与理论峰值的比值
sysmem_read_utilization: 系统内存的读取利用率相对于理论峰值利用率的级别，范围为 0 到 10
sysmem_write_utilization: 系统内存的写入利用率相对于理论峰值利用率的级别，范围为 0 到 10

Table

nvprof --metrics	ncu --metrics (>= SM 7.0)
`achieved_occupancy`	`sm__warps_active.avg.pct_of_peak_sustained_active`
`atomic_transactions`	`l1tex__t_set_accesses_pipe_lsu_mem_global_op_atom.sum + l1tex__t_set_accesses_pipe_lsu_mem_global_op_red.sum`
`atomic_transactions_per_request`	`(l1tex__t_sectors_pipe_lsu_mem_global_op_atom.sum + l1tex__t_sectors_pipe_lsu_mem_global_op_red.sum) / (l1tex__t_requests_pipe_lsu_mem_global_op_atom.sum + l1tex__t_requests_pipe_lsu_mem_global_op_red.sum)`
`branch_efficiency`	`smsp__sass_average_branch_targets_threads_uniform.pct`
`cf_executed`	`smsp__inst_executed_pipe_cbu.sum + smsp__inst_executed_pipe_adu.sum`
`cf_fu_utilization`	`n/a`
`cf_issued`	`n/a`
`double_precision_fu_utilization`	`smsp__inst_executed_pipe_fp64.avg.pct_of_peak_sustained_active`
`dram_read_bytes`	`dram__bytes_read.sum`
`dram_read_throughput`	`dram__bytes_read.sum.per_second`
`dram_read_transactions`	`dram__sectors_read.sum`
`dram_utilization`	`dram__throughput.avg.pct_of_peak_sustained_elapsed`
`dram_write_bytes`	`dram__bytes_write.sum`
`dram_write_throughput`	`dram__bytes_write.sum.per_second`
`dram_write_transactions`	`dram__sectors_write.sum`
`eligible_warps_per_cycle`	`smsp__warps_eligible.sum.per_cycle_active`
`flop_count_dp`	`smsp__sass_thread_inst_executed_op_dadd_pred_on.sum + smsp__sass_thread_inst_executed_op_dmul_pred_on.sum + smsp__sass_thread_inst_executed_op_dfma_pred_on.sum * 2`
`flop_count_dp_add`	`smsp__sass_thread_inst_executed_op_dadd_pred_on.sum`
`flop_count_dp_fma`	`smsp__sass_thread_inst_executed_op_dfma_pred_on.sum`
`flop_count_dp_mul`	`smsp__sass_thread_inst_executed_op_dmul_pred_on.sum`
`flop_count_hp`	`smsp__sass_thread_inst_executed_op_hadd_pred_on.sum + smsp__sass_thread_inst_executed_op_hmul_pred_on.sum + smsp__sass_thread_inst_executed_op_hfma_pred_on.sum * 2`
`flop_count_hp_add`	`smsp__sass_thread_inst_executed_op_hadd_pred_on.sum`
`flop_count_hp_fma`	`smsp__sass_thread_inst_executed_op_hfma_pred_on.sum`
`flop_count_hp_mul`	`smsp__sass_thread_inst_executed_op_hmul_pred_on.sum`
`flop_count_sp`	`smsp__sass_thread_inst_executed_op_fadd_pred_on.sum + smsp__sass_thread_inst_executed_op_fmul_pred_on.sum + smsp__sass_thread_inst_executed_op_ffma_pred_on.sum * 2`
`flop_count_sp_add`	`smsp__sass_thread_inst_executed_op_fadd_pred_on.sum`
`flop_count_sp_fma`	`smsp__sass_thread_inst_executed_op_ffma_pred_on.sum`
`flop_count_sp_mul`	`smsp__sass_thread_inst_executed_op_fmul_pred_on.sum`
`flop_count_sp_special`	`n/a`
`flop_dp_efficiency`	`smsp__sass_thread_inst_executed_ops_dadd_dmul_dfma_pred_on.avg.pct_of_peak_sustained_elapsed`
`flop_hp_efficiency`	`smsp__sass_thread_inst_executed_ops_hadd_hmul_hfma_pred_on.avg.pct_of_peak_sustained_elapsed`
`flop_sp_efficiency`	`smsp__sass_thread_inst_executed_ops_fadd_fmul_ffma_pred_on.avg.pct_of_peak_sustained_elapsed`
`gld_efficiency`	`smsp__sass_average_data_bytes_per_sector_mem_global_op_ld.pct`
`gld_requested_throughput`	`n/a`
`gld_throughput`	`l1tex__t_bytes_pipe_lsu_mem_global_op_ld.sum.per_second`
`gld_transactions`	`l1tex__t_sectors_pipe_lsu_mem_global_op_ld.sum`
`gld_transactions_per_request`	`l1tex__average_t_sectors_per_request_pipe_lsu_mem_global_op_ld.ratio`
`global_atomic_requests`	`l1tex__t_requests_pipe_lsu_mem_global_op_atom.sum`
`global_hit_rate`	`(l1tex__t_sectors_pipe_lsu_mem_global_op_ld_lookup_hit.sum + l1tex__t_sectors_pipe_lsu_mem_global_op_st_lookup_hit.sum + l1tex__t_sectors_pipe_lsu_mem_global_op_red_lookup_hit.sum + l1tex__t_sectors_pipe_lsu_mem_global_op_atom_lookup_hit.sum) / (l1tex__t_sectors_pipe_lsu_mem_global_op_ld.sum + l1tex__t_sectors_pipe_lsu_mem_global_op_st.sum + l1tex__t_sectors_pipe_lsu_mem_global_op_red.sum + l1tex__t_sectors_pipe_lsu_mem_global_op_atom.sum)`
`global_load_requests`	`l1tex__t_requests_pipe_lsu_mem_global_op_ld.sum`
`global_reduction_requests`	`l1tex__t_requests_pipe_lsu_mem_global_op_red.sum`
`global_store_requests`	`l1tex__t_requests_pipe_lsu_mem_global_op_st.sum`
`gst_efficiency`	`smsp__sass_average_data_bytes_per_sector_mem_global_op_st.pct`
`gst_requested_throughput`	`n/a`
`gst_throughput`	`l1tex__t_bytes_pipe_lsu_mem_global_op_st.sum.per_second`
`gst_transactions`	`l1tex__t_sectors_pipe_lsu_mem_global_op_st.sum`
`gst_transactions_per_request`	`l1tex__average_t_sectors_per_request_pipe_lsu_mem_global_op_st.ratio`
`half_precision_fu_utilization`	`smsp__inst_executed_pipe_fp16.avg.pct_of_peak_sustained_active`
`inst_bit_convert`	`smsp__sass_thread_inst_executed_op_conversion_pred_on.sum`
`inst_compute_ld_st`	`smsp__sass_thread_inst_executed_op_memory_pred_on.sum`
`inst_control`	`smsp__sass_thread_inst_executed_op_control_pred_on.sum`
`inst_executed`	`smsp__inst_executed.sum`
`inst_executed_global_atomics`	`smsp__sass_inst_executed_op_global_atom.sum`
`inst_executed_global_loads`	`smsp__inst_executed_op_global_ld.sum`
`inst_executed_global_reductions`	`smsp__inst_executed_op_global_red.sum`
`inst_executed_global_stores`	`smsp__inst_executed_op_global_st.sum`
`inst_executed_local_loads`	`smsp__inst_executed_op_local_ld.sum`
`inst_executed_local_stores`	`smsp__inst_executed_op_local_st.sum`
`inst_executed_shared_atomics`	`smsp__inst_executed_op_shared_atom.sum + smsp__inst_executed_op_shared_atom_dot_alu.sum + smsp__inst_executed_op_shared_atom_dot_cas.sum`
`inst_executed_shared_loads`	`smsp__inst_executed_op_shared_ld.sum`
`inst_executed_shared_stores`	`smsp__inst_executed_op_shared_st.sum`
`inst_executed_surface_atomics`	`smsp__inst_executed_op_surface_atom.sum`
`inst_executed_surface_loads`	`smsp__inst_executed_op_surface_ld.sum + smsp__inst_executed_op_shared_atom_dot_alu.sum + smsp__inst_executed_op_shared_atom_dot_cas.sum`
`inst_executed_surface_reductions`	`smsp__inst_executed_op_surface_red.sum`
`inst_executed_surface_stores`	`smsp__inst_executed_op_surface_st.sum`
`inst_executed_tex_ops`	`smsp__inst_executed_op_texture.sum`
`inst_fp_16`	`smsp__sass_thread_inst_executed_op_fp16_pred_on.sum`
`inst_fp_32`	`smsp__sass_thread_inst_executed_op_fp32_pred_on.sum`
`inst_fp_64`	`smsp__sass_thread_inst_executed_op_fp64_pred_on.sum`
`inst_integer`	`smsp__sass_thread_inst_executed_op_integer_pred_on.sum`
`inst_inter_thread_communication`	`smsp__sass_thread_inst_executed_op_inter_thread_communication_pred_on.sum`
`inst_issued`	`smsp__inst_issued.sum`
`inst_misc`	`smsp__sass_thread_inst_executed_op_misc_pred_on.sum`
`inst_per_warp`	`smsp__average_inst_executed_per_warp.ratio`
`inst_replay_overhead`	`n/a`
`ipc`	`smsp__inst_executed.avg.per_cycle_active`
`issue_slot_utilization`	`smsp__issue_active.avg.pct_of_peak_sustained_active`
`issue_slots`	`smsp__inst_issued.sum`
`issued_ipc`	`smsp__inst_issued.avg.per_cycle_active`
`l1_sm_lg_utilization`	`l1tex__lsu_writeback_active.avg.pct_of_peak_sustained_active`
`l2_atomic_throughput`	`2 * ( lts__t_sectors_op_atom.sum.per_second + lts__t_sectors_op_red.sum.per_second )`
`l2_atomic_transactions`	`2 * ( lts__t_sectors_op_atom.sum + lts__t_sectors_op_red.sum )`
`l2_global_atomic_store_bytes`	`lts__t_bytes_equiv_l1sectormiss_pipe_lsu_mem_global_op_atom.sum`
`l2_global_load_bytes`	`lts__t_bytes_equiv_l1sectormiss_pipe_lsu_mem_global_op_ld.sum`
`l2_local_global_store_bytes`	`lts__t_bytes_equiv_l1sectormiss_pipe_lsu_mem_local_op_st.sum + lts__t_bytes_equiv_l1sectormiss_pipe_lsu_mem_global_op_st.sum`
`l2_local_load_bytes`	`lts__t_bytes_equiv_l1sectormiss_pipe_lsu_mem_local_op_ld.sum`
`l2_read_throughput`	`lts__t_sectors_op_read.sum.per_second + lts__t_sectors_op_atom.sum.per_second + lts__t_sectors_op_red.sum.per_second`
`l2_read_transactions`	`lts__t_sectors_op_read.sum + lts__t_sectors_op_atom.sum + lts__t_sectors_op_red.sum`
`l2_surface_load_bytes`	`lts__t_bytes_equiv_l1sectormiss_pipe_tex_mem_surface_op_ld.sum`
`l2_surface_store_bytes`	`lts__t_bytes_equiv_l1sectormiss_pipe_tex_mem_surface_op_st.sum`
`l2_tex_hit_rate`	`lts__t_sector_hit_rate.pct`
`l2_tex_read_hit_rate`	`lts__t_sector_op_read_hit_rate.pct`
`l2_tex_read_throughput`	`lts__t_sectors_srcunit_tex_op_read.sum.per_second`
`l2_tex_read_transactions`	`lts__t_sectors_srcunit_tex_op_read.sum`
`l2_tex_write_hit_rate`	`lts__t_sector_op_write_hit_rate.pct`
`l2_tex_write_throughput`	`lts__t_sectors_srcunit_tex_op_write.sum.per_second`
`l2_tex_write_transactions`	`lts__t_sectors_srcunit_tex_op_write.sum`
`l2_utilization`	`lts__t_sectors.avg.pct_of_peak_sustained_elapsed`
`l2_write_throughput`	`lts__t_sectors_op_write.sum.per_second + lts__t_sectors_op_atom.sum.per_second + lts__t_sectors_op_red.sum.per_second`
`l2_write_transactions`	`lts__t_sectors_op_write.sum + lts__t_sectors_op_atom.sum + lts__t_sectors_op_red.sum`
`ldst_executed`	`n/a`
`ldst_fu_utilization`	`smsp__inst_executed_pipe_lsu.avg.pct_of_peak_sustained_active`
`ldst_issued`	`n/a`
`local_hit_rate`	`n/a`
`local_load_requests`	`l1tex__t_requests_pipe_lsu_mem_local_op_ld.sum`
`local_load_throughput`	`l1tex__t_bytes_pipe_lsu_mem_local_op_ld.sum.per_second`
`local_load_transactions`	`l1tex__t_sectors_pipe_lsu_mem_local_op_ld.sum`
`local_load_transactions_per_request`	`l1tex__average_t_sectors_per_request_pipe_lsu_mem_local_op_ld.ratio`
`local_memory_overhead`	`n/a`
`local_store_requests`	`l1tex__t_requests_pipe_lsu_mem_local_op_st.sum`
`local_store_throughput`	`l1tex__t_sectors_pipe_lsu_mem_local_op_st.sum.per_second`
`local_store_transactions`	`l1tex__t_sectors_pipe_lsu_mem_local_op_st.sum`
`local_store_transactions_per_request`	`l1tex__average_t_sectors_per_request_pipe_lsu_mem_local_op_st.ratio`
`nvlink_data_receive_efficiency`	`n/a`
`nvlink_data_transmission_efficiency`	`n/a`
`nvlink_overhead_data_received`	`(nvlrx__bytes_data_protocol.sum / nvlrx__bytes.sum) * 100`
`nvlink_overhead_data_transmitted`	`(nvltx__bytes_data_protocol.sum / nvltx__bytes.sum) * 100`
`nvlink_receive_throughput`	`nvlrx__bytes.sum.per_second`
`nvlink_total_data_received`	`nvlrx__bytes.sum`
`nvlink_total_data_transmitted`	`nvltx__bytes.sum`
`nvlink_total_nratom_data_transmitted`	`n/a`
`nvlink_total_ratom_data_transmitted`	`n/a`
`nvlink_total_response_data_received`	`n/a`
`nvlink_total_write_data_transmitted`	`n/a`
`nvlink_transmit_throughput`	`nvltx__bytes.sum.per_second`
`nvlink_user_data_received`	`nvlrx__bytes_data_user.sum`
`nvlink_user_data_transmitted`	`nvltx__bytes_data_user.sum`
`nvlink_user_nratom_data_transmitted`	`n/a`
`nvlink_user_ratom_data_transmitted`	`n/a`
`nvlink_user_response_data_received`	`n/a`
`nvlink_user_write_data_transmitted`	`n/a`
`pcie_total_data_received`	`pcie__read_bytes.sum`
`pcie_total_data_transmitted`	`pcie__write_bytes.sum`
`shared_efficiency`	`smsp__sass_average_data_bytes_per_wavefront_mem_shared.pct`
`shared_load_throughput`	`l1tex__data_pipe_lsu_wavefronts_mem_shared_op_ld.sum.per_second`
`shared_load_transactions`	`l1tex__data_pipe_lsu_wavefronts_mem_shared_op_ld.sum`
`shared_load_transactions_per_request`	`n/a`
`shared_store_throughput`	`l1tex__data_pipe_lsu_wavefronts_mem_shared_op_st.sum.per_second`
`shared_store_transactions`	`l1tex__data_pipe_lsu_wavefronts_mem_shared_op_st.sum`
`shared_store_transactions_per_request`	`n/a`
`shared_utilization`	`l1tex__data_pipe_lsu_wavefronts_mem_shared.avg.pct_of_peak_sustained_elapsed`
`single_precision_fu_utilization`	`smsp__pipe_fma_cycles_active.avg.pct_of_peak_sustained_active`
`sm_efficiency`	`smsp__cycles_active.avg.pct_of_peak_sustained_elapsed`
`sm_tex_utilization`	`l1tex__texin_sm2tex_req_cycles_active.avg.pct_of_peak_sustained_elapsed`
`special_fu_utilization`	`smsp__inst_executed_pipe_xu.avg.pct_of_peak_sustained_active`
`stall_constant_memory_dependency`	`smsp__warp_issue_stalled_imc_miss_per_warp_active.pct`
`stall_exec_dependency`	`smsp__warp_issue_stalled_short_scoreboard_per_warp_active.pct + smsp__warp_issue_stalled_wait_per_warp_active.pct`
`stall_inst_fetch`	`smsp__warp_issue_stalled_no_instruction_per_warp_active.pct`
`stall_memory_dependency`	`smsp__warp_issue_stalled_long_scoreboard_per_warp_active.pct`
`stall_memory_throttle`	`smsp__warp_issue_stalled_drain_per_warp_active.pct + smsp__warp_issue_stalled_lg_throttle_per_warp_active.pct`
`stall_not_selected`	`smsp__warp_issue_stalled_not_selected_per_warp_active.pct`
`stall_other`	`smsp__warp_issue_stalled_dispatch_stall_per_warp_active.pct + smsp__warp_issue_stalled_misc_per_warp_active.pct`
`stall_pipe_busy`	`smsp__warp_issue_stalled_math_pipe_throttle_per_warp_active.pct + smsp__warp_issue_stalled_mio_throttle_per_warp_active.pct`
`stall_sleeping`	`smsp__warp_issue_stalled_sleeping_per_warp_active.pct`
`stall_sync`	`smsp__warp_issue_stalled_barrier_per_warp_active.pct + smsp__warp_issue_stalled_membar_per_warp_active.pct`
`stall_texture`	`smsp__warp_issue_stalled_tex_throttle_per_warp_active.pct`
`surface_atomic_requests`	`l1tex__t_requests_pipe_tex_mem_surface_op_atom.sum`
`surface_load_requests`	`l1tex__t_requests_pipe_tex_mem_surface_op_ld.sum`
`surface_reduction_requests`	`l1tex__t_requests_pipe_tex_mem_surface_op_red.sum`
`surface_store_requests`	`l1tex__t_requests_pipe_tex_mem_surface_op_st.sum`
`sysmem_read_bytes`	`lts__t_sectors_aperture_sysmem_op_read * 32`
`sysmem_read_throughput`	`lts__t_sectors_aperture_sysmem_op_read.sum.per_second`
`sysmem_read_transactions`	`lts__t_sectors_aperture_sysmem_op_read.sum`
`sysmem_read_utilization`	`n/a`
`sysmem_utilization`	`n/a`
`sysmem_write_bytes`	`lts__t_sectors_aperture_sysmem_op_write * 32`
`sysmem_write_throughput`	`lts__t_sectors_aperture_sysmem_op_write.sum.per_second`
`sysmem_write_transactions`	`lts__t_sectors_aperture_sysmem_op_write.sum`
`sysmem_write_utilization`	`n/a`
`tensor_precision_fu_utilization`	`sm__pipe_tensor_op_hmma_cycles_active.avg.pct_of_peak_sustained_active`
`tensor_precision_int_utilization`	`sm__pipe_tensor_op_imma_cycles_active.avg.pct_of_peak_sustained_active (SM 7.2+)`
`tex_cache_hit_rate`	`l1tex__t_sector_hit_rate.pct`
`tex_cache_throughput`	`n/a`
`tex_cache_transactions`	`l1tex__lsu_writeback_active.avg.pct_of_peak_sustained_active + l1tex__tex_writeback_active.avg.pct_of_peak_sustained_active`
`tex_fu_utilization`	`smsp__inst_executed_pipe_tex.avg.pct_of_peak_sustained_active`
`tex_sm_tex_utilization`	`l1tex__f_tex2sm_cycles_active.avg.pct_of_peak_sustained_elapsed`
`tex_sm_utilization`	`sm__mio2rf_writeback_active.avg.pct_of_peak_sustained_elapsed`
`tex_utilization`	`n/a`
`texture_load_requests`	`l1tex__t_requests_pipe_tex_mem_texture.sum`
`warp_execution_efficiency`	`smsp__thread_inst_executed_per_inst_executed.ratio`
`warp_nonpred_execution_efficiency`	`smsp__thread_inst_executed_per_inst_executed.pct`

Reference

https://docs.nvidia.com/nsight-compute/NsightComputeCli/index.html
https://gist.github.com/mrprajesh/352cbe661ee27a6b4627ae72d89479e6

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

懵逼的深度学习

CUDA 并行编程

Linux

缓存

深度学习

CUDA编程性能分析工具 nvprof/ncu --metrics参数含义的相关文章

当在 python linux 中执行命令 os.system() 时，在 python 中给出响应 yes/no

考虑一个像这样的命令 yum install boto 当我在终端中执行时要继续会询问我是否我可以像这样用 python 回应它吗 os system yum install boto Next Yes 将通过相同的 python
如何在 Linux 中向热敏打印机发送 ESC/POS 命令

我正在尝试在热敏打印机上发送 ESC POS 命令但每当我发送它们时热敏打印机都会将它们打印为文本而不是作为命令执行它们我在 prn 文件中编写这些命令每当我执行 lp 命令来打印文件时这些 prn 文件也会被打印但作为文本
BeagleBone Black 如何用作大容量存储设备？

是否可以使用 BB 作为大容量存储设备我希望将其连接到可以从 USB 连接例如 USB 闪存驱动器读取文件的音频播放器并充当包含一个特定文件夹的数据存储设备及其子文件夹从文件系统如果可能在连接到开发板的闪存驱动器上正如设备规
grep 彩色线条

我编写了一个简单的 PHP shell 脚本它解析文件并输出某些元素它产生大量的输出采用不同的 bash 颜色绿色表示正常黄色表示警告红色表示错误等在开发过程中我想过滤掉一些行例如所有包含红色文本的行我可以使用grep
通过名称获取进程ID

我想在 Linux 下获得一个给定其名称的进程 ID 有没有一种简单的方法可以做到这一点我还没有在 C 上找到任何可以轻松使用的东西如果追求易于使用 char buf 512 FILE cmd pipe popen pidof s p
如何在 Ubuntu/Linux 发行版中安装 Tesseract-OCR 3.03？

我和一个朋友有兴趣为 CV 项目训练 tesseract OCR 引擎我们尝试使用一些包装器例如 PyTesser 和 pyocr 但结果目前不如我们需要的那么准确因此我们希望尝试训练超立方体以更好地实现我们的目的即识别食品标签上
使用 Python 将阿拉伯语或任何从右到左书写系统的字符串打印到 Linux 终端

非常简单的例子是 city print city 我期望输出是但实际上输出是相反的字符串字母看起来有点不同因为它们有开始中间和结束形式我无法将其粘贴到此处因为复制粘贴会再次更正字符串的顺序如何在 Linux 终端上正确打印阿拉
使用 .htaccess 启用 PHP 短标签

我在自己的 Centos 服务器上设置了 Apache 并具有多个虚拟 Web 服务器并且我希望仅为位于以下位置的其中一个 Web 服务器启用 PHP 短标记 var www ostickets html 我可以通过添加成功启用短标签sh
X 按键/释放事件捕获，与焦点窗口无关

我想记录所有传入的按键事件无论哪个窗口处于焦点状态或指针位于何处我编写了一个示例代码它应该捕获当前焦点窗口的按键事件 include
Flex 的远程版本误解了我的规则

我使用 flex 和 bison 编写了一个小汇编程序可以在我的机器 ubuntu 10 10 上构建并运行正常现在其他人正在尝试在 arch linux 上构建它并且他们安装的 flex 产生了不同的 lex yy c 这是不匹配的
设置 Vim 背景颜色

当我尝试更改背景颜色时 vimrc或者直接在 Vim 中使用以下命令 set background dark 这根本不影响我的背景也没有light选项不过当我运行 gvim 时看起来还不错有没有办法在不更改 Konsole 设置的
在 MacO 和 Linux 上安装 win32com [重复]

这个问题在这里已经有答案了我的问题很简单我可以安装吗win32com蟒蛇API pywin32特别是在非 Windows 操作系统上我一直在Mac上尝试多个版本pip install pywin32 都失败了下面是一个例子如果你
路由是否会影响具有绑定源地址的套接字？

假设我有两个网络接口 eth0有地址10 0 0 1 eth1有地址192 168 0 1 Using route or ip route add我已将其设置为路由所有地址至eth0 1 2 3 4只为了eth1 所以数据包到1 2 3
即使使用 rvm pkg install zlib 后也无法加载此类文件 -- zlib

我使用 rvm 安装了 zlib 包和 ruby 1 9 3 但是每当我尝试安装时它说宝石cannot load such file zlib 我用来安装的命令是 rvm install 1 9 3 rvm pkg install zli
Linux mremap 不释放旧映射？

我需要一种方法将页面从一个虚拟地址范围复制到另一个虚拟地址范围而无需实际复制数据范围很大延迟很重要 mremap 可以做到这一点但问题是它也会删除旧的映射由于我需要在多线程环境中执行此操作因此我需要旧映射能够同时使用因此稍后当
VSCODE 在 Linux 上不适用于我

刚刚了解 VSCODE 很高兴尝试一下我下载解压并运行可执行文件我得到 Code 2183 0429 201254 ERROR browser main loop cc 170 Running without the SUID san
如何从命令行执行 PHP 代码？

我想执行单个 PHP 语句例如if function exists my func echo function exists 直接使用命令行无需使用单独的 PHP 文件这怎么可能如果您要在命令行中执行 PHP 我建议您安装phpsh
有没有办法让 Linux CLI IO 重定向持久化？

我有多个管道命令如下所示 find options grep options xargs grep options 它们中的每一个都可能产生我不感兴趣的错误权限错误文件名空格错误等因此我想将所有错误重定向到 dev null 我知
如何在树莓派上更新到最新的 python 3.5.1 版本？

我昨天拿到了 Raspberry Pi 我已经在尝试用它来编写代码了我有一个计划在其上运行的程序但它仅与 Python 版本 3 5 0 或 3 5 1 兼容并且我在互联网上找到的所有内容似乎都已经过时与 Python 2 有关或
选择多个模式的 awk 代码

这是我的输入文件比如modified txt r4544 n479826 2012 08 28 07 12 33 0400 Tue 28 Aug 2012 1 line Changed paths M branches 8 6 0 con

随机推荐

基于Gabor-小波滤波深度图表面法线的特征提取算法【通过正常Gabor-小波的直方图进行2D或3D特征提取】研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现 1 概述文献来源通过一种新的五步算法彻底研究了鼻
可能是颜值最高的微信Markdown编辑器，用Markdown的你一定会爱上

不论是新媒体小编还是拥有自己公众号的开发者和开源组织一定想要一个能够快速编辑且成品美观大方的编辑器毕竟微信自带的编辑器功能有限市面上其他编辑器功能又过于繁多尤其对于开发者来说文章中插入代码块这件事就非常令人头疼所以 Gitee
笔记--利用python下载bilibili视频

目录 1 打开cmd终端 2 激活base环境 3 安装you get第三方库已安装可以跳过 4 下载视频 5 实例 6 参考 1 打开cmd终端进入保存下载视频的文件夹 cd C Users XXXXXX Desktop video
刷OPENWRT后悔了，刷回原厂固件教程

之前之所以要刷固件是因为上网时经常将网页重定向到路由器的管理员界面如果你也有这种问题那么不用刷了直接找售后换货或退货这是路由器质量问题刷机没法解决原文 http www sjyyt com thread 334508 1 1
移动通信中的信源编码和调制调节技术

通信原理移动通信中的信源编码和调制调节技术的思维导图一个上课老师留的作业这个不带图片带图片的在我发的另一个移动通信中的信源编码和调制调节技术 3 1 概述调制就是对消息源信息进行编码的过程其目的就是使携带信息的信号与信道特性相
2023最全最新前端面试题（附加解析）

JS 1 说一下innerHTML 与 innerText的作用与区别作用都可以获取或者设置元素的内容区别 innerHTML可以解析内容中的html标签 innerText不能解析内容中的html标签2 JavaScript 由以下
数据结构中内部排序的各种比较

排序算法中的稳定和不稳定指的是什么若在待排序的纪录中存在两个或两个以上的关键码值相等的纪录经排序后这些记录的相对次序仍然保持不变则称相应的排序方法是稳定的方法否则是不稳定的方法内部排序和外部排序根据排序过程中涉及的存储器不同
OpenApi接口的一次调用经历(附代码)

去弄一个api key https platform openai com account api keys 先看所有能用的模型 import openai openai api key sk 3MXseSpzjlPaPg0jKMPuT3B
目标检测——CNN基础

卷积神经网络让权重在不同位置共享的神经网络几个概念尺寸 Feature Map的尺寸等于 input size 2 padding size filter size stride 1 注意上面的式子是计算width或height一维
oracle sql developer 介绍

为了进一步提高开发人员效率简化Oracle数据库开发甲骨文公司日前宣布Oracle SQL Developer 2 1版上市这是广受欢迎的数据库开发和迁移工具Oracle SQL Developer的最新版本 Oracle SQL D
MySQL与PostgreSQL对比

MySQL PostgreSQL 数据类型支持支持JSON 但不如PostgreSQL 支持更多的数据类型如数组 hstore JSON JSONB 范围类型等扩展性有一些扩展性但不如PostgreSQL 支持自定义数据类型函数
阿里 P7 到底是怎样的水平？

阿里 P7 有多香大家谈到阿里 P7 第一反应可能就是年薪百万我们先看一下阿里的职级体系 P7 一般薪水在 70 100 万之间超过 100 万的屈指可数除非你是阿里 5 年以上的老 P7 薪资构成包括现金和股票现金部分大概的月
测试人员具备的技术要求

刚刚接触测试时看到的文章保存起来了现在分享给大家一名优秀的测试人才目前我们国内的企业或者外企包括大型的软件企业一般情况下应该有哪些技术要求呢具体来讲第一对Windows Linux Unix等大型主流操作系统的使用和应用
让你的DBCP连接池连接不超时

项目使用DBCP连接池登录系统后一段时间没有操作再点击其他页面就报错 the last packet send to mysql was ago 度娘一下知道是数据库连接超时怎么解决呢首先想到的是MySQL数据库配置文件 mys
vsCode JS代码格式化插件ESlint

vsCode JS代码格式化插件ESlint 验证有效 Ctrl S保存代码全格式化了写这个主要是个人笔记算不得重复造源头 https blog csdn net qq 34803821 article details 8497278
八大排序算法（C语言实现）

摘自八大排序算法 C语言实现作者 2021dragon 发布时间 2021 05 16 10 46 37 网址 https blog csdn net chenlong cxy article details 116563972 目录
STM32+亚博K210手写数字识别

本文以STM32C8T6为例使用的是亚博K210视觉识别模块实现功能由K210识别手写数字通过K210与STM32的串口通信将识别到的手写数字传回STM32 最后由OLED显示接线方式 STM32与OLED B8 SCL B9
MVVM 框架

在 MVVM Light 框架中事件是 WPF 应用程序中 UI 与后台代码进行交互的最主要方式与传统方式不同 mvvm 中主要通过绑定到命令来进行事件的处理因此要了解 mvvm 中处理事件的方式就必须先熟悉命令的工作原理命令
关于编译性语言、解释性语言和脚本语言的区别

计算机是不能理解高级语言当然也就不能直接执行高级语言了计算机只能直接理解机器语言所以任何语言都必须将其翻译成机器语言计算机才能运行高级语言编写的程序一翻译和解释的不同翻译的方式有两种一个是编译一个是解释两种方式只是翻译
CUDA编程性能分析工具 nvprof/ncu --metrics参数含义

摘要在网上没有比较全的中文 ncu metrics 参数含义于是自己整理了一下官方和外国友人的笔记 nvprof 和 ncu nvprof 是过去比较常用的命令行工具但在终端直接输入nvprof o会得到以下 Warning Warn