CUDA编程性能分析工具 nvprof/ncu --metrics参数含义

2023-11-09

摘要

在网上没有比较全的中文 ncu --metrics 参数含义,于是自己整理了一下官方和外国友人的笔记。

nvprof 和 ncu

nvprof 是过去比较常用的命令行工具,但在终端直接输入nvprof ./*.o会得到以下 Warning

======== Warning: nvprof is not supported on devices with compute capability 8.0 and higher.
                  Use NVIDIA Nsight Systems for GPU tracing and CPU sampling and NVIDIA Nsight Compute for GPU profiling.
                  Refer https://developer.nvidia.com/tools-overview for more details.

目前主流的 CUDA 驱动不再支持nvprof命令,但我们仍可以在 NVIDIA Nsight Systems 中使用,在终端输入 nsys nvprof ./*.o就可以看到CUDA 程序执行的具体内容。

另外,nvprof --metrics 命令的功能被转换到了 ncu --metrics 命令中,下面就对 nvprof/ncu --metrics命令的参数作详细解释,nsys 和 ncu 工具都有可视化版本,这里只讨论命令行版本。

List

  • inst_per_warp: 每个 warp 执行的平均指令数

  • branch_efficiency: 非发散分支与总分支的比率

  • warp_execution_efficiency: 每个 warp 的平均活动线程数与 SM 支持的每个 warp 的最大线程数之比

  • warp_nonpred_execution_efficiency: 执行非谓词指令的每个 warp 的平均活动线程数与 SM 支持的每个 warp 的最大线程数之比

  • inst_replay_overhead: 每条指令执行的平均重放次数

  • shared_load_transactions_per_request: 每次共享内存加载时执行的平均共享内存加载事务数

  • shared_store_transactions_per_request: 每次共享内存加载时执行的平均共享内存写入事务数

  • local_load_transactions_per_request: 每次本地内存加载执行的本地内存加载事务平均数

  • local_store_transactions_per_request: 为每个本地内存存储执行的本地内存存储交易的平均数量

  • gld_transactions_per_request: 为每个全局内存加载执行的全局内存加载事务的平均数。

  • gst_transactions_per_request: 为每个全局内存存储执行的平均全局内存存储事务数

  • shared_store_transactions: 共享内存存储事务数

  • shared_load_transactions: 共享内存加载事务数

  • local_load_transactions: 本地内存加载事务数

  • local_store_transactions: 本地内存存储事务数

  • gld_transactions: 全局内存加载事务数

  • gst_transactions: 全局内存存储事务数

  • sysmem_read_transactions: 系统内存读取事务数

  • sysmem_write_transactions: 系统内存写入事务数

  • l2_read_transactions: 所有读取请求在 L2 缓存中接收到的内存读取事务

  • l2_write_transactions: 所有写入请求在 L2 缓存中接收到的内存写入事务

  • dram_read_transactions: 设备内存读取事务

  • dram_write_transactions: 设备内存写入事务

  • global_hit_rate: 统一 L1/tex 缓存中全局加载的命中率

  • local_hit_rate: 本地加载和存储的命中率

  • gld_requested_throughput: 请求的全局内存负载吞吐量

  • gst_requested_throughput: 请求的全局内存存储吞吐量

  • gld_throughput: 全局内存负载吞吐量

  • gst_throughput: 全局内存存储吞吐量

  • local_memory_overhead: 本地内存流量占 L1 和 L2 缓存之间总内存流量之比

  • tex_cache_hit_rate: 统一缓存命中率

  • l2_tex_read_hit_rate: 来自纹理缓存的所有读取请求在 L2 缓存中的命中率

  • l2_tex_write_hit_rate: 来自纹理缓存的所有写入请求在 L2 缓存中的命中率

  • dram_read_throughput: 设备内存读取吞吐量

  • dram_write_throughput: 设备内存写入吞吐量

  • tex_cache_throughput: 统一缓存吞吐量

  • l2_tex_read_throughput: 在 L2 缓存中接收到的来自纹理缓存的内存读取吞吐量

  • l2_tex_write_throughput: 在 L2 缓存中接收到的来自纹理缓存的内存写入吞吐量

  • l2_read_throughput: 在 L2 缓存中接收到的所有内存读取吞吐量

  • l2_write_throughput: 在 L2 缓存中接收到的所有内存写入吞吐量

  • sysmem_read_throughput: 系统内存读取吞吐量

  • sysmem_write_throughput: 系统内存写入吞吐量

  • local_load_throughput: 本地内存加载吞吐量

  • local_store_throughput: 本地内存存储吞吐量

  • shared_load_throughput: 共享内存负载吞吐量

  • shared_store_throughput: 共享内存存储吞吐量

  • gld_efficiency: 请求的全局内存负载吞吐量与所需的全局内存负载吞吐量的比率

  • gst_efficiency: 请求的全局内存存储吞吐量与所需的全局内存存储吞吐量的比率

  • tex_cache_transactions: 统一缓存读取事务

  • flop_count_dp: 非谓词线程执行的双精度浮点运算数(加法、乘法和乘法累加)。每个乘法累加运算对计数贡献 2。

  • flop_count_dp_add: 非断言线程执行的双精度浮点加法运算次数

  • flop_count_dp_fma: 非谓词线程执行的双精度浮点乘累加运算次数,每个乘法累加运算使计数加一

  • flop_count_dp_mul: 非谓词线程执行的双精度浮点乘法运算次数

  • flop_count_sp: 非谓词线程执行的单精度浮点运算数(加法、乘法和乘法累加),每个乘法累加运算使计数加二(不包括特殊操作)

  • flop_count_sp_add: 非断言线程执行的单精度浮点加法运算次数

  • flop_count_sp_fma: 非谓词线程执行的单精度浮点乘累加运算次数。每个乘法累加运算使计数加一

  • flop_count_sp_mul: 非谓词线程执行的单精度浮点乘法运算次数

  • flop_count_sp_special: 非谓词线程执行的单精度浮点特殊操作数

  • inst_executed: 执行的指令数

  • inst_issued: 发出的指令数

  • dram_utilization: 设备内存利用率相对于理论峰值利用率的级别,范围为 0 到 10

  • sysmem_utilization: 系统内存利用率相对于理论峰值利用率的级别

  • stall_inst_fetch: 由于尚未获取下一条汇编指令而发生的停顿百分比

  • stall_exec_dependency: 由于指令所需的输入尚不可用而发生的停顿百分比

  • stall_memory_dependency: 由于所需资源不可用或未完全利用而无法执行内存操作,或者由于给定类型的太多请求未完成而导致的停顿百分比

  • stall_texture: 由于纹理子系统被充分利用或有太多未完成的请求而发生的停顿百分比

  • stall_sync: 由于 warp 在 __syncthreads() 调用时被阻塞而发生的停顿百分比

  • stall_other: 由于各种原因发生的停顿百分比

  • stall_constant_memory_dependency: 由于立即常量高速缓存未命中而发生的停顿百分比

  • stall_pipe_busy: 由于计算管道繁忙而无法执行计算操作而发生的停顿百分比

  • shared_efficiency: 请求的共享内存吞吐量与所需共享内存吞吐量的比率

  • inst_fp_32: 非谓词线程(算术、比较等)执行的单精度浮点指令数

  • inst_fp_64: 非谓词线程(算术、比较等)执行的双精度浮点指令数

  • inst_integer: 非谓词线程执行的整数指令数

  • inst_bit_convert: 非谓词线程执行的位转换指令数

  • inst_control: 非谓词线程(跳转、分支等)执行的控制流指令数

  • inst_compute_ld_st: 非谓词线程执行的计算加载/存储指令数

  • inst_misc: 非谓词线程执行的杂项指令数

  • inst_inter_thread_communication: 非谓词线程执行的线程间通信指令数

  • issue_slots: 使用的问题槽数

  • cf_issued: 发出的控制流指令数

  • cf_executed: 执行的控制流指令数

  • ldst_issued: 发出的本地、全局、共享和纹理内存加载和存储指令的数量

  • ldst_executed: 执行的本地、全局、共享和纹理内存加载和存储指令的数量

  • atomic_transactions: 全局内存原子和减少事务

  • atomic_transactions_per_request: 为每个原子和归约指令执行的全局内存原子和归约事务的平均数量

  • l2_atomic_throughput: 在 L2 缓存中接收到的原子和减少请求的内存读取吞吐量

  • l2_atomic_transactions: 在 L2 缓存中接收到的内存读取事务,用于原子请求和缩减请求

  • l2_tex_read_transactions: 在 L2 缓存中接收到的内存读取事务,用于来自纹理缓存的读取请求

  • stall_memory_throttle: 由于内存节流而发生的停顿百分比

  • stall_not_selected: 由于未选择 warp 而发生的停顿百分比

  • l2_tex_write_transactions: 在 L2 缓存中接收到的内存写入事务,用于来自纹理缓存的写入请求

  • flop_count_hp: 非谓词线程执行的半精度浮点运算数(加法、乘法和乘法累加),每个乘法累加运算使计数加二

  • flop_count_hp_add: 非断言线程执行的半精度浮点加法运算的次数

  • flop_count_hp_mul: 非谓词线程执行的半精度浮点乘法运算次数

  • flop_count_hp_fma: 非谓词线程执行的半精度浮点乘累加运算次数。每个乘法累加运算使计数加一

  • inst_fp_16: 非谓词线程(算术、比较等)执行的半精度浮点指令数

  • ipc: 每个周期执行的指令

  • issued_ipc: 每个周期发出的指令

  • issue_slot_utilization: 发出至少一条指令的发布槽的百分比,在所有周期中取平均值

  • sm_efficiency: 至少一个 warp 在特定 SM 上处于活动状态的时间百分比

  • achieved_occupancy: 每个活动周期的平均活动 warp 与 SM 支持的最大 warp 数之比

  • eligible_warps_per_cycle: 每个活动周期有资格发布的平均 warp 数

  • shared_utilization: 共享内存相对于理论峰值利用率的利用率级别

  • l2_utilization: L2 缓存利用率相对于理论峰值利用率的级别,范围为 0 到 10

  • tex_utilization: 统一缓存利用率相对于理论峰值利用率的级别

  • ldst_fu_utilization: 执行共享加载、共享存储和恒定加载指令的 SM 的利用率级别

  • cf_fu_utilization: 执行控制流指令的 SM 的利用率级别,范围为 0 到 10

  • tex_fu_utilization: 执行全局、局部和纹理内存指令的 SM 的利用率级别,范围为 0 到 10

  • special_fu_utilization: 执行 sin、cos、ex2、popc、flo 和类似指令的 SM 的利用率级别,范围为 0 到 10

  • half_precision_fu_utilization: 执行 16 位浮点指令和整数指令的 SM 的利用率级别,范围为 0到10

  • single_precision_fu_utilization: 执行单精度浮点指令和整数指令的 SM 的利用率级别

  • double_precision_fu_utilization: 执行双精度浮点指令的 SM 的利用率级别

  • flop_hp_efficiency: 实现的半精度浮点运算与理论峰值的比值

  • flop_sp_efficiency: 实现的单精度浮点运算与理论峰值的比值

  • flop_dp_efficiency: 实现的双精度浮点运算与理论峰值的比值

  • sysmem_read_utilization: 系统内存的读取利用率相对于理论峰值利用率的级别,范围为 0 到 10

  • sysmem_write_utilization: 系统内存的写入利用率相对于理论峰值利用率的级别,范围为 0 到 10

Table

nvprof --metrics ncu --metrics (>= SM 7.0)
achieved_occupancy sm__warps_active.avg.pct_of_peak_sustained_active
atomic_transactions l1tex__t_set_accesses_pipe_lsu_mem_global_op_atom.sum + l1tex__t_set_accesses_pipe_lsu_mem_global_op_red.sum
atomic_transactions_per_request (l1tex__t_sectors_pipe_lsu_mem_global_op_atom.sum + l1tex__t_sectors_pipe_lsu_mem_global_op_red.sum) / (l1tex__t_requests_pipe_lsu_mem_global_op_atom.sum + l1tex__t_requests_pipe_lsu_mem_global_op_red.sum)
branch_efficiency smsp__sass_average_branch_targets_threads_uniform.pct
cf_executed smsp__inst_executed_pipe_cbu.sum + smsp__inst_executed_pipe_adu.sum
cf_fu_utilization n/a
cf_issued n/a
double_precision_fu_utilization smsp__inst_executed_pipe_fp64.avg.pct_of_peak_sustained_active
dram_read_bytes dram__bytes_read.sum
dram_read_throughput dram__bytes_read.sum.per_second
dram_read_transactions dram__sectors_read.sum
dram_utilization dram__throughput.avg.pct_of_peak_sustained_elapsed
dram_write_bytes dram__bytes_write.sum
dram_write_throughput dram__bytes_write.sum.per_second
dram_write_transactions dram__sectors_write.sum
eligible_warps_per_cycle smsp__warps_eligible.sum.per_cycle_active
flop_count_dp smsp__sass_thread_inst_executed_op_dadd_pred_on.sum + smsp__sass_thread_inst_executed_op_dmul_pred_on.sum + smsp__sass_thread_inst_executed_op_dfma_pred_on.sum * 2
flop_count_dp_add smsp__sass_thread_inst_executed_op_dadd_pred_on.sum
flop_count_dp_fma smsp__sass_thread_inst_executed_op_dfma_pred_on.sum
flop_count_dp_mul smsp__sass_thread_inst_executed_op_dmul_pred_on.sum
flop_count_hp smsp__sass_thread_inst_executed_op_hadd_pred_on.sum + smsp__sass_thread_inst_executed_op_hmul_pred_on.sum + smsp__sass_thread_inst_executed_op_hfma_pred_on.sum * 2
flop_count_hp_add smsp__sass_thread_inst_executed_op_hadd_pred_on.sum
flop_count_hp_fma smsp__sass_thread_inst_executed_op_hfma_pred_on.sum
flop_count_hp_mul smsp__sass_thread_inst_executed_op_hmul_pred_on.sum
flop_count_sp smsp__sass_thread_inst_executed_op_fadd_pred_on.sum + smsp__sass_thread_inst_executed_op_fmul_pred_on.sum + smsp__sass_thread_inst_executed_op_ffma_pred_on.sum * 2
flop_count_sp_add smsp__sass_thread_inst_executed_op_fadd_pred_on.sum
flop_count_sp_fma smsp__sass_thread_inst_executed_op_ffma_pred_on.sum
flop_count_sp_mul smsp__sass_thread_inst_executed_op_fmul_pred_on.sum
flop_count_sp_special n/a
flop_dp_efficiency smsp__sass_thread_inst_executed_ops_dadd_dmul_dfma_pred_on.avg.pct_of_peak_sustained_elapsed
flop_hp_efficiency smsp__sass_thread_inst_executed_ops_hadd_hmul_hfma_pred_on.avg.pct_of_peak_sustained_elapsed
flop_sp_efficiency smsp__sass_thread_inst_executed_ops_fadd_fmul_ffma_pred_on.avg.pct_of_peak_sustained_elapsed
gld_efficiency smsp__sass_average_data_bytes_per_sector_mem_global_op_ld.pct
gld_requested_throughput n/a
gld_throughput l1tex__t_bytes_pipe_lsu_mem_global_op_ld.sum.per_second
gld_transactions l1tex__t_sectors_pipe_lsu_mem_global_op_ld.sum
gld_transactions_per_request l1tex__average_t_sectors_per_request_pipe_lsu_mem_global_op_ld.ratio
global_atomic_requests l1tex__t_requests_pipe_lsu_mem_global_op_atom.sum
global_hit_rate (l1tex__t_sectors_pipe_lsu_mem_global_op_ld_lookup_hit.sum + l1tex__t_sectors_pipe_lsu_mem_global_op_st_lookup_hit.sum + l1tex__t_sectors_pipe_lsu_mem_global_op_red_lookup_hit.sum + l1tex__t_sectors_pipe_lsu_mem_global_op_atom_lookup_hit.sum) / (l1tex__t_sectors_pipe_lsu_mem_global_op_ld.sum + l1tex__t_sectors_pipe_lsu_mem_global_op_st.sum + l1tex__t_sectors_pipe_lsu_mem_global_op_red.sum + l1tex__t_sectors_pipe_lsu_mem_global_op_atom.sum)
global_load_requests l1tex__t_requests_pipe_lsu_mem_global_op_ld.sum
global_reduction_requests l1tex__t_requests_pipe_lsu_mem_global_op_red.sum
global_store_requests l1tex__t_requests_pipe_lsu_mem_global_op_st.sum
gst_efficiency smsp__sass_average_data_bytes_per_sector_mem_global_op_st.pct
gst_requested_throughput n/a
gst_throughput l1tex__t_bytes_pipe_lsu_mem_global_op_st.sum.per_second
gst_transactions l1tex__t_sectors_pipe_lsu_mem_global_op_st.sum
gst_transactions_per_request l1tex__average_t_sectors_per_request_pipe_lsu_mem_global_op_st.ratio
half_precision_fu_utilization smsp__inst_executed_pipe_fp16.avg.pct_of_peak_sustained_active
inst_bit_convert smsp__sass_thread_inst_executed_op_conversion_pred_on.sum
inst_compute_ld_st smsp__sass_thread_inst_executed_op_memory_pred_on.sum
inst_control smsp__sass_thread_inst_executed_op_control_pred_on.sum
inst_executed smsp__inst_executed.sum
inst_executed_global_atomics smsp__sass_inst_executed_op_global_atom.sum
inst_executed_global_loads smsp__inst_executed_op_global_ld.sum
inst_executed_global_reductions smsp__inst_executed_op_global_red.sum
inst_executed_global_stores smsp__inst_executed_op_global_st.sum
inst_executed_local_loads smsp__inst_executed_op_local_ld.sum
inst_executed_local_stores smsp__inst_executed_op_local_st.sum
inst_executed_shared_atomics smsp__inst_executed_op_shared_atom.sum + smsp__inst_executed_op_shared_atom_dot_alu.sum + smsp__inst_executed_op_shared_atom_dot_cas.sum
inst_executed_shared_loads smsp__inst_executed_op_shared_ld.sum
inst_executed_shared_stores smsp__inst_executed_op_shared_st.sum
inst_executed_surface_atomics smsp__inst_executed_op_surface_atom.sum
inst_executed_surface_loads smsp__inst_executed_op_surface_ld.sum + smsp__inst_executed_op_shared_atom_dot_alu.sum + smsp__inst_executed_op_shared_atom_dot_cas.sum
inst_executed_surface_reductions smsp__inst_executed_op_surface_red.sum
inst_executed_surface_stores smsp__inst_executed_op_surface_st.sum
inst_executed_tex_ops smsp__inst_executed_op_texture.sum
inst_fp_16 smsp__sass_thread_inst_executed_op_fp16_pred_on.sum
inst_fp_32 smsp__sass_thread_inst_executed_op_fp32_pred_on.sum
inst_fp_64 smsp__sass_thread_inst_executed_op_fp64_pred_on.sum
inst_integer smsp__sass_thread_inst_executed_op_integer_pred_on.sum
inst_inter_thread_communication smsp__sass_thread_inst_executed_op_inter_thread_communication_pred_on.sum
inst_issued smsp__inst_issued.sum
inst_misc smsp__sass_thread_inst_executed_op_misc_pred_on.sum
inst_per_warp smsp__average_inst_executed_per_warp.ratio
inst_replay_overhead n/a
ipc smsp__inst_executed.avg.per_cycle_active
issue_slot_utilization smsp__issue_active.avg.pct_of_peak_sustained_active
issue_slots smsp__inst_issued.sum
issued_ipc smsp__inst_issued.avg.per_cycle_active
l1_sm_lg_utilization l1tex__lsu_writeback_active.avg.pct_of_peak_sustained_active
l2_atomic_throughput 2 * ( lts__t_sectors_op_atom.sum.per_second + lts__t_sectors_op_red.sum.per_second )
l2_atomic_transactions 2 * ( lts__t_sectors_op_atom.sum + lts__t_sectors_op_red.sum )
l2_global_atomic_store_bytes lts__t_bytes_equiv_l1sectormiss_pipe_lsu_mem_global_op_atom.sum
l2_global_load_bytes lts__t_bytes_equiv_l1sectormiss_pipe_lsu_mem_global_op_ld.sum
l2_local_global_store_bytes lts__t_bytes_equiv_l1sectormiss_pipe_lsu_mem_local_op_st.sum + lts__t_bytes_equiv_l1sectormiss_pipe_lsu_mem_global_op_st.sum
l2_local_load_bytes lts__t_bytes_equiv_l1sectormiss_pipe_lsu_mem_local_op_ld.sum
l2_read_throughput lts__t_sectors_op_read.sum.per_second + lts__t_sectors_op_atom.sum.per_second + lts__t_sectors_op_red.sum.per_second
l2_read_transactions lts__t_sectors_op_read.sum + lts__t_sectors_op_atom.sum + lts__t_sectors_op_red.sum
l2_surface_load_bytes lts__t_bytes_equiv_l1sectormiss_pipe_tex_mem_surface_op_ld.sum
l2_surface_store_bytes lts__t_bytes_equiv_l1sectormiss_pipe_tex_mem_surface_op_st.sum
l2_tex_hit_rate lts__t_sector_hit_rate.pct
l2_tex_read_hit_rate lts__t_sector_op_read_hit_rate.pct
l2_tex_read_throughput lts__t_sectors_srcunit_tex_op_read.sum.per_second
l2_tex_read_transactions lts__t_sectors_srcunit_tex_op_read.sum
l2_tex_write_hit_rate lts__t_sector_op_write_hit_rate.pct
l2_tex_write_throughput lts__t_sectors_srcunit_tex_op_write.sum.per_second
l2_tex_write_transactions lts__t_sectors_srcunit_tex_op_write.sum
l2_utilization lts__t_sectors.avg.pct_of_peak_sustained_elapsed
l2_write_throughput lts__t_sectors_op_write.sum.per_second + lts__t_sectors_op_atom.sum.per_second + lts__t_sectors_op_red.sum.per_second
l2_write_transactions lts__t_sectors_op_write.sum + lts__t_sectors_op_atom.sum + lts__t_sectors_op_red.sum
ldst_executed n/a
ldst_fu_utilization smsp__inst_executed_pipe_lsu.avg.pct_of_peak_sustained_active
ldst_issued n/a
local_hit_rate n/a
local_load_requests l1tex__t_requests_pipe_lsu_mem_local_op_ld.sum
local_load_throughput l1tex__t_bytes_pipe_lsu_mem_local_op_ld.sum.per_second
local_load_transactions l1tex__t_sectors_pipe_lsu_mem_local_op_ld.sum
local_load_transactions_per_request l1tex__average_t_sectors_per_request_pipe_lsu_mem_local_op_ld.ratio
local_memory_overhead n/a
local_store_requests l1tex__t_requests_pipe_lsu_mem_local_op_st.sum
local_store_throughput l1tex__t_sectors_pipe_lsu_mem_local_op_st.sum.per_second
local_store_transactions l1tex__t_sectors_pipe_lsu_mem_local_op_st.sum
local_store_transactions_per_request l1tex__average_t_sectors_per_request_pipe_lsu_mem_local_op_st.ratio
nvlink_data_receive_efficiency n/a
nvlink_data_transmission_efficiency n/a
nvlink_overhead_data_received (nvlrx__bytes_data_protocol.sum / nvlrx__bytes.sum) * 100
nvlink_overhead_data_transmitted (nvltx__bytes_data_protocol.sum / nvltx__bytes.sum) * 100
nvlink_receive_throughput nvlrx__bytes.sum.per_second
nvlink_total_data_received nvlrx__bytes.sum
nvlink_total_data_transmitted nvltx__bytes.sum
nvlink_total_nratom_data_transmitted n/a
nvlink_total_ratom_data_transmitted n/a
nvlink_total_response_data_received n/a
nvlink_total_write_data_transmitted n/a
nvlink_transmit_throughput nvltx__bytes.sum.per_second
nvlink_user_data_received nvlrx__bytes_data_user.sum
nvlink_user_data_transmitted nvltx__bytes_data_user.sum
nvlink_user_nratom_data_transmitted n/a
nvlink_user_ratom_data_transmitted n/a
nvlink_user_response_data_received n/a
nvlink_user_write_data_transmitted n/a
pcie_total_data_received pcie__read_bytes.sum
pcie_total_data_transmitted pcie__write_bytes.sum
shared_efficiency smsp__sass_average_data_bytes_per_wavefront_mem_shared.pct
shared_load_throughput l1tex__data_pipe_lsu_wavefronts_mem_shared_op_ld.sum.per_second
shared_load_transactions l1tex__data_pipe_lsu_wavefronts_mem_shared_op_ld.sum
shared_load_transactions_per_request n/a
shared_store_throughput l1tex__data_pipe_lsu_wavefronts_mem_shared_op_st.sum.per_second
shared_store_transactions l1tex__data_pipe_lsu_wavefronts_mem_shared_op_st.sum
shared_store_transactions_per_request n/a
shared_utilization l1tex__data_pipe_lsu_wavefronts_mem_shared.avg.pct_of_peak_sustained_elapsed
single_precision_fu_utilization smsp__pipe_fma_cycles_active.avg.pct_of_peak_sustained_active
sm_efficiency smsp__cycles_active.avg.pct_of_peak_sustained_elapsed
sm_tex_utilization l1tex__texin_sm2tex_req_cycles_active.avg.pct_of_peak_sustained_elapsed
special_fu_utilization smsp__inst_executed_pipe_xu.avg.pct_of_peak_sustained_active
stall_constant_memory_dependency smsp__warp_issue_stalled_imc_miss_per_warp_active.pct
stall_exec_dependency smsp__warp_issue_stalled_short_scoreboard_per_warp_active.pct + smsp__warp_issue_stalled_wait_per_warp_active.pct
stall_inst_fetch smsp__warp_issue_stalled_no_instruction_per_warp_active.pct
stall_memory_dependency smsp__warp_issue_stalled_long_scoreboard_per_warp_active.pct
stall_memory_throttle smsp__warp_issue_stalled_drain_per_warp_active.pct + smsp__warp_issue_stalled_lg_throttle_per_warp_active.pct
stall_not_selected smsp__warp_issue_stalled_not_selected_per_warp_active.pct
stall_other smsp__warp_issue_stalled_dispatch_stall_per_warp_active.pct + smsp__warp_issue_stalled_misc_per_warp_active.pct
stall_pipe_busy smsp__warp_issue_stalled_math_pipe_throttle_per_warp_active.pct + smsp__warp_issue_stalled_mio_throttle_per_warp_active.pct
stall_sleeping smsp__warp_issue_stalled_sleeping_per_warp_active.pct
stall_sync smsp__warp_issue_stalled_barrier_per_warp_active.pct + smsp__warp_issue_stalled_membar_per_warp_active.pct
stall_texture smsp__warp_issue_stalled_tex_throttle_per_warp_active.pct
surface_atomic_requests l1tex__t_requests_pipe_tex_mem_surface_op_atom.sum
surface_load_requests l1tex__t_requests_pipe_tex_mem_surface_op_ld.sum
surface_reduction_requests l1tex__t_requests_pipe_tex_mem_surface_op_red.sum
surface_store_requests l1tex__t_requests_pipe_tex_mem_surface_op_st.sum
sysmem_read_bytes lts__t_sectors_aperture_sysmem_op_read * 32
sysmem_read_throughput lts__t_sectors_aperture_sysmem_op_read.sum.per_second
sysmem_read_transactions lts__t_sectors_aperture_sysmem_op_read.sum
sysmem_read_utilization n/a
sysmem_utilization n/a
sysmem_write_bytes lts__t_sectors_aperture_sysmem_op_write * 32
sysmem_write_throughput lts__t_sectors_aperture_sysmem_op_write.sum.per_second
sysmem_write_transactions lts__t_sectors_aperture_sysmem_op_write.sum
sysmem_write_utilization n/a
tensor_precision_fu_utilization sm__pipe_tensor_op_hmma_cycles_active.avg.pct_of_peak_sustained_active
tensor_precision_int_utilization sm__pipe_tensor_op_imma_cycles_active.avg.pct_of_peak_sustained_active (SM 7.2+)
tex_cache_hit_rate l1tex__t_sector_hit_rate.pct
tex_cache_throughput n/a
tex_cache_transactions l1tex__lsu_writeback_active.avg.pct_of_peak_sustained_active + l1tex__tex_writeback_active.avg.pct_of_peak_sustained_active
tex_fu_utilization smsp__inst_executed_pipe_tex.avg.pct_of_peak_sustained_active
tex_sm_tex_utilization l1tex__f_tex2sm_cycles_active.avg.pct_of_peak_sustained_elapsed
tex_sm_utilization sm__mio2rf_writeback_active.avg.pct_of_peak_sustained_elapsed
tex_utilization n/a
texture_load_requests l1tex__t_requests_pipe_tex_mem_texture.sum
warp_execution_efficiency smsp__thread_inst_executed_per_inst_executed.ratio
warp_nonpred_execution_efficiency smsp__thread_inst_executed_per_inst_executed.pct

Reference

  • https://docs.nvidia.com/nsight-compute/NsightComputeCli/index.html
  • https://gist.github.com/mrprajesh/352cbe661ee27a6b4627ae72d89479e6
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA编程性能分析工具 nvprof/ncu --metrics参数含义 的相关文章

  • 当在 python linux 中执行命令 os.system() 时,在 python 中给出响应 yes/no

    考虑一个像这样的命令 yum install boto 当我在终端中执行时 要继续 会询问我是 否 我可以像这样用 python 回应它吗 os system yum install boto Next Yes 将通过相同的 python
  • 如何在 Linux 中向热敏打印机发送 ESC/POS 命令

    我正在尝试在热敏打印机上发送 ESC POS 命令 但每当我发送它们时 热敏打印机都会将它们打印为文本 而不是作为命令执行它们 我在 prn 文件中编写这些命令 每当我执行 lp 命令来打印文件时 这些 prn 文件也会被打印 但作为文本
  • BeagleBone Black 如何用作大容量存储设备?

    是否可以使用 BB 作为大容量存储设备 我希望将其连接到可以从 USB 连接 例如 USB 闪存驱动器 读取文件的音频播放器并充当包含一个特定文件夹的数据存储设备 及其子文件夹 从文件系统 如果可能 在连接到开发板的闪存驱动器上 正如设备规
  • grep 彩色线条

    我编写了一个简单的 PHP shell 脚本 它解析文件并输出某些元素 它产生大量的输出 采用不同的 bash 颜色 绿色表示正常 黄色表示警告 红色表示错误等 在开发过程中我想过滤掉一些行 例如 所有包含红色文本的行 我可以使用grep
  • 通过名称获取进程ID

    我想在 Linux 下获得一个给定其名称的进程 ID 有没有一种简单的方法可以做到这一点 我还没有在 C 上找到任何可以轻松使用的东西 如果追求 易于使用 char buf 512 FILE cmd pipe popen pidof s p
  • 如何在 Ubuntu/Linux 发行版中安装 Tesseract-OCR 3.03?

    我和一个朋友有兴趣为 CV 项目训练 tesseract OCR 引擎 我们尝试使用一些包装器 例如 PyTesser 和 pyocr 但结果目前不如我们需要的那么准确 因此 我们希望尝试训练超立方体以更好地实现我们的目的 即识别食品标签上
  • 使用 Python 将阿拉伯语或任何从右到左书写系统的字符串打印到 Linux 终端

    非常简单的例子是 city print city 我期望输出是 但实际上输出是相反的字符串 字母看起来有点不同 因为它们有开始 中间和结束形式 我无法将其粘贴到此处 因为复制粘贴会再次更正字符串的顺序 如何在 Linux 终端上正确打印阿拉
  • 使用 .htaccess 启用 PHP 短标签

    我在自己的 Centos 服务器上设置了 Apache 并具有多个虚拟 Web 服务器 并且我希望仅为位于以下位置的其中一个 Web 服务器启用 PHP 短标记 var www ostickets html 我可以通过添加成功启用短标签sh
  • X 按键/释放事件捕获,与焦点窗口无关

    我想记录所有传入的按键事件 无论哪个窗口处于焦点状态或指针位于何处 我编写了一个示例代码 它应该捕获当前焦点窗口的按键事件 include
  • Flex 的远程版本误解了我的规则

    我使用 flex 和 bison 编写了一个小汇编程序 可以在我的机器 ubuntu 10 10 上构建并运行正常 现在其他人正在尝试在 arch linux 上构建它 并且他们安装的 flex 产生了不同的 lex yy c 这是不匹配的
  • 设置 Vim 背景颜色

    当我尝试更改背景颜色时 vimrc或者直接在 Vim 中使用以下命令 set background dark 这根本不影响我的背景 也没有light选项 不过 当我运行 gvim 时 看起来还不错 有没有办法在不更改 Konsole 设置的
  • 在 MacO 和 Linux 上安装 win32com [重复]

    这个问题在这里已经有答案了 我的问题很简单 我可以安装吗win32com蟒蛇API pywin32特别是 在非 Windows 操作系统上 我一直在Mac上尝试多个版本pip install pywin32 都失败了 下面是一个例子 如果你
  • 路由是否会影响具有绑定源地址的套接字?

    假设我有两个网络接口 eth0有地址10 0 0 1 eth1有地址192 168 0 1 Using route or ip route add我已将其设置为路由 所有地址至eth0 1 2 3 4只为了eth1 所以数据包到1 2 3
  • 即使使用 rvm pkg install zlib 后也无法加载此类文件 -- zlib

    我使用 rvm 安装了 zlib 包和 ruby 1 9 3 但是每当我尝试安装时 它说宝石cannot load such file zlib 我用来安装的命令是 rvm install 1 9 3 rvm pkg install zli
  • Linux mremap 不释放旧映射?

    我需要一种方法将页面从一个虚拟地址范围复制到另一个虚拟地址范围 而无需实际复制数据 范围很大 延迟很重要 mremap 可以做到这一点 但问题是它也会删除旧的映射 由于我需要在多线程环境中执行此操作 因此我需要旧映射能够同时使用 因此稍后当
  • VSCODE 在 Linux 上不适用于我

    刚刚了解 VSCODE 很高兴尝试一下 我下载 解压并运行可执行文件 我得到 Code 2183 0429 201254 ERROR browser main loop cc 170 Running without the SUID san
  • 如何从命令行执行 PHP 代码?

    我想执行单个 PHP 语句 例如if function exists my func echo function exists 直接使用命令行 无需使用单独的 PHP 文件 这怎么可能 如果您要在命令行中执行 PHP 我建议您安装phpsh
  • 有没有办法让 Linux CLI IO 重定向持久化?

    我有多个管道命令 如下所示 find options grep options xargs grep options 它们中的每一个都可能产生我不感兴趣的错误 权限错误 文件名空格错误等 因此 我想将所有错误重定向到 dev null 我知
  • 如何在树莓派上更新到最新的 python 3.5.1 版本?

    我昨天拿到了 Raspberry Pi 我已经在尝试用它来编写代码了 我有一个计划在其上运行的程序 但它仅与 Python 版本 3 5 0 或 3 5 1 兼容 并且我在互联网上找到的所有内容似乎都已经过时 与 Python 2 有关 或
  • 选择多个模式的 awk 代码

    这是我的输入文件 比如modified txt r4544 n479826 2012 08 28 07 12 33 0400 Tue 28 Aug 2012 1 line Changed paths M branches 8 6 0 con

随机推荐

  • 基于Gabor-小波滤波深度图表面法线的特征提取算法【通过正常Gabor-小波的直方图进行2D或3D特征提取】研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现 1 概述 文献来源 通过一种新的五步算法彻底研究了鼻
  • 可能是颜值最高的微信Markdown编辑器,用Markdown的你一定会爱上

    不论是新媒体小编还是拥有自己公众号的开发者和开源组织 一定想要一个能够快速编辑且成品美观大方的编辑器 毕竟微信自带的编辑器功能有限 市面上其他编辑器功能又过于繁多 尤其对于开发者来说 文章中插入代码块这件事就非常令人头疼 所以 Gitee
  • 笔记--利用python下载bilibili视频

    目录 1 打开cmd终端 2 激活base环境 3 安装you get第三方库 已安装可以跳过 4 下载视频 5 实例 6 参考 1 打开cmd终端 进入保存下载视频的文件夹 cd C Users XXXXXX Desktop video
  • 刷OPENWRT后悔了,刷回原厂固件教程

    之前之所以要刷固件 是因为上网时经常将网页重定向到路由器的管理员界面 如果你也有这种问题 那么不用刷了 直接找售后换货或退货 这是路由器质量问题 刷机没法解决 原文 http www sjyyt com thread 334508 1 1
  • 移动通信中的信源编码和调制调节技术

    通信原理 移动通信中的信源编码和调制调节技术的思维导图 一个上课老师留的作业 这个不带图片 带图片的在我发的另一个 移动通信中的信源编码和调制调节技术 3 1 概述 调制就是对消息源信息进行编码的过程 其目的就是使携带信息的信号与信道特性相
  • 2023最全最新前端面试题(附加解析)

    JS 1 说一下innerHTML 与 innerText的作用与区别 作用 都可以获取或者设置元素的内容 区别 innerHTML可以解析内容中的html标签 innerText不能解析内容中的html标签2 JavaScript 由以下
  • 数据结构中内部排序的各种比较

    排序算法中的稳定和不稳定指的是什么 若在待排序的纪录中 存在两个或两个以上的关键码值相等的纪录 经排序后这些记录的相对次序仍然保持不变 则称相应的排序方法是稳定的方法 否则是不稳定的方法 内部排序和外部排序 根据排序过程中涉及的存储器不同
  • OpenApi接口的一次调用经历(附代码)

    去弄一个api key https platform openai com account api keys 先看所有能用的模型 import openai openai api key sk 3MXseSpzjlPaPg0jKMPuT3B
  • 目标检测——CNN基础

    卷积神经网络 让权重在不同位置共享的神经网络 几个概念 尺寸 Feature Map的尺寸等于 input size 2 padding size filter size stride 1 注意 上面的式子是计算width或height一维
  • oracle sql developer 介绍

    为了进一步提高开发人员效率 简化Oracle数据库开发 甲骨文公司日前宣布Oracle SQL Developer 2 1版上市 这是广受欢迎的数据库开发和迁移工具Oracle SQL Developer的最新版本 Oracle SQL D
  • MySQL与PostgreSQL对比

    MySQL PostgreSQL 数据类型支持 支持JSON 但不如PostgreSQL 支持更多的数据类型 如数组 hstore JSON JSONB 范围类型等 扩展性 有一些扩展性 但不如PostgreSQL 支持自定义数据类型 函数
  • 阿里 P7 到底是怎样的水平?

    阿里 P7 有多香 大家谈到阿里 P7 第一反应可能就是年薪百万 我们先看一下阿里的职级体系 P7 一般薪水在 70 100 万之间 超过 100 万的屈指可数 除非你是阿里 5 年以上的老 P7 薪资构成包括现金和股票 现金部分 大概的月
  • 测试人员具备的技术要求

    刚刚接触测试时 看到的文章 保存起来了 现在分享给大家 一名优秀的测试人才 目前我们国内的企业或者外企 包括大型的软件企业 一般情况下应该有哪些技术要求呢 具体来讲 第一 对Windows Linux Unix等大型主流操作系统的使用和应用
  • 让你的DBCP连接池连接不超时

    项目使用DBCP连接池 登录系统后 一段时间没有操作 再点击其他页面就报错 the last packet send to mysql was ago 度娘一下 知道是数据库连接超时 怎么解决呢 首先想到的是MySQL数据库配置文件 mys
  • vsCode JS代码格式化插件ESlint

    vsCode JS代码格式化插件ESlint 验证有效 Ctrl S保存代码全格式化了 写这个主要是个人笔记 算不得重复造 源头 https blog csdn net qq 34803821 article details 8497278
  • 八大排序算法(C语言实现)

    摘自 八大排序算法 C语言实现 作者 2021dragon 发布时间 2021 05 16 10 46 37 网址 https blog csdn net chenlong cxy article details 116563972 目录
  • STM32+亚博K210手写数字识别

    本文以STM32C8T6为例 使用的是亚博K210视觉识别模块 实现功能 由K210识别手写数字 通过K210与STM32的串口通信 将识别到的手写数字传回STM32 最后由OLED显示 接线方式 STM32与OLED B8 SCL B9
  • MVVM 框架

    在 MVVM Light 框架中 事件是 WPF 应用程序中 UI 与后台代码进行交互的最主要方式 与传统方式不 同 mvvm 中主要通过绑定到命令来进行事件的处理 因此要了解 mvvm 中处 理事件的方式 就必须先熟悉命令的工作原理 命令
  • 关于编译性语言、解释性语言和脚本语言的区别

    计算机是不能理解高级语言 当然也就不能直接执行高级语言了 计算机只能直接理解机器语言 所以任何语言 都必须将其翻译成机器语言 计算机才能运行高级语言编写的程序 一 翻译和解释的不同 翻译的方式有两种 一个是编译 一个是解释 两种方式只是翻译
  • CUDA编程性能分析工具 nvprof/ncu --metrics参数含义

    摘要 在网上没有比较全的中文 ncu metrics 参数含义 于是自己整理了一下官方和外国友人的笔记 nvprof 和 ncu nvprof 是过去比较常用的命令行工具 但在终端直接输入nvprof o会得到以下 Warning Warn