在查看NVIDIA Fermi架构中的性能计数器名称(cuda的doc文件夹中的Compute_profiler.txt文件)时,我注意到对于L2缓存未命中,有两个性能计数器,l2_subp0_read_sector_misses和l2_subp1_read_sector_misses。他们说这些是用于 L2 的两片。
为什么他们有两片 L2?与流式多处理器架构有什么关系吗?这种划分会对性能产生什么影响?
Thanks
我认为与流式多处理器没有任何直接关系。
我只是认为该切片相当于银行内存。
只需将两者的值相加即可得到“总”L2 读取未命中数。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)