NVIDIA Fermi 中的 L2 缓存

2023-12-13

在查看NVIDIA Fermi架构中的性能计数器名称（cuda的doc文件夹中的Compute_profiler.txt文件）时，我注意到对于L2缓存未命中，有两个性能计数器，l2_subp0_read_sector_misses和l2_subp1_read_sector_misses。他们说这些是用于 L2 的两片。

为什么他们有两片 L2？与流式多处理器架构有什么关系吗？这种划分会对性能产生什么影响？

Thanks

我认为与流式多处理器没有任何直接关系。

我只是认为该切片相当于银行内存。

只需将两者的值相加即可得到“总”L2 读取未命中数。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

GPU

GPGPU

NVIDIA

NVIDIA Fermi 中的 L2 缓存的相关文章

在 cuda 的 nvcc 编译器中使用 C++20

我正在尝试使用std countr zero 函数从
CUDA程序导致nvidia驱动程序崩溃

当我超过大约 500 次试验和 256 个完整块时我的 monte carlo pi 计算 CUDA 程序导致我的 nvidia 驱动程序崩溃这似乎发生在 monteCarlo 内核函数中任何帮助都会受到赞赏 include
OpenCV GPU Farneback 光流在多线程中表现不佳

我的应用程序使用 Opencv GPU 类gpu FarnebackOpticalFlow计算输入视频的一对连续帧之间的光流为了加速该过程我利用 OpenCV 的 TBB 支持在多线程中运行该方法然而多线程性能并不像单线程那样为了
多个进程可以共享一个 CUDA 上下文吗？

这个问题是 Jason R 的后续问题comment https stackoverflow com questions 29964392 multiple cuda contexts for one device any sense co
为什么numba cuda调用几次后运行速度变慢？

我正在尝试如何在 numba 中使用 cuda 然而我却遇到了与我预想不同的事情这是我的代码 from numba import cuda cuda jit def matmul A B C Perform square matrix m
MPI+CUDA 与纯 MPI 相比有何优势？

加速应用程序的常用方法是使用 MPI 或更高级别的库例如在幕后使用 MPI 的 PETSc 并行化应用程序然而现在每个人似乎都对使用 CUDA 来并行化他们的应用程序或使用 MPI 和 CUDA 的混合来解决更雄心勃勃更大的问题感兴
DirectX 世界视图矩阵乘法 - GPU 或 CPU 的地方

我是 directx 的新手但令我惊讶的是我看到的大多数示例中世界矩阵和视图矩阵都是作为顶点着色器的一部分相乘而不是与 CPU 相乘并将结果传递给着色器对于刚性对象这意味着您为对象的每个顶点将相同的两个矩阵相乘一次我知道 GP
__syncthreads() 死锁

如果只有部分线程执行 syncthreads 会导致死锁吗我有一个这样的内核 global void Kernel int N int a if threadIdx x
无法在 CUDA 中执行设备内核

我正在尝试在全局内核中调用设备内核我的全局内核是矩阵乘法我的设备内核正在查找乘积矩阵每列中的最大值和索引以下是代码 device void MaxFunction float Pd float max int x threadIdx
设置最大 CUDA 资源

我想知道是否可以设置 CUDA 应用程序的最大 GPU 资源例如如果我有一个 4GB GPU 但希望给定的应用程序只能访问 2GB 如果它尝试分配更多就会失败理想情况下这可以在进程级别或 CUDA 上下文级别上设置不目前没有允
cuda中有模板化的数学函数吗？ [复制]

这个问题在这里已经有答案了我一直在寻找 cuda 中的模板化数学函数但似乎找不到在普通的 C 中如果我调用std sqrt它是模板化的并且将根据参数是浮点数还是双精度数执行不同的版本我想要这样的 CUDA 设备代码我的内核将真
CUDA 矩阵加法时序，按行与按行比较按栏目

我目前正在学习 CUDA 并正在做一些练习其中之一是实现以 3 种不同方式添加矩阵的内核每个元素 1 个线程每行 1 个线程和每列 1 个线程矩阵是方阵并被实现为一维向量我只需用以下命令对其进行索引 A N row col 直觉
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？

假设我有一个与设备关联的活动 CUDA 上下文i 我现在打电话cudaSetDevice i 会发生什么 Nothing 主上下文取代了堆栈顶部主上下文被压入堆栈事实上这似乎是不一致的我编写了这个程序在具有单个设备的机器上运行 i
有没有一种有效的方法来优化我的序列化代码？

这个问题缺乏细节因此我决定创建另一个问题而不是编辑这个问题新问题在这里我可以并行化我的代码吗还是不值得 https stackoverflow com questions 17937438 can i parallelize my
__device__ __constant__ 常量

有什么区别吗在 CUDA 程序中定义设备常量的最佳方法是什么在 C 主机设备程序中如果我想将常量定义在设备常量内存中我可以这样做 device constant float a 5 constant float a 5 问题 1
CUDA、NPP 滤波器

CUDA NPP 库支持使用 nppiFilter 8u C1R 命令过滤图像但不断出现错误我可以毫无问题地启动并运行 boxFilterNPP 示例代码 eStatusNPP nppiFilterBox 8u C1R oDeviceS
NV_path_rendering替代方案[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我刚刚观看了 Siggraph 2012 的一个非常令人印象深刻的演示 http nvidia fullviewmedia com sig
OpenCL 与 OpenMP 性能对比 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案是否有研究比较 OpenCL 与 OpenMP 的性能具体来说我对使用 OpenCL 启动线程的开销成本感兴趣例如如果将域分解
如何使用 CUDA/Thrust 对两个数组/向量根据其中一个数组中的值进行排序

这是一个关于编程的概念问题总而言之我有两个数组向量我需要对一个数组向量进行排序并将更改传播到另一个数组向量中这样如果我对 arrayOne 进行排序则对于排序中的每个交换 arrayTwo 也会发生同样的情况现在我知

随机推荐

即使用户已登录，Firebase javascript auth 用户也显示 null

我遵循 Firebase 文档进行 Web 开发并使用了user updateProfile方法将显示名称添加到用户的个人资料中登录后我使用了console log user 它起作用了但是当我打电话时updateProfile 的
如何在大熊猫数据框中显示所有列的名称？

我有一个由数百列组成的数据框我需要查看所有列名称我做了什么 In 37 data all2 columns 输出是 Out 37 Index customer id incoming outgoing awan bank family
在 MAC OSX 和 Ubuntu 上的 F# 中，我在 4.0 中运行 FSI 时出错

我需要 F 中的 System Numerics EDIT我认为问题是 fsi 可以与 4 0 运行时一起运行吗如果可以我该如何配置它我在 Fsharp 4 0 目录中运行 mono bin Fsi 在 OSX 10 6 4 和 Ub
将键盘表情符号转换为自定义 png，反之亦然

这是一个直接而简单的问题我怎样才能实现这两件事 FIRST 输入嘿我在微笑输出 hey I m smiling span class smile span 反之亦然 SECOND 输入嘿我在微笑 smile 输出嘿我在微笑现在我
无法在无服务器和 DynamoDB/Cognito/API 网关的 lambda 策略中使用 ${cognito-identity.amazonaws.com:sub}

客观的使用 Cognito 进行身份验证使用下面的 serverless yml 配置点击经过身份验证的端点 GET users 以触发 lambda 作业基于IAM策略限制基于cognito用户查询的DynamoDB表的访问co
比较旋转图像

我正在寻找一种方法来比较几乎相同相似度超过 95 但可以绕中心轴旋转的图像我对整个计算机图形视觉领域很陌生不太确定是否有现成的工具或系统或者即使这是否是正确的堆栈交换目前我正在研究使用 C 生成位图直方图然后通过 Panda
VBA：为什么我的 INSERT 代码不起作用？

几周前我就开始工作了但现在我不确定我做了什么导致它不再工作了我什至没有收到错误消息来弄清楚可能出了什么问题当我单击在表中插入行的按钮时没有任何反应表单被清除并重新查询表但代码的 INSERT 部分不执行任何操作 Public S
如何将文件从一个位置复制到另一个位置？

我想在 Java 中将文件从一个位置复制到另一个位置做这个的最好方式是什么这是我到目前为止所拥有的 import java io File import java io FilenameFilter import java util A
Powershell运行时

我在 Windows 8 下运行 VS 2010 安装 NuGet 并运行包管理器控制台后我收到以下消息 Error The Package Manager Console requires PowerShell 2 0 runtime
使用猫鼬进行 $lookup

我有两个集合例如清单和任务两个模式如下所示清单架构如下所示 id 5b7d0f77e231b6b530b0ee5a audit checklist type Weekly id 5b7d3f33e7a57f38084efb09 aud
使用 JavaScript 动态过滤 HTML 表的行

所以我有这张表 table border 1 align center tr td Broj pu td td Naziv pu td td ID td td Naselje td td zupanija td tr tr td td tr
通过填充空格将字符串居中至指定长度

我有一个名称向量如下所示 x lt c Marco John Jonathan 我需要通过添加前导空格和尾随空格对其进行格式化以便名称以 10 个字符的字符串居中 gt output 1 Marco John Jonathan 我希望有
Django - url 的动态视图

我想根据 url 加载特定视图例如 url r channel P
如何调用与成员函数同名的内联友元函数？

如此处所述C 11 风格的 SFINAE 和模板实例化上的函数可见性类成员函数掩盖了自由函数使用完全限定名称通常是有效的但是我在使用内联声明的其他类的友元函数时遇到了困难考虑以下示例 namespace N struct C frie
在 python 中追加到文件后没有 EOL

我尝试使用以下代码使用 python 附加到文件 with open test txt a as myfile myfile write appended text 问题是当我用 vim 打开文件时我在底部收到来自 vim 的消息 te
在 C 中使用 void* 指针的缺点

使用起来有很多缺点void 在C中内存相关类型相关效率方面尽管如此我们还是经常使用它们因为它们提供了灵活性列出使用的缺点缺点void 以及 C 中的首选解决方案如果可能 EDIT 请访问以下链接 http attracti
IIS FTP 是否包含用于检测文件上传何时完成的 API？

我想使用 IIS FTP 服务器但我需要能够判断特定用户的文件上传何时完成我不想依赖于直接在 Windows 中监视文件更改因为我认为我无法判断文件上传是否真正完成或已中止并且可能稍后完成您可以使用自定义日志记录提供程序来执行此操作
循环浏览网页并复制数据

我为一位朋友创建了这个脚本该脚本循环浏览一个房地产网站并为她获取电子邮件地址用于促销该网站免费提供它们但一次获取一个很不方便第一个脚本将每个页面的数据转储到名为 webdump 的 txt 文件中第二个脚本从第一个 txt 文件
如何使用yaml在doctrine2中模拟继承？

如何以yaml方式声明doctrine2继承我在学说文档中没有找到任何与此相关的代码片段示例或食谱文章当我尝试以doctrine1方式进行操作时我收到一个错误指出该实体没有主键 Thanks 尝试使用以下方法进行简单的模型继承ex
NVIDIA Fermi 中的 L2 缓存

在查看NVIDIA Fermi架构中的性能计数器名称 cuda的doc文件夹中的Compute profiler txt文件时我注意到对于L2缓存未命中有两个性能计数器 l2 subp0 read sector misses和l2 s

NVIDIA Fermi 中的 L2 缓存

NVIDIA Fermi 中的 L2 缓存 的相关文章

随机推荐

热门标签

NVIDIA Fermi 中的 L2 缓存的相关文章