CUDA 估计 2D 网格数据的每块线程数和块数

2024-04-26

首先我要说的是，我已经仔细阅读了所有类似的问题：

确定每个块的线程和每个网格的块 https://stackoverflow.com/questions/4391162/cuda-determining-threads-per-block-blocks-per-grid
每个 SM 的线程数、每个块的线程数 https://stackoverflow.com/questions/17816136/cuda-what-is-the-threads-per-multiprocessor-and-threads-per-block-distinction
CUDA 块和线程 https://stackoverflow.com/questions/9342599/cuda-blocks-and-threads
扭曲和最佳块数 https://stackoverflow.com/questions/32855684/cuda-warps-and-optimal-number-of-threads-per-block

我的目的是尝试动态计算（而不是硬编码值）我正在开发的前馈神经网络库。

My data is not与我见过的大多数例子一样，它是一个方格（矩阵），它是两个向量生成一个矩阵，行与列不相等：

float x[6] {1.f, 1.f, 0.f, 1.f, 1.f, 0.f}; 
thrust::device_vector<float> in_vec( x, x+6 );
float y[9] {1.f, 1.f, 1.f, 1.f, 1.f, 1.f, 1.f, 1.f, 1.f};
thrust::device_vector<float> w_vec( y, y+9 );
thrust::device_vector<float> o_wec(9);
thrust::device_vector<float> mtx_vec( 9 * 6 );

float * i_ptr = thrust::raw_pointer_cast( in_vec.data() );
float * w_ptr = thrust::raw_pointer_cast( w_vec.data() );
float * out_ptr = thrust::raw_pointer_cast( mtx_vec.data() );

dim3 threadsPerBlock(9,6);
dim3 numBlocks(1,1);
prop_mtx<<<numBlocks,threadsPerBlock>>>( w_ptr, i_ptr, out_ptr, 6 );

和内核：

__global__ void prop_mtx( float * w, float * i, float * o, int s ) 
{
    int x = blockIdx.x * blockDim.x + threadIdx.x; 
    int y = blockIdx.y * blockDim.y + threadIdx.y;
    o[y + x * s] = w[x] * i[y];
}

我采用这种方法的原因是，当涉及到向量/矩阵计算时，它在 ANN 计算中有意义。我想保持这一点的一致性，并且据我所知，使用 2D 网格进行权重 * 输入计算是合理的。

我必须将每个块的线程计算为二维，并且网格中的线程数量不等。

我使用的是 GTX 660，它具有：

  CUDA Capability Major/Minor version number:    3.0
  Total amount of global memory:                 2047 MBytes 
  ( 5) Multiprocessors, (192) CUDA Cores/MP:     960 CUDA Cores
  Maximum Texture Dimension Size (x,y,z)         1D=(65536), 2D=(65536, 65536), 3D=(4096, 4096, 4096)
  Warp size:                                     32
  Maximum number of threads per multiprocessor:  2048
  Maximum number of threads per block:           1024
  Max dimension size of a thread block (x,y,z): (1024, 1024, 64)
  Max dimension size of a grid size    (x,y,z): (2147483647, 65535, 65535)

我试图了解如何推断/计算网格大小、每个块的线程以及块的数量。

假设我有一个包含 800 个项目的权重向量和一个包含 6500 个项目的输入向量。

这是否意味着我真正需要的是 800,6500 的 2D 网格？据我了解，还有什么会提供不正确的结果吗？

我知道每个块的最大线程数是 1024，但因为它是 2D 网格，所以更有可能是：

dim3 threadPerBlock(X,Y);

由于我的网格不是方阵，我需要以不同的方式计算每个块的X，Y线程？
或者我需要先推断出所需的块数？

最后，由于我的经纱尺寸是 32，

无论所有其他参数如何，是否最小网格尺寸需要至少为 32，或 32 的倍数？我需要at least每个块 32 个线程，或者最小数量为 32 的网格大小？

任何伪代码或我应该如何解决这个问题的解释都将不胜感激。

我尝试过的是将数据除以 32 环绕大小来计算 2D 网格大小。然后我考虑使用可用的 SM 来计算网格线程。例如

800 weights / 5 SM, = 160 x's per SM
6500 inputs  / 5 SM, = 1300 y's per SM

但我不知道从那时起该做什么。最后，我考虑先求输入权重比：

6500/800 = 8.125

这意味着 X 使用 32 个最小网格大小， Y 必须乘以 8.125 * 32 因此，我的threadsPerBlock 将是：

dim3 threadsPerBlock(32,260);

那当然是每块8320个线程，远远超过每块1024个。

所以这是我的问题：如何不超过每块 1024 个线程，同时保留数据的正确网格大小？

PS：我的问题不是关于优化代码，而是了解如何在设备上分发线程和网格数据。

对计算问题进行分类的一种方法是讨论转变 and 减少.

A 减少是一类需要较大输入数据集大小并产生较小输出数据集大小的问题。例如，拍摄图像并找到最大像素值将是一个减少。对于本次讨论，我们将忽略缩减。

A 转型是一种计算类别，其中输出数据集大小（元素数量）与输入数据集大小“大”或“近似相同”。例如，拍摄图像并生成模糊图像将是一种变换。

For 转变，编写 cuda 内核（线程代码）的一种常见方法（“线程策略”）是让一个唯一的线程负责输出数组中的每个点。因此，我必须拥有的最小线程总数等于输出数组的大小。线程代码只是输入数据所需的一组计算，以产生一个输出数据点。粗略地说，您的问题和简化的内核符合这个定义；这是一种转变。

按照上述线程策略，我们需要网格中的线程总数等于我需要创建的输出点总数。对于 2D 问题，通常可以方便地以二维方式进行思考，为此，CUDA 提供了 2D（或 3D）线程块组织和 2D（或 3D）网格组织。

CUDA 线程块尺寸的选择通常有些随意。一般来说，我们通常希望线程块的目标是每块 128 - 512 个线程范围内（原因已在其他地方介绍），并且我们希望线程块是 32（扭曲大小）的整数倍，以提高线程块获取时的效率。细分为 warp，它们是 CUDA 执行的实际单元。在当前支持的 GPU 上，线程块限制为每个块 1024 个线程（总数 - 即维度的乘积）。然而，对于许多问题，此范围内的线程块选择（例如 256 个线程与 512 个线程）通常对性能的影响相对较小。为了让某些事情发挥作用，我们现在不会担心细节。（当您回来进行优化时，您可以重新考虑此选择。）

到目前为止，我们已经了解到，对于这种问题类型，我们需要线程总数来覆盖我们的问题空间，并且我们将有一个有点任意的线程块维度选择。因此，我们选择 (32,16) (x,y) 开始，总共 512 个线程。没有规则规定adblocks必须是“正方形”，或者网格必须是“正方形”，或者线程块尺寸和问题尺寸（或网格尺寸）之间甚至应该存在任何比例奇偶校验。

现在我们心中已经有了 (32,16) 的线程块选择，我们必须问自己“我需要多少个？”。这个问题是 2D 的，因此我们选择了 2D 线程块，以简化线程代码中的索引生成。让我们也选择一个 2D 网格 - 它对于 2D 问题有意义，并且对于索引生成的 2D 简单性同样有意义。所以我们可以独立地考虑两个维度。

那么，x 方向需要多少个块？我至少需要（我的问题大小，以 x 为单位）/（我的线程块大小，以 x 为单位）。由于我们在这里处理所有整数，这就引出了一个问题：“如果我的问题大小不能被我的线程块大小整除怎么办？”规范的解决方案是启动足够多的线程覆盖空间，或足够的块以覆盖空间。但在不可整除的情况下，这会导致“额外的线程”。我们将很快讨论并处理这些问题。因此，如果我有一个像这样的 dim3 变量用于线程块尺寸：

    #define BX 32
    #define BY 16   
    ...
    dim3 block(BX,BY);

那么我可以像这样构造我的 dim3 网格变量：

    #define DX 800
    #define DY 6500
    ...
    dim3 grid((DX+block.x-1)/block.x, (DY+block.y-1)/block.y);

如果你完成这个算术，你会发现这导致我们启动足够的块在 x 和 y 方向上，这样我们至少有足够的线程来覆盖 (DX,DY) 的问题空间，每个输出点一个线程。

希望大家清楚 Y 维度是与 x 维度分开且独立地处理的。

上述计算通常会导致我的网格中生成“太多”线程。我将在问题空间（DX、DY）的末尾之外有一些需要处理的“额外线程”。我们希望这些线程“不执行任何操作”。处理此问题的规范方法是将问题空间维度传递给我的内核，在我的内核中创建适当的全局唯一线程索引，然后将该索引与问题空间中的最大索引进行比较。如果超过它，我们只需让该线程跳过所有剩余的线程代码。

以您的内核为例，它可能如下所示：

__global__ void prop_mtx( float * w, float * i, float * o, int s, const size_t d_size_x, const size_t d_size_y ) 
{
    int x = blockIdx.x * blockDim.x + threadIdx.x; 
    int y = blockIdx.y * blockDim.y + threadIdx.y;
    if ((x < d_size_x) && (y < d_size_y))  // thread check
      o[y + x * s] = w[x] * i[y];
}

请注意，此类线程检查将创建“不参与”后续代码的线程（在某些块中）。这里需要注意的一点是，使用__syncthreads()取决于块中参与的所有线程。因此，我们不应该使用__syncthreads()直接在这种情况下。相反，我们必须适当地调节线程块行为：

__global__ void prop_mtx( float * w, float * i, float * o, int s, const size_t d_size_x, const size_t d_size_y ) 
{
    int x = blockIdx.x * blockDim.x + threadIdx.x; 
    int y = blockIdx.y * blockDim.y + threadIdx.y;
    if ((x < d_size_x) && (y < d_size_y))  // thread check
      {
         o[y + x * s] = w[x] * i[y];
         // and other code not dependent on __syncthreads()
       }
     // now it is safe to use since all threads are participating
     __syncthreads();
    if ((x < d_size_x) && (y < d_size_y))  // thread check
      {
          // rest of kernel code
       }
}

请注意，可以让较少数量的线程为较大数量的输出数据点执行必要的计算。线程和输出数据之间的 1:1 对应关系是思考和编写 cuda 内核代码的一种简单方法，但这不是唯一的方法。另一种可能的方法是使用某种形式的网格跨步循环，以便较小的网格可以覆盖较大的问题空间。对这些策略的讨论超出了本答案的范围，在解决其他方法之前应先了解本答案中讨论的基本方法。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

CUDA

CUDA 估计 2D 网格数据的每块线程数和块数的相关文章

从接口调用“IsAssignableFrom”不会返回具体类

我试图返回实现下面代码中定义的接口的类的对象类型 linq 语句仅返回接口本身因此控制台输出只是可分配实验 IRule 为什么不返回具体类 using System using System Linq namespace Assigna
如何使用 ASP.Net Core Identity 从登录用户检索 Google 个人资料图片？

好的我目前正在使用 ASP NET Core 1 1 2 和 ASP NET Core Identity 1 1 2 其中重要的部分是启动 cs看起来像这样 public void Configure IApplicationBuilde
类似于 Active Directory 中的搜索

我正在使用 C 中的以下代码搜索 LDAP 以轮询用户的活动目录 DirectoryEntry entry new DirectoryEntry ldapPath userName password DirectorySearcher Se
来自 RAZOR 中不同文件夹的 RenderPartial

我一直在尝试将我的 aspx 页面转换为 cshtml 并且在从另一个文件夹渲染部分页面时遇到问题我以前做过的事我认为等价的是 Html RenderPartial Views Inquiry InquiryList cshtml Mo
调用事件，h(args) 与 EventName?.Invoke()

我总是这样调用事件 void onSomeEvent string someArg var h this EventName if h null h this new MyEventArgs someArg 今天 VS 2015 告诉我这可
通过 Office API 将多个 Word 文档保存为 HTML

我有大量的Word文档需要解析由于它们都是从同一个模板创建的我认为最好的方法是将它们保存为 HTML 文件并解析 HTML 本身虽然将单个 Word 文档保存为 HTML 相当容易但我还没有找到从 Word 内部执行批量过程的方法
ToLookup 是否强制立即执行序列

我正在调查可枚举 ToLookup将可枚举序列转换为字典类型数据结构的 API 更多详情可在这找到 https msdn microsoft com en us library system linq enumerable tolookup
C中的内存使用问题

请帮忙操作系统 Linux 其中 sleep 1000 中此时 top 显示Linux任务给我写了7 7 MEM使用 valgrind 未发现内存泄漏我明白写得正确所有 malloc 结果都是 NULL 但是为什么这次睡眠我
删除 QComboBox“下拉”动画

我正在使用 Qt 4 8 并且想在单击 QComboBox 时摆脱下拉动画我也想稍微移动一下到目前为止我一直在考虑重新实现 showPopup 和 hidePopup 但不知道如何使其工作此外每次我尝试使用 CSS 进行移动或
用于生成 C++ 代码轮廓/图的工具 - 有这样的东西吗？ [复制]

这个问题在这里已经有答案了我需要深入研究用 C 编写的软件组件并对其进行一些修改我幻想生成一些代码映射它将显示类之间的关系并引导我完成方法的流程调用图有这个工具吗几年前我使用 Rational Rose 建模工具该工具具有对
如何在 TargetFrameworks 标记中每个框架运行一次的目标之前创建仅运行一次而不是一次的 MSBuild 目标？

我有一个我部分拥有的代码生成器工具现在 csproj 文件可以在其中列出多个目标框架并构建所有这些框架我试图弄清楚如何使 MSBuild 目标仅在每个目标中生成一次代码无论列出了多少个目标框架都将运行构建并让每个目标框架的编译等待代
如何使用可变参数模板声明 std::tuple？

也许我在这里很天真但我相信以下代码应该编译 template
如何使用 Moq 模拟 Web 服务调用？

The using下面点击了我不想实际点击的外部资源我想测试someResult以及使用它的代码但每次我运行单元测试时该代码仍然尝试访问真正的 Web 服务如何使用最小起订量来伪造对 Web 服务的真实调用但不模拟使用中的其余代码
winapi 函数的函数指针 (stdcall/cdecl)

请有人给我一些为 MS winapi 函数创建函数指针的提示吗我试图为 DefWindowProc DefWindowProcA DefWindowProcW 创建一个指针但出现此错误 LRESULT dwp HWND UINT WPA
为什么即将推出的 Ranges 库不支持范围内的容器初始化？

介绍随着即将推出的 Ranges 库用两个迭代器表示范围的需要几乎消失了例如代替 if std equal begin foo end foo begin bar end bar we have if std ranges equa
WPF 应用程序在每个系统规模上具有相同的大小（与规模无关）

有没有办法让 WPF 应用程序在每个系统规模上获得相同的大小当我改变时更改文本应用程序和其他项目的大小在windows系统设置中125 推荐 to 100 在全高清屏幕中我的 WPF 应用程序变得太小为了实现独立的系统缩放应用程序
Web 服务错误“提供的 URI 方案‘http’无效；需要‘https’。”

我的服务调用导致以下错误提供的 URI 方案 http 无效需要 https 应用程序配置值
C++ 按值而不是按引用将数组发送到函数

我的 C 有问题我有一个对数组进行排序的函数但我不想处理原始数组我想通过值而不是通过引用将数组发送到函数请帮我 int bogoSort int tab int n int iloscOperacjiDominujacych 0 c
使用事件处理程序与覆盖事件触发方法

我正在创建 Button 的子类并希望向其某些事件例如 OnClick 添加自定义功能哪种方式更理想我是否重写 OnClick protected override void OnClick EventArgs e base OnC
opencv中矩阵的超快中值（与matlab一样快）

我正在 openCV 中编写一些代码想要找到一个非常大的矩阵数组单通道灰度浮点数的中值我尝试了几种方法例如对数组进行排序使用 std sort 和选择中间条目但与 matlab 中的中值函数相比它非常慢准确地说在 ma

随机推荐

GitHub 错误 Probot：未找到集成，documentation_url

我在使用 GitHub 的 Probot 应用程序时遇到身份验证问题当我使用 npm start 运行应用程序时我会得到 github Github request GET app installations 404 Not Found
ConstraintLayout 作为 RecyclerView 项目

I use ConstraintLayout as RecyclerView物品但现在存在一些问题真机上显示的和预览中不一样 recyclerView的item布局如下
同时使用两个数组中的元素的过滤器

假设我们有两个大小相同的数组 A and B 现在我们需要一个过滤器对于给定的掩码大小从以下位置选择元素A 但删除掩码的中心元素并在其中插入相应的元素B 所以 3x3 伪掩码看起来类似于 A A A A B A A A A 对平均
如何使用 Gradle Kotlin DSL 运行 kotlintest 测试？

我想要什么我想使用运行我的测试科特林测试 https github com kotlintest kotlintest 我通过单击测试类旁边的图标成功从 IntelliJ 运行它们我也有JUnit 5 https junit org j
如何使用 Mailkit / MimeKit IMAP 将所有消息保存到单个 .mbox 文件？

我一直在寻找如何将所有消息保存到单个文件如 mbox 文件的示例但没有成功这是我尝试过但当前无法正常工作的一些代码 var exportStream new MemoryStream foreach var uid in uids
C# 泛型 - 可以创建具有 n 个泛型类型的方法..？

我认为这是不可能的但这里我想添加可以处理 n 个泛型的方法例如 bool
使用 SlowCheetah 和 ASP.NET 网站项目进行 Web.config 转换

我正在尝试将 SlowCheetah XML Transforms 与ASP NET Web site project 不是 ASP NET Web 应用程序项目在 Visual Studio 2010 中当我右键单击Web confi
如何在树视图标题中“创建”和“导入”按钮 Odoo 8 附近添加按钮？

我可以成功在表单视图标题或树视图行中添加按钮但我想在 Odoo 8 中创建和导入按钮附近的树视图标题中添加自定义按钮我该如何执行此操作我找到了解决我的问题的方法如果我使用我会替换创建按钮project project mo
gnuplot 动画 2D 矢量场

我正在尝试使用 gnuplot 制作 2D 矢量动画我想显示一行即一次显示一个向量我的数据结构如下它们x y u v 2 24448 0 270645 1 00 1 00 3 24448 0 270645 0 500 1 20 我可
android widget id 仅适用于当前widget

我可以获取当前的 widgetId 吗onUpdate 的方法AppWidgetProvider 我发现很多关于发送的帖子appWidgetId在意图字段中但我不明白在发送之前我必须在哪里获取它我没有找到在没有配置活动的情况下仅获取当前
检查一个类是否派生自泛型类

我的项目中有一个带有派生类的通用类 public class GenericClass
我们可以在密钥库中加载多个证书和密钥吗？

我们可以在密钥库中加载多个证书和密钥吗是否始终需要仅加载对即证书和密钥一起如果密钥库有多个证书和密钥当 Java SSL 尝试作为服务器建立连接时会选择哪一个尽管这取决于 KeyStore 类型但通常您可以在单个存储中存储多个私
如何获取图标名称的完整文件路径？

如何从 GNOME 中的图标名称获取完整文件路径 import gtk icon theme gtk icon theme get default icon info icon theme lookup icon my icon name
使用 JavaScript 以编程方式更新 Google 电子表格？

是否可以使用 JavaScript 从网页更新 Google 电子表格设想 1 用户登陆网页 2 JS脚本执行修改Google Spreadsheet 如何才能做到这一点这是可能的尽管我发现这很困难请参阅此处了解所有详细信息 ht
AngularJs - 修改输入格式的指令

我想做以下事情我的控制器模型中有一个日期对象我想让用户修改它应为用户提供两个输入字段第一个输入字段应修改日期另一个输入字段应修改时间两个输入字段应适用于相同的日期模型
UIImage 来自 NSString 中保存的字节

我正在尝试从实际上保存在 NSString 中的字节数组创建 UIImage 有人可以告诉我该怎么做吗这是我想做的事情 NSString sourceString mYActualBytesAREinHERe get the bytes
开始/停止图像视图旋转动画

我有一个开始停止按钮和一个我想要旋转的图像视图当我按下按钮时我希望图像开始旋转当我再次按下按钮时图像应该停止旋转我目前正在使用UIView动画但我还没有找到停止视图动画的方法我希望图像旋转但是当动画停止时图像不应返回到起
Rubberduck UI 子菜单被禁用

我刚刚在 Windows 10 操作系统上安装了 Rubberduck VBE 插件 v2 0 11 2453 MSIL 当我在 Excel 中打开启用宏的 Excel 工作簿并启动 VBA 编辑器时 Rubberduck 启动但 Rub
Android：尝试在空对象引用上调用虚拟方法“void android.widget.ListView.setAdapter(android.widget.ListAdapter)”

我正在尝试创建一个列表视图其中包含另一个活动中的图片和文本我不太专注于android编程所以基本上就像android编程的新手一样我在调试我的应用程序时遇到困难请帮我 Error Caused by java lang NullP
CUDA 估计 2D 网格数据的每块线程数和块数

首先我要说的是我已经仔细阅读了所有类似的问题确定每个块的线程和每个网格的块 https stackoverflow com questions 4391162 cuda determining threads per block blo

CUDA 估计 2D 网格数据的每块线程数和块数

CUDA 估计 2D 网格数据的每块线程数和块数 的相关文章

随机推荐

热门标签

CUDA 估计 2D 网格数据的每块线程数和块数的相关文章