了解 Thrust (CUDA) 内存使用情况

2024-01-25

我正在使用 cuda/thrust 库进行一些蒙特卡罗模拟。这在一定数量的模拟中效果很好，在模拟中我得到了 bad_alloc 异常。这看起来没问题，因为我的代码中越来越多的模拟意味着要处理越来越大的 device_vectors。所以我预计这种异常会在某个时候出现。

我现在想做的是根据 GPU 上的可用内存设置模拟数量的上限。然后，我可以将工作负载分成多个模拟。

因此，在启动我的一组模拟之前，我一直在尝试确定问题的大小。不幸的是，当我试图通过简单的例子来理解内存的管理方式时，我得到了令人惊讶的结果。

这是我一直在测试的代码示例：

#include <cuda.h>
#include <thrust/system_error.h>
#include <thrust/device_vector.h>
#include <thrust/execution_policy.h>
#include <cuda_profiler_api.h>

int main() 
{
    size_t freeMem, totalMem;

    cudaDeviceReset();
    cudaSetDevice(0);

    cudaMemGetInfo(&freeMem, &totalMem);
    std::cout << "Total Memory | Free Memory "<< std::endl;
    std::cout << totalMem << ", " << freeMem << std::endl;

    thrust::device_vector<float> vec1k(1000, 0);

    cudaMemGetInfo(&freeMem, &totalMem);
    std::cout << totalMem << ", " << freeMem << std::endl;

    thrust::device_vector<float> vec100k(100000, 0);

    cudaMemGetInfo(&freeMem, &totalMem);
    std::cout << totalMem << ", " << freeMem << std::endl;

    thrust::device_vector<float> vec1M(1000000, 0);

    cudaMemGetInfo(&freeMem, &totalMem);
    std::cout << totalMem << ", " << freeMem << std::endl;

    return 0;
}

这是我得到的结果：

Total Memory | Free Memory
2147483648, 2080542720
2147483648, 2079494144
2147483648, 2078445568
2147483648, 2074382336

所以，基本上，

1,000 个元素向量（加上所需的所有其他内容）使用 1,048,576 字节
100,000 个元素向量也使用 1,048,576 字节！
1,000,000 个元素向量使用 4,063,232 字节。

我原本预计内存使用量会随着元素数量的增加而大致变化，但当我预期为“10x”时，却得到了“4x”，并且这种关系在 1,000 到 100,000 个元素之间不成立。

所以，我的两个问题是：

谁能帮我理解这些数字？
如果我无法估计我的代码将使用的适当内存量，那么确保我的程序适合内存的好策略是什么？

Edit

根据 Mai Longdong 的评论，我尝试使用两个向量，一个是 262144 个浮点（4 字节），另一个是 262145 个。不幸的是，事情看起来并不像直接的“每 1MB 页面分配”：

第一个向量的大小（262144 个浮点数）：1048576 字节
第二个向量的大小（262145 个浮点数）：1179648 字节

两者之间的增量为 131072 字节（或 128 KB）。页面大小会是可变的吗？这有道理吗？

Thrust 对内存管理没有什么神奇的作用，默认的分配器只是cudaMalloc，您所看到的是正在工作的驱动程序内存管理器页面大小选择算法。这没有记录，也没有迹象表明平台和硬件版本之间的行为是一致的。

也就是说，如果我将您的代码扩展为更有用的东西：

#include <iostream>
#include <vector>
#include <thrust/system_error.h>
#include <thrust/device_vector.h>
#include <thrust/execution_policy.h>

void report_mem(size_t allocd, bool first=false)
{
    size_t freeMem, totalMem;
    cudaMemGetInfo(&freeMem, &totalMem);
    if (first) 
        std::cout << "Allocated | Total Memory | Free Memory "<< std::endl;
    std::cout << allocd << ", " << totalMem << ", " << freeMem << std::endl;
}

int main() 
{
    cudaSetDevice(0);

    report_mem(0, true);
    std::vector<size_t> asizes;
    const int nallocs = 10;
    for(int i=0; i < nallocs; i++) asizes.push_back(1<<14);
    for(int i=0; i < nallocs; i++) asizes.push_back(1<<16);
    for(int i=0; i < nallocs; i++) asizes.push_back(1<<18);
    for(int i=0; i < nallocs; i++) asizes.push_back(1<<20);
    for(int i=0; i < nallocs; i++) asizes.push_back(1<<22);

    typedef thrust::device_vector<float> dvecf_t;
    std::vector<dvecf_t*> allocs;
    auto it = asizes.begin();
    for(; it != asizes.end(); ++it) {
        dvecf_t* v = new dvecf_t(*it);
        allocs.push_back(v);
    report_mem(v->capacity() * sizeof(float));
    }
    return 0;
}

并在 Windows 64 位的计算 2.1 设备上运行它，我得到：

Allocated | Total Memory | Free Memory 
0, 1073741824, 1007849472
65536, 1073741824, 1006800896
65536, 1073741824, 1006800896
65536, 1073741824, 1006800896
65536, 1073741824, 1006800896
65536, 1073741824, 1006800896
65536, 1073741824, 1006800896
65536, 1073741824, 1006800896
65536, 1073741824, 1006800896
65536, 1073741824, 1006800896
65536, 1073741824, 1006800896
262144, 1073741824, 1005752320
262144, 1073741824, 1005752320
262144, 1073741824, 1005752320
262144, 1073741824, 1005752320
262144, 1073741824, 1004703744
262144, 1073741824, 1004703744
262144, 1073741824, 1004703744
262144, 1073741824, 1004703744
262144, 1073741824, 1003655168
262144, 1073741824, 1003655168
1048576, 1073741824, 1002606592
1048576, 1073741824, 1001558016
1048576, 1073741824, 1000509440
1048576, 1073741824, 999460864
1048576, 1073741824, 998412288
1048576, 1073741824, 997363712
1048576, 1073741824, 996315136
1048576, 1073741824, 995266560
1048576, 1073741824, 994217984
1048576, 1073741824, 993169408
4194304, 1073741824, 988975104
4194304, 1073741824, 984780800
4194304, 1073741824, 980586496
4194304, 1073741824, 976392192
4194304, 1073741824, 972197888
4194304, 1073741824, 968003584
4194304, 1073741824, 963809280
4194304, 1073741824, 959614976
4194304, 1073741824, 955420672
4194304, 1073741824, 951226368
16777216, 1073741824, 934449152
16777216, 1073741824, 917671936
16777216, 1073741824, 900894720
16777216, 1073741824, 884117504
16777216, 1073741824, 867340288
16777216, 1073741824, 850563072
16777216, 1073741824, 833785856
16777216, 1073741824, 817008640
16777216, 1073741824, 800231424

我将其解释为表明在我测试的平台上分配粒度为 1MiB（1048576 或 2^20 字节）。您的平台可能有所不同。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

了解 Thrust (CUDA) 内存使用情况的相关文章

在 cudaFree() 之前需要 cudaDeviceSynchronize() 吗？

CUDA 版本 10 1 帕斯卡 GPU 所有命令都发送到默认流 void ptr cudaMalloc ptr launch kernel lt lt lt gt gt gt ptr cudaDeviceSynchronize Is th
我什么时候应该从正在观察持久模型类的正在关闭的 ViewController 类中调用removeObserver：forKeyPath？

我有一个ViewController具有一个属性的类该属性是我想要观察模型属性变化的模型在我的模型对象中我有一个在应用程序后台定期更新的属性当它更新时我需要在我的内部执行代码ViewController 为此我从我的模型中创建了
cuda中内核的并行执行

可以说我有三个全局数组它们已使用 cudaMemcpy 复制到 GPU 中但 c 中的这些全局数组尚未使用 cudaHostAlloc 分配以便分配页面锁定的内存而不是简单的全局分配 int a 100 b 100 c 100 cu
静态方法是否会立即编译（JIT）？

根据我的理解 CLR 编译器对实例方法和静态方法的处理方式相同并且每当首次调用该方法时 IL 代码都会进行 JIT 编译今天我和同事讨论了他告诉我静态方法与实例方法的处理方式不同即静态方法在程序集加载到应用程序域后立即进行 JIT
CUDA、NPP 滤波器

CUDA NPP 库支持使用 nppiFilter 8u C1R 命令过滤图像但不断出现错误我可以毫无问题地启动并运行 boxFilterNPP 示例代码 eStatusNPP nppiFilterBox 8u C1R oDeviceS
[[NSMutableDictionary alloc] initWithObjects:...] 和 [NSMutableDictionary DictionaryWithObjects:...] 之间的区别？

仍在学习 Objective C iPhone SDK 我想我知道为什么这不起作用但我只是想确认一下 In awakeFromNib 如果我使用 NSMutableDictionary alloc initWithObjects 它实际上
C++中delete和delete[]的区别[重复]

这个问题在这里已经有答案了可能的重复 C 中的删除与删除运算符 https stackoverflow com questions 2425728 delete vs delete operators in c 我写了一个包含两个指针的
默认析构函数做了多少事情

C 类中的默认析构函数是否会自动删除代码中未显式分配的成员例如 class C public C int arr 100 int main void C myC new C delete myC return 0 删除 myC 会自动释放
C++中const对象位于哪个内存区域？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
C# 中字典的内存使用情况

我有一些代码添加了嵌套字典格式如下 Dictionary
Swift C 回调 - Swift 类指针的 takeUnretainedValue 或 takeRetainedValue

我有一些UIView or UITableViewCell 里面我有 C 回调例如 CCallback bridge self observer data gt Void in let mySelf Unmanaged
C++ new int[0]——它会分配内存吗？

一个简单的测试应用程序 cout lt lt new int 0 lt lt endl outputs 0x876c0b8 所以看起来确实有效标准对此有何规定分配空内存块总是合法的吗从5 3 4 7 当直接新声明符中的表达式的值为零
Objective C UIImagePNGRepresentation内存问题（使用ARC）

我有一个基于 ARC 的应用程序它从 Web 服务加载大约 2 000 个相当大 1 4MB 的 Base64 编码图像它将 Base64 解码后的字符串转换为 png图像文件并将其保存到磁盘这一切都是在一个循环中完成的我不应该有任
为什么我不应该对不是由 malloc() 分配的变量调用 free() ？

我在某处读到使用它是灾难性的free删除不是通过调用创建的对象malloc 这是真的为什么这是未定义的行为永远不要尝试它让我们看看当您尝试时会发生什么free 自动变量堆管理器必须推断出如何获取内存块的所有权为此它要么必须使
指针数组与元素数组

今天早上我和一位同事就这个话题进行了讨论他说将数组分配为指针数组总是更好因为单独分配每个元素更有机会获得空闲内存块有点像这样 Consider n elements as a dynamic value int n elements
cuda 文件组织的有效方式：.cpp .h .cu .cuh .curnel 文件

cuda最容易理解最高效的代码组织是什么经过一番调查后我发现 cuda 函数声明应位于 cuh 文件中实现位于 cu 文件中内核函数实现位于 curnel 文件中其他 C 内容通常在 cpp 和 h 文件中最近我发布了一个问题
在 Windows Vista 和 Windows 7 上使用 HEAP_NO_SERIALIZE 的堆内存函数速度减慢约 100 倍的原因

我正在尝试追踪 Windows Vista 和 Windows 7 中堆内存功能的巨大减慢我没有在任何服务器版本上进行测试这种情况在 Windows XP 上根本不会发生只会在 Microsoft 较新的操作系统上发生我最初在 Wi
PyInstaller 是否包含 CUDA

我正在开发一个Python脚本我使用Python 3 7 3 它使用tensorflow gpu 1 14 0 并使用PyInstaller 3 5将此脚本转换为可执行文件我使用的是 CUDA 10 0 和 cuDNN 7 6 1 我的
cudaDeviceScheduleBlockingSync 和 cudaDeviceScheduleYield 之间有什么区别？

正如这里所说如何减少 CUDA 同步延迟延迟 https stackoverflow com questions 11953722 how to reduce cuda synchronize latency delay 等待设备结果有
一段简单的代码，在 GC 下运行良好，但在 ARC 中开始崩溃

我有以下简单的检查我的应用程序是否设置为在登录时启动代码它在垃圾收集下工作得很好然而自从我开始使用 ARC 并插入了 bridge 根据需要代码开始随机且不可预测地崩溃根据堆栈跟踪代码在某些期间崩溃CFRelease 有什么

随机推荐

使用 Java 验证 CSV 文件

我正在逐行读取文件如下所示 FileReader myFile new FileReader File file BufferedReader InputFile new BufferedReader myFile Read the fi
DDS - 推荐哪一种 - OpenSplice 还是 CoreDX？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我需要 C winform 应用程序和 android 本机应用程序来使用 DDS 数据分发服务每个人都可以是订阅者和作者对我来说重要的是
Socket.io 自定义客户端 ID

我正在使用 socket io 制作一个聊天应用程序并且我想使用我的自定义客户端 ID 而不是默认的客户端 ID 8411473621394412707 1120516437992682114 有没有什么方法可以在连接时发送自定义标识符
如何使用 ObjectMapper 在没有默认构造函数的情况下反/序列化不可变对象？

我想使用 com fasterxml jackson databind ObjectMapper 序列化和反序列化一个不可变对象不可变类看起来像这样只有 3 个内部属性 getter 和构造函数 public final class I
Reveal JS 无法在幻灯片中滚动

我正在使用 Reveal JS 进行演示如果我在标签中放置更多文本它就会隐藏在屏幕下方但右侧没有滚动条想知道我是否可以修复 css 以引入垂直滚动条并通过滚动使隐藏内容可见这是要更改的CSS 我认为 reveal slides s
Sql Server 2008 MERGE - 获取计数的最佳方法

我想知道你们会推荐什么作为从 Sql Server 中的 MERGE 语句获取操作计数的最佳方法因此即我运行一个 MERGE 它执行一些插入一些更新和一些删除我希望能够找出有多少插入多少更新和多少删除最好的方法是什么您可以在
从头开始构建一个快速的私人文章语义MySQL搜索引擎

我正在开展一个项目其中涉及全文 and semantic搜索网站内的文章如果无法合并用户可以选择任一选项这些文章是订阅式的只有登录后才能搜索因此外部搜索引擎或其 API 无法访问它们我读过有关狮身人面像的文章 http www
Django Python Rest框架，Chrome中请求的资源上不存在“Access-Control-Allow-Origin”标头，适用于Firefox

我研究并阅读了很多关于同一问题的 Stackoverflow 帖子没有人解决我的问题我的问题是我在控制台中收到请求的资源上不存在 Access Control Allow Origin 标头错误我在用 Chrome 版本 57 0
将可设置动画的项目添加到 Flatlist 水平项目中

我有如下所示的水平水平列表我试图在向右滑动时以及当新项目在视图中可见时添加反弹效果 const Item title image index gt
Android 应用程序中的 Google Plus 共享

我从早上起就一直在尝试在 google plus 流上发布内容但它没有发布 deeplinkid 中指定的所有内容只有 setText 内的内容才会发布这是我的代码 Intent shareIntent new PlusShare B
在詹金斯管道中复制工件

我有一个 Jenkins 管道作业在第一阶段归档工件然后我需要在管道构建的另一个阶段复制该工件 node stage Stage 1 of build Run tests if successful archive the artifa
Firebase 查询：为什么在以下代码中的值查询之前调用 child_added ？

我在 Firebase 中有一个架构如下所示 messages groupId messageId message Sample Message createdBy userID createdAt 1513337977055 然后我在代
log4j2 错误无法识别的格式说明符 [t]

我有一个在 Tomcat 8 上运行的 Web 应用程序的 log4j2 配置文件如下所示
Azure sql server 备份到 Azure blob - CherrySafe 替换 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我是 Azure SQL 服务器的新手尝试了解如何每天将 Azure SQL 数据库备份到 Azur
如何添加仅在卸载时发生的 WiX 自定义操作（通过 MSI）？

我想修改 MSI 安装程序通过创建WiX http en wikipedia org wiki WiX 在卸载时删除整个目录我明白了RemoveFile and RemoveFolderWiX 中的选项但这些选项不够强大无法递归删除
未找到 i386 架构的 Facebook 符号

尝试在 xcode 4 中编译我的项目时出现以下错误在 xcode 3 x 中工作正常 Undefined symbols for architecture i386 OBJC CLASS FBSession referenced fro
在 TypeScript 中扩展与实现纯抽象类

假设我有一个纯抽象类即没有任何实现的抽象类 abstract class A abstract m void 就像在 C 和 Java 中一样我可以extend抽象类 class B extends A m void But unlik
在 JavaScript 中将所选项目置于数字选择器小部件内的中心

前提我很难弄清楚如何制作数字选择器小部件行为类似于移动选择器组件 https developer android com guide topics ui controls pickers 如果用户默认分配一个号码则selected页面加
get_by_id() 将不会返回模型实例

我有一个名为 Version 的模型如下所示 from google appengine ext import db import piece class Version db Model A particular version of
了解 Thrust (CUDA) 内存使用情况

我正在使用 cuda thrust 库进行一些蒙特卡罗模拟这在一定数量的模拟中效果很好在模拟中我得到了 bad alloc 异常这看起来没问题因为我的代码中越来越多的模拟意味着要处理越来越大的 device vectors 所以我预

了解 Thrust (CUDA) 内存使用情况

了解 Thrust (CUDA) 内存使用情况 的相关文章

随机推荐

热门标签

了解 Thrust (CUDA) 内存使用情况的相关文章