如何使用 CUDA Thrust 执行策略覆盖 Thrust 的低级设备内存分配器

2023-12-23

我想重写低级CUDA设备内存分配器（实现为thrust::system::cuda::detail::malloc()），以便它在调用时使用自定义分配器而不是直接调用cudaMalloc()主机（CPU）线程。

这可能吗？如果可以的话，是否可以使用Thrust的“执行策略”机制来做到这一点？我尝试过这样的模型：

struct eptCGA : thrust::system::cuda::detail::execution_policy<eptCGA>
{
};

/// overload the Thrust malloc() template function implementation
template<typename eptCGA> __host__ __device__ void* malloc( eptCGA, size_t n )
{
#ifndef __CUDA_ARCH__
    return MyMalloc( n );   /* (called from a host thread) */
#else
    return NULL;            /* (called from a device GPU thread) */
#endif
}


/* called as follows, for example */
eptCGA epCGA;
thrust::remove_if( epCGA, ... );

这有效。但 Thrust 的其他组件调用低级 malloc 实现，似乎没有使用“执行策略”机制。例如，

    thrust::device_vector<UINT64> MyDeviceVector( ... );

不公开带有“执行策略”参数的重载。相反，malloc() 在 15 个嵌套函数调用的底部被调用，使用的执行策略似乎硬连线到调用堆栈中间某处的 Thrust 函数之一。

有人可以澄清我所采取的方法是如何不正确的，并解释一个可行的实施应该做什么？

这是对我有用的东西。您可以一次性创建使用自定义 malloc 的自定义执行策略和分配器：

#include <thrust/system/cuda/execution_policy.h>
#include <thrust/system/cuda/memory.h>
#include <thrust/system/cuda/vector.h>
#include <thrust/remove.h>

// create a custom execution policy by deriving from the existing cuda::execution_policy
struct my_policy : thrust::cuda::execution_policy<my_policy> {};

// provide an overload of malloc() for my_policy
__host__ __device__ void* malloc(my_policy, size_t n )
{
  printf("hello, world from my special malloc!\n");

  return thrust::raw_pointer_cast(thrust::cuda::malloc(n));
}

// create a custom allocator which will use our malloc
// we can inherit from cuda::allocator to reuse its existing functionality
template<class T>
struct my_allocator : thrust::cuda::allocator<T>
{
  using super_t = thrust::cuda::allocator<T>;
  using pointer = typename super_t::pointer;

  pointer allocate(size_t n)
  {
    T* raw_ptr = reinterpret_cast<T*>(malloc(my_policy{}, sizeof(T) * n));

    // wrap the raw pointer in the special pointer wrapper for cuda pointers
    return pointer(raw_ptr);
  }
};

template<class T>
using my_vector = thrust::cuda::vector<T, my_allocator<T>>;

int main()
{
  my_vector<int> vec(10, 13);
  vec.push_back(7);

  assert(thrust::count(vec.begin(), vec.end(), 13) == 10);

  // because we're superstitious
  my_policy policy;
  auto new_end = thrust::remove(policy, vec.begin(), vec.end(), 13);
  vec.erase(new_end, vec.end());
  assert(vec.size() == 1);

  return 0;
}

这是我的系统上的输出：

$ nvcc -std=c++11 -I. test.cu -run
hello, world from my special malloc!
hello, world from my special malloc!
hello, world from my special malloc!
hello, world from my special malloc!

你可以变得更喜欢并使用thrust::pointer<T,Tag>要合并的包装器my_policy成习惯pointer类型。这样就可以达到标记的效果my_vector的迭代器与my_policy而不是 CUDA 执行策略。这样，您就不必为每个算法调用提供显式执行策略（如示例中调用thrust::remove）。相反，Thrust 只需查看类型即可知道使用您的自定义执行策略my_vector的迭代器。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 CUDA Thrust 执行策略覆盖 Thrust 的低级设备内存分配器的相关文章

从 .Net 将简单数据插入 Excel 文件的最简单方法

我有一个 Excel 文件大约有 10 列和 1 20 行我需要插入 1 20 行包含各种数据元素我想知道是否有一种方法可以将一些标签放入 Excel 文件中以便可以找到并替换它们将列标记为名称的东西这样我就可以在代码中说
禁用除滚动之外的 DataGridView

我如何配置 datagridview 以便用户只能在行中移动并使用滚动而没有其他如果我禁用网格不允许我使用滚动将您的 datagridview 设置为只读这将禁用任何编辑 dataGridView1 ReadOnly true 在你
将语句插入 SQL Server 数据库

最近几天我试图找到这个错误但没有成功我正在尝试在数据库中插入一个新行一切都很顺利没有错误也没有程序崩溃 My INSERT声明如下 INSERT INTO Polozaj Znesek Uporabnik Cas Kupec Po
当我尝试使用 AVX 功能时，Clang 生成错误

我使用的是 Windows 10 使用 Clang 版本 5 最近安装当我编译以下内容时 define AVX define AVX2 include
首先EntityFramework数据库 - 类型映射 - 将binary(8)从SQL映射到C#中的int

在 SQL 内部我有一个主键为二进制 8 的表当我使用该表添加到我的模型中时Update Model from Database我可以看到该列有 type Binary 在 C 中我将该列设为byte 我可以将该列映射到 int 吗
Type_traits *_v 变量模板实用程序顺序无法编译

看过了这个答案 https stackoverflow com a 31763111 7151494 我试图想出一个变量模板从中获取代码的实用程序 template
使用正则表达式匹配以“Id”结尾的单词？

如何组合一个正则表达式来匹配以 Id 结尾的单词并进行区分大小写的匹配试试这个正则表达式 w Id b w 允许前面的单词字符Id和 b确保Id位于单词末尾 b是字边界断言
我们应该使用 Eval 还是 Databind 事件？

当使用 Asp Net 并使用 ListView 等控件创建网站时使用 Eval 命令是一个好习惯吗还是应该在 databind 事件中填充文字和数据取决于您是否想在更新事件上写回数据在这种情况下数据绑定如果您只想读取该数据可以
在 C++ 中处理音频缓冲区时，如何执行从 float -> double -> float 的转换

我目前正在开发一个应用程序其中音频样本帧在以下回调中进行处理 void Eav07AudioProcessor processBlock AudioSampleBuffer buffer for int channel 0 channel
为什么在 .net 中使用 Invoke on Controls？ [复制]

这个问题在这里已经有答案了可能的重复为什么 NET不允许跨线程操作 https stackoverflow com questions 2896504 why net does not allow cross thread operat
IBM Watson 对话服务错误：无法从“方法组”转换为“conversation.onMessage”

我正在尝试运行 IBM Watson会话服务团结和下面是代码片段 https github com watson developer cloud unity sdk conversation private Conversation m C
在 C# 中生成随机值

如何使用以下命令生成随机 Int64 和 UInt64 值RandomC 中的类这应该可以解决问题这是一个扩展方法因此您可以像调用普通方法一样调用它Next or NextDouble上的方法Random目的 public stati
语义问题 Qt Creator：命名空间“std”中没有名为“cout”的成员

我开始使用 Qt Creator 编写代码对于 C 文件我遇到很多语义问题 99 是命名空间 yyy 中没有名为 xxx 的成员cpp文件构建编译和输出没有问题如果我点击例如cout 我已链接到 iostream 我是否需要在 Q
Unity 2.0 和处理 IDisposable 类型（特别是使用 PerThreadLifetimeManager）

我知道类似的问题被问过好几次例如 here https stackoverflow com questions 987761 how do you reconcile idisposable and ioc here https stac
检索 Autofac 容器以解析服务

在 C WindowForms 应用程序中我启动一个 OWIN WebApp 它创建另一个类 Erp 的单例实例 public partial class Engine Form const string url http 8080 49
printf 参数不足

我的问题是关于缺少参数的 printf 之后的行为 printf s blah blah d int integer was given as argument and not int written 我已经知道如果格式参数不足则行为是
为什么从绑定返回的对象会忽略额外的参数？

假设我有一个带有两个参数的函数 void f int x int y 我想绑定其中之一我可以用std bind如下 auto partiallyBoundF std bind f 10 1 partiallyBoundF仅需要一个参数但
Visual Studio 2015默认附加库

当我在 VS 2015 中创建一个空项目时它会自动将这些库放入附加依赖项中 kernel32 lib user32 lib gdi32 lib winspool lib comdlg32 lib advapi32 lib shell3
计算两个日期之间的工作日数？

在C 中如何计算business 或工作日两个日期之间的天数我以前曾经遇到过这样的任务并且我已经找到了解决方案当可以避免的时候我会避免列举其间的所有日子这里就是这种情况正如我在上面的一个答案中看到的那样我什至没有提到创建一
请解释为什么Java和C对此代码给出不同的答案

public class Test public static void main String args int i 10 i i System out println value of i is i 输出是 10 当我在中执行类似的代码

随机推荐

关于使用指针修改 const 变量的混乱

以下示例使我的理解更加混乱我无法理解如何修改本地 const 变量请帮助我理解同样的事情 Compile code without optimization option volatile c include
将带有通配符的参数传递给 Python 脚本

我想做这样的事情 c data gt python myscript py csv 并将目录中的所有 csv 文件传递给我的 python 脚本这样sys argv包含 file1 csv file2 csv etc But sys a
在 body 之前发送 head 以尽快加载 CSS 和 JS

我想知道是否有人找到了一种在渲染中间发送 head 标签的方法以便在页面渲染完成之前加载 CSS 和 Javascript 我们的页面大约需要 523 毫秒来呈现并且在收到页面之前不会加载资源我已经完成了很多 PHP 工作并且可以在
在 NTFS 上打开许多小文件太慢

我正在编写一个程序应该处理许多小文件比如说数千甚至数百万我一直在 500k 文件上测试该部分第一步只是迭代一个目录其中包含大约 45k 目录包括子目录的子目录等和 500k 小文件遍历所有目录和文件包括获取文件大小和计算总
在 C# 中创建自定义引导程序/引导加载程序

我们决定为我们的部署解决方案创建一个自定义引导程序我们目前正在重写和重新设计我们所有产品的部署策略遗憾的是我们都不是部署专家这是到目前为止我们所得到的答 MSI 包将在 InstallShield 中编写我们将使用 Instal
JNI_OnLoad 返回错误版本 (-1)

我试图在我的 Android 应用程序中加载 Qt5Core 库我得到了这个 JNI OnLoad returned bad version 1 in data data com xxx yyy lib libQt5Core so 0x4
WPF 中的 NumericUpDown 等效项很好吗？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在 WPF 中寻找一个简单的 NumericUpDown 又名数字微调器控件这似乎是WPF中另
CSR scipy 矩阵在更新其值后不会更新

我在 python 中有以下代码 import numpy as np from scipy sparse import csr matrix M csr matrix np ones 2 2 dtype np int32 print M
Python 读取文件超时

在Linux中有一个文件 sys kernel debug tracing trace pipe 顾名思义是一个管道因此假设我想使用 Python 读取其中的前 50 个字节我运行以下代码 sudo python c f open
Keycloak：从内部 docker 容器运行时令牌颁发者无效

我在配置 keycloak 在我们的服务器上运行时遇到一些问题在本地它工作得很好但在我们的测试环境中登录后在使用收到的访问令牌的任何调用中我们得到无效的令牌颁发者预期 http keycloak 8080 auth realm
makefile 中的 $(eval ) 导致配方在第一个目标错误之前开始

CFormat define Format File echo Formatting ifneq wildcard 1 echo if1 The default extensions for intermediate files are n
import 语句中的解构赋值

根据这个source https ponyfoo com articles es6 destructuring in depth以及在某个项目中看到过这种用法的模糊记忆我很好奇是否有人能够执行以下操作 import map series
如何阻止 WordPress 中的可视化编辑器更改代码？

每次我切换到 WordPress 中的可视化编辑器时它都会更改我的代码例如删除 br 我该如何阻止这个您不能在基础框架中不添加一些插件但是如果您想在可视化编辑器端进行简单的中断请使用 Shift Enter
如何使用 IE10 播放 HTML5 视频

我希望有人知道如何帮助我在本地 Intranet 上播放 HTML5 视频我的 Web 服务器 Windows Server 2008 R2 标准 64 位 IIS版本 IIS7 测试用户环境 Windows 7 Enterprise 使
将内联与显式成员约束相结合时出现奇怪的错误

更新我添加了一个重现示例代码如下所示 type Lib static member inline tryMe a a let name a static member name string name type Test struct
使用 @tffunction 的 Tensorflow2 警告

此示例代码来自 Tensorflow 2 writer tf summary create file writer tmp mylogs tf function tf function def my func step with write
如何禁用对JSP页面的GET请求？

我正在修复一些旧缺陷作为一个缺陷的一部分我需要确保某些请求仅 POST 到 JSP 页面而不是 GET 请求该应用程序有一个表单可以将数据提交到另一个 JSP 页面我知道它是错误的并且反对 MVC 但修复它已经太晚了因为它是一
在 R 中使用 igraph 绘制图形：边长与重量成正比

我需要为加权无向图绘制一个简单的图其中唯一的边位于单个中心节点和其他一些节点即星形网络拓扑之间所以我只需要我的节点等距即之间的角度相同每对连续的节点围绕中心节点但是我的边缘已加权我希望边缘长度与权重值成比例有什么方法可
Intellij IDEA构建的war文件位于哪里？

我正在使用 IntelliJ IDEA 每次运行时都会构建和部署 Web 应用程序项目所有这一切都在 IntelliJ IDEA 中神奇地发生但是现在我应该将其手动部署到测试服务器的 wildfly 上因此我需要一个工件文件 WAR
如何使用 CUDA Thrust 执行策略覆盖 Thrust 的低级设备内存分配器

我想重写低级CUDA设备内存分配器实现为thrust system cuda detail malloc 以便它在调用时使用自定义分配器而不是直接调用cudaMalloc 主机 CPU 线程这可能吗如果可以的话是否可以使用Thrus

如何使用 CUDA Thrust 执行策略覆盖 Thrust 的低级设备内存分配器

如何使用 CUDA Thrust 执行策略覆盖 Thrust 的低级设备内存分配器 的相关文章

随机推荐

热门标签

如何使用 CUDA Thrust 执行策略覆盖 Thrust 的低级设备内存分配器的相关文章