从 GPU 复制到 CPU 比将 CPU 复制到 GPU 慢

2023-12-10

我开始学习cuda有一段时间了，我遇到了以下问题

请看下面我的表现：

Copy GPU

int* B;
// ...
int *dev_B;    
//initialize B=0

cudaMalloc((void**)&dev_B, Nel*Nface*sizeof(int));
cudaMemcpy(dev_B, B, Nel*Nface*sizeof(int),cudaMemcpyHostToDevice);
//...

//Execute on GPU the following function which is supposed to fill in 
//the dev_B matrix with integers


findNeiborElem <<< Nblocks, Nthreads >>>(dev_B, dev_MSH, dev_Nel, dev_Npel, dev_Nface, dev_FC);

再次复制CPU

cudaMemcpy(B, dev_B, Nel*Nface*sizeof(int),cudaMemcpyDeviceToHost);

将数组 B 复制到 dev_B 只需要几分之一秒的时间。然而，将数组 dev_B 复制回 B 需要很长时间。

findNeiborElem 函数涉及每个线程的循环例如看起来像那样

__ global __ void findNeiborElem(int *dev_B, int *dev_MSH, int *dev_Nel, int *dev_Npel, int *dev_Nface, int *dev_FC){

    int tid=threadIdx.x + blockIdx.x * blockDim.x;
    while (tid<dev_Nel[0]){
        for (int j=1;j<=Nel;j++){
             // do some calculations
             B[ind(tid,1,Nel)]=j// j in most cases do no go all the way to the Nel reach
             break; 
        }
    tid += blockDim.x * gridDim.x; 
    }
}

非常奇怪的是，将 dev B 复制到 B 的时间与 j 索引的迭代次数成正比。

例如如果Nel=5那么时间大约是5 sec.

当我增加Nel=20时间大约是20 sec.

我希望复制时间应该独立于分配矩阵值所需的内部迭代dev_B.

另外，我预计从 CPU 复制相同矩阵到 CPU 的时间是相同的。

你知道出了什么问题吗？

您应该使用事件，而不是使用clock()来测量时间：

对于事件，你会得到这样的东西：

  cudaEvent_t start, stop;   // variables that holds 2 events 
  float time;                // Variable that will hold the time
  cudaEventCreate(&start);   // creating the event 1
  cudaEventCreate(&stop);    // creating the event 2
  cudaEventRecord(start, 0); // start measuring  the time

  // What you want to measure
  cudaMalloc((void**)&dev_B, Nel*Nface*sizeof(int));
  cudaMemcpy(dev_B, B, Nel*Nface*sizeof(int),cudaMemcpyHostToDevice);

  cudaEventRecord(stop, 0);                  // Stop time measuring
  cudaEventSynchronize(stop);               // Wait until the completion of all device 
                                            // work preceding the most recent call to cudaEventRecord()

  cudaEventElapsedTime(&time, start, stop); // Saving the time measured

EDIT：附加信息：

“内核启动在完成之前将控制权返回给 CPU 线程。因此，您的计时构造正在测量内核执行时间以及第二个 memcpy。当在内核之后计时复制时，您的计时器代码将立即执行，但是cudaMemcpy 在启动之前等待内核完成。这也解释了为什么数据返回的计时测量似乎会根据内核循环迭代而变化。它还解释了为什么在内核函数上花费的时间“可以忽略不计”。学分至罗伯特·克罗韦拉

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

performance

parallelprocessing

CUDA

GPU

从 GPU 复制到 CPU 比将 CPU 复制到 GPU 慢的相关文章

如何在自定义保存操作 WFFM 中获取 Sitecore.Current.Site 对象？

我在用着面向营销人员的 Sitecore 网络表单在里面save action我得到的表格Sitecore Context Site对象但该对象没有返回正确的上下文该值为 modules shell 有谁知道我如何才能获得正确的上下文
任务计划程序控制台输出在哪里？（C# 控制台应用程序）

我正在运行 C Windows 控制台应用程序并通过任务计划程序传递几个参数它全天运行将其他应用程序创建的平面文件数据加载到 SQL Server 中该程序间歇性失败并且我有 Try Catch 逻辑该逻辑使用 Console
递归显式模板实例化可能吗？

给定一个类似的模板 template
C++ 编译器可以对结构中的元素重新排序吗

C 编译器特别是 g 可以对结构体的内部元素重新排序吗我看到一些奇怪的行为其中我有一个包含如下内容的结构 Struct SomeStruct long someLong long someLongArray 25 unsigned l
Web API 复杂参数属性均为 null

我有一个 Web API 服务调用可以更新用户的首选项不幸的是当我从 jQuery ajax 调用中调用此 POST 方法时请求参数对象的属性始终为 null 或默认值而不是传入的值如果我使用 REST 客户端调用相同的方法我使
查找周边上的点来表示边界/形状

我有一个简单的二维网格其格式为myGrid x y 我正在尝试找到一种方法来找到所选网格周围的周长这样我就有了所选网格的形状这是我的意思的一个例子这里的想法是找到所有相关的角点也就是图像周边的红点放入一个列表中这样我就可以从
有了private修饰符，为什么可以直接访问其他对象中的成员呢？

我有以下代码 class A private int x public A x 90 A A a1 A a2 a1 x 10 a2 x 20 int getX return this gt x 我知道代码可能很奇怪但我不明白为什么a1 a
C# 委托实例化与仅传递方法引用 [重复]

这个问题在这里已经有答案了我有一个简单的问题与仅传递函数引用相比实例化 C 委托有什么优势我的意思是 Why do Thread t new Thread new ThreadStart SomeObject SomeMethod
本机 C++ 通过代理 C++ 托管 dll 使用 C# dll

这相当复杂所以请耐心听我说我有一个用本机仅限 Win32 C 编码的第 3 方程序目标作为目标设计的一部分它实现了一个 dll 插件系统本机 DLL 当放置在程序的 ext 目录中时由目标加载然后目标根据需要调用每个 D
C# 中 value 为匿名类型的字典

是否可以在 C 中创建一个System Collections Generic Dictionary
如何使用“std::array”作为“template class”形式的模板参数？

请考虑以下事项tree class template
将私有部分保留在 C++ 标头之外：纯虚拟基类与 pimpl

我最近从 Java 和 Ruby 切换回 C 令我惊讶的是当我更改私有方法的方法签名时我必须重新编译使用公共接口的文件因为私有部分也位于 h 文件中我很快想出了一个解决方案我想这对于 Java 程序员来说是典型的接口纯虚拟基类
在高负载站点中使用 PHP 的策略

在你回答这个问题之前我从未开发过任何足够流行的东西来达到高服务器负载把我当作叹气一个刚刚登陆地球的外星人尽管我了解 PHP 和一些优化技术我正在开发一个工具PHP如果效果好的话可以吸引相当多的用户然而虽然我完全有能力开发该
std::make_shared 作为默认参数无法编译

在 Visual C 2008 和 2010 中以下代码无法编译并出现以下错误 include
使用 openssl 库获取 x509 证书哈希

我目前正在开发一个应用程序它使用 openssl 库 libcrypto 来生成证书现在我必须获取现有证书的哈希值当我使用终端时我可以使用以下命令生成哈希值 openssl x509 hash in cert pem noout 输
如何从 MongoDB 中的 ChangeStream 过滤对特定字段的更新

我正在设置一个 ChangeStream 以便在集合中的文档发生更改时通知我以便我可以将该文档的 LastModified 元素更新插入到事件发生的时间由于此更新将导致 ChangeStream 上发生新事件因此我需要过滤掉这些更新以
对嵌套属性使用 XmlAttributeOverrides

我试图使用 XmlAttributeOverrides 来控制类序列化后哪些类属性出现在 xml 中它适用于根类上的属性但不适用于嵌套属性这是一个简单的例子来说明我想要完成的任务我的类层次结构如下 public class Ma
System.IndexOutOfRangeException：索引超出了数组的范围[重复]

这个问题在这里已经有答案了我正在开发一个 ATM 软件作为家庭作业我想知道今天处理的交易总量为此我编写了以下代码 public decimal getDayTransaction int accountid string date s
{ Qt5.0.2/QML/QtQuick2.0/C++ } 运行没有错误的示例项目？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我的设置是Qt5 0 2 MinGW 32位我在寻找 Qt5 0 2 QML QtQuick2 0 C 代码项目示例不是Qt Qu
如何获取打印机设备上下文？

我在 Windows 上尝试使用以下命令打印增强型图元文件 EMF 播放增强元文件 http msdn microsoft com en us library dd162800 28VS 85 29 aspx 我当前正在使用屏幕上窗口的设备

随机推荐

如何将用户凭据传递到 Kubernetes Pod 内的（用户限制的）安装卷？

我正在尝试通过 Kubernetes Secret 将用户凭据传递到 Kubernetes Pod 内已安装的受密码保护的目录 NFS 文件夹 mount protected有用户访问限制即只有某些用户可以访问此文件夹这是我的 Pod
简单的 NASM“启动程序”无法正确访问内存？

请注意当我说引导程序时我并不是指引导操作系统的程序我的意思是一个简单的程序当您启动计算机并执行某些操作时就会运行好吧所以我不是极其精通汇编 NASM 但我认为我对它有足够的掌握来编写简单的引导程序 Well I thought
为什么 QML 代码的更改有时在点击“运行”时没有反映出来？如何解决？

在这个 Qt Quick 简单示例中我希望当我向上移动 Racked 时我们会收到一条消息控制台日志当球拍向下移动时显示该运动和另一条消息我为此编写了这段代码 Racket qml import QtQuick 2 8 Rectang
有没有更有效的方法来处理 C# ASP.NET（尤其是 MVC 5）上的亚马逊产品广告 API？

我终于在我的 MVC 5 网站上使用了 Amazon 产品广告 API 我正在使用亚马逊网站的下载之一中提供的 SignedRequestHelper 类我实际上已经获得了 Amazon API 的参考但我目前似乎根本没有使用它到目前
最后的资源优化

我正在编写一个不支持两阶段提交的资源适配器我知道有一种优化技术称为最后资源优化在 JBoss 上您的 XAResource 类应该实现 LastResource 以便进行优化我的问题是如何在 WebLogic WebSpehre
Angularjs 将数组映射到另一个数组

我有两个数组 Users and 就业机会像这样 Users id 1 name ryan id 2 name Julie Employments user id 1 title manager user id 2 title Profes
如何重新启动 Robotium 中关闭的应用程序？

我开始自动化我的 Android 应用程序它有一个条款和条件屏幕在那里如果我点击衰退我的应用程序将被关闭如何在同一进程中重新启动或重新启动我的应用程序尝试这个 assuming this method is in a Ac
CSS 样式表不适用于自定义 QWidget

我想做的是将自定义 CSS 应用于派生自的自定义小部件QLabel但我没有运气我将自定义类定义为 class CustomLabel public QLabel 我还没有重新实现paintEvent鉴于标准我认为功能QLabel支持CS
Sugarcrm 8 XSRF

我已经备份了 Sugarcrm 版本 8 0 0 企业版的 ondemand 实例它对于 CRUD 记录和其他内容正常工作但是当我尝试通过 Zip 上传模块时它给出了以下错误 Cross Site Request Forgery XS
如何停止鼠标垂直滚动

我在网络浏览器中使用java脚本 Jquery 我制作了一个自定义水平滚动条它与鼠标滚轮或鼠标滚动一起使用通常鼠标滚动与垂直条一起使用所以它与我编程的水平滚动条冲突我不想完全删除竖线而只是在滚动鼠标时禁用竖线如果您有道理请提出
Django 查询：计算具有 FK 的对象数量以建模实例

这应该很容易但由于某种原因我找不到它我有以下内容 App models Model Release models Model date models DateTimeField App models ForeignKey App 如何查
延迟长度字符变量会导致内存泄漏，具体取决于优化级别

我在 Ubuntu 中使用 gfortran 8 4 和延迟长度字符变量如下例所示 PROGRAM test IMPLICIT NONE CHARACTER LEN ALLOCATABLE str str 10 END PROGRAM t
asp.net c# 中的动态 imageURL

目前我有这个
xpages 视图面板列多值分隔符

视图中有一列具有多值分隔符和新行但是当我将此视图拖放到我的 XPage 中时作为
动态 OR 过滤 - Slick

好的我有一个带有多个可选参数的方法如下所示 def username Option String petname Option String favouritefood Option String 我想编写一个动态查询它将能够以这种方
加载媒体时出错：jw_player Rails 中的文件无法播放错误

我正在使用下面提到的代码来播放本地磁盘上的视频但它不起作用而不是抛出错误加载媒体文件无法播放错误我已经提到了下面的代码我是这个 jw player 的新手所以请帮我解决这个问题提前致谢从下载 jwplayerhttp www
HTML 不显示带有 JLabel 的 Java Applet

当我执行与我的小程序关联的 HTML 文件时没有绘制任何内容并且屏幕是空的为什么会出现这种情况如何将字符串添加到 Applet 中 Java Applet 的源代码 package m2mcom web import m2mcom e
为什么没有 static_cast 会失败？

编译f有效但编译g因错误而失败为什么会出现这种情况 class A public A class B public A public B void f A a new A B b static cast
对象文字属性值简写

在创建 JavaScript 工厂函数时我被告知返回语法如下所示 function FF constructorArg var privateName constructorArg var publicMessage Hello Stac
从 GPU 复制到 CPU 比将 CPU 复制到 GPU 慢

我开始学习cuda有一段时间了我遇到了以下问题请看下面我的表现 Copy GPU int B int dev B initialize B 0 cudaMalloc void dev B Nel Nface sizeof int cud

从 GPU 复制到 CPU 比将 CPU 复制到 GPU 慢

从 GPU 复制到 CPU 比将 CPU 复制到 GPU 慢 的相关文章

随机推荐

热门标签

从 GPU 复制到 CPU 比将 CPU 复制到 GPU 慢的相关文章