内存复制速度对比 CPU<->GPU

2024-01-20

我现在正在学习 boost::compute openCL 包装库。我的复制过程非常慢。

如果我们将 CPU 到 CPU 的复制速度调整为 1，那么 GPU 到 CPU、GPU 到 GPU、CPU 到 GPU 复制的速度有多快？

我不需要精确的数字。只要有一个大概的想法就会有很大的帮助。例如，CPU-CPU 的速度至少比 GPU-GPU 快 10 倍。

没有人回答我的问题。所以我编写了一个程序来检查复制速度。

#include<vector>
#include<chrono>
#include<algorithm>
#include<iostream>
#include<boost/compute.hpp>
namespace compute = boost::compute;
using namespace std::chrono;
using namespace std;

int main()
{
    int sz = 10000000;
    std::vector<float> v1(sz, 2.3f), v2(sz);
    compute::vector<float> v3(sz), v4(sz);

    auto s = system_clock::now();
    std::copy(v1.begin(), v1.end(), v2.begin());
    auto e = system_clock::now();
    cout << "cpu2cpu cp " << (e - s).count() << endl;

    s = system_clock::now();
    compute::copy(v1.begin(), v1.end(), v3.begin());
    e = system_clock::now();
    cout << "cpu2gpu cp " << (e - s).count() << endl;

    s = system_clock::now();
    compute::copy(v3.begin(), v3.end(), v4.begin());
    e = system_clock::now();
    cout << "gpu2gpu cp " << (e - s).count() << endl;

    s = system_clock::now();
    compute::copy(v3.begin(), v3.end(), v1.begin());
    e = system_clock::now();
    cout << "gpu2cpu cp " << (e - s).count() << endl;
    return 0;
}

我预计 gpu2gpu 复制会很快。但相反，在我的例子中，cpu2cpu 是最快的，而 gpu2gpu 却很慢。（我的系统是 Intel I3 和 Intel(R) HD Graphics Skylake ULT GT2。）也许并行处理是一回事，复制速度是另一回事。

cpu2cpu cp 7549776
cpu2gpu cp 18707268
GPU2GPU CP 65841100
gpu2cpu cp 65803119

我希望任何人都能从这个测试程序中受益。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

opencl

GPU

memcpy

boostcompute

内存复制速度对比 CPU<->GPU 的相关文章

如何使用 eclipse Nsight 仅使用一个 GPU 调试 CUDA

我收到错误所有 cuda 设备均用于显示在调试时无法使用使用Ubuntu 有没有什么方法可以使用 Nsight eclipse 仅使用一个 GPU 进行调试我见过类似的解决方案 sudo 服务 lightdm 停止杀死 X 但这也
为什么程序（全局）作用域变量必须是 __constant？

我是 OpenCL 新手对这个限制感到非常困惑例如如果我想写一个LCG 我必须使状态字可以修改为rand and srand 在 ANSI C 中我将使用以下方法来做到这一点 ANSI C static unsigned long
如何在 Docker 容器内运行 OpenCL + OpenGL？

目的是在 Docker 容器内运行 OpenCL OpenGL 互操作应用程序但我还没有成功 Intro 我有配备 NVidia 显卡的笔记本电脑因此我认为利用 NVidia Dockerfiles 1 2 将是一个很好的起点以下
为什么会有 CL_DEVICE_MAX_WORK_GROUP_SIZE？

我试图了解 OpenCL 设备例如 GPU 的体系结构但我不明白为什么本地工作组中的工作项数量有明确的限制即常量 CL DEVICE MAX WORK GROUP SIZE 在我看来这应该由编译器处理即如果为简单起见一维内
在 python docker 镜像上使用 GPU

我正在使用一个python 3 7 4 slim busterdocker 镜像我无法更改它我想知道如何使用我的英伟达 GPU on it 我通常用一个tensorflow tensorflow 1 14 0 gpu py3并用一个简单
如何在C++中的cudaDeviceReset()之后重用tensorflow？

我正在使用 C 开发一个大型 CUDA 应用程序该应用程序运行各种模型需要完全释放所有 GPU 内存否则其他操作将失败我能够在关闭所有 tf 会话并运行 cudaDeviceReset 后释放所有内存但之后我无法运行任何新的张量流
多个进程可以共享一个 CUDA 上下文吗？

这个问题是 Jason R 的后续问题comment https stackoverflow com questions 29964392 multiple cuda contexts for one device any sense co
C# - 获取 GPU 的总使用百分比

我正在向我的程序添加一些新功能这些功能当前通过串行连接将 CPU 使用情况和 RAM 使用情况发送到 Arduino 请参阅this https create arduino cc projecthub thesahilsaluja cp
在 Mac OS X 10.7.4 上使用 OpenCL 禁用 Nvidia 看门狗

我有一个 OpenCL 程序对于小问题运行良好但是当运行较大的问题超过 Nvidia 硬件上运行内核的 8 10 秒时间限制时虽然我没有将显示器连接到我正在计算的 GPU Nvidia GTX580 上但一旦内核运行大约 8 10
当复制联合对象时，是否会创建成员子对象？

当访问联合体的另一个成员时 C 标准过去对发生的情况保持沉默但这一点已被修复以解释允许对联合对象的成员访问是为了分配给该尚不存在的对象这会神奇地通过分配给对象或其成员之一来创建对象本质上成员访问运算符返回未来对象的承诺您必须将其
iOS 上的 OpenCV - GPU 使用情况？

我正在尝试开发一个 iOS 应用程序可以对来自相机的视频执行实时效果就像 iPad 上的 Photobooth 一样我熟悉 OpenCV 的 API 但如果大多数处理是在 CPU 上完成而不是在 GPU 上完成我担心 iOS 上的性
Linux 上的 OpenCL 编译

我是 OpenCL 的新手从昨天开始我尝试使用 OpenCL 进行并行编程而不是使用我更熟悉且以前体验过的 CUDA 现在我有 NVIDIA GTX 580 GPU Ubuntu Linux 12 04 操作系统和 CUDA SDK
使用 memcpy 复制二维数组？

所以我想将二维数组的内容复制到另一个完全相同类型的数组以下是数组的创建方式 GridUnit newGrid newGrid new GridUnit width for int i 0 i lt width i newGrid i ne
无法满足显式设备规范“/device:GPU:0”，因为没有匹配的设备

我想在我的 Ubuntu 14 04 机器上使用 TensorFlow 0 12 作为 GPU 但是当将设备分配给节点时我收到以下错误 InvalidArgumentError see above for traceback Canno
OpenCL 何时使用全局、私有、本地、常量地址空间

我正在尝试学习 OpenCL 但我很难决定使用哪些地址空间因为我只找到组装的资源声明这些地址空间是什么但没有声明它们为什么存在或何时使用它们资源至少太分散了所以带着这个问题我希望把所有这些信息汇总一下所有地址空间是什么它们为什么
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
如何使用movntdqa避免缓存污染？

我正在尝试编写一个 memcpy 函数该函数不会将源内存加载到 CPU 缓存中目的是避免缓存污染下面的 memcpy 函数可以工作但会像标准 memcpy 一样污染缓存我正在使用带有 Visual C 2008 Express 的
将 nvidia 运行时添加到 docker 运行时

我正在运行虚拟机GCP配备特斯拉 GPU 并尝试部署一个PyTorch基于应用程序使用 GPU 加速我想让 docker 使用这个 GPU 可以从容器访问它我设法在主机上安装了所有驱动程序并且该应用程序在那里运行良好但是当我尝试在
错误：分配具有形状的张量时出现 OOM

在使用 Apache JMeter 进行性能测试期间我面临着初始模型的问题错误分配形状为 800 1280 3 和类型的张量时出现 OOM 通过分配器浮动在 job localhost replica 0 task 0 device
OpenCL 内核在 Nvidia GPU 上每个线程使用多少寄存器？

我的第一个问题是如何获取 Nvidia GPU 上 OpenCL 内核代码的寄存器使用信息因为 nvcc 编译器给出了相同的使用信息nvcc ptxas options vCUDA 内核代码的标志我还从 AMD GPU for Open

随机推荐

sed 使用：预期上下文地址

我用sedmacOS 上的命令包含以下文本 cat pets txt This is my cat my cat s name is betty This is your dog your dog s name is frank This
Swift 3.0 迁移后 Alamofire 错误：“Call 中存在额外参数”（请求方法）

我目前正在将我的代码库更新到 Swift 3 0 并且我正在使用 Alamofire 因此我必须将 Alamofire 更新到 4 0 Alamofire git repo 我有一个从服务器获取数据的请求方法在迁移之前它运行得非常好
在 Ruby 中将数组转换为哈希值的最佳方法是什么

在 Ruby 中给定以下形式之一的数组 apple 1 banana 2 apple 1 banana 2 将其转换为以下形式的哈希的最佳方法是什么 apple gt 1 banana gt 2 只需使用Hash array variab
opencv中有哪些常量（代码）可用

在调用Opencv函数时通常会提供一个常量给函数调用例如 im hsv cv2 cvtColor im cv2 COLOR BGR2HSV 虽然我找不到所有可用常量的参考 Opencv 发行版下载 250MB 不包含constants
有没有办法在编译时计算整数类型的宽度？

整数类型或任何类型的大小以单位为单位char bytes 很容易计算为sizeof type 一个常见的习语是乘以CHAR BIT查找类型占用的位数但在具有填充位的实现中这将不等于width在值位中更糟糕的是代码如下 x gt
React Native：无法添加没有 YogaNode 或父节点的子节点

刚开始学习react native 我创建了一个单独的文件 flexdemo js 并创建了组件如下所示 import React Component from react import View from react native ex
如何使用 LinkedIn Javascript API 获取电子邮件地址字段？

我正在使用 LinkedIn Javascript API 让用户登录到我的应用程序但是即使我需要该特定字段的权限该 API 也不会返回电子邮件地址我将 API 脚本包含在内如下所示然后我在标记中包含登录按钮
我在 Swift 中不断收到此错误。 “一行中的连续声明必须用‘;’分隔”

这是我的代码非常感谢您的帮助谢谢这是用 Swift 在 Xcode 中编写的我不断收到错误消息一行中的连续声明必须用分隔 import UIKit class View Controller UIViewController I
如何在 Django-auth 生成的页面中启用 https？

使用Django auth https docs djangoproject com en 1 3 topics auth 应用程序 Django 版本 1 3 我想让我的登录页面转到https mysite com login 目前我正
HTTP 错误 500.50 - URL 重写模块错误 - Microsoft.Web.Iis.Rewrite.Providers

我的电脑上出现此错误尝试在 IIS Express 上从 Visual Studio 2015 运行应用程序但本地 IIS 上也是如此 HTTP Error 500 50 URL Rewrite Module Error System
不同 attr 中定义的指令 attr 内的回调函数

所以我有这个指令叫做说 mySave 差不多就是这样 app directive mySave function http return function scope element attrs element bind click fun
TPL任务如何将中间结果发送给父线程？

我正在使用 TPL 需要长时间运行的 TPL 任务将结果发送到父 UI 线程而不终止我尝试了几种方法并且进行了很多谷歌搜索有谁知道如何通过 TPL 实现这一点您可以传递一个委托来调用定期结果以及SynchronizationCon
引起原因：java.lang.SecurityException：“gps”位置提供程序需要 ACCESS_FINE_LOCATION 权限

我已经设置了权限为什么我仍然收到此错误引起原因 java lang SecurityException gps 位置提供程序需要 ACCESS FINE LOCATION 权限我的清单内容
如何在pyqt4中的Qt Designer中使用promote to？

在设计器中当我右键单击一个小部件然后单击升级时我会看到此窗口请参阅下面的屏幕截图我从来没有使用过这个功能基本上头文件让我感到困惑它是做什么用的这是否意味着我可以在这种情况下创建一个新类继承 QLineEdit 并向其
如何使用 Document.createTextNode 避免对 <、> 和& 进行编码

class XMLencode public static void main String args try DocumentBuilderFactory factory DocumentBuilderFactory newInstanc
c 中指针类型转换如何工作

据我了解在c中指针指向内存地址在下面的代码中 char cp someType up Assuming that someType is a union of size 16 bytes cp sbrk nu sizeof someT
Sklearn 字符串的余弦相似度，Python

我正在编写一个算法来检查一个字符串与另一个字符串的相等程度我正在使用 Sklearn 余弦相似度我的代码是 from sklearn feature extraction text import TfidfVectorizer from
SceneKit 不会缩放动态主体

我有一个动态物体的球体我想对这个球体的比例进行动画处理使其尺寸增大 let sphere SCNNode geometry SCNSphere radius 1 scene rootNode addChildNode sphere sp
Haskell 棘手的空间溢出

尝试运行此代码时遇到空间溢出我已经注释掉了我已经尝试过的更改 LANGUAGE BangPatterns import System IO hFlush stdout import System Environment getArgs i
内存复制速度对比 CPU<->GPU

我现在正在学习 boost compute openCL 包装库我的复制过程非常慢如果我们将 CPU 到 CPU 的复制速度调整为 1 那么 GPU 到 CPU GPU 到 GPU CPU 到 GPU 复制的速度有多快我不需要精确的数

内存复制速度对比 CPU<->GPU

内存复制速度对比 CPU<->GPU 的相关文章

随机推荐

热门标签