数组大小和复制性能

2024-01-20

我确信这个问题之前已经得到了回答，但我找不到一个好的解释。

我正在编写一个图形程序，其中管道的一部分将体素数据复制到 OpenCL 页面锁定（固定）内存。我发现这个复制过程是一个瓶颈，并对一个简单的性能进行了一些测量std::copy。数据是浮动的，我想要复制的每个数据块的大小约为 64 MB。

这是我在尝试进行基准测试之前的原始代码：

std::copy(data, data+numVoxels, pinnedPointer_[_index]);

Where data是一个浮点指针，numVoxels是一个无符号整数并且pinnedPointer_[_index]是引用固定 OpenCL 缓冲区的浮点指针。

由于我的性能很慢，所以我决定尝试复制较小的数据部分，看看我获得了什么样的带宽。我使用 boost::cpu_timer 进行计时。我尝试运行它一段时间，并平均运行数百次，得到类似的结果。这是相关代码以及结果：

boost::timer::cpu_timer t;                                                    
unsigned int testNum = numVoxels;                                             
while (testNum > 2) {                                                         
  t.start();                                                                  
  std::copy(data, data+testNum, pinnedPointer_[_index]);                      
  t.stop();                                                                   
  boost::timer::cpu_times result = t.elapsed();                               
  double time = (double)result.wall / 1.0e9 ;                                 
  int size = testNum*sizeof(float);                                           
  double GB = (double)size / 1073741842.0;                                    
  // Print results  
  testNum /= 2;                                                               
}

Copied 67108864 bytes in 0.032683s, 1.912315 GB/s
Copied 33554432 bytes in 0.017193s, 1.817568 GB/s
Copied 16777216 bytes in 0.008586s, 1.819749 GB/s
Copied 8388608 bytes in 0.004227s, 1.848218 GB/s
Copied 4194304 bytes in 0.001886s, 2.071705 GB/s
Copied 2097152 bytes in 0.000819s, 2.383543 GB/s
Copied 1048576 bytes in 0.000290s, 3.366923 GB/s
Copied 524288 bytes in 0.000063s, 7.776913 GB/s
Copied 262144 bytes in 0.000016s, 15.741867 GB/s
Copied 131072 bytes in 0.000008s, 15.213149 GB/s
Copied 65536 bytes in 0.000004s, 14.374742 GB/s
Copied 32768 bytes in 0.000003s, 10.209962 GB/s
Copied 16384 bytes in 0.000001s, 10.344942 GB/s
Copied 8192 bytes in 0.000001s, 6.476566 GB/s
Copied 4096 bytes in 0.000001s, 4.999603 GB/s
Copied 2048 bytes in 0.000001s, 1.592111 GB/s
Copied 1024 bytes in 0.000001s, 1.600125 GB/s
Copied 512 bytes in 0.000001s, 0.843960 GB/s
Copied 256 bytes in 0.000001s, 0.210990 GB/s
Copied 128 bytes in 0.000001s, 0.098439 GB/s
Copied 64 bytes in 0.000001s, 0.049795 GB/s
Copied 32 bytes in 0.000001s, 0.049837 GB/s
Copied 16 bytes in 0.000001s, 0.023728 GB/s

复制 65536-262144 字节的块时存在明显的带宽峰值，并且带宽比复制整个阵列高得多（15 vs 2 GB/s）。

知道这一点后，我决定尝试另一件事并复制完整的数组，但使用重复调用std::copy其中每个调用只处理数组的一部分。尝试不同的块大小，这些是我的结果：

unsigned int testNum = numVoxels;                                             
unsigned int parts = 1;                                                       
while (sizeof(float)*testNum > 256) {                                         
  t.start();                                                                  
  for (unsigned int i=0; i<parts; ++i) {                                      
    std::copy(data+i*testNum, 
              data+(i+1)*testNum, 
              pinnedPointer_[_index]+i*testNum);
  }                                                                           
  t.stop();                                                                   
  boost::timer::cpu_times result = t.elapsed();                               
  double time = (double)result.wall / 1.0e9;                                  
  int size = testNum*sizeof(float);                                           
  double GB = parts*(double)size / 1073741824.0;                              
  // Print results
  parts *= 2;                                                                 
  testNum /= 2;                                                               
}      

Part size 67108864 bytes, copied 0.0625 GB in 0.0331298s, 1.88652 GB/s
Part size 33554432 bytes, copied 0.0625 GB in 0.0339876s, 1.83891 GB/s
Part size 16777216 bytes, copied 0.0625 GB in 0.0342558s, 1.82451 GB/s
Part size 8388608 bytes, copied 0.0625 GB in 0.0334264s, 1.86978 GB/s
Part size 4194304 bytes, copied 0.0625 GB in 0.0287896s, 2.17092 GB/s
Part size 2097152 bytes, copied 0.0625 GB in 0.0289941s, 2.15561 GB/s
Part size 1048576 bytes, copied 0.0625 GB in 0.0240215s, 2.60184 GB/s
Part size 524288 bytes, copied 0.0625 GB in 0.0184499s, 3.38756 GB/s
Part size 262144 bytes, copied 0.0625 GB in 0.0186002s, 3.36018 GB/s
Part size 131072 bytes, copied 0.0625 GB in 0.0185958s, 3.36097 GB/s
Part size 65536 bytes, copied 0.0625 GB in 0.0185735s, 3.365 GB/s
Part size 32768 bytes, copied 0.0625 GB in 0.0186523s, 3.35079 GB/s
Part size 16384 bytes, copied 0.0625 GB in 0.0187756s, 3.32879 GB/s
Part size 8192 bytes, copied 0.0625 GB in 0.0182212s, 3.43007 GB/s
Part size 4096 bytes, copied 0.0625 GB in 0.01825s, 3.42465 GB/s
Part size 2048 bytes, copied 0.0625 GB in 0.0181881s, 3.43631 GB/s
Part size 1024 bytes, copied 0.0625 GB in 0.0180842s, 3.45605 GB/s
Part size 512 bytes, copied 0.0625 GB in 0.0186669s, 3.34817 GB/s

看起来减小块大小实际上有显着的效果，但我仍然无法达到接近 15 GB/s 的速度。

我运行 64 位 Ubuntu，GCC 优化没有太大区别。

为什么阵列大小会以这种方式影响带宽？
OpenCL 固定内存是否起作用？
优化大型数组副本的策略是什么？

我很确定您遇到了缓存抖动。如果你用你写入的数据填充缓存，下一轮，需要一些数据，缓存将不得不从内存中读取该数据，但首先它需要在缓存中找到一些空间 - 因为所有数据[或者至少其中很多]是“脏的”，因为它已经被写入，需要写出到RAM。接下来，我们向缓存写入一个新的数据位，这会抛出另一位脏数据（或我们之前读入的数据）。

在汇编程序中，我们可以通过使用“非临时”移动指令来克服这个问题。上交所指令movntps例如。该指令将“避免在缓存中存储内容”。

编辑：您还可以通过不混合读取和写入来获得更好的性能 - 使用 4-16KB 的小缓冲区 [固定大小数组]，并将数据复制到该缓冲区，然后将该缓冲区写入您想要的新位置。同样，理想情况下使用非临时写入，因为即使在这种情况下，这也会提高吞吐量 - 但仅使用“块”来读取然后写入，而不是读一个，写一个，会快得多。

像这样的事情：

   float temp[2048]; 
   int left_to_do = numVoxels;
   int offset = 0;

   while(left_to_do)
   {
      int block = min(left_to_do, sizeof(temp)/sizeof(temp[0]); 
      std::copy(data+offset, data+offset+block, temp);                      
      std::copy(temp, temp+block, pinnedPointer_[_index+offet]);                      
      offset += block;
      left_to_do -= block;
   }

尝试一下，看看是否会有所改善。它可能不会...

Edit2：我应该解释一下，这更快，因为您每次都重复使用相同位的缓存来加载数据，并且通过不混合读取和写入，我们可以从内存本身获得更好的性能。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数组大小和复制性能的相关文章

如何进行带有偏差的浮点舍入（始终向上或向下舍入）？

我想以偏置舍入浮动要么总是向下要么总是向上代码中有一个特定的点我需要这个程序的其余部分应该像往常一样四舍五入到最接近的值例如我想四舍五入到最接近的 1 10 倍数最接近 7 10 的浮点数约为 0 69999998807 但
为什么基类必须有一个带有 0 个参数的构造函数？

这不会编译 namespace Constructor0Args class Base public Base int x class Derived Base class Program static void Main string a
捕获 foreach 条件中抛出的异常

我有一个foreach在 foreach 本身的条件下循环期间中断的循环有没有办法try catch抛出异常然后继续循环的项这将运行几次直到异常发生然后结束 try foreach b in bees exception is in
Blazor 与 Razor

随着 Blazor 的发明我想知道这两种语言之间是否存在显着的效率无论是在代码创建方面还是在代码的实际编译执行方面 https github com SteveSanderson Blazor https github com Ste
使用实体框架从集合中删除项目

我正在使用DDD 我有一个 Product 类它是一个聚合根 public class Product IAggregateRoot public virtual ICollection
std::map 和二叉搜索树

我读过 std map 是使用二叉搜索树数据结构实现的 BST 是一种顺序数据结构类似于数组中的元素它将元素存储在 BST 节点中并按其顺序维护元素例如如果元素小于节点则将其存储在节点的左侧如果元素大于节点则将其存储在节点的右侧
如何在 VS 中键入时显示方法的完整文档？

标题非常具有描述性是否有任何扩展可以让我看到我正在输入的方法的完整文档我想查看文档因为我可以在对象浏览器中看到它其中包含参数的描述和所有内容而不仅仅是一些摘要当然可以选择查看所有覆盖它可能是智能感知的一部分或者我不知道它并
如何用 kevent() 替换 select() 以获得更高的性能？

来自Kqueue 维基百科页面 http en wikipedia org wiki Kqueue Kqueue 在内核和用户空间之间提供高效的输入和输出事件管道因此可以修改事件过滤器以及接收待处理事件同时每次主事件循环迭代仅使用对
单元测试失败，异常代码为 c0000005

我正在尝试使用本机单元测试项目在 Visual Studios 2012 中创建单元测试这是我的测试 TEST METHOD CalculationsRoundTests int result Calculations Round 1 0
为什么 FTPWebRequest 或 WebRequest 通常不接受 /../ 路径？

我正在尝试从 ftp Web 服务器自动执行一些上传下载任务当我通过客户端甚至通过 Firefox 连接到服务器时为了访问我的目录我必须指定如下路径 ftp ftpserver com AB00000 incoming files
两组点之间的最佳匹配

I ve got two lists of points let s call them L1 P1 x1 y1 Pn xn yn and L2 P 1 x 1 y 1 P n x n y n 我的任务是找到它们点之间的最佳匹配以最小化它
事件日志写入错误

很简单我想向事件日志写入一些内容 protected override void OnStop TODO Add code here to perform any tear down necessary to stop your serv
将 MySQL 结果作为 PHP 数组

mysql 表 config name config value allow autologin 1 allow md5 0 当前的 php 代码 sth mysql query SELECT rows array while r mysq
JavaScript 数组扩展语法的时间复杂度是多少？

我想知道在 JavaScript 中使用数组扩展的时间复杂度是多少是线性 O n 还是常数 O 1 下面的语法示例 let lar Math max nums 传播称为 Symbol iterator 有关对象的属性对于数组这将迭代数
UWP 无法在两个应用程序之间创建本地主机连接

我正在尝试在两个 UWP 应用程序之间设置 TCP 连接当服务器和客户端在同一个应用程序中运行时它可以正常工作但是当我将服务器部分移动到一个应用程序并将客户端部分移动到另一个应用程序时 ConnectAsync 会引发异常服务器未
通过等待任务或访问其 Exception 属性都没有观察到任务的异常

这些是我的任务我应该如何修改它们以防止出现此错误我检查了其他类似的线程但我正在使用等待并继续那么这个错误是怎么发生的呢通过等待任务或访问其 Exception 属性都没有观察到任务的异常结果未观察到的异常被终结器线程重新抛出
如何检测 C# 中该字典键是否存在？

我正在使用 Exchange Web 服务托管 API 和联系人数据我有以下代码即功能性的但并不理想 foreach Contact c in contactList string openItemUrl https service
为什么我使用google'smtp'无法发送电子邮件？

我有以下程序使用 smtp gmail com 587 发送电子邮件 namespace TestMailServer class Program static void Main string args MailMessage mail
热重载时调用方法

我正在使用 Visual Studio 2022 和 C 制作游戏我想知道当您热重新加载应用程序当它正在运行时时是否可以触发一些代码我基本上有 2 个名为 UnloadLevel 和 LoadLevel 的方法我想在热重载时执行它
Swagger 为 ASP.CORE 3 中的字典生成错误的 URL

当从查询字符串中提取的模型将字典作为其属性之一时 Swagger 会生成不正确的 URL 如何告诉 Swagger 更改 URL 中字典的格式或手动定义输入参数模式而不自动生成尝试使用 Swashbuckle 和 NSwag 控制器 pu

随机推荐

控制器 @Mixin 在重新编译正在运行的应用程序后才起作用

在我最新的 grails 2 3 0 项目中我使用的是 Mixin混合辅助类的注释以保持我的controller更干如果在控制器内进行了一些更改以强制重新编译控制器则 mixin 才可以工作初始编译后 grails run app
C中的printf如何对浮点数进行舍入？

我正在尝试实施printf我想知道如何printf对浮点数进行舍入因为我找不到一般规则例如如果输入 gt printf f 1f 2f 5f 12f 0 000099 0 000099 0 000099 0 000099 0 0000
Spring Integration jdbc:inbound-channel-adapter - 将 max-rows-per-poll 动态设置为节流

我有一个 JDBC inbound channel adapter 设置 max rows per poll 动态以限制在通道上传递的消息我有一个容量为 200 的 QueueChannel 入站通道适配器会将消息发送到此 QueueCh
以编程方式切换复选框

我有一个需要检查不可检查的项目的 ListView 我已经设置了一个 ArrayAdapter 当前使用 android R layout simple list item multiple choice 作为行并且所有内容都显示得很好
如何使用 Javascript 获取网站上所有可用图片 URL 的列表？

我很好奇 DownThemAll 是如何做到这一点的他们使用 JavaScript 吗如何使用 Javascript 获取网站中所有 url 的列表使用集合 Links document links href Images docum
在箱线图中添加每组的观察数

继这个问题之后如何在 ggplot2 箱线图中添加每组的观察数量并使用组平均值 https stackoverflow com questions 15660829 我想添加每组的观察数量ggplot箱线图也是如此但我添加了一种颜色ae
Emacs Org 模式：执行简单的 python 代码

如何在 Emacs 的 Org 模式下执行非常简单的 Python 代码第一个示例工作正常但是我无法让它给出最简单计算的结果 works begin src python def foo x if x gt 0 return x 10
原型范围不起作用

我在应用程序中创建了一个原型作用域 bean 并使用 setter 将其注入到另一个 bean 中但是当我在类中使用注入的 bean 时它总是使用相同的实例而不是每次都使用新实例这是代码的快照
如何更改选项卡栏项目的默认灰色？

我尝试更改默认的灰色Tab Bar项目但 Xcode 发现错误我使用了一些代码该代码是 import UIKit extension UIImage func makeImageWithColorAndSize color UICol
paypal 10544 网关拒绝错误的原因

您好请告诉我 paypal DoDirectPayment 10544 Gateway Decline 错误的可能原因我查了很多资料都找不到原因首先是强制性的愚蠢的人类把戏问题您确定您使用的卡是有效的信用卡吗如果您在现场而不
捕获 stdout 和 stderr 到管道

我想从子进程中读取 stderr 和 stdout 但它不起作用 main rs use std process Command Stdio use std io BufRead BufReader fn main let mut chil
如何更改 git 历史记录中的文件路径？

这是我所拥有的我的代码的 git 存储库 projects proj1 no git repo here yet subproj1 lt current git repo here 这就是我想要的一个 git 存储库它现在正在跟踪使用
显示 R 中函数的源代码[重复]

这个问题在这里已经有答案了我可以用lm or class knn查看源代码但我未能显示 princomp 的代码这个函数或其他东西是用 R 编写的还是使用了其他字节码我也无法使用来自的建议找到源代码如何显示包中 S4 函数的源代
理解 `k : Nat ** 5 * k = n` 签名

以下函数编译 onlyModByFive n Nat gt k Nat 5 k n gt Nat onlyModByFive n k 100 但有什么作用k以其代表Nat 5 k n syntax 另外我该如何称呼它这是我尝试过的但我
如何读取 web.config 文件中的 appSettings 部分？

我的 XML 看起来像这样文件名是web config
“cl”未被识别为内部或外部命令

下面是我在 windows7 中运行 scons 编译器时的错误消息 cl is not recognized as an internal or external command operable program or batch fil
使用 diff 手动合并两个文件

我想通过执行以下操作来合并两个文件将两个文件的差异输出到临时文件中并手动选择我想要复制保存的行这里的问题是diff u只给我一个文件行的上下文而我想以统一的格式输出整个文件有什么办法可以做到这一点吗一种可能适合您的选择 sdi
创建反应应用程序，重新加载不起作用

我刚刚开始使用 React 进行编码创建反应应用程序 https github com facebookincubator create react app 在文档中说如果您进行编辑页面将重新加载我不知道哪个模块负责自动重新加载 we
Textarea charCount - 防止用户粘贴

下面的代码工作正常只是如果我粘贴一个超过 10 个字符的字符串它应该只粘贴前 10 个字符目前还没有这样做如何防止粘贴超过 10 个字符 http jsfiddle net qfzkw 2 http jsfiddle net qfz
数组大小和复制性能

我确信这个问题之前已经得到了回答但我找不到一个好的解释我正在编写一个图形程序其中管道的一部分将体素数据复制到 OpenCL 页面锁定固定内存我发现这个复制过程是一个瓶颈并对一个简单的性能进行了一些测量std copy 数据是浮

数组大小和复制性能

数组大小和复制性能 的相关文章

随机推荐

热门标签

数组大小和复制性能的相关文章