在 Matlab 中快速加载大块二进制文件

2024-05-08

我有一些相当大的 int16 格式的数据文件（256 个通道，大约 75-1 亿个样本 = 每个文件约 40-50 GB 左右）。它以平面二进制格式编写，因此结构类似于：CH1S1，CH2S1，CH3S1 ... CH256S1，CH1S2，CH2S2，...

我需要分别读取每个通道，进行过滤和偏移校正，然后保存。我当前的瓶颈是加载每个通道，这大约需要 7-8 分钟……扩大到 256 倍，光是加载数据就需要近 30 个小时！我正在尝试智能地使用 fread，在读取每个通道时跳过字节；我在所有 256 个通道上循环使用以下代码来执行此操作：

offset = i - 1;
fseek(fid,offset*2,'bof');
dat = fread(fid,[1,nSampsTotal],'*int16',(nChan-1)*2);

仔细阅读，这通常是加载大型二进制文件的某些部分的最快方法，但是文件是否太大而无法更快地完成此操作？

我没有加载那么多数据...我正在使用的测试文件是 37GB，对于 256 个通道之一，我只为整个跟踪加载 149MB...也许是 fread 的“跳过”功能是次优的吗？

系统详细信息：MATLAB 2017a、Windows 7、64 位、32GB RAM

@CrisLuengo 的想法要快得多：本质上，对数据进行分块，加载每个块，然后将其拆分为单独的通道文件以节省 RAM。

下面是一些加载部分的代码，速度很快，不到 1 分钟：

% fake raw data
disp('building... ');
nChan = 256;
nSampsTotal = 10e6;
tic; DATA = rand(nChan,nSampsTotal); toc;
fid = fopen('rawData.dat','w');
disp('writing flat binary file... ');
tic; fwrite(fid,DATA(:),'int16'); toc;
fclose(fid);

% compute the number of samples and chunks
chunkSize = 1e6;
nChunksTotal = ceil(nSampsTotal/chunkSize);


%% load by chunks
t1 = tic;
fid = fopen('rawData.dat','r');
dat = zeros(nChan,chunkSize,'int16');
chunkCnt = 1;
while 1
    tic
    if chunkCnt <= nChunksTotal
        % load the data
        fprintf('Chunk %02d/%02d: loading... ',chunkCnt,nChunksTotal);
        dat = fread(fid,[nChan,chunkSize],'*int16');
    else
        break;
    end
    toc;
    chunkCnt = chunkCnt + 1;
end
t = toc(t1); fprintf('Total time: %4.2f secs.\n\n\n',t);
% Total time: 55.07 secs.
fclose(fid);

另一方面，通过跳过文件按通道加载大约需要 20 倍的时间，略多于 20 分钟：

%% load by channels (slow)
t1 = tic;
fid = fopen('rawData.dat','r');
dat = zeros(1,nSampsTotal);
for i = 1:nChan
    tic;
    fprintf('Channel %03d/%03d: loading... ');
    offset = i-1;
    fseek(fid,offset*2,'bof');
    dat = fread(fid,[1,nSampsTotal],'*int16',(nChan-1)*2);
    toc;
end
t = toc(t1); fprintf('Total time: %4.2f secs.\n\n\n',t);
% Total time: 1133.48 secs.
fclose(fid);

我还要感谢 Matlab 论坛上的 OCDER 提供的帮助：link https://www.mathworks.com/matlabcentral/answers/415545-loading-large-binary-files-in-matlab-quickly

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Matlab 中快速加载大块二进制文件的相关文章

PHP、in_array 和数组中的快速搜索（到最后）

我对在数组中进行快速搜索的更好方法有疑问我正在谈论一个特定的情况假设我有一个数组 L A B C 当我开始时当程序运行时 L 可能会增长但到最后当我进行搜索时一个可能的原因是 L A B C D E 事实是当我搜索时我想要找
badoo.com 用户搜索 - 如何做到这一点？

Badoo com 拥有 56 000 000 个用户个人资料个人资料可以按性别年龄发色生肖学历等进行搜索再加上距家乡的距离在线状态和注册日期到目前为止这似乎是可行的即使它是对巨大表 56m 成员的相当多的查询它也可
matplotlib savefig 性能，在循环内保存多个 png

我希望找到一种方法来优化以下情况我有一个使用 matplotlib 的 imshow 创建的大型等高线图然后我想使用此等高线图来创建大量 png 图像其中通过更改 x 和 y 限制以及长宽比每个图像都是等高线图像的一小部分因此
使用复选框来控制 Input.value （有一个令人讨厌的扭曲。）

几天来我一直在研究使用复选框控制 UI 的方法在 Stack 上一些成员的帮助下我已经取得了很大的进展但我的秃顶还没有完全停止我一直在尝试通过在 UI 控制器旁边包含一个数值来进一步调整我的代码片段该值稍后将在 web java
Java 增强型 For-Loop 比传统的更快？

所以我的理解是增强的 for 循环应该更慢因为它们必须使用迭代器但是我的代码提供了混合结果是的我知道循环逻辑占用了循环中花费的大部分时间对于少量迭代 100 1000 增强的 for 循环在使用和不使用 JIT 的情况下似乎都要
网页优化：为什么组合文件速度更快？

我读过将所有 css 文件合并为一个大文件或将所有脚本文件合并为一个脚本文件可以减少 HTTP 请求的数量从而加快下载速度但我不明白这一点我认为如果你有多个文件最多有一个限制我相信在现代浏览器上是 10 个浏览器会并行下载
在 MATLAB 中验证输入的最佳实践

在验证 MATLAB 函数中的输入时什么时候使用 inputParser 比使用断言更好或者还有其他更好的工具可用吗我个人发现使用 inputParser 不必要地复杂对于 Matlab 始终需要检查 3 项内容存在类型和范围
MATLAB 子图标题和轴标签

我有以下脚本来最终绘制 4 x 2 子图 files getAllFiles preliminaries n size files cases cell 1 n m cell 1 n for i 1 1 n S load files i c
用于读取csv写入数组的c++程序；然后操作并打印到文本文件中（已经用 matlab 编写）

我想知道是否有人可以帮助我我正在尝试构建一个程序从 csv 文件中读取大小未知的浮点数大数据块我已经在 MATLAB 中编写了此代码但想要编译和分发此代码因此转向 C 我只是在学习并尝试阅读本文以开始 7 5 19892 4 23
OpenMP 共享与第一私有性能比较

我有一个 pragma omp parallel for在类方法内循环每个线程只读访问很少的方法局部变量很少调用私有数据和方法的参数所有这些都在一个声明中声明shared条款我的问题性能方面不应该有任何区别声明这些变量share
您使用什么来通过其自定义协议来测试（功能/负载/压力）您的网络服务？

我最近创建了一个回合制游戏服务器可以接受数十万个并发客户端连接长话短说 Linux 上的 epoll 通信基于简单定制基于线路的协议该服务器允许客户端连接寻找游戏比赛中的其他玩家玩所述游戏发送动作聊天消息等并在游戏结束时
使用 Java-Large 文件查询 JSON 文件

我正在尝试使用 java 解析下面的 JSON 文件我需要能够按 ID 或名称或对象中的任何字段搜索文件也在字段中搜索空值搜索应返回整个对象该文件将会很大并且搜索应该仍然很省时 id 1 name Mark Robb last
通过左连接实现精确分页

我已经思考这个问题有一段时间了我认为最好四处询问并听听其他人的想法我正在构建一个在 Mysql 上存储位置的系统每个位置都有一个类型有些位置有多个地址表格看起来像这样 location location id autoincrem
系数函数速度慢

请考虑 Clear x expr Sum x i i 15 30 CoefficientList expr x Timing Coefficient Expand expr x 234 Timing Coefficient expr x 2
n的渐近增长选择下限(n/2)

如何找到 n select Floor n 2 的渐近增长我试过使用扩展并得到它等于 n n 1 floor n 2 1 n floor n 2 知道我该如何从那里去吗感谢任何帮助更喜欢提示而不是答案我同意上面的答案但想提供更多
如何找到 Ruby 应用程序中的性能瓶颈？

我编写了一个 Ruby 应用程序它可以解析来自不同格式 html xml 和 csv 文件的源的大量数据如何找出代码的哪些区域花费时间最长有没有关于如何提高 Ruby 应用程序性能的好资源或者您是否有始终遵循的性能编码标准例如您
在matlab中融合2个以上的图像

在 MATLAB 中如何融合两个以上的图像例如我想要做什么imfuse但对于超过 2 个图像使用两张图像这是我的代码 A imread file1 jpg B imread file2 jpg C imfuse A B blend
Python 中 Matlab 'fscanf' 的等价物是什么？

Matlab函数fscanf 似乎很强大 python 或numpy 中是否有相同的等效项具体来说我想从文件中读取矩阵但我不想迭代每一行来读取矩阵类似的东西来自 matlab 用于读取 2D 1000x1000 矩阵 matrix
公共领域还好吗？

在你像我最初那样做出直觉反应之前请阅读整个问题我知道它们让你感觉很脏我知道我们以前都被烧伤过我知道这不是好风格但是公共场所可以吗我正在开发一个相当大规模的工程应用程序该应用程序创建并使用结构的内存模型从高层建筑到桥梁再到棚
调整 Oracle 数据库以加快启动速度（闪回）

我正在使用 Oracle 数据库 11 2 我有一个场景我发出FLASHBACK DATABASE经常似乎有一个FLASHBACK DATABASECycle 会重新启动数据库实例大约需要 1 分钟我的设置花了 7 秒数据库很小

随机推荐

HWND 子级的 WPF 渲染问题

我想可以肯定地说 WPF 将其内容呈现为窗口背景不存在传统 HWND 意义上的子窗口因此当人们在 WPF 应用程序中引入基于 HWND 的东西例如 Web 浏览器时视觉外观方面的事情就开始出错考虑一个窗口有一个带有两个子项的网
使用 Visual Studio 构建 R 包 (C API)

我正在尝试使用 Visual Studio 构建一个简单的 R 包这是我的代码 include
快递+护照+会话。为每个页面加载执行查询

我正在使用 Express 4 2 0 和 Passport 0 2 0 我使用的express session中间件是1 2 1 我对节点身份验证比较陌生所以请耐心等待我注意到对于每个页面加载护照正在执行数据库请求 Executi
尽管手册页有免责声明，为什么“strchr”似乎可以使用多字节字符？

From man strchr char strchr const char s int c strchr 函数返回一个指向字符 c 在字符串 s 中第一次出现的位置的指针这里字符的意思是字节这些函数不适用于宽字符或多字节字符不
如何快速将 Int16 转换为两个 UInt8 字节

我有一些二进制数据将两个字节值编码为有符号整数 bytes 1 255 0xFF bytes 2 251 0xF1 Decoding 这相当简单我可以提取一个Int16这些字节的值 Int16 bytes 1 lt lt 8 Int16
服务层或存储库中的密码哈希等？

作为 MVC 的最佳实践在发送到数据库之前处理密码散列加盐或数据格式化等事务的逻辑应该放在哪里我读到存储库应该仅用于处理数据访问的逻辑这是属于服务层的东西吗控制器这还重要吗我倾向于将散列放在存储库层中如果只是出于实际原因即
Visual Studio 2010 基类扩展编译器错误

我有一个 C 类提供一些简单的类和一些基类扩展例如这个 public static Boolean ToBooleanOrDefault this String s Boolean Default return ToBooleanOrD
Bundler 似乎无法通过 Rbenv 找到正确的 Ruby

多年来我一直使用 RVM 作为 Ruby 版本管理器但由于其简单性我想改用 rbenv 但是我在部署时发现了一些奇怪的问题这似乎是错误的地方 env RBENV ROOT home deploy rbenv PATH home dep
外部硬件指纹扫描仪和 Android 设备集成

我想建立一个android像员工考勤这样的应用程序使用fingerprint scanner 我想知道是否可以使用外部硬件设备进行指纹识别扫描如何将Android应用程序与外部硬件finger集成打印扫描设备如何从外部硬件设备获取
如何使用 Apple Map Kit 实现地址自动完成

我想自动填写用户的地址与 google api 在此链接中提供的地址相同 https developers google com maps documentation javascript places autocomplete hl e
以不同顺序对多列上的结构化 Numpy 数组进行排序

我有一个结构化的 numpy 数组 dtype price float counter int values 35 1 36 2 36 3 a np array values dtype dtype 我想按价格排序如果价格相等则按计数器排
如何删除导航视图不必要的顶部填充？

标题和图中显示的第一个项目之间有不必要的顶部填充如何将其去除你可以在这里找到源代码 https github com chrisbanes cheesesquare https github com chrisbanes cheeses
$mysqli->fetch_object($result) 不起作用

我正在学习mysqli 我正在尝试从表 tbllogin 中获取数据 DATABASE CONNECTION hostname p localhost database dbLogin username user1 password pwd
ansible 用户模块总是显示已更改

我正在努力正确使用 ansible 的用户模块问题是每次我运行我的剧本时我创建的用户always显示为已更改即使我已经创建了它们我在这里发现其他人也有同样的问题 https github com ansible ansible is
不重新渲染

我正在尝试在我的应用程序 Seam RichFaces 中显示购物车并包含从购物车中删除
如何禁用页眉和页脚 Selenium 打印

有谁知道如何在硒中打印时禁用页眉和页脚选项默认情况下设置为 true 有人知道如何解决这个问题吗谢谢你 import json import os from selenium import webdriver setting htm
nodejs googleapis，authClient.request 不是函数

我正在像这样的一个函数中创建一个 oauth2client 并返回它实际上我确实传递了客户端 ID 秘密重定向 URL 和凭据据我检查这些都是正确的 var OAuth2 google auth OAuth2 var oauth2
java.lang.IllegalArgumentException：预期唯一结果或 null，但得到多个！ - Spring Data Mongo

我在用着Spring Boot v2 2 2 RELEASE and Spring Data MongoDB 在此示例中我正在查找按部门代码执行组并获取该组下的所有员工样本数据 firstName Laxmi lastName Para
以有效的方式从 BigQuery 读取到 Spark 中？

使用时BigQuery 连接器 https cloud google com hadoop examples bigquery connector spark example要从 BigQuery 读取数据我发现它首先将所有数据复制到 G
在 Matlab 中快速加载大块二进制文件

我有一些相当大的 int16 格式的数据文件 256 个通道大约 75 1 亿个样本每个文件约 40 50 GB 左右它以平面二进制格式编写因此结构类似于 CH1S1 CH2S1 CH3S1 CH256S1 CH1S2 CH2S2

在 Matlab 中快速加载大块二进制文件

在 Matlab 中快速加载大块二进制文件 的相关文章

随机推荐

热门标签

在 Matlab 中快速加载大块二进制文件的相关文章