提高处理具有 1 亿个元素的 ArrayList 时的速度和内存消耗

2024-02-04

我使用其中包含短字符串（10 位数字）的文本文件。文件大小约为1.5Gb，因此行数达到1亿行。

每天我都会收到另一个文件，需要提取新元素（每天数万个）。

解决我的问题的最佳方法是什么？

我尝试在 ArrayList 中加载数据 - 每个文件大约需要 20 秒，但数组的减法需要很长时间。

我使用这段代码：

dataNew.removeAll(dataOld);

尝试在 HashSet 中加载数据 - HashSet 的创建是无止境的。 LinkedHashset 也是如此。

尝试加载到 ArrayList 中并仅对其中之一进行排序

Collections.sort(dataNew);

但并没有加快这个进程

dataNew.removeAll(dataOld);

而且内存消耗相当高 - sort() 仅用 15Gb 的堆完成（13Gb 是不够的）。

我尝试使用旧的 linux util diff，它在 76 分钟内完成了任务（同时消耗了 8Gb 的 RAM）。

因此，我的目标是在 1 小时的处理时间（当然或更短）内解决 Java 中的问题，消耗 15Gb（或更好 8-10Gb）。

请问有什么建议吗？也许我不需要 ArrayList 的字母顺序排序，而是其他东西？

UPDATE:这是全国范围内无效护照的清单。它是作为全局列表发布的，所以我需要自己提取delta。

数据未排序，每行都是唯一的。所以我必须将 100M 元素与 100M 元素进行比较。数据线例如“2404,107263”。无法转换为整数。

有趣的是，当我将最大堆大小增加到 16Gb 时

java -Xms5G -Xmx16G -jar utils.jar

加载到 HashSet 变得很快（第一个文件需要 50 秒），但程序会被系统内存不足杀手杀死，因为它在将第二个文件加载到第二个 HashSet 或 ArrayList 时会消耗大量 RAM

我的代码很简单：

List<String> setL = Files.readAllLines(Paths.get("filename"));
HashSet<String> dataNew = new HashSet<>(setL);

在第二个文件上，程序得到

Killed

[1408341.392872]内存不足：杀死进程20538（java）分数489或牺牲孩子 [1408341.392874]杀死进程20531（java）total-vm：20177160kB，anon-rss：16074268kB，file-rss：0kB

UPDATE2:

感谢您的所有想法！

最终解决方案是：使用fastutil库（LongOpenHashSet）将行转换为Long +

RAM 消耗变为 3.6Gb，处理时间仅 40 秒！

有趣的观察。虽然使用默认设置启动 java 会导致无休止地加载 1 亿个字符串到 JDK 的本机 HashSet（我在 1 小时后中断），但从 -Xmx16G 开始将过程加速到 1 分钟。但内存消耗非常可笑（大约 20Gb），处理速度相当不错 - 2 分钟。

如果不受 RAM 限制，原生 JDK HashSet 在速度方面还不错。

附注也许这项任务没有明确解释，但我没有看到任何机会不完全加载至少一个文件。因此，我怀疑内存消耗是否可以进一步降低很多。

首先，不要做Files.readAllLines(Paths.get("filename"))然后将所有内容传递给Set，其中包含不必要的大量数据。任何时候尽量少排队。

逐行读取文件并进行处理。这会立即减少你的内存使用量。

Set<String> oldData = new HashSet<>();
try (BufferedReader reader = Files.newBufferedReader(Paths.get("oldData"))) {
    for (String line = reader.readLine(); line != null; line = reader.readLine()) {
        // process your line, maybe add to the Set for the old data?
        oldData.add(line);
    }
}

Set<String> newData = new HashSet<>();
try (BufferedReader reader = Files.newBufferedReader(Paths.get("newData"))) {
    for (String line = reader.readLine(); line != null; line = reader.readLine()) {
        // Is it enough just to remove from old data so that you'll end up with only the difference between old and new?
        boolean oldRemoved = oldData.remove(line);
        if (!oldRemoved) {
            newData.add(line);
        }
    }
}

您最终将得到两个集合，分别仅包含旧数据集中存在的数据或新数据集中存在的数据。

其次，如果可能的话，尝试预先调整容器的大小。当它们达到其容量时，它们的大小（通常）会加倍，这在处理大集合时可能会产生大量开销。

另外，如果您的数据是数字，您可以使用long并持有它，而不是试图持有实例String？有很多集合库可以让您做到这一点，例如Koloboke、HPPC、HPPC-RT、GS Collections、fastutil、Trove。甚至他们的收藏Objects作为标准可能会很好地为您服务HashSet有很多不必要的对象分配。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

提高处理具有 1 亿个元素的 ArrayList 时的速度和内存消耗的相关文章

用 @DataJpaTest 注释的测试不是用 @Autowired 注释的自动装配字段

我有一个 Spring Boot 应用程序其中包含 Spring Data Jpa 存储库我需要围绕这个存储库运行单元或组件测试我对 Spring Data Jpa 没有太多经验这是我的测试这很简单我无法让它通过 impor
MP3：一种以毫秒为单位获取任何给定字节位置的位置的方法？

我创建了一个 servlet 它返回从客户端请求的任何给定字节位置开始的流来自 MP3 文件这允许客户端在任何给定字节位置立即开始播放而无需进行任何本地查找现在我有一个滑块可以直观地显示进度我正在使用当前字节位置来更新滑块但是
如何从另一个xml文件动态更新xml文件？

我想从另一个 xml 文件更新 xml 文件我使用了一个 xml 文件如下所示 one xml
使用 Checkstyle Plugin 时从插件调用代码时出现问题：“org.eclipse.jface”

我正在尝试在 Rational Software Architect 7 0 0 4 上使用 eclipse cs 插件我最近卸载了旧的 beta2 版本并安装了 beta3 插件本身按照之前的配置工作但是每当我尝试通过 Windows
与简单的文件请求相比，您预计 Web 服务请求的响应时间开销是多少？

我正在开发一个 asp net Web 服务应用程序以向使用 jQuery ajax 发出请求的小部件提供 json 格式的数据我一直在使用 FireBug Net 视图来检查数据请求需要多长时间在我最初的原型中我只是请求静态 js
如何将 Spotlight for Help 插入本地化的 macOS 应用程序？

我正在 macOS 上使用 Swing GUI 框架实现 Java 应用程序当使用system外观和感觉以及screen菜单栏 Swing 自动插入一个搜索栏 called 聚光灯寻求帮助 https developer apple co
Spring Stomp over Websocket：流式传输大文件

我的SockJs客户端在网页中发送帧大小为16K的消息消息大小限制决定了我可以传输的文件的最大大小以下是我在文档中找到的内容 Configure the maximum size for an incoming sub protoco
使用 Java 在浏览器中下载 CSV 文件

我正在尝试在 Web 应用程序上添加一个按钮单击该按钮会下载一个 CSV 文件该文件很小大小仅约 4KB 我已经制作了按钮并附加了一个侦听器文件也准备好了我现在唯一需要做的就是创建单击按钮时下载 csv 文件的实际事件假设 fi
所有junit测试后的清理

在我的项目中我必须在所有测试之前进行一些存储库设置这是使用一些棘手的静态规则来完成的然而在所有测试之后我不知道如何进行清理我不想保留一些神奇的静态数字来引用所有测试方法的数量我应该一直维护它最受赞赏的方法是添加一些侦听器该侦
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
尝试在没有 GatewayIntent 的情况下访问消息内容

我希望每当我写一条打招呼的消息时机器人都会在控制台中响应一条消息但它只是给我一个错误 JDA MainWS ReadThread WARN JDA Attempting to access message content without
覆盖 MATLAB 默认静态 javaclasspath 的最佳方法

MATLAB 配置为在搜索用户可修改的动态路径之前搜索其静态 java 类路径不幸的是静态路径包含相当多非常旧的公共库因此如果您尝试使用新版本您可能最终会加载错误的实现并出现错误例如静态路径包含 google collectio
tomcat 过滤所有 web 应用程序

问题我想对所有网络应用程序进行过滤我创建了一个过滤器来监视对 apache tomcat 服务器的请求举例来说它称为 MyFilter 我在 netbeans 中创建了它它创建了 2 个独立的目录 webpages contain
从 html 页面和 javascript 调用 java webservice

我正在尝试从 javascript 调用 java 实现的 Web 服务使用 NetBeans IDE 我读过很多关于 jQuery 和 AJAX 的内容但我似乎无法掌握它假设我的 Web 服务 WSDL 位于 http localh
从 Java 日历迁移到 Joda 日期时间

以前当我第一次设计股票应用相关软件时我决定使用java util Date表示股票的日期时间信息后来我体会到了大部分方法java util Date已弃用因此很快我重构了所有代码以利用java util Calendar 然而
在 Selenium WebDriver 上如何从 Span 标签获取文本

在 Selenium Webdriver 上如何从 span 标记检索文本并打印我需要提取文本UPS Overnight Free HTML代码如下 div id customSelect 3 class select wrapper
使用 Java 从 S3 上的文件在 S3 上创建 zip 文件

我在 S3 上有很多文件需要对其进行压缩然后通过 S3 提供压缩文件目前我将它们从流压缩到本地文件然后再次上传该文件这会占用大量磁盘空间因为每个文件大约有 3 10MB 而且我必须压缩多达 100 000 个文件所以一个 z
Path2D 上的鼠标指针检测

我构建了一个Path2D http docs oracle com javase 7 docs api java awt geom Path2D html表示由直线组成的未闭合形状我希望能够检测何时单击鼠标并且鼠标指针靠近路径在几个像素
Java 编码风格、局部变量与重复方法调用

我更喜欢使用局部变量而不是多次调用同一方法 I prefer this Vehicle vehicle person getVehicle if vehicle instanceof Car Car car Car vehicle car
为什么这个函数在额外读取内存时运行速度如此之快？

我目前正在尝试了解 x86 64 上某些循环的性能属性特别是我的 Intel R Core TM i3 8145U CPU 2 10GHz 处理器具体来说在循环体内添加一条额外的指令来读取内存几乎可以使性能提高一倍而细节并不是特别重

随机推荐

作为 Android .apk 一部分的 Pdf 文件

我必须构建一个 Android 应用程序来显示 pdf 文件列表这些 pdf 文件应该受到保护换句话说应用程序的用户不应该能够通过任何方式复制剪切打印等获取 pdf 内容的副本我现在的问题是我应该如何将 pdf 文件的内
使用正则表达式标记字符串中的文本但排除链接

我有一个文本我希望当用户搜索某个术语时通过用标记标签包裹该术语来突出显示该术语 javascript 来包装匹配项 var sampleText window document getElementById test innerHTML
java - 使用基类实例在派生类中访问受保护的成员

我在派生类中创建了基类的实例并尝试访问受保护的成员我可以直接访问派生类中的受保护成员而无需实例化基类基类 package com core public class MyCollection protected Integer int
尝试在 Windows Phone 开发中心更新 XAP 时出错

我正在尝试提交 Windows Phone 应用程序的更新但是当我单击更新应用程序并选择相应的 xap 文件时出现以下错误消息 ScriptObject InvokeFailed 参数调试资源字符串不可用通常键和参数提供了足够
JSON 编码/解码 GTK 枚举

我必须将自定义 GTK 元素的各种属性保存到文件中以供将来使用并由于简单的格式和字典嵌套而决定使用 JSON 许多属性都是 GTK 枚举例如gtk PAGE ORIENTATION PORTRAIT gtk ANCHOR CENTER
C 中的整数溢出：标准和编译器

感谢 Carl Norum 的编辑以包含正确的标准参考 C 标准规定 If an 特殊情况发生在表达式求值期间即如果结果未在数学上定义或不在其类型的可表示值范围内则行为未定义是否有编译器开关可以保证整数溢出时的某些行为我想避免鼻
如何取消定义或删除 JavaScript 函数？

我定义了一个全局 Javascript 函数 function resizeDashBoardGridTable gridID var table document getElementById treegrid gridID 在使用这个函
是否有一种标准方法来为 Java EE 容器定义 JDBC 数据源？

我知道对于 JBoss 您需要在相应实例的 deploy 子目录中有一个 name ds xml 文件我没有任何使用其他 Java EE 容器的经验但我试图尽可能遵守标准是否有定义 JDBC 数据源并部署它的标准方法如果可能的话我
外部内联函数会发生什么？

如果我在 h 文件中将函数定义为 extern int returnaint void 在相关的 c 文件中将其定义为 inline int returnaint void return 1 并将标头包含在另一个 c 文件中并使用该函数当
适用于 html5 和 jquery 应用程序的条码扫描器

我正在一个项目中使用 Jquery 和 html 它是一个静态 Web 应用程序我需要一个 jquery 来读取产品中条形码扫描仪的条形码需要扫描条形码而不在屏幕的任何文本框中显示代码有人请给我一些想法或为我提供插件的链接如果有来
PHP 中 C# 的“List ”等价物是什么？

我正在使用一个 API 它要求我提供一个List
EF Code First：使用 Fluent API 映射非表对象

我应该如何使用 Fluent API 映射 EF Code First 中的重要对象例如视图 StoredProcedure 等代码优先中尚不支持映射到存储过程和 vew 这些是 Julia Lerman 的编程实体框架代码优先的一些
带有两个 ArrayList 的 Android ListView 适配器

In our chat app we want to use cool new Library SQLBrite https github com square sqlbrite to update chat on database cha
未找到特征“Illuminate\Foundation\Auth\Access\AuthorizesResources”

有人熟悉我遇到的这个错误吗请帮忙谢谢如果您使用 Laravel 5 3 请执行以下操作来自升级指南 AuthorizesResources Trait AuthorizesResources 特征已与 AuthorizesReques
VS 2012 / 2013 AccessViolationException

当我运行项目 F5 时我在 IDE 中收到以下异常 An unhandled exception of type System AccessViolationException occurred in System Windows For
仅包含单个 mp4 文件的 MPEG-DASH 视频流

我研究了一周寻找一种简单且独立于平台的方法将 mp4 文件传输到任何浏览器如果浏览器不兼容将使用渐进式流直接下载方法我的场景是这样的单个 mp4 文件未分段和复用音频视频支持 HTTP 字节范围服务在浏览器不兼容的
Android studio 重命名包后抛出 Nomatching client found

我按照下面的链接重命名了包重命名后当我尝试构建项目时 android studio 会抛出类似的错误 Android Studio重命名包 https stackoverflow com questions 16804093 andro
多个if条件excel，矩阵结构

Box type Box type Box type Box type BinLoc 810 811 911 822 S1 2 0 1 0 S2 4 2 2 1 S3 12 6 6 3 S4 24 12 12 6 R1 48 24 24 1
Akka 消息传递保证

我正在尝试找出 Akka 支持哪些消息传递保证我得出以下结论最多一次默认支持至少一次由 Akka Persistence 支持恰好一次 Akka支持exactly once吗如果不这样做我怎样才能实现这一目标正如您所发现的
提高处理具有 1 亿个元素的 ArrayList 时的速度和内存消耗

我使用其中包含短字符串 10 位数字的文本文件文件大小约为1 5Gb 因此行数达到1亿行每天我都会收到另一个文件需要提取新元素每天数万个解决我的问题的最佳方法是什么我尝试在 ArrayList 中加载数据每个文件大约需要 2

提高处理具有 1 亿个元素的 ArrayList 时的速度和内存消耗

提高处理具有 1 亿个元素的 ArrayList 时的速度和内存消耗 的相关文章

随机推荐

热门标签

提高处理具有 1 亿个元素的 ArrayList 时的速度和内存消耗的相关文章