当单词超过2亿时，如何使用Java去除重复单词？

2024-03-01

我有一个文件（大小 = ~1.9 GB），其中包含 ~220,000,000（~2.2 亿）个单词/字符串。它们有重复，几乎每 100 个单词就有 1 个重复单词。

在我的第二个程序中，我想读取该文件。我成功使用 BufferedReader 逐行读取文件。

现在要删除重复项，我们可以使用 Set （及其实现），但 Set 有问题，如下 3 种不同场景所述：

使用默认的 JVM 大小，Set 最多可以包含 0.7-0.8 百万字，然后是 OutOfMemoryError。
JVM大小为512M，Set最多可以包含5-6百万个单词，然后出现OOM错误。
JVM大小为1024M，Set最多可以包含12-13百万个单词，然后出现OOM错误。这里在Set中添加1000万条记录后，运算变得极其缓慢。例如，添加接下来的约 4000 条记录，需要 60 秒。

我受到限制，无法进一步增加 JVM 大小，并且我想从文件中删除重复的单词。

如果您对使用 Java 从如此巨大的文件中删除重复单词的任何其他方式/方法有任何想法，请告诉我。非常感谢：）

向问题添加信息：我的文字基本上是字母数字，它们是我们系统中唯一的 ID。因此它们不是简单的英语单词。

Use 归并排序 http://en.wikipedia.org/wiki/Merge_sort并在第二遍中删除重复项。您甚至可以在合并时删除重复项（只需将添加到输出的最新单词保留在 RAM 中，并将候选单词与其进行比较）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

duplicates

当单词超过2亿时，如何使用Java去除重复单词？的相关文章

如果测试用例失败，Selenium Web 驱动程序无法关闭 Firefox 实例

我各位我正在使用 junit 和 selenium web 驱动程序 2 28 问题是如果我运行成功的测试用例 Web 驱动器能够关闭 Firefox 实例但是当测试用例失败时 Selenium Web 驱动器无法关闭 Firefox
JavaMail Gmail 问题。 “准备启动 TLS”然后失败

mailServerProperties System getProperties mailServerProperties put mail smtp port 587 mailServerProperties put mail smtp
Android Studio 在编译时未检测到支持库

由于 Android Studio 将成为 Android 开发的默认 IDE 因此我决定将现有项目迁移到 Android studio 中项目结构似乎不同我的项目中的文件夹层次结构如下 Complete Project gt idea
解决错误：日志已在具有多个实例的atomikos中使用

我仅在使用atomikos的实时服务器上遇到问题在我的本地服务器上它工作得很好我在服务器上面临的问题是 init 中出错日志已在使用中完整的异常堆栈跟踪 java lang RuntimeException Log already
如何查找 Android 设备中的所有文件并将它们放入列表中？

我正在寻求帮助来列出 Android 外部存储设备中的所有文件我想查找所有文件夹包括主文件夹的子文件夹有办法吗我已经做了一个基本的工作但我仍然没有得到想要的结果这不起作用这是我的代码 File files array file
CXF Swagger2功能添加安全定义

我想使用 org apache cxf jaxrs swagger Swagger2Feature 将安全定义添加到我的其余服务中但是我看不到任何相关方法或任何有关如何执行此操作的资源下面是我想使用 swagger2feature 生成
Convert.FromBase64String 方法的 Java 等效项

Java 中是否有相当于Convert FromBase64String http msdn microsoft com en us library system convert frombase64string aspx which 将指
当分配给变量时，我可以以某种方式重用 Gremlin GraphTraversals 代码吗？

我有看起来像这样的 GraphTraversals attrGroup GraphTraversal
迁移到 java 17 后有关“每个进程的内存映射”和 JVM 崩溃的 GC 警告

我们正在将 java 8 应用程序迁移到 java 17 并将 GC 从G1GC to ZGC 我们的应用程序作为容器运行这两个基础映像之间的唯一区别是 java 的版本例如对于 java 17 版本 FROM ubuntu 20 04
归并排序中的递归：两次递归调用

private void mergesort int low int high line 1 if low lt high line 2 int middle low high 2 line 3 mergesort low middle l
使用 AWS Java SDK 为现有 S3 对象设置 Expires 标头

我正在更新 Amazon S3 存储桶中的现有对象以设置一些元数据我想设置 HTTPExpires每个对象的标头以更好地处理 HTTP 1 0 客户端我们正在使用AWS Java SDK http aws amazon com sdkf
将多模块 Maven 项目导入 Eclipse 时出现问题 (STS 2.5.2)

我刚刚花了最后一个小时查看 Stackoverflow com 上的线程尝试将 Maven 项目导入到 Spring ToolSuite 2 5 2 中 Maven 项目有多个模块当我使用 STS 中的 Import 向导导入项目时所
应用程序关闭时的倒计时问题

我制作了一个 CountDownTimer 代码我希望 CountDownTimer 在完成时重新启动即使应用程序已关闭但它仅在应用程序正在运行或重新启动应用程序时重新启动因此如果我在倒计时为 00 10 分钟秒时关闭应用程序
Keycloak - 自定义 SPI 未出现在列表中

我为我的 keycloak 服务器制作了一个自定义 SPI 现在我必须在管理控制台上配置它我将 SPI 添加为模块并手动安装因此我将其放在 module package name main 中并包含 module xml 我还将其放
Android JNI C 简单追加函数

我想制作一个简单的函数返回两个字符串的值基本上 java public native String getAppendedString String name c jstring Java com example hellojni He
android Accessibility-service 突然停止触发事件

我有一个 AccessibilityService 工作正常但由于开发过程中的某些原因它停止工作我似乎找不到这个原因请看一下我的代码并告诉我为什么它不起作用 public class MyServicee extends Access
休眠以持久保存日期

有没有办法告诉 Hibernate java util Date 应该持久保存我需要这个来解决 MySQL 中缺少的毫秒分辨率问题您能想到这种方法有什么缺点吗您可以自己创建字段long 或者使用自定义的UserType 实施后User
如何修复“sessionFactory”或“hibernateTemplate”是必需的问题

我正在使用 Spring Boot JPA WEB 和 MYSQL 创建我的 Web 应用程序它总是说 sessionFactory or hibernateTemplate是必需的我该如何修复它我已经尝试过的东西删除了本地 Mav
java迭代器内部是如何工作的？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个员工列表 List
中断连接套接字

我有一个 GUI 其中包含要连接的服务器列表如果用户单击服务器则会连接到该服务器如果用户单击第二个服务器它将断开第一个服务器的连接并连接到第二个服务器每个新连接都在一个新线程中运行以便程序可以执行其他任务但是如果用户在第一个

随机推荐

对 (->) 作为 monad 和 functor 的实例感兴趣

我很感兴趣 gt 当我查找有关信息时 gt 在 ghci 中它说 data gt a b Defined in GHC Prim 到目前为止一切都很好但是当它说时它变得非常有趣 instance Monad gt r Defined i
VBA - 从 Access 生成 Excel 文件（查询表）

我有一个项目基本上目标是使用 VBA 在 Access 中单击按钮来生成 Excel 报告该报告的内容是 SQL Server 数据库存储过程的结果错误行 With MeuExcel Worksheets 4 QueryTables
如何从父组件修改组件的样式？

我需要从其父组件修改 Vue 组件的一些 CSS 属性它将覆盖组件内定义的 CSS 我首先期望对于一个组件
我可以使用 Firestore 获取使用 batch().set 创建的文档的生成 ID 吗？

有没有一种方法可以获取使用 Firestore 批量创建的文档的自动生成 ID 使用时 add 我可以轻松获得 ID db collection posts add title Hello World then function docRe
部署在 Web 服务器上时 Crystal Report 图标/工具栏不起作用

我构建了一个网页其中包含使用 Visual Studio 2008 中包含的 Crystal 库构建的 Crystal Report It 在我的机器上工作 http jcooney net archive 2007 02 01 4299
JSF 读取托管 bean 中的动态输入元素

我有一个非常复杂的 JSF 页面我们使用带有 Facelet 的 JSF2 我必须在其中插入一个纯 html 表单部分它代表稍后将创建为 Pdf 的文档的所见即所得模板页面看起来非常简化
从字符中获取 KeyCode？

我需要能够读取字符并获取与其语言和键盘布局相关的键我知道如何看待文化背景和语言但是我怎样才能知道像英语中的 S 这样的字母并且知道它在键盘上是什么键呢或者对于更难的问题我如何取出字母并知道它在键盘上的键是什么用一个示例程序可能比
无法使用 iOS6.1 sdk 构建 Google Maps SDK for IOS 版本 1.7.0

我刚刚更新到 GMS 版本 1 7 0 无法成功构建基础SDK iOS6 1 我可以使用 Base SDK iOS7 0 成功构建 GMS 版本 1 7 0 我还可以使用 Base SDK iOS6 0 或 7 0 成功构建旧的 GMS 版
MongoDb 区域副本集 - 每个区域的主节点？

给定一个具有区域用户区域为北美欧洲亚洲的应用程序如何创建允许 HK 用户写入最近节点的副本集目标是香港的用户读取和写入其本地节点而不会遭受写入美国的延迟我的假设是我可以在每个区域设置一个应用程序堆栈通过副本集在所有区域之
两种颜色的背景 - React Native

有没有办法让背景有两种颜色如下所示两种颜色 https i stack imgur com 0DPHC png我尝试过使用线性渐变但那只是渐变我不知道如何在主视图标签中放置两种颜色作为背景有什么建议么如果视图的尺寸无法帮助您请
go中如何将[][]byte转换为**char

我想从 go byte 转换为 C char 换句话说我在 go 中有一个字节矩阵我想将其转换为 C 中的 char 双指针请假设我必须有一个 byte 作为输入和一个 char 作为输出我知道可以通过执行以下操作从 byte 转换
Lambda 的结果角色定义中的可信实体是什么？

下面是 SAM 模板 Resources HelloWorldFunction Type AWS Serverless Function Properties CodeUri hello world Handler app LambdaHa
在 Visual Studio 中哪里可以修改详细的 C# 编译器优化设置？

在Visual Studio C C 项目中可以很容易地在属性页 C C 优化中修改编译器的优化设置例如我们可能会给出不同的优化级别例如 O2和 O3 以及高级优化例如省略帧指针但是我无法简单地在 Visual Stud
减去具有不同时间戳的两个文档之间的数字字段

假设我有这些数据样本 date 2019 06 16 rank 150 name doc 1 date 2019 07 16 rank 100 name doc 1 date 2019 06 16 rank 50 name doc 2 da
为什么我的 KeyPressEvent 不能与右/左/上/下一起使用？

在 C 中我试图查看用户是否按下了正确的键以便玩家向右移动但是当我尝试时它没有注册按键 private void KeyPressed object sender KeyPressEventArgs e if e KeyChar C
与其活动相关的片段生命周期

情况我的活动等待异步操作在收到异步操作的回复后它需要将信息传递给其中的 2 个片段要求1 两个片段都需要它们的onCreateView为加载布局而进行的调用 2 他们需要全身心地投入到自己的活动中以便getActivity work
如何将 JUnit 测试用例导出到可执行的 .jar 中？

我正在使用 Selenium 和 JUnit 来自动化一些测试我希望能够将其导出到可运行的 jar 文件中我无法做到这一点我假设这是因为没有 main 方法 JVM 不知道要运行什么我看到了这个帖子如何将 JUnit 测试套件导出为
在 main() 之前、之后或内部声明函数有什么优点？

我正在尝试学习嵌入式系统的C语言目前我正在学习基础知识但无法找到一个基本问题的答案当我编写一个简单的 C 程序时我用三种方式声明了一个名为 Maximum 的函数我将通过以下示例进行解释 1 在下面的程序中函数在 main 外部
用于自动化的 User32 API 自定义 PostMessage

我想用 C 自动化一个名为 Spotify 的程序我认为最好的方法是触发假按键我想编程来暂停播放但我对这个东西了解不够无法找到按键以外的其他方法因此我使用 Visual Studio 的 Spy 来查看按下键盘上的播放按钮时
当单词超过2亿时，如何使用Java去除重复单词？

我有一个文件大小 1 9 GB 其中包含 220 000 000 2 2 亿个单词字符串它们有重复几乎每 100 个单词就有 1 个重复单词在我的第二个程序中我想读取该文件我成功使用 BufferedReader 逐行读取文

当单词超过2亿时，如何使用Java去除重复单词？

当单词超过2亿时，如何使用Java去除重复单词？ 的相关文章

随机推荐

热门标签

当单词超过2亿时，如何使用Java去除重复单词？的相关文章