在 300 万个文本文件中搜索匹配项 [已关闭]

2024-03-16

我有一个简单的要求，用户输入一堆单词，系统扫描超过 300 万个文本文件并找到包含这些关键字的文件。在没有复杂的搜索/索引算法的情况下实现这一点的最有效和最简单的方法是什么？

我想用Scanner类，但不知道如此大文件的性能。性能并不是非常重要，但它应该处于可接受的标准。

它应该处于可接受的标准

我们不知道可接受的标准是什么。如果我们谈论交互式用户，可能不会有一个简单的解决方案可以扫描 300 万个文件并在不到 5 秒的时间内返回内容。

一个合理的解决方案是搜索索引，可能基于Lucence http://lucene.apache.org/.

基于扫描仪/grep/查找等的解决方案的主要问题是它们速度慢，无法扩展，并且必须一遍又一遍地完成昂贵的扫描工作（除非您存储中间结果......但这会并不简单，而且基本上是索引器的人工昂贵的重新实现）。当使用索引时，只有索引的创建和更新是昂贵的，查询是便宜的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

fileio

在 300 万个文本文件中搜索匹配项 [已关闭] 的相关文章

为什么会出现此异常 FileItemStream$ItemSkippedException？

在 gwt Web 应用程序中我必须发送一个文件和附加的一些参数在服务器端 try ServletFileUpload upload new ServletFileUpload FileItemIterator iterator upl
位图内存不足错误

我对这个错误有疑问我从 URL 制作网站图标解析器我这样做是这样的 public class GrabIconsFromWebPage public static String replaceUrl String url StringB
JavaFX 图像未在舞台中显示

我尝试了很多次尝试了很多方法但都无法让自己的形象在舞台上如我所愿我认为这可能与java寻找资源的路径有关但我不确定因为我刚刚开始使用视觉库在本例中为JavaFX 这是我的目录结构 MyProject assets img myI
解决 Java Checkstyle 错误：名称 'logger' 必须匹配模式 '^[A-Z][A-Z0-9]*(_[A-Z0-9]+)*$'

使用 Eclipse Checkstyle 插件我看到以下错误名称 logger 必须匹配模式 A Z A Z0 9 A Z0 9 我通过更改解决了此错误 private static final Logger logger Logger
有多少种方法可以将位图转换为字符串，反之亦然？

在我的应用程序中我想以字符串的形式将位图图像发送到服务器我想知道有多少种方法可以将位图转换为字符串现在我使用 Base64 格式进行编码和解码它需要更多的内存是否有其他可能性以不同的方式做同样的事情从而消耗更少的内存现在我正在
如何导入 org.apache.commons.lang3.ArrayUtils;进入 Eclipse [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我如何导入 org apache commons lang3 ArrayUtils 将库添加到 Ecl
Java-如何将黑白图像加载到二进制中？

我在 FSE 模式下使用 Java 和 swing 我想将完全黑白图像加载为二进制格式最好是二维数组并将其用于基于掩码的每像素碰撞检测我什至不知道从哪里开始过去一个小时我一直在研究但没有找到任何相关的东西只需将其读入Buffer
异步迭代器

我有以下代码 while slowIterator hasNext performLengthTask slowIterator next 由于迭代器和任务都很慢因此将它们放入单独的线程中是有意义的这是对迭代器包装器的快速而肮脏的尝试
JSch中如何设置文件类型和文件传输模式？

我使用 Apache Common NetFTPClient并设置了我的ftpClient在上传文件之前使用如下所示的方法 ftpClient setFileType FTP BINARY FILE TYPE ftpClient setFi
改变for循环的顺序？

我遇到一种情况我需要根据用户输入以不同的顺序循环遍历 xyz 坐标所以我是 3D 空间中的一个区域然后是一组像这样的 for 循环 for int x 0 x lt build getWidth x for int y 0 y lt
如何在Java媒体框架中学习.wav持续时间？

我正在尝试使用 java 媒体框架将 mov 文件与 wav 文件合并因此我需要知道它们的持续时间我怎样才能做到这一点任何想法将不胜感激您可以使用以下方式了解声音文件的持续时间即 VitalyVal 的第二种方式 import
Hibernate HQL：将对值作为 IN 子句中的参数传递

我面临一个问题如何使用 IN 子句将查询中的成对值的参数传递给 HQL 例如 select id name from ABC where id reg date in x y 并且参数是不同的数据类型string id 和reg date
JavaFX - 为什么多次将节点添加到窗格或不同的窗格会导致错误？

我现在正在学习基本的 JavaFX 我不明白我正在阅读的书中的这一说法不诸如文本字段之类的节点只能添加到一个窗格中一次将节点添加到多次窗格或不同的窗格将导致运行时错误我可以从书中提供的UML图看出它是一个组合但我不明白为什么库类
使用 secp256r1 曲线和 SHA256 算法生成 ECDSA 签名 - BouncyCastle

我正在尝试使用带有 secp256r1 曲线 P256 的 ECDSA 和用于消息哈希的 SHA256 算法生成签名我也在使用 Bouncy Castle 库下面的代码 public class MyTest param args pu
Java中的回调接口是什么？

SetObserver 接口的代码片段取自有效的Java 避免过度同步第67条 public interface SetObserver
如何解决 PDFBox 没有 unicode 映射错误？

我有一个现有的 PDF 文件我想使用 python 脚本将其转换为 Excel 文件目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico
为什么这个私人浮动字段变为零？

我有一些奇怪的行为我很难向自己解释称为 textureScale 的浮点字段变为零如果某些代码正在更改该值则可以解释这一点然而我希望能够通过将其设置为私有最终浮点来导致构建失败或者至少是运行时异常那么无论更改该值都将失败
防止Java实例化的正确方法[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何在不同版本的Google App Engine中使用自定义域名？

我使用谷歌应用程序引擎作为我的 Android 和 Web 应用程序的服务器我使用 Android Studio 开发了 Android 应用程序并使用 Eclipse 开发了 Web 应用程序我在应用程序引擎中部署了两个版本第一个
Java、Spring、Hibernate找不到org.springframework.orm.hibernate3.LocalSessionFactoryBean

我正在尝试制作 spring hibernate ant 项目目前我收到此错误 HTTP Status 500 type Exception report message description The server encountere

随机推荐

如何解决最大数量限制的杆切割问题允许削减多少？

我知道如何使用动态规划解决杆切割问题但是当我们限制允许的最大切割次数时动态规划无法给出正确的答案即使我也无法想到该问题的递归解决方案帮助问题是这样的确定通过切割杆并出售碎片可获得的最大收入给定长度为 N 的杆以及长度为 i
高性能串联二维数组存储为子数组[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案想象一下我们有几个由 X Y 坐标标识的 3x3 2D 数组伪代码 Array 0 0 Array 1 0 1 2 1 1 2 1
GUID：varchar(36) 与 uniqueidentifier

我正在使用一个将 GUID 值存储为 varchar 36 数据类型的旧数据库 CREATE TABLE T Rows RowID VARCHAR 36 NOT NULL PRIMARY KEY RowValue INT NOT NULL
如何在 XSLT 处理器中使用 HTML5 的“about:”协议

HTML5 草案指定 http dev w3 org html5 spec Overview html about 3alegacy compat 至少目前 URIabout legacy compat可用于依赖于符合 XML 的文档类型
非虚拟和抽象方法的命名约定[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我经常发现自己创建使用这种形式 A 的类 abstract class Animal public void Walk TODO do some
FastAPI异步后台任务会阻塞其他请求吗？

我想在 FastAPI 中运行一个简单的后台任务其中涉及一些计算然后将其转储到数据库中但是计算会阻止它接收更多请求 from fastapi import BackgroundTasks FastAPI app FastAPI db
Swings ImageIcon 构造函数非常慢

编辑请参阅对此答案的评论以获取此问题的答案 TLDR 瓶颈是缩放图像但分析显示这是 ImageIcon 构造函数中的问题 java version Picked up JAVA OPTIONS Dswing aatext true Da
为什么我在安装 gem 时收到“权限被拒绝”错误？

我正在尝试安装 Jekyll 运行后gem install jekyll我收到此错误 ERROR While executing gem Errno EACCES Permission denied usr local lib ruby g
Firebase 实时数据库 API 中的“set”和“update”有什么区别？

正如标题所说我无法理解之间的区别update and set 此外文档也无法帮助我因为如果我使用 set 代替更新示例的工作原理完全相同 The update文档中的示例 function writeNewPost uid user
Android getsupportedvideosizes 在模拟器上返回 null

我尝试在模拟器中获取支持的视频大小如下所示但它总是返回 null 为什么会这样我在 4 03 中尝试过提前致谢 Camera camera Camera open android hardware Camera Parameters
无法从 $injector.get() 获取服务实例

我定义了一个名为 greeting 的客户服务但无法从 injector get greeting 获取该实例它会抛出这样的错误未知提供者 greetingProvider 那么哪种方式才是正确的获取方式呢以下是代码 var app
更改 y 对数刻度 imshow()

我正在尝试根据周期绘制 y 尺度的频谱图所以我想要一个反转的对数尺度事情是我找到了如何使用pcolormesh 不是通过使用imshow imshow 似乎比pcolormesh 这对我来说是一个非常喜欢它的理由我错过了什么我不
如何在 SQL Server 和 C# 中加快读取大量数据的速度

我的数据库中有一个包含大约 200k 条目的视图我正在使用以下代码阅读它 using SqlConnection conn new SqlConnection conn Open string query SELECT FROM SP3D
Perl：写入速度之谜？

输出速率怎么可能高于硬盘写入速率呢 Update 1 我更改了以下内容关闭了防病毒软件不用找了插入新的物理磁盘并使用第一个分区为了测试初始测试的磁盘位于最后一个分区与系统分区分开但是在同一物理磁盘上结果有相同的循环模
使用自定义端点的 to.minutes

我使用的是从上午 9 50 开始的日内数据并希望将其转换为 20 分钟的时间间隔因此第一个时间段是从 09 50 到 10 09 59 第二个时间段是从 10 开始 10 至 10 29 59 等但是to minutes 来自xts软
F# 的隐藏功能

Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话但却具有历史意义目前不接受新的答案或互动这是类似的毫不掩饰的尝试C https stackoverflow com questions
为什么简单的网站在移动设备（至少是 iOS Safari 和 Chrome）上会崩溃？

我有一个非常简单但又很长的网站有很多可以滚动浏览的文本这是一个文档网站考虑到内容的性质很多简短的相似条目我决定立即显示所有内容因此用户可以从一个条目滚动到另一个条目也可以通过侧边栏索引进行导航这是我喜欢的常见文档模型例如下
外部范围不再适用于 ui-grid

我正在将 ui grid 从 v3 0 0 RC 18 升级到 v3 0 0 rc 20 76029e7 突然 external scopes 属性停止工作有什么替代方案吗 externalScopes在 RC 19 中被删除您可以在此
Angular - 使用 \n 渲染 Markdown

我正在尝试在 Angular 应用程序中渲染 Markdown 我正在使用ngx markdown https github com jfcere ngx markdown与 Angular 5 一起使用效果很好但是我必须升级到 An
在 300 万个文本文件中搜索匹配项 [已关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我有一个简单的要求用户输入一堆单词系统扫描超过 300 万个文本文件并找到包含这些关键字的文件在没有复杂的搜索索引算法的情况下实现这

在 300 万个文本文件中搜索匹配项 [已关闭]

在 300 万个文本文件中搜索匹配项 [已关闭] 的相关文章

随机推荐

热门标签