快速搜索压缩文本文件

2024-05-13

我需要能够在大量压缩文件 (.txt) 中搜索文本。压缩可能会改变为其他东西，甚至成为专有的。我想避免解压所有文件并压缩（编码）搜索字符串并在压缩文件中搜索。这应该可以通过对所有文件使用相同的码本使用霍夫曼压缩来实现。我不想重新发明轮子，所以..任何人都知道一个库可以做这样的事情或实现和测试的霍夫曼算法，或者也许是一个更好的主意？

提前致谢

大多数文本文件都是用其中一种压缩的LZ家族 http://en.wikipedia.org/wiki/LZ77_and_LZ78的算法，它结合了字典编码器 http://en.wikipedia.org/wiki/Dictionary_coder与一个熵编码器 http://en.wikipedia.org/wiki/Minimum_redundancy_coding比如霍夫曼。

因为Dictionary Coder依赖于一个不断更新的“字典”，所以它的编码结果依赖于历史（字典中从输入数据到当前符号导出的所有代码），所以不可能跳转到某个位置并开始解码，而无需首先解码所有先前的数据。

在我看来，您可以只使用 zlib 流解码器，它会立即返回解压缩的数据，而无需等待整个文件被解压缩。这不会节省执行时间，但会节省内存。

第二个建议是对英语单词进行霍夫曼编码，并忘记字典编码器部分。每个英语单词都会映射到一个唯一的无前缀代码。

最后，@SHODAN 给出了最明智的建议，就是对文件建立索引，压缩索引并与压缩的文本文件捆绑在一起。要进行搜索，只需解压缩索引文件并查找单词。这实际上是对单词进行霍夫曼编码的改进 - 一旦找到单词的频率（为了最佳地分配前缀代码），您就已经构建了索引，因此您可以保留索引进行搜索。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

快速搜索压缩文本文件的相关文章

.Net Core 中 String 默认不可序列化吗？

我正在查看其他的 Fortify 静态分析安全测试 SAST 扫描报告以识别和抑制误报应用程序框架是C NET Core SAST 报告部分内容如下 Method1 在第 111 行将不可序列化的对象存储为 HttpSessionSta
除了第一列之外，Gridview 行可点击？

我使用以下代码使 gridview 的整行可单击 protected void gridMSDS RowDataBound object sender GridViewRowEventArgs e if e Row RowType Data
在静态断言和运行时错误之间自动选择

我有一个执行除法并检查对齐的宏 define BYTES TO WORDS x CHECK ALIGNMENT x 2 x 2 我想实施CHECK ALIGNMENT作为一个总是返回 1 的宏并且如果满足以下条件则触发错误x不除以 2 宏
如何在函数中将结构成员作为指针传递？

问题是我有一个结构是另一个主要结构的成员我编写了一个函数来清除第一个结构它需要一个指向结构的指针我想使用该函数来清除主要结构内的结构但我不确切知道哪种方法是正确的为了更好地解释它这里有一些代码我有一个结构定义为 type
获取光标相对于控件的位置 - C#

我想获取鼠标相对于鼠标指针所在控件的位置这意味着当我将光标置于控件的起点左上角时它应该给出 0 0 我正在使用以下代码 private void panel1 MouseMove object sender MouseEventAr
为什么 CMake 不通过在定义该变量之前创建的 CMAKE_CXX_STANDARD 将语言标准编译标志添加到目标？

我在用着cmake version 3 22 1 and c Ubuntu 11 3 0 1ubuntu1 22 04 11 3 0 以及非常简约的CMakeLists txt 我无法让 CMAKE 使用 C 20 Setting set
如何在 asp .net mvc 2 中对不直接属于我的模型的对象使用 DisplayFor()？

我确信我在这里遗漏了一些非常简单的东西我创建了一个自定义日期时间显示模板使用以下方法时效果很好但是我遇到了这样的情况在部分控件内我在 for 循环中迭代模型中的对象我想要一个 DateTime 属性来使用显示模板但我不知道如
混合 VS2012 平台工具集

我们正在从 VS2005 切换到 VS2012 update 2 我们正在构建大量主要是控制台本机 C 无 MFC ATL 可执行文件它们使用几个常见的静态链接库这些可执行文件主要在 Win7 计算机上运行但有些也部署在较旧的 X
是否有更好（更简单）的方法来获取特定域 SID？

我被指派修改 WinForms 应用程序主要检查登录用户是否属于特定域这是我到目前为止所想出的 byte domainSid var directoryContext new DirectoryContext DirectoryCont
使用 microsoft word.interop 删除 Word 文档中的空白页

我创建了一个Word文档它使用以下命令生成动态内容词互操作它有一些分页符之间使用我面临的问题是此分页符会创建我不想向用户显示的空白页面在某些情况下我需要在那里添加这些分页符以维护页面布局因此我无法考虑删除这些分页符但我想要的
MSBuild 将动态生成的文件复制为项目依赖项的一部分

我有一个自定义 msbuild 任务它正在生成一些输出文件到 ProjectA 的输出目录 TargetDir 当前的代码是这样的
C#中如何将委托转换为对象？

我正在使用反射类来调用其他 dll 上的一些方法方法的参数之一是委托类型我想通过使用反射来调用这个方法所以我需要将函数参数作为对象数组传递但我找不到任何关于如何将委托转换为对象提前致谢委托是一个对象只需像平常一样创建预期的委
在 C# 4.0 中，是否可以从泛型类型参数派生类？

我一直在尝试这个但我似乎无法弄清楚我想做这个 public abstract class SingletonType
如何计算某物是否位于某人的视野中

我有一个对象它在 2D 空间中具有位置和速度两者都由向量表示对象的视野每侧均为 135 度它看起来与移动的方向相同速度矢量我有一些对象其在 2D 空间中的位置由向量表示在图中蓝色背景上的对象是可见的红色背景上的对象对主体
XPath 选择具有特定属性值的元素？

我在使用 XPath 选择节点时遇到问题我将展示一个示例由于实际数据量很大 xml 文件被缩短了这是 XML 的子集
如何定义 Swagger UI 参数的默认值？

我已将 Swagger Swashbuckle 集成到 NET Core 2 2 API 项目中一切都很好我的要求纯粹是为了方便考虑以下 API 方法 public Model SomeEstimate SomeRequest req
TypeScript 中 C# 类虚拟成员的等效项

因此在 C 中当我创建模型类和延迟加载内容时我会执行以下操作 public int User ID get set public int Dept ID get set 然后在我的班级稍远一点的地方我像这样弹出我的虚拟 public
访问 Visual Studio 扩展中的当前代码窗格

我正在编写一个 Visual Studio 2010 扩展在代码视图中带有右键单击菜单我希望能够从菜单项事件处理程序检查当前代码但无法在对象模型中找到执行此操作的位置如何在 Visual Studio 扩展中访问当前窗口中的代码 E
MsBuild 在 Visual Studio Online 上找不到恢复的 NuGet 包

我尝试构建一个存储在 Visual Studio Online 上的外部 GIT 存储库中的解决方案它有以下步骤 1 Git 恢复有效 2 NuGet 恢复有效 3 构建不起作用查看日志时我的第一个猜测是 MsBuild 没有查找
GetActiveObject() 与 GetObject() -- MK_E_UNAVAILABLE 错误

All 我在将一些 VBA 代码转换为 C 时遇到一些问题我们有一个充当本地 COM 服务器的第 3 方应用程序在我们使用的VBA代码中获取对象获取对现有对象的引用 e g Set appHandle GetObject ProgId

随机推荐

for 循环初始值设定项中的结构

知道为什么 for 循环初始值设定项中的这个结构表达式在编译时会出现语法错误吗在这种情况下指向结构的指针工作正常但 ofc 我需要如下所示的局部变量感谢您的建议 type Request struct id int line byt
如何使用 RODBC 将数据帧保存到数据库生成的主键表

我想使用 R 脚本将数据框输入到数据库中的现有表中并且希望数据库中的表具有顺序主键我的问题是 RODBC 似乎不允许主键约束这是创建我想要的表的 SQL CREATE TABLE dbo results ID INT IDENTITY
从 DataGridViewCell 获取数值？

我正在尝试从 a 中检索数值DataGridView 到目前为止我发现的唯一方法是将它们作为字符串检索并将它们转换为数字 Convert ToDouble MyGrid SelectedRows 0 Cells 0 Value ToStr
C 套接字客户端/服务器滞后

我正在编写一个 C C 客户端服务器套接字应用程序此时客户端每 50 毫秒连接一次服务器并发送一条消息一切似乎都正常但数据流并不连续突然服务器不再收到任何消息然后一次收到 5 条消息有时一切正常有人知道这种奇怪行为的起源
按日期对图表中的 X 轴进行排序 - JavaFX

如何按日期对折线图 X 轴进行排序现在我的折线图看起来像这样我试图剪切日期并将其转换为 int 但现在我不知道该怎么办 datesToCompare addAll LastHoursAndDates keySet dates in St
C++ 的 String.Format

正在寻找 NET 的 String Format 等函数的 C 实现显然有 printf 及其变体但我正在寻找具有位置的东西如下所示 String Format 您好 0 您是 1 岁感觉如何 1 姓名年龄这是必要的因为我们将
如何提取句子中的主语及其各自的从属短语？

我正在尝试在句子中进行主题提取以便我能够根据主题获得情感我在用nltk在 python2 7 中用于此目的以下面的句子为例 Donald Trump is the worst president of USA but Hillary
使用 MSBuild 12 构建 MVC 4.0 项目时“任务失败，因为未找到 AXImp.exe”

我正在尝试使用 CruiseControl Net 和 MSBuild 设置构建服务器但是它失败并出现错误 C Builds PremiumStore checkout PremiumStore sln default target 1
为什么正则表达式中有四个反斜杠？

d 1 2 我有上面的正则表达式我知道字符串解析器会删除两个反斜杠留下我们 d 以1为元字符无关的功能是什么我以前没有正则表达式的经验或者字符串模式本身就是反斜杠最多出现两次的整数我错过了什么吗反斜杠转义其他反斜杠以及特殊
ASP.NET - 在 GridView 中显示图像和 pdf

我想在 asp GridView 中显示图像列这个想法是提供图像的缩略图以及实际尺寸图像的链接对于某些行这也可以是 PDF 文档我想要 PDF 的链接 PDF 或图像存储在 SQL 数据库中现在我在处理程序 ashx 文件中出
强制向扬声器发出音频警报

我有一个小应用程序在此应用程序中扬声器每隔我设置的特定时间就会发出噪音现在我希望即使设备中插入了耳机插孔它也能通过内置扬声器发出噪音我怎样才能做到这一点您可以尝试以下代码在扬声器上播放代码另请检查this http uiha
Kendo Ui MVC EditorTemplateName 在 PopUp 编辑模式下不起作用

我想在 Kendo Ui 网格中使用 EditorTemplateName 作为外键列当网格编辑模式为内联时一切正常并且我的模板已加载但是当将模式更改为弹出时不加载模板如何修复它 Html Kendo Grid
PHP ::: 准备语句 ::: freeresult() ::: close()

使用的重要性是什么 stmt gt free result stmt gt close 使用准备好的语句进行数据库调用后如下所示 mysqli new mysqli database db pass user stmt mysqli gt
如何成功使用RDAP协议代替whois

我对新的 RDAP 协议有点困惑也不知道何时进一步追求它有意义在我看来每个人都同意它是 whois 的继承者但他们的数据库似乎是空的在 ubuntu 上我尝试了 rdapper nicinfo 甚至他们的 RESTful API
MISRA C++（规则 18-4-1）和动态内存分配 - 是否允许 std::string？

MISRA C 规则 18 4 1 说不得使用动态堆内存分配 See http dist sonarsource com reports coverage misra c 2008 html http dist sonarsource c
在 TensorFlow 中，tf.identity 有何用途？

我见过tf identity在一些地方使用过例如官方 CIFAR 10 教程和 stackoverflow 上的批量规范化实现但我不明白为什么有必要它是用来做什么的谁能给出一两个用例吗一种建议的答案是它可以用于 CPU 和 GPU
使用操作系统用户名/密码在 PHP 中进行身份验证？

我想知道是否有一种方法可以使用 PHP 或者可能是其他一些 CGI 但最好是 PHP 来使用其操作系统在本例中为 Linux Debian 5 用户名和密码来验证用户可能的难的谢谢一般来说这种东西是特定于操作系统的并与现有的身
如何仅在单击子级时触发父级单击事件

子级和父级都是可点击的子级可以是带有 jQ uery 单击事件的链接或 div 当我点击子事件时如何只触发父事件而不触发子事件 DOM 事件阶段活动分为三个阶段 Capture 第一阶段是捕获其中从事件处理程序开始调用
Jquery 动画背景图像过渡

我有一个导航栏当将鼠标悬停在某个项目上时背景图像会发生变化效果很好但是我希望该图像从顶部滑入并在您停止悬停时向上滑回我一直在尝试使用 JQuery 使用 css bacgroundImage 和滑动或切换来做到这一点但这些似
快速搜索压缩文本文件

我需要能够在大量压缩文件 txt 中搜索文本压缩可能会改变为其他东西甚至成为专有的我想避免解压所有文件并压缩编码搜索字符串并在压缩文件中搜索这应该可以通过对所有文件使用相同的码本使用霍夫曼压缩来实现我不想重新发明轮子所以任

快速搜索压缩文本文件

快速搜索压缩文本文件 的相关文章

随机推荐

热门标签

快速搜索压缩文本文件的相关文章