如何计算用于 deflate 压缩的良好预设字典

2023-12-31

我有机会预设字典以进行 deflate 压缩。这对我来说是有意义的，因为要压缩的数据相对较小，为 1kb-3kb，而且我有大量代表性示例。要压缩的数据由任意字节序列组成，因此标记化等不是一个好方法。此外，数据显示大量重复（数据示例之间），因此好的字典可能会给出非常好的结果。问题是如何算出好的字典呢？是否有一种算法可以计算最佳字典（给定样本数据）？

我开始研究前缀树，但不清楚如何在这种情况下使用它们。

此致，贾雷克

我不知道有什么算法可以生成最佳的甚至是好的字典。这通常是手工完成的。我认为后缀树是查找字典公共字符串的好方法，但我从未尝试过。

首先要尝试的是简单地连接 1-3K 示例中的 32K，然后看看与没有字典相比可以提供多少增益。然后你从那里开始搞乱它，改变例子的顺序或者把例子中重复的部分拉到字典的末尾。

请注意，最常见的字符串应放在末尾，因为较短的距离需要较少的位。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Compression

gzip

zlib

deflate

jzlib

如何计算用于 deflate 压缩的良好预设字典的相关文章

在Android中压缩带有大图像的pdf

这个问题通过java压缩带有大图像的pdf https stackoverflow com questions 20614350 compress pdf with large images via java给出了在 Java 中使用 iT
为什么 tarfile 模块不允许压缩附加？

没有直接的方法可以追加到压缩的 tar 存档中作为文档状态 https docs python org 3 library tarfile html tarfile open 注意 a gz a bz2 or a xz 不可能作为解决方
在 Linux 上使用 Apache Commons Compression 压缩文件时出现编码错误

我正在使用 Apache Commons API Compression 来压缩文件 Windows 7 工作正常但在 Linux ubuntu 10 10 UTF8 中文件名和文件夹名称中的字符例如会被替换压缩时或解压缩 ta
PHP gzuncompress 出现文件读写错误

我有一个函数可以跟踪脚本中发生的事件为了有效地利用我的资源我决定压缩它生成的数据但是我不断收到此错误 Unknown error type 2 gzuncompress function gzuncompress data erro
Tomcat 8.5.29 HTTP/2 不支持 GZIP 压缩

我正在使用 Tomcat 8 5 29 并使用相应的配置我已为该站点启用了 HTTP2 支持以下是 server xml 文件中的配置
上传前压缩相机图像

我正在使用这段代码来自www internetria com http www internetria com blog 2013 04 12 android enviar imagenes por webservice 拍照并上传到服务
使用 ruby 解压缩（zip、tar、tag.gz）文件

我想解压很多 zip 文件是否有模块或脚本可以检查 zip 文件的格式并对其进行解压缩这应该适用于Linux 我不关心其他操作系统要从 tar gz 文件中提取文件您可以使用随 Ruby 分发的包中的以下方法 require rub
使用 TSQL 解压缩值

如何解压缩存储过程中的 varbinary max 值我想在 TSQL 代码中实现或调用gunzip 算法最好不启用 CLR 调查 sp OACreatehttp msdn microsoft com en us library ms1
压缩独特的数据流

我有大量的整数数组每个整数都有几千个整数每个整数通常与前一个整数相同或仅相差一两位我想将每个阵列缩小到尽可能小以减少磁盘 IO Zlib 将其缩小到原始大小的 25 左右这很好但我不认为它的算法特别适合这个问题有谁知道对于此类
错误：Zlib._handle.onerror (zlib.js:355:17) 错误号：-3，代码：'Z_DATA_ERROR' 处的标头检查不正确

我的 HTTP 请求有 content encoding gzip 标头我正在尝试使用node js 读取数据我使用下面的代码来解压缩数据但我明白了错误 Zlib handle onerror zlib js 355 17 错误号 3
如何使用 PHP 读取来自 Stackoverflow API 的 GZIP 响应？

如何使用 PHP 读取 Stackoverflow API 的响应响应是 GZIP 编辑的我发现例如以下建议 url http api stackoverflow com 1 1 questions question id data f
Java 中对象序列化和压缩的性能成本

应用程序不断接收名为Report并将对象放入Disruptor对于三个不同的消费者在 Eclipse Memory Analysis 的帮助下每个进程的 Retained Heap SizeReport对象平均为 20KB 该应用程序开
用于 HTTP 压缩的 GZip 或 Deflate

哪种压缩方法更好我听说过很多关于 GZip 被更广泛使用的说法但 Deflate 更快在某些情况下是否有公认的标准来使用哪个标准以及为什么 UPDATE 根据链接问题的最新更新应该使用 GZip 看http www vervest
我的网页需要 JSZip 和 gzip，JSZip 具有所有成分，但以我无法破解的方式隐藏它们

JavaScript 中对 gzip 的支持出奇的弱所有浏览器都实现它以支持 Content encoding gzip 标头但浏览器的 gzip gunzip 功能没有标准访问因此必须使用仅 javascript 的方法周围有一些
使用 YUIcompressor 压缩多个 JavaScript 文件？

我正在尝试使用 YUI 压缩机压缩多个 JS 文件我认为我的语法错误我想压缩目录中以以下内容开头的所有文件at 然而当 YUI 压缩机运行时我发现 YUI 压缩机在输出中只放置了一个文件的压缩版本具体来说假设我有三个文件 at
php zlib：如何从字符串变量动态创建内存中的zip文件？

这就是我需要的 a array folder gt anyfolder filename gt anyfilename filedata gt anyfiledata 我需要使用 a 中的压缩数据创建一个变量 zip 并将此 zip 输出到
使用php.ini、.htaccess和zlib.output压缩js、css和php文件

我一直在尝试使用 gzip 压缩我的网站尽管我的服务器不允许我使用 mod deflate 所以我在这里找到了替代解决方案 http www warpconduit net 2010 10 23 enabling gzip compres
快速搜索压缩文本文件

我需要能够在大量压缩文件 txt 中搜索文本压缩可能会改变为其他东西甚至成为专有的我想避免解压所有文件并压缩编码搜索字符串并在压缩文件中搜索这应该可以通过对所有文件使用相同的码本使用霍夫曼压缩来实现我不想重新发明轮子所以任
iOS 视频压缩 Swift iOS 8 损坏的视频文件

我正在尝试压缩用户相机从 UIImagePickerController 拍摄的视频不是现有视频而是动态视频以上传到我的服务器并花费少量时间来完成此操作因此较小的尺寸是理想的选择而不是 30 较新质量的相机为 45 mb 这是在
tar 和 zip 有什么区别？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案 tar 和 zip 有什么区别每个的用例是什么 tar其本身只是将文件捆绑在一起结果称为tarball 尽管zip也应用压缩通常你使用gzip随

随机推荐

在 Chrome 中重新加载动画 GIF 时出现问题

我有一个可以重新加载 gif 动画的应用程序它在 Safari 中始终有效但在 Chrome 中时断时续我相信这个问题与提到的问题类似here https groups google com forum topic shiny dis
Excel - 基于ID的工作表值查找[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我有两张工作表第一个列出了我的客户
如何获取处理器和硬盘的制造序列号和 ID？

如何使用 Matlab 获取以下硬件属性主板制造序列号处理器 ID 处理器制造序列号硬盘ID 硬盘制造序列号是否有任何函数或类负责检测其他机器硬件组件属性的属性我知道可以使用系统或控制台命令来完成但我不知道如何完成不过我更喜
将 1 亿个文件写入 s3

我的主要目标是根据每条记录的 id 将记录拆分为文件目前有超过 150 亿条记录而且肯定还会增加我需要一个使用 Amazon EMR 的可扩展解决方案我已经为一个包含大约 9 亿条记录的较小数据集完成了这项工作输入文件采用 csv
Gensim LDA 中的主题明智文档分布

python 有没有办法映射属于某个主题的文档例如主要是主题 0 的文档列表我知道有多种方法可以列出每个文档的主题但我该如何反过来呢 Edit 我正在使用以下 LDA 脚本 doc set for file in files ne
如何在 Visual Studio 2010 中构建这个简单的 C++/SWIG/C# 项目？

我需要帮助设置一个简单的 C C SWIG 项目我很难将使用 SWIG 绑定的 C 项目组合在一起我正在使用 Visual Studio 2010 和最新版本的 SWIG 我的代码很简单 cpp 文件 h pragma once cla
是否有任何方便的代码覆盖率工具可与 JUnit 一起使用？

是否有方便的代码覆盖率工具可与 JUnit 一起使用我想大多数代码覆盖率工具都可以很容易地与 JUnit 一起使用以前我用过EMMA http emma sourceforge net 这很好如果您是 Eclipse 用户有一个 E
如何以编程方式清空浏览器缓存？

我正在寻找一种以编程方式清空浏览器缓存的方法我这样做是因为应用程序会缓存机密数据并且我想在您按注销时删除这些数据这可以通过服务器或 JavaScript 发生当然仍然不鼓励在外国公共计算机上使用该软件因为存在更多危险例如
如何在 Mongoose 中验证数组及其元素

我有这个模式我在其中验证了数组的元素book 但我不知道如何验证数组本身 var DictionarySchema new Schema book 1 type String required true 2 String 3 String
我可以从运行时加载的共享对象访问主机进程的符号吗？还有其他选择吗？

在我的场景中我想要一个插件它是在运行时加载的共享对象用于访问主机应用程序中的符号以便我可以向我的应用程序添加任何功能我已经尝试过但没有找到任何方法来做到这一点而且我不知道这是否可能那么我可以以某种方式做到这一点或者使
为什么 `add cl, 2` 以 x86 十六进制打印 `80 c1 02`？

试图缩小我的问题范围以便我能够克服这个障碍 This https stackoverflow com questions 28664856 how to interpret x86 opcode map noredirect 1 comm
在 C# 中通过 HTTP 侦听器获取发布的文件

我使用 C 制作了一个简单的 http 服务器我知道如何获取发布的数据并输出它们这是我的 C 代码 public static void start HttpListener listener new HttpListener list
用于图像创建的 Scala 库 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有好的 Scala 或 Java 图像处理库对于简单的任务例如与其他一些图像合成图像然后生成拇
Spark 2.0中DataFrame的GroupBy操作需要花费大量时间

在我的一项 Spark 作业 EMR 5 0 0 上的 2 0 中我有大约 5GB 的数据与 30 行交叉连接数据大小几 MB 我还需要按它分组我注意到我花费了大量时间使用 1 个 m3 xlarge 主节点和 6 个 m3 2xl
是否可以将 requirejs 模块转换为 commonjs ？

It s 已经可以将 commonjs 模块转换为 requirejs http requirejs org docs commonjs html autoconversion 但我仍然想知道是否可以做相反的事情有没有办法将 requir
依赖注入和工作单元模式

我有一个两难的处境我使用 DI 即工厂为自制 ORM 提供核心组件容器根据请求提供数据库连接 DAO 映射器及其结果域对象这是映射器和域对象类的基本概述 class Mapper public function construct
我如何在 xcode iphone 中创建一个滑动菜单，就像主 android 菜单滑动菜单一样？

我一直在网上寻找标题中描述的滑动菜单的示例我所需要的只是知道我应该从 iphone 库中查找哪些项目来制作这个我不想占用别人的时间让他们写出代码但如果有一点指导将不胜感激我们在 iPhone 应用程序中创建了一个滑动抽屉我们使用以
PHP 中仅用一个空格替换多个空格和换行符

我有一个带有多个换行符的字符串字符串 This is a dummy text I need to format this 期望的输出 This is a dummy text I need to format this 我正在使用这个
`[<-`(`*tmp*` 中出错，下标越界下标越界

在下面的代码中我尝试创建一个矩阵列出每个城市的 opt lam 运行循环后前两个城市始终有效然后对于此后的任何城市都会出现错误这是我得到的错误 coefmatrix 工作正常只是 lambdamatrix 产生此错误错误于 l
如何计算用于 deflate 压缩的良好预设字典

我有机会预设字典以进行 deflate 压缩这对我来说是有意义的因为要压缩的数据相对较小为 1kb 3kb 而且我有大量代表性示例要压缩的数据由任意字节序列组成因此标记化等不是一个好方法此外数据显示大量重复数据示例之间因此

如何计算用于 deflate 压缩的良好预设字典

如何计算用于 deflate 压缩的良好预设字典 的相关文章

随机推荐

热门标签

如何计算用于 deflate 压缩的良好预设字典的相关文章