如何计算用于 deflate 压缩的良好预设字典

2023-12-31

我有机会预设字典以进行 deflate 压缩。这对我来说是有意义的,因为要压缩的数据相对较小,为 1kb-3kb,而且我有大量代表性示例。要压缩的数据由任意字节序列组成,因此标记化等不是一个好方法。此外,数据显示大量重复(数据示例之间),因此好的字典可能会给出非常好的结果。 问题是如何算出好的字典呢?是否有一种算法可以计算最佳字典(给定样本数据)?

我开始研究前缀树,但不清楚如何在这种情况下使用它们。

此致, 贾雷克


我不知道有什么算法可以生成最佳的甚至是好的字典。这通常是手工完成的。我认为后缀树是查找字典公共字符串的好方法,但我从未尝试过。

首先要尝试的是简单地连接 1-3K 示例中的 32K,然后看看与没有字典相比可以提供多少增益。然后你从那里开始搞乱它,改变例子的顺序或者把例子中重复的部分拉到字典的末尾。

请注意,最常见的字符串应放在末尾,因为较短的距离需要较少的位。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何计算用于 deflate 压缩的良好预设字典 的相关文章

  • 在Android中压缩带有大图像的pdf

    这个问题通过java压缩带有大图像的pdf https stackoverflow com questions 20614350 compress pdf with large images via java给出了在 Java 中使用 iT
  • 为什么 tarfile 模块不允许压缩附加?

    没有直接的方法可以追加到压缩的 tar 存档中 作为文档状态 https docs python org 3 library tarfile html tarfile open 注意 a gz a bz2 or a xz 不可能 作为解决方
  • 在 Linux 上使用 Apache Commons Compression 压缩文件时出现编码错误

    我正在使用 Apache Commons API Compression 来压缩文件 Windows 7 工作正常 但在 Linux ubuntu 10 10 UTF8 中 文件名和文件夹名称中的字符 例如 会被 替换 压缩时或解压缩 ta
  • PHP gzuncompress 出现文件读写错误

    我有一个函数可以跟踪脚本中发生的事件 为了有效地利用我的资源 我决定压缩它生成的数据 但是 我不断收到此错误 Unknown error type 2 gzuncompress function gzuncompress data erro
  • Tomcat 8.5.29 HTTP/2 不支持 GZIP 压缩

    我正在使用 Tomcat 8 5 29 并使用相应的配置 我已为该站点启用了 HTTP2 支持 以下是 server xml 文件中的配置
  • 上传前压缩相机图像

    我正在使用这段代码 来自www internetria com http www internetria com blog 2013 04 12 android enviar imagenes por webservice 拍照并上传到服务
  • 使用 ruby​​ 解压缩(zip、tar、tag.gz)文件

    我想解压很多 zip 文件 是否有模块或脚本可以检查 zip 文件的格式并对其进行解压缩 这应该适用于Linux 我不关心其他操作系统 要从 tar gz 文件中提取文件 您可以使用随 Ruby 分发的包中的以下方法 require rub
  • 使用 TSQL 解压缩值

    如何解压缩存储过程中的 varbinary max 值 我想在 TSQL 代码中实现或调用gunzip 算法 最好不启用 CLR 调查 sp OACreatehttp msdn microsoft com en us library ms1
  • 压缩独特的数据流

    我有大量的整数数组 每个整数都有几千个整数 每个整数通常与前一个整数相同或仅相差一两位 我想将每个阵列缩小到尽可能小 以减少磁盘 IO Zlib 将其缩小到原始大小的 25 左右 这很好 但我不认为它的算法特别适合这个问题 有谁知道对于此类
  • 错误:Zlib._handle.onerror (zlib.js:355:17) 错误号:-3,代码:'Z_DATA_ERROR' 处的标头检查不正确

    我的 HTTP 请求有 content encoding gzip 标头 我正在尝试使用node js 读取数据 我使用下面的代码来解压缩数据 但我明白了错误 Zlib handle onerror zlib js 355 17 错误号 3
  • 如何使用 PHP 读取来自 Stackoverflow API 的 GZIP 响应?

    如何使用 PHP 读取 Stackoverflow API 的响应 响应是 GZIP 编辑的 我发现例如以下建议 url http api stackoverflow com 1 1 questions question id data f
  • Java 中对象序列化和压缩的性能成本

    应用程序不断接收名为Report并将对象放入Disruptor对于三个不同的消费者 在 Eclipse Memory Analysis 的帮助下 每个进程的 Retained Heap SizeReport对象平均为 20KB 该应用程序开
  • 用于 HTTP 压缩的 GZip 或 Deflate

    哪种压缩方法更好 我听说过很多关于 GZip 被更广泛使用的说法 但 Deflate 更快 在某些情况下 是否有公认的标准来使用哪个标准以及为什么 UPDATE 根据链接问题的最新更新 应该使用 GZip 看http www vervest
  • 我的网页需要 JSZip 和 gzip,JSZip 具有所有成分,但以我无法破解的方式隐藏它们

    JavaScript 中对 gzip 的支持出奇的弱 所有浏览器都实现它以支持 Content encoding gzip 标头 但浏览器的 gzip gunzip 功能没有标准访问 因此必须使用仅 javascript 的方法 周围有一些
  • 使用 YUIcompressor 压缩多个 JavaScript 文件?

    我正在尝试使用 YUI 压缩机压缩多个 JS 文件 我认为我的语法错误 我想压缩目录中以以下内容开头的所有文件at 然而 当 YUI 压缩机运行时 我发现 YUI 压缩机在输出中只放置了一个文件的压缩版本 具体来说 假设我有三个文件 at
  • php zlib:如何从字符串变量动态创建内存中的zip文件?

    这就是我需要的 a array folder gt anyfolder filename gt anyfilename filedata gt anyfiledata 我需要使用 a 中的压缩数据创建一个变量 zip 并将此 zip 输出到
  • 使用php.ini、.htaccess和zlib.output压缩js、css和php文件

    我一直在尝试使用 gzip 压缩我的网站 尽管我的服务器不允许我使用 mod deflate 所以我在这里找到了替代解决方案 http www warpconduit net 2010 10 23 enabling gzip compres
  • 快速搜索压缩文本文件

    我需要能够在大量压缩文件 txt 中搜索文本 压缩可能会改变为其他东西 甚至成为专有的 我想避免解压所有文件并压缩 编码 搜索字符串并在压缩文件中搜索 这应该可以通过对所有文件使用相同的码本使用霍夫曼压缩来实现 我不想重新发明轮子 所以 任
  • iOS 视频压缩 Swift iOS 8 损坏的视频文件

    我正在尝试压缩用户相机从 UIImagePickerController 拍摄的视频 不是现有视频 而是动态视频 以上传到我的服务器 并花费少量时间来完成此操作 因此较小的尺寸是理想的选择 而不是 30 较新质量的相机为 45 mb 这是在
  • tar 和 zip 有什么区别? [关闭]

    Closed 这个问题是无关 help closed questions 目前不接受答案 tar 和 zip 有什么区别 每个的用例是什么 tar其本身只是将文件捆绑在一起 结果称为tarball 尽管zip也应用压缩 通常你使用gzip随

随机推荐

  • 在 Chrome 中重新加载动画 GIF 时出现问题

    我有一个可以重新加载 gif 动画的应用程序 它在 Safari 中始终有效 但在 Chrome 中时断时续 我相信这个问题与提到的问题类似here https groups google com forum topic shiny dis
  • Excel - 基于ID的工作表值查找[关闭]

    很难说出这里问的是什么 这个问题是含糊的 模糊的 不完整的 过于宽泛的或修辞性的 无法以目前的形式得到合理的回答 如需帮助澄清此问题以便重新打开 访问帮助中心 help reopen questions 我有两张工作表 第一个列出了我的客户
  • 如何获取处理器和硬盘的制造序列号和 ID?

    如何使用 Matlab 获取以下硬件属性 主板制造序列号 处理器 ID 处理器制造序列号 硬盘ID 硬盘制造序列号 是否有任何函数或类负责检测其他机器硬件组件属性的属性 我知道可以使用系统或控制台命令来完成 但我不知道如何完成 不过 我更喜
  • 将 1 亿个文件写入 s3

    我的主要目标是根据每条记录的 id 将记录拆分为文件 目前有超过 150 亿条记录 而且肯定还会增加 我需要一个使用 Amazon EMR 的可扩展解决方案 我已经为一个包含大约 9 亿条记录的较小数据集完成了这项工作 输入文件采用 csv
  • Gensim LDA 中的主题明智文档分布

    python 有没有办法映射属于某个主题的文档 例如 主要是 主题 0 的文档列表 我知道有多种方法可以列出每个文档的主题 但我该如何反过来呢 Edit 我正在使用以下 LDA 脚本 doc set for file in files ne
  • 如何在 Visual Studio 2010 中构建这个简单的 C++/SWIG/C# 项目?

    我需要帮助设置一个简单的 C C SWIG 项目 我很难将使用 SWIG 绑定的 C 项目组合在一起 我正在使用 Visual Studio 2010 和最新版本的 SWIG 我的代码很简单 cpp 文件 h pragma once cla
  • 是否有任何方便的代码覆盖率工具可与 JUnit 一起使用?

    是否有方便的代码覆盖率工具可与 JUnit 一起使用 我想大多数代码覆盖率工具都可以很容易地与 JUnit 一起使用 以前我用过EMMA http emma sourceforge net 这很好 如果您是 Eclipse 用户 有一个 E
  • 如何以编程方式清空浏览器缓存?

    我正在寻找一种以编程方式清空浏览器缓存的方法 我这样做是因为应用程序会缓存机密数据 并且我想在您按 注销 时删除这些数据 这可以通过服务器或 JavaScript 发生 当然 仍然不鼓励在外国 公共计算机上使用该软件 因为存在更多危险 例如
  • 如何在 Mongoose 中验证数组及其元素

    我有这个模式 我在其中验证了数组的元素book 但我不知道如何验证数组本身 var DictionarySchema new Schema book 1 type String required true 2 String 3 String
  • 我可以从运行时加载的共享对象访问主机进程的符号吗?还有其他选择吗?

    在我的场景中 我想要一个插件 它是在运行时加载的共享对象 用于访问 主机应用程序 中的符号 以便我可以向我的应用程序添加任何功能 我已经尝试过 但没有找到任何方法来做到这一点 而且我不知道这是否可能 那么 我可以以某种方式做到这一点 或者使
  • 为什么 `add cl, 2` 以 x86 十六进制打印 `80 c1 02`?

    试图缩小我的问题范围 以便我能够克服这个障碍 This https stackoverflow com questions 28664856 how to interpret x86 opcode map noredirect 1 comm
  • 在 C# 中通过 HTTP 侦听器获取发布的文件

    我使用 C 制作了一个简单的 http 服务器 我知道如何获取发布的数据并输出它们 这是我的 C 代码 public static void start HttpListener listener new HttpListener list
  • 用于图像创建的 Scala 库 [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 有没有好的 Scala 或 Java 图像处理库 对于简单的任务 例如与其他一些图像合成图像然后生成拇
  • Spark 2.0中DataFrame的GroupBy操作需要花费大量时间

    在我的一项 Spark 作业 EMR 5 0 0 上的 2 0 中 我有大约 5GB 的数据与 30 行交叉连接 数据大小几 MB 我还需要按它分组 我注意到我花费了大量时间 使用 1 个 m3 xlarge 主节点和 6 个 m3 2xl
  • 是否可以将 requirejs 模块转换为 commonjs ?

    It s 已经可以将 commonjs 模块转换为 requirejs http requirejs org docs commonjs html autoconversion 但我仍然想知道是否可以做相反的事情 有没有办法将 requir
  • 依赖注入和工作单元模式

    我有一个两难的处境 我使用 DI 即 工厂 为自制 ORM 提供核心组件 容器根据请求提供数据库连接 DAO 映射器及其结果域对象 这是映射器和域对象类的基本概述 class Mapper public function construct
  • 我如何在 xcode iphone 中创建一个滑动菜单,就像主 android 菜单滑动菜单一样?

    我一直在网上寻找标题中描述的滑动菜单的示例 我所需要的只是知道我应该从 iphone 库中查找哪些项目来制作这个 我不想占用别人的时间让他们写出代码 但如果有一点指导将不胜感激 我们在 iPhone 应用程序中创建了一个滑动抽屉 我们使用以
  • PHP 中仅用一个空格替换多个空格和换行符

    我有一个带有多个换行符的字符串 字符串 This is a dummy text I need to format this 期望的输出 This is a dummy text I need to format this 我正在使用这个
  • `[<-`(`*tmp*` 中出错,下标越界 下标越界

    在下面的代码中 我尝试创建一个矩阵 列出每个城市的 opt lam 运行循环后 前两个城市始终有效 然后对于此后的任何城市都会出现错误 这是我得到的错误 coefmatrix 工作正常 只是 lambdamatrix 产生此错误 错误于 l
  • 如何计算用于 deflate 压缩的良好预设字典

    我有机会预设字典以进行 deflate 压缩 这对我来说是有意义的 因为要压缩的数据相对较小 为 1kb 3kb 而且我有大量代表性示例 要压缩的数据由任意字节序列组成 因此标记化等不是一个好方法 此外 数据显示大量重复 数据示例之间 因此