我有机会预设字典以进行 deflate 压缩。这对我来说是有意义的,因为要压缩的数据相对较小,为 1kb-3kb,而且我有大量代表性示例。要压缩的数据由任意字节序列组成,因此标记化等不是一个好方法。此外,数据显示大量重复(数据示例之间),因此好的字典可能会给出非常好的结果。
问题是如何算出好的字典呢?是否有一种算法可以计算最佳字典(给定样本数据)?
我开始研究前缀树,但不清楚如何在这种情况下使用它们。
此致,
贾雷克
我不知道有什么算法可以生成最佳的甚至是好的字典。这通常是手工完成的。我认为后缀树是查找字典公共字符串的好方法,但我从未尝试过。
首先要尝试的是简单地连接 1-3K 示例中的 32K,然后看看与没有字典相比可以提供多少增益。然后你从那里开始搞乱它,改变例子的顺序或者把例子中重复的部分拉到字典的末尾。
请注意,最常见的字符串应放在末尾,因为较短的距离需要较少的位。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)