优化字节对编码

2023-11-25

注意到字节对编码 (BPE)大型文本压缩基准测试非常缺乏，我非常很快就做好了它的一个简单的字面实现。

压缩率 - 考虑到没有进一步处理，例如没有霍夫曼或算术编码——出奇的好。

然而，我这个微不足道的实现的运行时间并不那么出色。

如何对此进行优化？是否可以一次性完成？

这是我迄今为止的进展的总结：

谷歌搜索找到了这个链接到原始代码并引用来源的小报告：

菲利普·盖奇，题为“一种新算法” 对于数据压缩'，出现了在《C 用户日志》中 - 二月 1994年版。

多布斯博士网站上的代码链接已损坏，但该网页镜像了它们。

该代码使用hash表来跟踪缓冲区中每次传递所使用的有向图及其计数，以避免每次传递时重新计算新的。

我的测试数据是enwik8来自哈特奖.

|----------------|-----------------|
| Implementation | Time (min.secs) |
|----------------|-----------------|
| bpev2          | 1.24            | //The current version in the large text benchmark
| bpe_c          | 1.07            | //The original version by Gage, using a hashtable
| bpev3          | 0.25            | //Uses a list, custom sort, less memcpy
|----------------|-----------------|

bpev3创建所有有向图的列表；块的大小为 10KB，通常有 200 个左右的有向图高于阈值（4 个，这是我们可以通过压缩获得一个字节的最小数量）；对该列表进行排序并进行第一次替换。

随着替换的进行，统计数据也会更新；通常，每次传递仅更改大约 10 或 20 个二合字母；这些被“绘制”并排序，然后与有向图列表合并；这比每次遍历都对整个有向图列表进行排序要快得多，因为该列表是nearly sorted.

原始代码在“tmp”和“buf”字节缓冲区之间移动； bpev3 只是交换缓冲区指针，这仅需要大约 10 秒的运行时间。

鉴于 bpev2 的缓冲区交换修复将使穷举搜索与哈希表版本保持一致；我认为哈希表的价值值得商榷，而列表对于这个问题来说是更好的结构。

但它仍然是多通道的。因此它不是一个普遍具有竞争力的算法。

如果你看一下大文本压缩基准，原来的bpe已添加。由于它的块大小较大，因此它在 enwik9 上的性能比我的 bpe 更好。此外，哈希表和我的列表之间的性能差距更接近 - 我将其归结为march=PentiumProLTCB 使用的。

当然也有适合和使用的场合；Symbian使用它来压缩 ROM 映像中的页面。我推测 Thumb 二进制文件的 16 位性质使其成为一种简单且有益的方法；压缩在PC上完成，解压在设备上完成。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

优化字节对编码的相关文章

最小硬币找零问题——回溯

我正在尝试用最少数量的硬币解决硬币找零问题采用回溯法我实际上已经完成了它但我想添加一些选项按其单位打印硬币数量而不仅仅是总数这是我下面的Python代码 def minimum coins coin list change mi
将图的 BFS 代码转换为 DFS 代码

如果这个问题听起来模棱两可我很抱歉但我在采访中被问到了这个问题为图树中的 BFS 编写一个程序我使用队列编写了流行的代码现在他要求我通过修改我刚刚编写的 BFS 代码的一行来将其转换为 DFS 代码我能想到的唯一答案是使用堆栈
访问三个静态数组比访问一个包含 3 倍数据的静态数组更快？

我有 700 个项目我循环遍历这 700 个项目为每个项目获取项目的三个属性并执行一些基本计算我使用两种技术实现了这一点 1 三个 700 元素的数组三个属性各一个数组所以 item0 a array1 0 item0 b arr
GCC 优化对位操作的有效性

以下是在 x86 64 上设置 C 中单个位的两种方法 inline void SetBitC long array int bit Pure C version array 1 lt
将 0 更改为 1 或反之亦然的最优雅的方式

做接下来的事情最优雅的方式是什么 int i oneOrZero if i 0 i 1 else i 0 你可以假设i只能有 1 或 0 值 i 1 XOR https en wikipedia org wiki Exclusive or值
在地图元素上使用 for_each

我有一个映射我想在其中对每个数据类型对象成员函数执行调用我还知道如何在任何序列上执行此操作但是是否可以在关联容器上执行此操作我能找到的最接近的答案是 Boost Bind 访问 std for each 中的 std map 元素
按字母/字典顺序排列的两个字符串的平均值

假设您采用字符串 a 和 z 并按字母顺序列出它们之间的所有字符串 a b c x y z 取这个列表的中点你就会找到 m 所以这有点像取这两个字符串的平均值您可以将其扩展到具有多个字符的字符串例如 aa 和 zz 之间的中点将位于列
Tarjan 算法的非递归版本

我有以下 Tarjan 算法的递归实现来查找图中的强连接组件并且工作正常 public class StronglyConnectedComponents public static List
ASM 中从小端到大端的快速转换

我在 C 中有一个 uint 类型数组在检查程序是否在小端机器上运行后我想将数据转换为大端类型因为数据量可能会变得非常大但总是均匀的所以我想考虑将两个 uint 类型作为 ulong 类型以获得更好的性能并在 ASM 中对其进行
将平面表解析为树的最有效/优雅的方法是什么？

假设您有一个存储有序树层次结构的平面表 Id Name ParentId Order 1 Node 1 0 10 2 Node 1 1 1 10 3 Node 2 0 20 4 Node 1 1 1 2 10 5 Node 2 1 3 10
拓扑排序卡恩算法 BFS 或 DFS

拓扑排序的方法是BFS还是DFS 哪个正确我认为BFS是对的但有些网站说DFS 有些网站说BFS 我很困惑卡恩算法与 BFS 或 DFS 相同吗或者BFS 或DFS 只是卡恩算法的工具 Kahn算法和DFS在实践中都用于拓扑排序选
超越堆栈采样：C++ 分析器

黑客的故事日期是 2010 年 2 月 12 日圣诞节前的日子已经过去了作为一名 Windows 程序员我几乎遇到了一个主要障碍我一直在使用 AQTime 我尝试过 sleepy shiny very sleepy 就在我们说话的
Deflate 压缩 - 数值示例

我真的很想看看一个数字示例手动压缩如何进行压缩以下非常短的文本 abc 已使用 deflate 算法进行压缩输出 eJxLTEoGAAJNASc 其二进制表示法为 01100101 01001010 01111000 01001100
我怎样才能优化这个vba循环代码？

嗨我写了这段代码但这段代码非常慢我该如何优化这段代码 Private Sub printItem r lastCol objStream FirstCol 1 Dim strFirst As String strFirst CStr
com.jcraft.jsch.JSchException：算法协商失败

我正在尝试从客户端计算机连接 sftp 服务器但是 com jcraft jsch JSchException 算法协商失败我收到这种错误 com jcraft jsch JSchException Algorithm negotiat
递归分层父子

我有一个来自数据库的项目集合该数据库具有parentid值或空这是我的班级设计 public class Item public int id get set public string Name get set public int
如何编写一个简单的版本控制系统？

我想做一个简单的版本控制系统但我不知道如何构建我的数据和代码这是一个简短的例子用户登录 User has two options when uploading a file 提交新文件提交文件的新版本用户应该能够看到树版本不同
多线程归并排序，添加额外的线程

我在java中的多线程合并排序算法中面临一个问题我应该将代码修改为 3 4 5 6 7 8 线程合并排序将原始数组划分为subArrays 目前它有2subArrays 如何将原始数组拆分为 3 4 5 6 7 8subArray是为了
准备与大数据相关的设计和架构问题的最佳方法[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
递归最长递增子序列的记忆

我为最长递增子序列提出了简单的以下递归解决方案但是您可以帮助将记忆包含到这个递归解决方案中吗 public int findLIS int a int maxSoFar int item int count if item a leng

随机推荐

在 R 中，如何用另一个字符串替换包含特定模式的字符串？

我正在开展一个涉及清理大学专业数据列表的项目我发现很多拼写错误所以我想使用这个函数gsub 将拼写错误的拼写替换为正确的拼写例如假设 biolgy 在名为 Major 的专业列表中拼写错误如何让 R 检测拼写错误并将其替换为正确的
更新查询中具有多个匹配项的行

给出如下更新语句 UPDATE UserAssesment SET AssessmentDate comp AssessmentDate FROM UserAssesment ua INNER JOIN vw CompletedAssess
当输入路径中有方括号时，Get-ChildItem -Recurse 是否会损坏？

好吧所以我感觉是这样的must是 PowerShell 中的一个错误但我想看看你们是否认为这听起来很糟糕这是一件很容易重现的事情但我可以理解为什么它可能不是一个特别常见的用例我在下面列出的步骤实际上并不是我的脚本正在执行的操作我
打印数据框，列居中对齐

我想打印一个数据框其中列居中对齐下面是我尝试过的我认为打印数据框 test1 会导致列在中心对齐但事实并非如此关于我如何做到这一点有什么想法吗 test data frame x c 1 2 3 y c 5 6 7 names t
使用别名模板时无法将 `std::unique_ptr` 分配给 clang 中的基类

以下代码在 gcc 4 9 3 和 clang 3 7 1 上编译并运行得很好 std unique ptr include
使用 Helm 3 来部署通过 kubectl 部署的现有资源

我们过去使用普通的 kubectl 命令来部署 kubernetes 资源用于服务部署 configmap 等现在我们需要开始使用 Helm 3 并将其集成到我们的管道中但是当我尝试运行 helm Upgrade 命令时出现以下错
反向智能搜索（reverse-i-search），如何获取之前的结果？ [关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案 When doing reverse intelligent search on a terminal Ctrl R I can keep pressing Ctrl R to go
Java8流分组通过枚举和计数

与课程 public class Person private String name private Color favouriteColor public enum Color GREEN YELLOW BLUE RED ORANGE
将图像分享到 Whatsapp 和 Facebook

我已经能够将照片分享到 Whatsapp 但我这样做的方法是在UIActivityViewController然后显示一个UIDocumentInteractionController 由此UIDocumentInteractionCont
在 Java 17 上使用 Spark 3.3.0 运行单元测试失败，并出现 IllegalAccessError: class StorageUtils 无法访问 class sun.nio.ch.DirectBuffer

根据发行说明特别是门票在 Java 17 上构建并运行 Spark SPARK 33772 Spark现在支持在Java 17上运行但是将 Java 17 Temurin 17 0 3 7 与 Maven 3 8 6 和 maven
Rails 生成错误：没有这样的文件或目录 - getcwd

跑步时rails generate在一个新的 Rails 4 2 项目中我不断收到错误 rbenv versions 2 2 0 lib ruby gems 2 2 0 gems spring 1 3 0 lib spring confi
Test::Class 测试可以并行运行吗？（或如何分解超类测试）

在我读过的所有教程中Test Class 似乎有一个运行程序脚本可以加载所有类而且我认为从角度来看Test Harness这只是一个巨大的测试我不认为它可以并行运行器内部的测试我的 X 问题是我试图在测试子类时排除超类行为每个子类应
Django - 将表单集中的 BooleanField 显示为一组单选按钮

我有以下型号 class Profile models Model verified models BooleanField default False def primary phone self return self phone se
是否有一个使用 alloca 且符合 C++ STL 的分配器？

我有两个问题 1 是否可以实现一个使用 alloca 在堆栈上分配内存并且符合 C STL 的分配器如果有代码您只需将 URL 指向我即可让我高兴如果没有代码也许您可以画出分配和释放函数的草图 2 如果上述问题的答案是是我想了
asp.net在回发后动态添加用户控件保存值

这是我的问题我有一个用户控件我希望允许用户使用按钮单击添加所需数量的实例每次单击按钮时我想将用户控件的另一个实例添加到面板中第一次工作正常但每次额外的回发都会删除所有添加的控件我可以毫无问题地跟踪用户添加的用户控件的数量但如
Firefox 4 onBeforeUnload 自定义消息

在火狐中3 我能够编写一个自定义确认弹出窗口 window onbeforeunload function if someCondition return Your stream will be turned off 现在在火狐浏览器中4
Razor 视图引擎和 jQuery

有谁知道如何强制 Razor View 引擎打印 foreach 循环下的精确行代码如下 section head Content Scripts jquery 1 4 1 js gt Content Scripts jquery pro
SQL Server 中的日期时间问题

我正在尝试对 MS SQL Server 中已设置的数据库执行 INSERT 该数据库服务器位于共享主机 godaddy 中我想要实现的是将一篇文章存储到数据库中但是每次我发布或预览该文章时服务器都会抛出我的错误 SqlDateTim
使用 ggplot2 绘制 Excel 图形

我的公司想要在 R 中进行报告他们希望尽可能保持 Excel 报告的相同 ggplot2 有没有办法保持 Excel 中俗气的 3D 外观我想要制作一个如下所示的情节我已经能够接近了这是我到目前为止所拥有的 gender lt c
优化字节对编码

注意到字节对编码 BPE 大型文本压缩基准测试非常缺乏我非常很快就做好了它的一个简单的字面实现压缩率考虑到没有进一步处理例如没有霍夫曼或算术编码出奇的好然而我这个微不足道的实现的运行时间并不那么出色如何对此进行优化是否可以

优化字节对编码

优化字节对编码 的相关文章

随机推荐

热门标签

优化字节对编码的相关文章