为什么合并 PDF 会使文件大小变大？

2023-12-25

我正在尝试将各种 PDF 拆分在一起。它们的文字不多，偶尔会有图像。举例来说，我有两个 PDF，1.4Mb 和 740kb - 当我将它们合并时，它们会膨胀到 6Mb！

我尝试过脚本化组合和手动附加，结果相同，所以我猜测这是一个根本问题。对为什么会发生这种情况的一些解释会很有用，这样我就可以寻找避免这种情况的方法。是不是颜色模型不匹配？他们的字体很小。

您没有告诉我们您如何组合 PDF，这使得您的问题相当理论化，所以我将给您一个理论上的答案：

Part 1

假设您有一个 10 页、总大小为 1200 KByte 的 PDF 文件。
假设每个页面的内容流大约由 100 KByte 组成。从该内容流中，可以引用共享资源。
假设这 10 个页面共享 200 KByte 的资源：它们共享相同的字体、相同的图像等。

如果您将此 PDF“分解”为 10 个单独的单页 PDF，则每个 PDF 将包含大约 300 KByte：内容流中的 100 KByte + 资源中的 200 KByte（我忽略了拥有 10 个单独的外部参照表和文件预告片的开销）。

如果您将这 10 个独立的单页 PDF 合并起来，就好像这 10 个 PDF 没有任何共同点一样，则总文件大小将为 10 x 300 KByte。即 3000 KByte，是原始 1200 KByte 的两倍多。
如果您将这 10 个单独的单页 PDF 合并在一起，并考虑到它们具有共同的资源（字体、资源等），则总大小将为 (10 x 100 KByte) + 200 KByte。

如果您使用 iText 合并 PDF，则使用PdfCopy将生成 3000 KByte PDF，因为PdfCopy只是尽可能快地复制文档，而不查看文档的内容。如果您想要 1200 KByte PDF，那么您需要使用PdfSmartCopy在这种情况下，您将需要更多内存和 CPU，因为 iText 将检查每个 PDF 并重用原本多余的对象。

Part 2

在您的问题中，您提到您有一个 1.4Mb 和一个 740kb PDF，并且 1.4Mb + 740kb 会产生 6Mb 的 PDF。我的理论示例的第一部分没有解释尺寸的极端增长，所以这是第二部分。

在 PDF 1.0 中，PDF 语法没有被压缩。
从 PDF 1.2 开始，流被压缩，但间接对象和交叉引用流以 ASCII 存储。
从 PDF 1.5 开始，可以在对象流中压缩一系列对象，并且也可以压缩交叉引用表。

假设您的原始 PDF 具有压缩的对象流和压缩的交叉引用表。假设您将这些 PDF 合并为一个更像 PDF 1.4 文档的 PDF。在这种情况下，压缩对象和压缩交叉引用流将不再被压缩，从而导致文件大小变得更大。

Part 3?

可能还有其他原因，具体取决于原始 PDF 的性质以及您用于合并 PDF 的工具。如果上述情况都不适用，您应该澄清。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pdf

scripting

filesize

为什么合并 PDF 会使文件大小变大？的相关文章

将 PDF 存储在 MySQL 数据库中

我正在开发一个应用程序我需要创建 PDF 格式的发票我在用着pdf包 https github com psliwa PdfBundle并且 PDF 文件已正确创建 public function helloAction format
如何在 ionic 应用程序中显示 pdf 文件而无需下载

我所做的事情在应用程序浏览器中使用使用谷歌文档使用的网页视图所以我尝试了所有这些方法来使用 ionic 在 Android 设备中显示 pdf 文件但没有用我可以在所有这些方法中看到下载按钮谁能告诉我如何在没有用户下载选项的情
如何让 PDF 内容（由 Spring MVC 控制器方法提供）显示在新窗口中

我是 Spring MVC 的新手但它的功能给我留下了深刻的印象我正在使用 3 1 0 RELEASE 并且我必须显示 PDF 来响应 form form 提交这是我在控制器中编写的小代码 RequestMapping value
在 ionic 中从 Base64 打开 pdf

因此我将 Jasper 报告转换为 pdf 然后在 REST 控制器中转换为 base64 我该如何将其传输到我的 ionic 3 应用程序我研究了 Ionic Native Document Viewer 但为了做到这一点我需要将文
Linux：命令行实用程序将 RTF 转换为 PDF？

有什么建议可以将 RTF 转换为 PDF 吗我需要从 LAMP 应用程序执行此操作因此像 GhostScript 这样的命令行实用程序将是理想的选择或者您可以使用 libreoffice 来完成此任务 libreoffice hea
如何使用回形针对多页 pdf 进行缩略图

我想让 Paperclip 为上传的多页 PDF 文件的每一页创建 2 个缩略图我正在运行 Paperclip 2 3 1 1 并在我的资产模型中使用它 has attached file asset styles gt medium g
将隐藏（生物识别）数据附加到 pdf 上的数字签名

我想知道是否可以使用 iText 我用于签名或 Java 中的其他工具在 pdf 上添加生物识别数据我会更好地解释一下在手写板上签名时我会收集签名信息例如笔压签名速度等我想将这些信息 java中的变量与pdf上的签名一起存储
Bash 脚本 - 迭代 find 的输出

我有一个 bash 脚本其中需要迭代 find 命令输出的每一行但似乎我正在迭代 find 命令中的每个单词以空格分隔到目前为止我的脚本看起来像这样 folders find maxdepth 1 type d for i in f
C# 3.0 使用MemoryStream将itextsharp pdf保存到数据库

我正在尝试将 itextsharp 生成的 pdf 文件保存到数据库但是到目前为止我还没有成功我正在使用 Linq to sql 这是代码 MemoryStream ms new MemoryStream Document d new
在 shell 脚本中连接命令字符串

我正在维护一个现有的 shell 脚本它将命令分配给 shell 脚本中的变量例如 MY COMMAND bin command dosomething 然后接下来它通过执行以下操作将参数传递给 MY COMMAND MY ARG
Zend 框架 PDF 问题

又是我伙计们我有一个小问题 Create new PDF pdf new Zend Pdf Add new page to the document page pdf gt newPage Zend Pdf Page SIZE A4 p
当我从本地计算机更改为虚拟主机时，从 python 脚本调用 pdftotext 不起作用

我编写了一个小的 python 脚本来解析提取 PDF 中的信息我在本地机器上测试了它我有 python 2 6 2 和 pdftotext 版本 0 12 4 我正在尝试在我的虚拟主机服务器 dreamhost 上运行它它有 py
如何将 bash 脚本的整个输出保存到文件

我正在尝试将 bash 脚本的整个输出保存到文件中我目前在代码开头有一个参数 ip 地址如下所示 bin bash USAGE Usage 0
主目录不允许下载媒体

尝试将 PDF 文件保存在下载目录中但之后getExternalStoragePublicDirectory在 Android Q 后完全弃用无法将文件保存在 DCIM 或 Pictures 文件夹之外的任何其他位置因为尝试在此处保存
使用 PHP 创建图表并导出为 PDF

我正在寻找有关使用 PHP 创建图表的建议我还希望能够将这些图表导出到 PDF 文档我目前正在使用谷歌图表但我不喜欢将我的所有信息发送到谷歌的想法我更喜欢自己的托管解决方案我见过很多 Flash 解决方案但我不知道有什么方法可以
如何制作一个 bash 脚本来同时创建 40 个程序实例？

我是新来的bash and Linux 我编写了一个程序我想创建多个同时实例现在我通过打开 10 个新终端然后运行该程序 10 次我运行的命令是php home calculatedata php 使用 bash 脚本执行此操作的
如何判断 Bash 中是否存在文件？

这会检查文件是否存在 bin bash FILE 1 if f FILE then echo File FILE exists else echo File FILE does not exist fi 我如何只检查文件是否存在not ex
对目录中的所有文件执行命令

有人可以提供执行以下操作的代码假设有一个文件目录所有这些文件都需要通过程序运行该程序将结果输出到标准输出我需要一个脚本该脚本将进入一个目录对每个文件执行命令并将输出连接到一个大输出文件中例如要在 1 个文件上运行命令 cm
如何在 Linux shell 中将十六进制转换为 ASCII 字符？

假设我有一个字符串5a 这是 ASCII 字母的十六进制表示Z 我需要找到一个 Linux shell 命令它将接受一个十六进制字符串并输出该十六进制字符串代表的 ASCII 字符所以如果我这样做 echo 5a command im
编码员的 PDF 规范：Adobe 还是 ISO？

我想编写一个可以读取和解码 pdf 文档的应用程序现在我应该在哪里获取此文件格式的规格 PDF 格式是由 ISO 组织标准化的但我不清楚哪里是获取此类信息的最可靠来源什么是开始使用这种文件格式的好来源您实际上可以使用您提到的两个来源

随机推荐

RuntimeError：给定 groups=1，权重大小为 [32, 3, 16, 16, 16]，预期输入 [100, 16, 16, 16, 3] 有 3 个通道，但得到了 16 个通道

RuntimeError 给定 groups 1 权重大小为 32 3 16 16 16 预期输入 100 16 16 16 3 有 3 个通道但得到了 16 个通道这是我认为问题所在的代码部分 def init self super
Kotlin - TypeReference 无法获取类型参数的 Class<*>

我创建了一个 Kotlin 等价物TypeReference
如何检测 JavaScript 中的 DNS 查找错误

我想知道是否有一种方法可以检测 JavaScript 中的 DNS 查找错误有一些代码或一些技巧吗或者这是一个不可能完成的任务有人可以阐明这一点吗多谢无法准确预测随机最终用户计算机上出现 DNS 查找失败时会发生什么行为例如
我想获取数组中的索引，其中包含我在 C# 中的值[重复]

这个问题在这里已经有答案了我想获取数组中的索引其中包含我在 C 中的值例如我的数组是 byte primes 2 3 5 7 11 13 对于这个例子我将得到索引值 11 数组类型为Byte 你可以使用IndexOf http m
绘图区域填充以防止符号被截断。（核心剧情）

在 iOS 的 Core Plot 中是否有一种方法可以向绘图区域而不是绘图区域框架添加某种填充使用绘图符号时如果符号落在框架的轴线或边界上则可能会被截断诚然我理解为什么在绘制非零大小的圆圈作为数据符号时会出现这种情况但我
在哪里可以找到适用于 Android/iPhone 的免费中文手写识别引擎？

我有兴趣开发一些在智能手机上使用中文手写识别软件的东西在开始之前我想检查一下是否有任何已经开发好的免费用于开源和商业应用程序工具可供使用我尝试自行搜索但找不到任何专门用于 iPhone 或 Android 的软件有没有免费使用
用于组合搜索和排除的正则表达式

概述我正在尝试将两个 REGEX 查询合并为一个 d d d d 10 169 我将其写为两部分查询第一部分将在文本块中隔离 IP 在复制并粘贴此内容后我选择所有内容但不包括 10 或 169 问题看来我把这个问题过于复杂化了有
是否可以从数组创建打字稿类型？

我经常使用诸如 export type Stuff something else export const AVAILABLE STUFF Stuff something else 这样我就可以使用类型Stuff 并在需要时迭代所有可用的内
我可以在带有phonegap的移动设备上使用html5的拖放功能吗？

我需要使用phonegap 拖放到移动设备我尝试使用 jquery mobile 和 jquery ui jquery touchpunch 但 html5 对我来说更好是否可以谢谢弗朗西斯科 EDIT 这是一个可拖动的图像 a h
在视图控制器上添加导航栏

我是 iOS 新手我想在我的视图控制器上添加一个导航栏左侧有 2 个按钮右侧有订阅按钮我不知道如何做到这一点到目前为止我刚刚从界面生成器添加了一个导航栏在 h 文件中为其创建了一个强引用并进行了以下编码 navBar U
按钮内的复选框？

有什么方法可以在按钮内添加复选框吗目前我有这个解决方案 div div
psycopg2：光标已关闭

我在用psycopg2 2 6 1 我有很多需要按顺序执行的查询 conn psycopg2 connect database redshift database user redshift user password os environ
将 .NET Core Identity 与 API 结合使用

我创建了一个 API 并从同一 API 设置了 JWT 身份验证我选择不使用 IdentityServer4 我通过这样做services AddAuthentication 然后我在控制器中创建了令牌并且它起作用了不过我现在想添加注册
无法对 DataGrid 中的日期列进行排序

我添加了一个日期列DatePicker to my DataGrid并且无法通过单击来对该列进行排序Header 我想这与我的日期格式有关但我找不到解决方案我的代码是
在传递到 Web 服务之前将 jqGrid rowNum 从 ALL 更改为 -1 的最佳方法

我正在寻找允许用户选择在 jqGrid 中显示所有记录的最佳方法我知道为 rows 参数传递的 1 值表示 ALL 但我希望单词 ALL 而不是 1 出现在 rowList 选择元素中即行列表 15 50 100 全部我正在将网格请
改造android的Proguard规则

我正在对 Android 应用程序实施混淆器规则当我编译该 apk 时改造类仍然没有改变请看一下我的 proguard 文件并请指导我哪里缺少规则 keep public class org slf4j keep public cl
如何在Tab布局中设置Tab宽度？

我正在尝试创建一个tab layout其中有两个tabs 当我在小型手机上运行该应用程序时tab layout看起来不错但是当我运行相同的应用程序时Tablet它显示如下在平板电脑上看起来像这样我希望每个选项卡占据整个空间两端没有任
Javascript 验证 HTML 表单中的 X 个字段

我有一个表单其中包含大约 10 个文本条目用户地址电子邮件等大约有 50 多个条目是数量条目用户选择该条目的 2 倍该条目的 5 倍现在我从其他人那里继承了这张表格现在我有责任在客户要求时保持最新状态我不想全部重写但
如何将 core-js Map 导入 angular-cli webpack 生成的应用程序

1 0 0 beta 11 webpack 现在使用 core js 进行 polyfill 我正在尝试导入地图以在我的应用程序中使用 import Map from core js es6 map import Map from core
为什么合并 PDF 会使文件大小变大？

我正在尝试将各种 PDF 拆分在一起它们的文字不多偶尔会有图像举例来说我有两个 PDF 1 4Mb 和 740kb 当我将它们合并时它们会膨胀到 6Mb 我尝试过脚本化组合和手动附加结果相同所以我猜测这是一个根本问题对为什么

热门标签