如何找到预告片字典？

2024-03-04

浏览 PDF 规范，它说trailer之前的startxref。对我来说，这意味着xref可以出现在文档中的任何位置，但是trailer仍然出现在startxref。在您必须解析它之前，这是有意义的，因为您必须反向解析，您无法考虑注释或字符串。那么让我们变得更古怪一点。

trailer<< %\
  /Size 4 %\
  /Root 1 0 R %\
  /Info 4 0 R %\
  /Key (\
trailer<< %\
  /Size 4 %\
  /Root 2 0 R %\
  /Info 3 0 R %\
>>%)
>>&)
% test test )
startxref
 15
%%EOF

这是一个完全有效的预告片。第一个是真正的预告片，但第二个是“字符串”。在这种情况下，反向解析将无法捕获注释。如果字符串预告片是注释或字符串的一部分，则查找字符串预告片将会失败。我想知道找出预告片开始位置的最佳方法是什么？

更新 - 该预告片似乎可以在 Acrobat Reader 中打开

%PDF-1.3
%âãÏÓ
xref
0 4
00000000 65535 f
00000110 00000 n
00000250 00000 n
00000315 00000 n
00000576 00000 n

1 0 obj <<
  /Type /Catalog
  /Pages 2 0 R
  /OpenAction [ 3 0 R /XYZ null null null ]
  /PageLabels << /Nums [0 << /S /D >> ] >>
>>
endobj
2 0 obj <<
  /Type /Pages
  /Kids [ 3 0 R ]
  /Count 1
>>
endobj
3 0 obj <<
  /Type /Page
  /Parent 2 0 R
  /Resources << >>
  /MediaBox [ 0 0 612 792 ]
>>
endobj
4 0 obj <<
  /Producer (Me)
  /CreationDate (D:20110626000000Z)
>>
endobj

trailer<< %\
  /Size 4 %\
  /Root 1 0 R %\
  /Info 4 0 R %\
  /Key (\
trailer<< %\
  /Size 4 %\
  /Root 2 0 R %\
  /Info 3 0 R %\
>>%)
>>%)
% test test )
startxref
 15
%%EOF

就语法而言，这符合规范。不知何故，他们似乎能够知道自己是在评论中，还是在字符串中。解析 L-R，第二个预告片位于一个带有 % 尾部的字符串中，预告片后面有注释。但是 R-L 解析，你不知道第一个 ) 是注释的一部分，还是字符串定义的结尾。

另一个例子：

%PDF-1.3
%âãÏÓ
xref
0 8
0000000000 65535 f
0000000210 00000 n
0000000357 00000 n
0000000428 00000 n
0000000533 00000 n
0000000612 00000 n
0000000759 00000 n
0000000830 00000 n
0000000935 00000 n

1 0 obj <<
  /Type /Catalog
  /Pages 2 0 R
  /OpenAction [ 3 0 R /XYZ null null null ]
  /PageLabels << /Nums [0 << /S /D >> ] >>
>>
endobj
2 0 obj <<
  /Type /Pages
  /Kids [ 3 0 R ]
  /Count 1
>>
endobj
3 0 obj <<
  /Type /Page
  /Parent 2 0 R
  /Resources << >>
  /MediaBox [ 0 0 612 792 ]
>>
endobj
4 0 obj <<
  /Producer (Me)
  /CreationDate (D:20110626000000Z)
>>
endobj
5 0 obj <<
  /Type /Catalog
  /Pages 6 0 R
  /OpenAction [ 7 0 R /XYZ null null null ]
  /PageLabels << /Nums [0 << /S /D >> ] >>
>>
endobj
6 0 obj <<
  /Type /Pages
  /Kids [ 7 0 R ]
  /Count 1
>>
endobj
7 0 obj <<
  /Type /Page
  /Parent 6 0 R
  /Resources << >>
  /MediaBox [ 0 0 100 100 ]
>>
endobj
8 0 obj <<
  /Producer (Me)
  /CreationDate (D:20110626000000Z)
>>
endobj

trailer<< %\
  /Size 8 %\
  /Root 1 0 R %\
  /Info 4 0 R %\
  /Key (\
trailer<< %\
  /Size 8 %\
  /Root 5 0 R %\
  /Info 8 0 R %\
>>%)
>>%)
% test test )
startxref
 17
%%EOF

此示例在 Adobe 中正确显示。在我的上一个例子中，您声称它会失败，因为“根”节点无效，但在这个新示例中，根是有效的，但从未实际使用过。那么它不应该显示 100x100 的窗口，而不是 8.5"x11" 吗？

关于资源

  (Required; inheritable) A dictionary containing any resources required by the page 
(see Section 3.7.2, “Resource Dictionaries”). If the page requires no resources, the 
value of this entry should be an empty dictionary. Omitting the entry entirely
indicates that the resources are to be inherited from an ancestor node in the page 
tree.

问：医生，我这样做时会很痛。
答：不要这样做。

解析 PDF 结尾的正确方法如下：

找到最后一个startxref
备份到该字节偏移并开始解析外部参照表条目
在最后一个外部参照表之后，解析出预告片。

如果您只是想找到预告片，则实际上不必解析对象编号和字节偏移量等。您需要做的就是查看外部参照的给定小节中有多少条目，跳过 20*N 字节，并检查另一个小节（或“预告片”）。当你最终点击“预告片”而不是数字时，你就到了。

那么你到底为什么只想要预告片呢？

当我浏览 PDF 参考时，我希望找到一些文本行，说明标题/正文/外部参照/预告片必须按该顺序排列。我没有。

我发现的是：

基本的合格 PDF 文件应由以下四个元素构成（见图 2）：
- 单行标题...
- 身体...
- 交叉引用表...
- 预告片...

这些部分前面有项目符号，而不是数字。

因此，所有迹象都表明，符合要求的 PDF 可以通过交换正文和外部参照的顺序而逃脱惩罚。另一方面，标题是required首先，预告片是required最后，PDF 的所有部分均按该顺序列出。这意味着秩序，但在法庭上站不住脚。

但是，如果您查看标题为“PDF 文件的初始结构”的图 2（第 7 章第 5.1 节），您将看到直观定义的顺序。虽然有点薄，但我还是会坚持下去。

如果发现将正文放在外部参照表之后的 PDF 会破坏某些 PDF 查看器（尤其是程序试图修复的格式错误的 PDF），我一点也不感到惊讶。

我使用 PDF 文件已有十多年了。在那段时间里，我有never看过一个 PDF，其中外部参照位于正文之前。我还见过一些完全搞砸的 PDF。

因此，虽然我的“解析 PDF 的正确方法”可能不是铁甲如山，但它仍然相当耐用。

如果您绝对坚持备份以查找关键字“预告片”，那么您可以在解析出找到的预告片后查找“关闭数组或字典”标记。如果它被包裹在字符串中，则所有名称斜杠都必须转义，从而导致错误解析。名称中不能有空格...所以只剩下数组和字典。

但在现实生活中，您遇到此问题的可能性非常小，除非您打算破坏 PDF 软件并自己创建这些 PDF。这会让你的动机受到质疑。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Parsing

pdf

如何找到预告片字典？的相关文章

如何在 powershell 中使用正则表达式选择“catch”代码块？

我正在尝试分析多个目录中的大量 powershell 脚本并且希望将任何 Catch 代码块拉入列表变量中我正在尝试编写一个正则表达式来选择以下格式的任何块 Catch write Host Function MyInvocation
Rails 中的 PDF 导出

我需要将包含一些图表的 HTML 页面导出为 PDF 有哪些好的 gem 可以做到这一点 PDFKit http railscasts com episodes 220 pdfkit http railscasts com episodes
主目录不允许下载媒体

尝试将 PDF 文件保存在下载目录中但之后getExternalStoragePublicDirectory在 Android Q 后完全弃用无法将文件保存在 DCIM 或 Pictures 文件夹之外的任何其他位置因为尝试在此处保存
无论如何要抓取重定向的链接吗？

无论如何我可以让 python 单击一个链接例如 bit ly 链接然后抓取生成的链接吗当我抓取某个页面时我唯一可以抓取的链接是重定向的链接它重定向到的位置就是我需要的信息所在的位置重定向有 3 种类型 HTTP 作为响应标头
使用 Quartz 创建 PDF 注释 (iOS)

有人设法使用 Quartz 在现有 PDF 中编写自定义注释吗我已经使用 CGPDFDocumentRef 等渲染了 PDF 现在工作正常我成功地阅读了 Annots 字典 if CGPDFDictionaryGetArray page
用于遇到 [...] 的 Haskell Parsec 解析器

我正在尝试使用 Parsec 在 Haskell 中编写一个解析器目前我有一个可以解析的程序 test x 1 2 3 end 执行此操作的代码如下 testParser do reserved test v lt identifier
直接将 .aspx 转换为 .pdf [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
使用 PHP 创建图表并导出为 PDF

我正在寻找有关使用 PHP 创建图表的建议我还希望能够将这些图表导出到 PDF 文档我目前正在使用谷歌图表但我不喜欢将我的所有信息发送到谷歌的想法我更喜欢自己的托管解决方案我见过很多 Flash 解决方案但我不知道有什么方法可以
使用 PHP 将值插入可编辑 PDF，并保持可编辑状态

我有一个带有可编辑字段的 PDF 我希望将 HTML 表单中的值传递到此 PDF 中我尝试过使用 FPDF 并且它有效但是将值传递到 PDF 后 pdf 中的字段不再可编辑另一个缺点是在将值传递到 PDF 时我们必须为每个字段指定
Java 库有 parseInt、parseLong、parseDouble 等接受默认值并且不抛出异常吗？

我喜欢中的建议java中的String到Int 可能是坏数据需要避免异常 https stackoverflow com questions 174502 string to int in java likely bad data nee
Swift 3 中的 JSON 解析

有没有人能够找到一种在 Swift 3 中解析 JSON 文件的方法我已经能够返回数据但在将数据分解为特定字段时我没有成功我会发布示例代码但我已经尝试了很多不同的方法但没有成功并且没有保存任何代码我想要解析的基本格式是这样的提
如何使用 BeautifulSoup 从表中选择特定行？

So I have a question related to a previous question but I realized I needed to go one level more to get an 11 digit NDC
使用多个可选模式时顺序的重要性

可选模式的顺序如何DateTimeFormatter影响解析操作吗我正在运行这个程序想知道为什么最后一行抛出异常而不是前三行 public static void main String args String p1 EEEE E dd
在 JAVA 中使用 SAX 解析器从 XML 文件中提取文本节点

因此我目前正在使用 SAX 尝试从我正在处理的大量 xml 文档中提取一些信息到目前为止提取属性值确实很容易但是我不知道如何从文本节点中提取实际值例如在给定的 XML 文档中
使用 PDFbox 从区域中提取文本

是否可以从一个区域中提取文本PDFbox http pdfbox apache org index html仅使用二进制文件而不必创建自己的代码编译这个简单的程序并将其打包到 jar 中 import java awt geom Rect
将文本叠加在图像背景上并转换为 PDF

使用 NET 我想以编程方式创建一个 PDF 它仅包含一个背景图像其上有两个具有不同字体和位置的标签我已阅读过有关现有 PDF 库的信息但不知道如果适用哪一个对于如此简单的任务来说最简单有人愿意指导我吗 P D 我不想使用生成的
正则表达式，如果模式在引号中则忽略模式

编写一个非常简单的脚本解析器作为学校项目的一部分虽然这不是必需的但我很好奇是否可以仅使用正则表达式来完成语法类似于 ASP 其中脚本以结尾它只支持一个命令 pr 与echo或Response Write相同现在我正在使用这个正则
无法在jspdf中加载多个图像

我正在尝试加载动态生成的多个图像我想将这些图像转换为 PDF 格式 HTML 代码如下
SQL Server OPENJSON读取嵌套json

我有一些想要在 SQL Server 2016 中解析的 json 有一个项目 gt 结构 gt 属性的层次结构我想编写一个解析整个层次结构的查询但我不想通过索引号指定任何元素即我不想做这样的事情 openjson json 0 or
在 RMarkdown 输出到 PDF 时缩进而不添加项目符号点或编号

之前有人问过如何在没有项目符号的情况下缩进文本 RMarkdown 中的点但这是针对 HTML 输出的在 RMarkdown 中缩进而不添加项目符号点或数字 https stackoverflow com questions 47087

随机推荐

指向新元素和新数组的指针之间的区别？ [复制]

这个问题在这里已经有答案了在C 中下面代码中的指针p和q有什么区别吗 int p new int int q new int 5 我知道一个为单个 int 分配新内存第二个为 5 个 int 数组分配内存但从根本上来说指向单个 i
在 package.json 中添加 Bower 作为 devDependency

我正在使用 Node js 和 Bower 我想在全球范围内安装凉亭另外我需要将其包含在package json文件下devDependency 所以我尝试了 npm install g bower save dev Bower 已成功
为什么 Eclipse 不会在结果列表中显示文件内的搜索结果？

We have Eclipse 的一次安装它不像所有其他安装那样显示出现搜索结果的各个行如下所示我们如何打开此功能以便显示每行中的单独结果我认为这是你使用什么工具的问题如果您进行文本搜索每次点击您会得到一行但是如果您查找对 J
显示一个子虚拟机，然后在第一个关闭后显示另一个子虚拟机

我有一位家长指挥我想显示其中的第一个视图模型然后在第一个关闭后即完成一些操作我想显示一个不同的视图模型我在用着Caliburn Micro Contrib https github com kmees CMContrib 其中一个
在 IIS 中发布 WCF 服务，同时支持 HTTP 和 HTTPS

我有一个使用 webHttpBinding 配置了两个端点的 WCF 服务一个用于 http 另一个用于 https 它们使用相同的地址端点只是使用的协议不同
如何自定义 MongoRepository 而不覆盖接口中带注释的 @Query 方法？

我想通过添加一种方法来自定义 MongoRepository 并仍然使用 MongoRepository 提供的实现方法下面是代码 public interface TopoRepositoryInterface extends Mong
沿着路径放置对象，然后移动它（包含 IMG）

我有一个问题我需要你的帮助让我们看一下图像 1 我有一条路可以说是这样的 let bezierPath UIBezierPath bezierPath moveToPoint CGPointMake 10 5 47 5 bezierP
如何从 PowerShell 在 Octopus Deploy 中设置系统变量值

我试图在运行脚本步骤中为内置发行说明变量赋值 OctopusParameters Octopus Release Notes Some release notes 在下一步发送电子邮件中我在电子邮件正文中使用此变量但不幸的是它是
iOS应用程序不会死，退出后写入控制台并播放声音

我的应用程序有某种僵尸问题不是 NSZombie 问题就像是死而复生的问题我首先注意到在调试会话之后当我去跑步时 iPhone 上的音乐会每隔约 7 分钟暂停一次当我解锁设备时应用程序名称会在状态栏中闪烁红色就好像它正在运行
现代如何使用汇编（例如 C/C++）？

我了解计算机如何按照基本原理工作例如可以用 C C 等高级语言编写程序然后将其分解为目标代码然后分解为二进制代码以供处理器理解然而我真的很想了解汇编以及它如何在现代应用程序中使用我知道处理器在基本 x86 指令集之上有不
使用 python 进行动态时间扭曲（最终映射）

我需要对齐两个声音信号以便将一个声音信号映射到另一个声音信号两个信号对应相同的行为我尝试从以下位置实现 python 代码 https nipunbatra github io blog 2014 dtw html https nip
multipart/form-data 可以用 javascript 发送吗？

我使用以下形式通过 POST 发送文件以及文本名称
casper.js 中的 setInterval 和 this.wait

我需要做一个循环每次迭代之间间隔 3 次 2 秒我尝试了以下 3 个选项 Option 1 var casper require casper create verbose false logLevel debug casper star
如何让 OpenCover 查看本地 bin\Debug 文件夹中的 PDB 而不是 GAC

我正在使用 OpenCover 4 7 922 和 nUnit 控制台运行程序 3 10 0 我有一个myproj tests测试的项目myproj 建成后 myproj tests bin debug包含myproj tests dll
调用soap webservice从带有轴的java客户端返回对象列表

我对网络服务感到恼火我有一个非常简单的肥皂网络服务 Remote public interface StudentService public String sayHello public List
无法创建 MoveConstructibles 地图

我有一堂课包含std unique ptr lt gt 我想把这个类的实例放在一个std map lt gt 我认为推动 C 引入移动语义的原因之一是可以将诸如unique ptrs在标准容器内对于向量而言这确实有效但在我看来std
用于安装/升级 .NET Core 的命令行

是否有用于安装或升级 NET Core 的命令行命令我使用以下命令检查我的计算机上是否安装了 NET Coredotnet version只是注意到我的计算机上仍然安装了预览版本我想知道是否可以发出一些命令将其升级到最新版本没有dot
普通对象 VS 模型对象的类实例

在 Angular TypeScript 中创建模型对象的最佳实践是什么我应该使用带有对象表示法的类型注释对象是Object E g let m MyModel name foo 我应该使用new运算符对象是各自原型的实例这两种方法
Git - 冲突（重命名/删除）是什么意思？

我在理解其他问题中的含义方面没有取得多大成功这是一个 Ruby on Rails 项目如果您知道该怎么做这可能非常简单我尝试合并两个分支这是结果的部分 CONFLICT rename delete db migrate 2016
如何找到预告片字典？

浏览 PDF 规范它说trailer之前的startxref 对我来说这意味着xref可以出现在文档中的任何位置但是trailer仍然出现在startxref 在您必须解析它之前这是有意义的因为您必须反向解析您无法考虑注释或字符

如何找到预告片字典？

如何找到预告片字典？ 的相关文章

随机推荐

热门标签

如何找到预告片字典？的相关文章