struct.error:解包需要长度为 16 的字符串参数

2024-02-08

处理 PDF 时文件 (2.pdf) https://yadi.sk/i/2vABlTaexZerg使用 pdfminer (pdf2txt.py) 我收到以下错误:

pdf2txt.py 2.pdf 

Traceback (most recent call last):
  File "/usr/local/bin/pdf2txt.py", line 115, in <module>
    if __name__ == '__main__': sys.exit(main(sys.argv))
  File "/usr/local/bin/pdf2txt.py", line 109, in main
    interpreter.process_page(page)
  File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfinterp.py", line 832, in process_page
    self.render_contents(page.resources, page.contents, ctm=ctm)
  File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfinterp.py", line 843, in render_contents
    self.init_resources(resources)
  File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfinterp.py", line 347, in init_resources
    self.fontmap[fontid] = self.rsrcmgr.get_font(objid, spec)
  File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfinterp.py", line 195, in get_font
    font = self.get_font(None, subspec)
  File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfinterp.py", line 186, in get_font
    font = PDFCIDFont(self, spec)
  File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdffont.py", line 654, in __init__
    StringIO(self.fontfile.get_data()))
  File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdffont.py", line 375, in __init__
    (name, tsum, offset, length) = struct.unpack('>4sLLL', fp.read(16))
struct.error: unpack requires a string argument of length 16

虽然类似的文件 (1.pdf) https://yadi.sk/i/Z37JK5S9xZeoX不会造成问题。

我找不到有关该错误的任何信息。我添加了一个issue https://github.com/euske/pdfminer/issues/144在 pdfminer GitHub 存储库上,但仍未得到答复。有人可以向我解释为什么会发生这种情况吗?我可以做什么来解析2.pdf https://yadi.sk/i/2vABlTaexZerg?


Update:我遇到类似的错误BytesIO代替StringIO after 安装pdfminer https://github.com/euske/pdfminer#how-to-install直接来自 GitHub 存储库。

    $ pdf2txt.py 2.pdf 
Traceback (most recent call last):
  File "/home/danil/projects/python/pdfminer-source/env/bin/pdf2txt.py", line 116, in <module>
    if __name__ == '__main__': sys.exit(main(sys.argv))
  File "/home/danil/projects/python/pdfminer-source/env/bin/pdf2txt.py", line 110, in main
    interpreter.process_page(page)
  File "/home/danil/projects/python/pdfminer-source/env/local/lib/python2.7/site-packages/pdfminer/pdfinterp.py", line 839, in process_page
    self.render_contents(page.resources, page.contents, ctm=ctm)
  File "/home/danil/projects/python/pdfminer-source/env/local/lib/python2.7/site-packages/pdfminer/pdfinterp.py", line 850, in render_contents
    self.init_resources(resources)
  File "/home/danil/projects/python/pdfminer-source/env/local/lib/python2.7/site-packages/pdfminer/pdfinterp.py", line 356, in init_resources
    self.fontmap[fontid] = self.rsrcmgr.get_font(objid, spec)
  File "/home/danil/projects/python/pdfminer-source/env/local/lib/python2.7/site-packages/pdfminer/pdfinterp.py", line 204, in get_font
    font = self.get_font(None, subspec)
  File "/home/danil/projects/python/pdfminer-source/env/local/lib/python2.7/site-packages/pdfminer/pdfinterp.py", line 195, in get_font
    font = PDFCIDFont(self, spec)
  File "/home/danil/projects/python/pdfminer-source/env/local/lib/python2.7/site-packages/pdfminer/pdffont.py", line 665, in __init__
    BytesIO(self.fontfile.get_data()))
  File "/home/danil/projects/python/pdfminer-source/env/local/lib/python2.7/site-packages/pdfminer/pdffont.py", line 386, in __init__
    (name, tsum, offset, length) = struct.unpack('>4sLLL', fp.read(16))
struct.error: unpack requires a string argument of length 16

TL; DR

感谢@mkl 和@hynecer 提供的额外信息...我可以确认这是 pdfminer 和您的 PDF 中的错误。每当 pdfminer 尝试获取嵌入文件流(例如字体定义)时,它都会拾取文件中的最后一个文件流,然后再执行endobj。遗憾的是,并非所有 PDF 都严格添加结束标签,因此 pdfminer 应该对此具有弹性。

快速修复此问题

我已经创建了一个补丁 - 它已作为 github 上的拉取请求提交。看https://github.com/euske/pdfminer/pull/159 https://github.com/euske/pdfminer/pull/159.

详细诊断

正如其他答案中提到的,您看到这种情况的原因是,当 pdfminer 解包数据时,您没有从流中获得预期的字节数。但为什么?

正如您在堆栈跟踪中看到的那样,pdfminer(正确地)发现它有一个要处理的 CID 字体。然后,它继续将嵌入的字体文件处理为 TrueType 字体(在pdffont.py)。它尝试通过读出一组二进制表来解析关联的流(流 ID 18)。

这不适用于2.pdf因为它有一个文本流。你可以通过运行看到这一点dumppdf -b -i 18 2.pdf。我在这里开始:

/CIDInit /ProcSet findresource begin
12 dict begin
begincmap
/CIDSystemInfo << /Registry (Adobe) /Ordering (UCS) /Supplement 0
>> def /CMapName /Adobe-Identity-UCS def
...

那么,垃圾输入,垃圾输出...这是您的文件或 pdfminer 中的错误吗?好吧,事实上其他读者可以处理它,这让我产生了怀疑。

进一步挖掘,我发现这条流是完全相同的流ID 17,这是cmapToUnicode场地。快速浏览一下PDF spec http://www.adobe.com/devnet/pdf/pdf_reference.html表明这些不可能相同。

进一步深入研究代码,我发现所有流都获取相同的数据。哎呀!这就是错误。原因似乎与此 PDF 缺少一些结束标记有关 - 正如@hynecer 所指出的。

修复方法是为每个流返回正确的数据。任何其他只是吞掉错误的修复都会导致所有流使用错误的数据,例如错误的字体定义。

我相信附带的补丁可以解决您的问题,并且一般情况下应该可以安全使用。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

struct.error:解包需要长度为 16 的字符串参数 的相关文章

随机推荐

  • 计算三角形内的格点

    我有一个大三角形的点 我们称之为 a b c a x y 等 现在我想统计这个三角形围成的区域内有多少个积分点 所以我首先看一下皮克定理 我考虑的第二种方法是生成一个以三角形的最大值 最小值为界的点列表 然后检查每个点是否位于三角形内部 我
  • HDF5 是否支持并发读取或写入不同的文件?

    我试图了解 HDF5 并发的限制 HDF5 有两种版本 并行HDF5 and default 目前 Ubuntu 中提供了并行版本 Anaconda 中默认提供 通过判断 enable parallel flag 我知道并行写入同一文件是不
  • 在上下文中按 ID 查找 SignalR 客户端

    所以我想通过 SignalR 向特定客户端发送消息 该客户端不是 Clients Caller 目前我只能通过将其称为 ID 上下文中的一个属性 来识别它 this Context Items ID 那么要通过 ID 查找客户端 我该如何
  • 要求 RMagick 向 ImageMagick 发送直接命令

    RMagick 不支持 ImageMagick 的某些选项 有时使用 ImageMagick 实际上更方便 是否有 Image 对象的 方法允许您使用命令行界面直接向 ImageMagick 发送命令 你用一下可以吗system或通过反引号
  • 在Android中使用导航组件时如何删除默认动画过渡?

    我正在使用导航组件 并且在主要活动中有一个底部导航视图 当我点击底部导航视图中的选项卡时 片段出现时动画似乎会淡出 我不认为我手动设置了动画 似乎动画会默认存在 我想删除那个动画 这是我在主要活动中使用的代码 class MainActiv
  • 按坐标的时区[重复]

    这个问题在这里已经有答案了 正如标题所暗示的 我需要根据一对坐标找到一个时区 或者可能只是 UTC 偏移量 我一直在寻找不同的解决方案 并且有一些网络服务 但我需要能够离线访问应用程序 由于时区并不完全基于经度 这似乎并不那么容易 我想查询
  • 如何使用 jQuery 将

    如何使用 jQuery 移动特定的
  • C# 中带有随机数的二维数组

    我想在 C 中创建二维数组 size 3 on 5 插入随机数 我尝试这样做 但它不起作用 Random rnd new Random int lala new int 3 5 for int i 0 i lt 3 i for int j
  • 如何重新排列 gtsummary 或 flextable 中的列?

    参考这个答案 置信区间 https stackoverflow com a 66891473 13734451 https stackoverflow com a 66891473 13734451 如何重新排列 gtsummary 或 f
  • 如何将 pdftk 添加到 Heroku Cedar 应用程序?

    我需要在 Heroku Cedar Rails 应用程序中将多个 PDF 文件合并为一个 并决定使用 pdftk 来完成此操作 我不知道如何做到这一点 我认为最好的方法是创建一个自定义构建包 其中包含 pdftk 的编译二进制文件 但我不太
  • ruby 中日期的比较

    如何将特定日期与今天进行比较以了解该特定日期是否大于今天 谢谢哈里什 date 2010 07 20 to date 20th July today Date today 21st July if date gt today puts da
  • 在导出 Android 应用程序向导中为 Android 应用程序生成密钥库?

    我正在尝试在 Eclipse 中导出已签名的 Android 应用程序 我认为我正朝着正确的方向前进 右键单击项目 gt 安卓工具 gt 导出已签名的申请包 将出现 导出 Android 应用程序 向导 选择我要导出的项目 点击Next 出
  • 如何使用 Objective C 在 SQLITE 中启用外键约束

    今天我注意到我的 SQLite 表上的外键约束不起作用 在阅读 Stack Overflow 后 我发现应该启用此功能 所以 我正在寻找执行此操作的代码片段 到目前为止 我只能找到这个 self db executeUpdate PRAGM
  • 在VBA中同时设置单元格左边框和右边框

    想知道是否有办法用一条语句设置单元格的左边框和右边框 类似的东西msgBox配置可以组合 添加在一起 例如vbYesNo vbQuestion 我试过 Cells j i Borders xlEdgeLeft xlEdgeRight 这给我
  • 如何使用 SQL Server 数据库中的值填充列表?

    该列表将根据我的数据库中有多少项目而增长和缩小 我需要填充列表而不是列表框 我知道我需要打开一个连接 using var conn new SqlConnection Properties Settings Default DBConnec
  • java bean如何将多个对象封装成一个

    在定义中说 java bean将许多对象封装成一个对象 Bean 这里的 许多对象 是什么意思以及java bean如何将它们封装成一个对象 None
  • 如何在 python 中使用 ipython 笔记本 Markdown 单元格的内容

    在 IPython 中 我们可以通过以下方式获取先前的输出和输入Out n and In n 变量 是否可以使用 Markdown 笔记本单元的内容并在 python 中使用它 我想在 Markdown 单元格中写入一些文本 This is
  • TouchsMoved 以不规则的间隔调用

    我正在为 iOS 制作一款游戏 您主要在屏幕上拖动大对象 当我在实际的 iPad iPhone 上运行游戏一段时间 连续在屏幕上画圈拖动对象 时 每隔 5 分钟左右拖动的对象会卡顿约 10 30 秒 然后 它又恢复如丝般光滑的移动状态 从视
  • Delphi中如何区分多个键盘?

    我的电脑上连接了两个键盘 一个用于输入 TMemo1 另一个用于输入 TMemo2 两者都可以同时打字 问题是我无法区分键盘一输入的内容和键盘二输入的内容 有没有办法区分某些输入来自哪个设备 Dian 你可以使用注册原始输入设备 http
  • struct.error:解包需要长度为 16 的字符串参数

    处理 PDF 时文件 2 pdf https yadi sk i 2vABlTaexZerg使用 pdfminer pdf2txt py 我收到以下错误 pdf2txt py 2 pdf Traceback most recent call