我正在尝试从 PDF 文档中提取表格(example http://www.nea.org.np/images/supportive_docs/55082070-3-19.pdf)。它不是扫描/图像,因此请关注非 OCR 解决方案。OCR表格提取在这里 https://stackoverflow.com/q/74559877/562769.
我尝试了 pdf -> html -> extract table 的路线。我上面提到的pdf在转换为html时会产生垃圾,可能是因为字体的原因,该文档不是英文的。
使用 x 和 y 坐标提取 pdf 不是一个选项,因为此解决方案需要适用于上面提到的 url 中的未来 pdf,其中将包含表格,但并不总是位于相同位置。
PDF 不包含明确的表格数据。它仅包含我们倾向于将其解释为表格的行和字符字形。因此,您的任务涉及将我们的人类桌子识别功能放入代码中,这是一项艰巨的任务。
一般来说,如果您确信未来的 PDF 将会由相同的软件以非常相似的方式生成,那么它might值得花时间研究该文件,以获取一些易于遵循的提示来识别各个字段的内容。
不过,您的具体文件还有一个额外的缺点:它不包含直接文本提取所需的信息!您可以尝试从 Adobe Reader 中复制和粘贴,您将获得(至少我这样做)WinAnsi 范围内的半随机字符。
这是因为文档中的所有字体都声称它们使用 WinAnsiEncoding,即使这种方式引用的字符最终不是来自 WinAnsi 字符选择。
因此,在没有 OCR 的情况下从文档中可靠地提取文本毕竟是不可能的!
(尝试从 Adobe Reader 中进行复制和粘贴通常是一个很好的初步测试文本提取是否可行的方法;Reader 的文本提取方法已经开发了很多年,因此已经变得非常好。如果您无法提取任何有意义的内容,请使用Acrobat Reader,文本提取确实是一项非常困难的任务。)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)