如何阻止 pdfplumber 读取每个页面的标题？

2024-03-31

我希望 pdfplumber 从用户给出的随机 pdf 中提取文本。问题是 pdfplumber 还从每个页面中提取标题文本或标题。如何对 pdfplumber 进行编程，使其不读取页眉（标题）和页码（或页脚，如果可能）？

这是代码：

import pdfplumber

all_text = ""

pdf = pdfplumber.open(file)
for pdf_page in pdf.pages:
    one = pdf_page.extract_text()
    all_text = all_text + '\n' + str(one)
    print(all_text)

where file是 PDF 文档...

我认为你不能。

但是，您可以使用以下命令裁剪文档crop方法。这样，您可以仅提取页面裁剪部分的文本，而忽略页眉和页脚。当然，这种方法需要您提前知道页眉和页脚的高度。

下面是坐标的解释：

x0 = % Distance of left side of character from left side of page.
top = % Distance of top of character from top of page.
x1 = % Distance of right side of character from left side of page.
bottom = % Distance of bottom of the character from top of page.

这是代码：

# Get text of whole document as string
crop_coords = [x0, top, x1, bottom]
text = ''
pages = []
with pdfplumber.open(filename) as pdf:
    for i, page in enumerate(pdf.pages):
        my_width = page.width
        my_height = page.height
        # Crop pages
        my_bbox = (crop_coords[0]*float(my_width), crop_coords[1]*float(my_height), crop_coords[2]*float(my_width), crop_coords[3]*float(my_height))
        page_crop = page.crop(bbox=my_bbox)
        text = text+str(page_crop.extract_text()).lower()
        pages.append(page_crop)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

pdfplumber

如何阻止 pdfplumber 读取每个页面的标题？的相关文章

python类型中的__flags__有什么用

我最近阅读了pickle源代码以下代码在copy reg让我很困惑 HEAPTYPE 1 lt lt 9 def reduce ex self proto assert proto lt 2 for base in self class
UnicodeDecodeError：“charmap”编解码器无法解码位置 2483 中的字节 0x81：字符映射到 <未定义>

我正在解析 csv 文件但收到以下错误 import os import csv from collections import defaultdict demo data defaultdict list if os path exis
matplotlib get_color 用于子图

我正在按照这里的教程进行操作 https matplotlib org gallery ticks and spines multiple yaxis with spines html https matplotlib org galler
python 打开相对文件夹中所有以.txt结尾的文件

我需要打开并解析文件夹中的所有文件但我必须使用相对路径类似于 input files 我知道在 JavaScript 中你可以使用 path 库来解决这个问题我怎样才能在Python中做到这一点这样您就可以获得路径中的文件列表作为列
Pyjnius导入jar文件

Pyjnius 允许您为 java 类创建 python 包装器例如 Hardware autoclass org myapp Hardware 有没有办法像这样导入现有的 jar 文件语法是什么样的您可以将 jar 添加到 CLAS
Django 和 AWS 简单电子邮件服务 [重复]

这个问题在这里已经有答案了我正在尝试启动并运行 django 站点并且正在尝试启用 django 的标准密码重置服务我的网站由 AWS EC2 托管因此我想将 AWS SES 用于我的电子邮件服务但是我无法使 smtp 连接正常
将元组列表转换为字符串 Python

例如我用 python 编写了一个返回列表的函数 1 1 2 2 3 3 但我希望输出为字符串这样我就可以用另一个字符替换逗号这样输出就是 1 1 2 2 3 3 有什么简单的方法可以解决这个问题吗感谢您提前提供任何提示这看起来像
为什么 np.linalg.norm(..., axis=1) 比写出向量范数公式慢？

标准化矩阵的行X对于单位长度我通常使用 X np linalg norm X axis 1 keepdims True 在尝试优化算法的此操作时我非常惊讶地发现在我的机器上写出标准化的速度大约快了 40 X np sqrt X 0 2
简单 CAE 的问题

看起来简单的 CAE 不适用于 Carvana 数据集我正在尝试对 Carvana 数据集进行简单的 CAE 你可以下载它here https www kaggle com c carvana image masking challeng
如果工作表不存在，Pandas 将工作表附加到工作簿，否则覆盖工作表

我正在使用 pandas 更新现有的 Excel 工作簿当使用ExcelWriter对象我可以覆盖工作表如果存在否则创建一个新工作表吗我的代码附加了新工作表但是当我尝试覆盖现有工作表时它会附加一个名称略有不同的新工作表例如
Python服务器“通常只允许每个套接字地址使用一次”

我正在尝试用 python 创建一个非常基本的服务器它侦听端口当客户端尝试连接时创建 TCP 连接接收数据发回某些内容然后再次侦听并无限期地重复该过程这是我到目前为止所拥有的 from socket import server
有什么理由不在Python中混合使用多处理和线程模块

我正在考虑使用Python来实现一个需要大量多线程的程序另一个要求是它将在桌面上运行因此拥有许多进程将使应用程序显得混乱且难以杀死在任务管理器中因此我正在考虑使用线程和多处理模块来减少进程数量据我了解 GIL 仅适用于单个进程
Python 多处理：全局对象未正确复制到子级

前几天我回答了一个关于SO的问题 https stackoverflow com q 67047533 1925388关于并行读取 tar 文件这是问题的要点 import bz2 import tarfile from multipro
pygame.image.load 不工作

我正在尝试为游戏创建世界地图但是当我尝试将世界地图加载到屏幕上时命令行告诉我无法执行此操作这是代码 import sys import pygame from pygame locals import pygame init Surf
从 Cython 代码生成 SIMD 指令

我需要概述在高性能数字代码中使用 Cython 可以获得的性能我感兴趣的事情之一是找出优化的 C 编译器是否可以对 Cython 生成的代码进行矢量化所以我决定写下面的小例子 import numpy as np cimport num
在 CSV 文件的最上面一行写入

我有这个sample csv 文件 a 1 apple b 2 banana c 3 cranberry d 4 durian e 5 eggplant 并有以下代码 samplefile open sample csv rb rows s
如何在Python中仅列出顶级目录？

我希望能够仅列出某个文件夹内的目录这意味着我不需要列出文件名也不需要其他子文件夹让我们看看一个例子是否有帮助在当前目录中我们有 gt gt gt os listdir os getcwd cx Oracle doc DLLs Doc
在 python 中，VSCode 调试器不会单步执行外部代码。无法弄清楚如何编辑 launch.json 中的“justMyCode”

我一直在提到https code visualstudio com docs python debugging justmycode https code visualstudio com docs python debugging jus
如何从集合中检索元素而不删除它？

假设如下 gt gt gt s set 1 2 3 我如何获得一个值任何值 s不做s pop 我想将该项目保留在集合中直到我确定可以删除它这只有在异步调用另一个主机之后才能确定又快又脏 gt gt gt elem s pop gt
如何将列表转换为字典

我有清单 a b c d 我想协调它来字典其中键是列表中每个值的位置值是列表的值在输出中我应该得到这样的东西 0 a 1 b 2 c 3 d Use enumerate 获取列表中每个元素的索引并dict 将其转换为字典 print d

随机推荐

MySQL 分组依据/排序依据索引

请参阅下面的查询我应该在表上创建什么索引以便查询将使用该索引并避免使用临时和文件排序我尝试了许多不同的索引组合并阅读这里的建议 http mysqldba blogspot com 2008 06 how to pick indexe
将 Unique-ids 传递给 Javascript 以实现水平滚动

我正在尝试开发一个类似于 Netflix 的水平滚动界面一切都显示并正常工作但由于某种原因 Javascript 只滚动浏览索引页面中的第一个出版商书籍当我尝试悬停和滚动任何其他出版商书籍时它只会水平滚动第一出版商书籍我知道 sc
具有多个条件的 Linq where 子句

此方法返回通用列表但它有多个条件来获取选择我只是用 if else if else if 来写这个我的意思是这么多 if else 有没有更短的方法来做到这一点谢谢 public List
使用 HttpURLConnection 设置自定义标头

我只是在做一个GET使用 Rest API 请求HttpURLConnection 我需要添加一些自定义标头但我得到了null同时试图找回他们的价值观 Code URL url try url new URL http www examp
使用指向单个值的指针作为数组

请注意该问题已针对注册变量进行了扩展简而言之我的问题是这个合法的 C 代码是否合法按照不同 ISO 9899 C 规范的标准字母最好在标准的文字中加上证明 int a 0 int b a 0 const int c 0 b
如何在ajax请求中将带有formdata的数组发送到mvc操作

我试图将带有表单数据的数组发送到带有 Ajax 请求的操作但每当我这样做时我都会收到表单数据和空数组 scope SubmitForm function var sLangs supportedLanguages data kendoM
D3 变更检测如何工作？

如果我有一个 JSON 对象数组 D3 如何确定哪些进入enter set 如果我有一个对象数组如下所示 var data label a value 1 label b value 3 label c value 2 然后我将它绑定到一
如何实现Actor.Ask以一定速率控制数据流

我使用了下面的方法但它使用了大量的 CPU 所以我想使用 Actor Ask 而不是下面的方法任何人都可以帮助我如何使用 Actor Ask KafkaConsumer PlainSource consumerSettings subs
JavaScript：没有alert()函数就无法工作

可能的解决方案 https stackoverflow com questions 11309802 javascript only works if i do an alert 各位程序员大家好我写信给您是为了请求您帮助解决我最近遇到的
沉默 Spork 的 Rails 模式加载

我在 Rails 3 0 环境上运行 rspec 我们刚刚切换到在内存数据库中使用 sqlite3 进行测试要使其正常工作您需要在每次运行时加载架构这样做的问题是您会从模式加载中获得大量输出根据this http www rubyi
使用 JavaScript（node.js）“反转”正则表达式

用这样的正则表达式 w 我可以匹配字符串a q 有没有惯用的方法来生成与 JS 中的某些正则表达式匹配的所有字符串不要考虑无限的情况我只是想简单地描述一些可能的符号集一些有意义的东西而不是 var s 0123456789 lt gt
Visual Studio中有没有宏可以获取TFS Sourcecontrol的根目录？

Visual Studio中是否有任何内置宏可以获取TFS Sourcecontrol Root目录例如就像 ProjectDir 一样我会使用 TFSSourceControlRoot 或类似的东西我需要这个的原因是为了在 xco
在 Python 中将 .sav 文件转换为 .csv 文件

我想在Python中将 sav文件的内容转换为 csv文件我编写了以下代码行来访问 sav 文件中变量的详细信息现在我不清楚如何将访问的变量数据写入带有标题的 csv 文件 import scipy io as spio on2fil
使用带有 return-join 的 Hibernate 本机查询重复行

我正在使用 Hibernate 3 3 x 并且有两个实体 public class FtChargeAcctPkgDtl private FtChargeAcctPkgDtlId id private Set
布朗尼安装故障排除

我正在准备 chainlink 训练营我的布朗尼安装似乎没问题但是当我尝试时brownie init即使我以管理员身份运行并且指定了文件我也会收到错误请参阅下面的链接获取屏幕截图 C WINDOWS system32 gt brow
如何调试SQLite3中的绑定参数？

In the 其他问题 https stackoverflow com q 31806336 4675398我学习了如何正确地将参数绑定到准备好的 SQL 语句但是我发现如果我不绑定所有参数 sqlite3 step 将返回 SQLIT
与在 32 位操作系统中本机运行相比，32 位程序在 64 位操作系统上运行速度是否相对较慢？

我在这里阅读有关 WOW 64 的内容http en wikipedia org wiki WOW64 http en wikipedia org wiki WOW64 并了解到它是 64 位 Windows 操作系统中运行 32 位程序的
当存在被忽略的文件时，如何使用通配符进行 git-add ？

我在 Windows 7 x64 上使用 msysgit 当 gitignore 可能忽略一些文件时我不知道如何告诉 Git 添加大量文件例如初始化 git 存储库创建一个包含以下内容的 gitignore foo 创建文件 tes
IncompleteClassChangeError：类 ClassMetadataReadingVisitor 具有接口 ClassVisitor 作为超类

我使用 spring mvc 和 mongodb 作为数据库构建了一个 Web 应用程序我使用 maven3 来构建应用程序项目构建成功但是当应用程序启动时我在日志中收到以下错误因此我的应用程序无法启动这在几个月前曾经有效引起
如何阻止 pdfplumber 读取每个页面的标题？

我希望 pdfplumber 从用户给出的随机 pdf 中提取文本问题是 pdfplumber 还从每个页面中提取标题文本或标题如何对 pdfplumber 进行编程使其不读取页眉标题和页码或页脚如果可能这是代码 impor

如何阻止 pdfplumber 读取每个页面的标题？

如何阻止 pdfplumber 读取每个页面的标题？ 的相关文章

随机推荐

热门标签

如何阻止 pdfplumber 读取每个页面的标题？的相关文章