使用 Python pdfMiner 提取每页文本?

2023-11-26

我尝试过使用 pypdf 和 pdfMiner 从 PDF 文件中提取文本。我有一些不友好的 PDF,只有 pdfMiner 才能成功提取。我正在使用代码here提取整个文件的文本。但是,我真的很想在每页的基础上提取文本,例如pages[i].extract_text()pypdf 中的功能。有谁知道如何使用 pdfMiner 提取每页文本?


for pageNumber, page in enumerate(PDFDocument.get_pages()):
    if pageNumber == 42:
        #do something with the page

有一篇文章相当不错here.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Python pdfMiner 提取每页文本? 的相关文章

随机推荐

  • 有人可以帮助我使用 RDF/OWL 可视化工具吗?

    我尝试在互联网上搜索 但找不到合适的工具 所以如果有人可以为我提供一个可以解析和显示 RDF 和 OWL 本体图的工具的链接 SemWeb图形表示法 W3C 维护的图形符号和软件应用程序列表 已过时 RDF可视化在 Ontotext 研究空
  • Django 使用 UpdateView 上传文件

    我尝试了通用视图的简约 django 实现来上传个人资料图片 views py class UpdateProfile UpdateView form class UpdateUserProfileForm model UserProfil
  • 出了问题;所有 ROC 指标值均缺失:

    我正在使用插入符包在 R 中训练模型 ctrl lt trainControl method repeatedcv repeats 3 summaryFunction twoClassSummary logitBoostFit lt tra
  • getter 和 setter 被编译器内联的概率

    我的问题很简单 Q Java 中编译器内联 getter setter 方法的可能性有多大 显然对此没有明确的答案 但其他信息将不胜感激 Extra 我知道编译器 标准和 JIT 总是有机会决定内联方法 而当涉及到 getter 和 set
  • 在 google 中添加联系人时出现异常。内部服务器错误

    从今天早上开始 我们在通过 Google API 从 java 插入联系人时收到以下错误 请找到下面的堆栈跟踪 Exception while adding contact in google com google gdata util S
  • 使用 dplyr 将函数应用于 data.frame 中的行

    In base R我会做以下事情 d lt data frame a 1 4 b 4 1 c 2 5 apply d 1 which max With dplyr我可以执行以下操作 library dplyr d gt mutate u p
  • 尝试访问由 Devise JWT 保护的 API 时“没有可用的验证密钥”

    我有宝石devise jwt安装 我可以执行登录请求 并收到授权令牌作为回报 但是当我尝试访问安全端点时 我收到以下消息 No verification key available blaine devbox langsite backen
  • Bootstrap-Select 打开div下的选项

    我有一个固定大小的 div 假设 50 像素 里面有一个下拉菜单 我用过引导选择使其可搜索 div style width 200 div
  • 提示用户下载 PDF 文件而不是打开

    在我的项目站点中 如果单击链接 PDF 将在新窗口或父窗口中打开 好吧 我希望出现一个框 提示用户下载文件而不是打开它 有谁知道一个简单的 JavaScript onClick 事件可以在所有浏览器中使用默认设置执行此操作 我的服务器是基于
  • 全局概述覆盖

    我可以通过什么方式覆盖全局主题 以便所有使用variant outlined 的组件都受到该样式的影响 还想覆盖焦点 悬停等事件 material ui core 3 9 2 顺便说一句 我不确定有多少不同的组件有 概述 的变体 您无法在单
  • 实施访客计数器

    我是一个新手 正在使用 ASP Net 2 0 和 C 2005 开发一个网站 我想添加一个工具来计算数量 我网站的访问者数量 我已经收集了使用 Global asax 添加此功能的基本信息 我通过在 system web 部分下添加行 对
  • 此组件上的样式要求您的应用程序主题为 Theme.MaterialComponents (或其后代)

    我是 Android 新手 我可能有一个愚蠢 愚蠢的问题 我有一个活动 我想在其中动态创建多个输入字段 输入字段的数量由用户定义 因为输入是样式化的并且由 2 个元素组成 并且不想每次都创建这些元素 因为元素有多个每次都相同的参数 这就是为
  • 如何使用 jQuery 检测页面是否已完全渲染?

    使用时 document ready functioon alert Loaded 它会弹出警告框 上面写着 已加载 甚至before页面已完全加载 换句话说 加载仍在继续 就像图像一样 有什么想法吗 window on load func
  • 复制嵌套自定义对象:深度复制的替代方案

    我正在寻找一个包含类对象列表的类对象的深层副本 每个类对象都有自己的一组内容 这些对象不包含任何比整数和列表更令人兴奋的东西 没有字典 没有等待生成的生成器等 我正在一个循环中对 500 800 个对象执行深度复制 这确实减慢了程序速度 我
  • 通过互操作在 Excel 中绘制网格线

    知道在互操作中使用 Excel 2003 时关闭网格线的设置隐藏在哪里吗 DisplayGridlines 是 Excel Window 对象上的一种方法 例如 ActiveWindow DisplayGridlines true
  • 有没有办法将命名参数传递给格式宏而不重复变量名称?

    使用 Rust 的新版本 您可以像这样简化结构初始化 Foo a a b b to this Foo a b 是否可以做类似的事情format println 类似宏 现在我需要这样写 let a a let b b write file
  • JavaFX:最初从 FXML 加载场景时,在 java 代码中向场景添加新节点

    当场景最初从 FXML 加载时 如何在 java 代码中向场景添加新节点 我已经从 FXML 加载 如下所示 Parent root FXMLLoader load getClass getResource sample fxml Scen
  • MySQL 选择列名作为字段

    我有一个 mysql 表 看起来像这样 id col 1 col 2 col 3 1 2 34 64 2 6 53 23 我希望能够查询 id 并获取多行 每一列一行 例如 SELECT column name as column colu
  • 如何从图形中删除框架

    要删除图中的框架 我写 frameon False 完美配合pyplot figure 但与matplotlib Figure它仅删除灰色背景 框架保持不变 另外 我只希望线条显示 图形的所有其余部分都是透明的 使用 pyplot 我可以做
  • 使用 Python pdfMiner 提取每页文本?

    我尝试过使用 pypdf 和 pdfMiner 从 PDF 文件中提取文本 我有一些不友好的 PDF 只有 pdfMiner 才能成功提取 我正在使用代码here提取整个文件的文本 但是 我真的很想在每页的基础上提取文本 例如pages i