使用Python正确解析PDF段落

2024-04-08

我正在创建一个 Python 脚本，该脚本应该从系统加载一堆 PDF 文件，进行一些数据分析并输出结果。数据分析的本质是，我必须按段落解析 PDF，并且对于每个段落，我必须迭代每个短语，检查是否满足某些条件。

我目前正在使用 Tika 进行解析。这就是我评估段落的方式。

这就是我当前正在做的事情，我正在加载内容，然后用唯一的字符串替换每个出现的一个或多个换行符。用空格替换每个常规换行符，用双换行符替换该唯一字符串。我这样做是为了更清楚哪个换行符分隔段落。然后我继续提取段落并返回没有重复的段落列表（蒂卡有时会重复内容）。

def getpdfcontent(path):
    pdf_content = extract_pdf(path)
    text = re.sub(r"\n{2,}", "<131313>", pdf_content['content'])
    text = text.replace("\n", " ")
    text = text.replace("<131313>", "\n\n")
    paragraphs = extractparagraphs(text.splitlines())
    return removeduplicates(paragraphs)

这就是我提取段落的方法。我检查当前行是否为空，当前段落中是否有内容，然后将其附加到列表中。

def extractparagraphs(lines):
    current = ""
    paragraphs = []
    for line in lines:
        if not line.strip():
            if current.strip():
                paragraphs.append(current)
                current = ""
            continue
        current += line.strip()
    return paragraphs

这就是我获得短语的方式，我可能会补充！？也到了分裂。

def getphrases(document):
    phrases = []
    phr = document.split(".")
    phrases.extend(phr)
    return phrases

现在我的首要任务是知道我是否可以改进解析？如果没有，我可以做一些优化吗？

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用Python正确解析PDF段落的相关文章

Tkinter 菜单删除项

如何删除任何菜单项例如我想删除播放 self menubar Menu self root self root config menu self menubar self filemenu2 Menu self menubar self
将 yerr/xerr 绘制为阴影区域而不是误差线

在 matplotlib 中如何将误差绘制为阴影区域而不是误差条例如而不是忽略示例图中各点之间的平滑插值这需要进行一些手动插值或者只是获得更高分辨率的数据您可以使用pyplot fill between https matpl
如何删除 PyCharm 中的项目？

如果我关闭一个项目然后删除该项目文件夹则在 PyCharm 重新启动后会再次创建一个空的项目文件夹只需按顺序执行以下步骤即可他们假设您当前在 PyCharm 窗口中打开了该项目单击文件 gt 关闭项目关闭项目在 PyCha
如何使用 Python boto3 获取 redshift 中的列名称

我想使用 python boto3 获取 redshift 中的列名称创建Redshift集群将数据插入其中配置的机密管理器配置 SageMaker 笔记本打开Jupyter Notebook写入以下代码 import boto3
将 C++ 指针作为参数传递给 Cython 函数

cdef extern from Foo h cdef cppclass Bar pass cdef class PyClass cdef Bar bar def cinit self Bar b bar b 这总是会给我类似的东西 Can
使用 Python 3 动态插入到 sqlite

我想使用 sqlite 写入多个表但我不想提前手动指定查询有数十种可能的排列例如 def insert sqlite tablename data list global dbc dbc execute insert into tab
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
如何使用 Homebrew 在 Mac 上安装 Python 2 和 3？

我需要能够在 Python 2 和 3 之间来回切换我如何使用 Homebrew 来做到这一点因为我不想弄乱路径并陷入麻烦现在我已经通过 Homebrew 安装了 2 7 我会用pyenv https github com yyuu
如何使用 opencv python 计算乐高积木上的孔数？

我正在开发我的 python 项目我需要计算每个乐高积木组件中有多少个孔我将从输入 json 文件中获取有关需要计算哪个程序集的信息如下所示 img 001 red 0 blue 2 white 1 grey 1 yellow 1 r
Python MySQL 操作错误：1045，“用户 root@'localhost' 的访问被拒绝

我试图通过以下方式从我的 python 程序访问数据库 db mysql connect host localhost user Max passwd maxkim db TESTDB cursor db cursor 但是我在第一行代码
NumPy 相当于 Keras 函数 utils.to_categorical

我有一个使用 Keras 进行机器学习的 Python 脚本我正在构建 X 和 Y 它们分别是特征和标签标签的构建方式如下 def main depth 10 nclass 101 skip True output True video
为什么这个 if 语句会导致语法错误

我正在尝试设置一个 elif 语句如果用户按下 Enter 键代码将继续但是我不断遇到语法错误 GTIN 0 while True try GTIN int input input your gtin 8 number if len
pygame：使用 sprite.RenderPlain 绘制精灵组的顺序

我有一个精灵组需要按一定的顺序绘制以便其精灵按应有的方式重叠然而即使使用运算符模块函数 sorted self sprites key attrgetter y x 对组进行排序顺序也是错误的我该如何解决这个问题直截了当地说
如何从列表类别中对 pandas 数据框进行排序？

所以我在下面有这个数据集我想根据我的列表从名称列进行排序以及按 A 升序和按 B 降序排序 import pandas as pd import numpy as np df1 pd DataFrame from items A 1
PyInstaller“ValueError：源代码字符串不能包含空字节”

我得到了一个ValueError source code string cannot contain null bytes执行命令时pyinstaller main py在具有和不具有管理员权限的cmd中 Traceback most re
非法指令：MacOS High Sierra 上有 4 条指令

我正在尝试在 pygame 3 6 中制作一个看起来像聊天的窗口我刚刚将我的 MacBook 更新到版本 10 13 6 在我这样做之前它工作得很好但在我收到消息之后非法指令 4 Code import pygame from pyg
高效创建抗锯齿圆形蒙版

我正在尝试创建抗锯齿加权而不是布尔圆形掩模以制作用于卷积的圆形内核 radius 3 no of pixels to be 1 on either side of the center pixel shall be decimal a
将时间添加到日期时间

我有一个像这样的日期字符串然后使用strptime 所以就像这样 my time datetime datetime strptime 07 05 15 m d Y 现在我想添加 23 小时 59 分钟my time 我努力了 timed
django jet 中的自定义徽标

我目前正在尝试对 django 管理面板的皮肤进行一些定制以使其更符合我们的品牌目前我们使用 django jet 来美化管理面板 django jet 可以自定义 css html 吗所有评论都说我应该更改一些 html 文件但我
如何通过点击复制 folium 地图上的标记位置？

I am able to print the location of a given marker on the map using folium plugins MousePosition class GeoMap def update

随机推荐

Google 地图 - 从 ROADMAP 中删除网格

I m integrating the google map in my site It works fine However it shows grid like this 我想删除它以使地图更美观任何人都知道如何删除它 Thanks
如何使用 JPA CriteriaBuilder 查询执行外连接？

我正在使用 JPA 2 0 Hibernate 4 1 0 Final 和 MySQL 5 5 27 我想构造一个 JPA 查询每行返回两个实体并且我想执行右外连接这两个实体是 Entity Table name user uniqu
无法从 Dropbox 检索图像

你好我有一个图像滑块当我尝试从服务器检索图像时图像会正确显示 http stthomasmountmtc org index html http stthomasmountmtc org index html 但是当我尝试从 Dro
我无法在 .NET MAUI 中显示带下划线的条目

我曾在 Xamarin 平台工作过现在正在学习 NET MAUI 尽管有很多相似之处但我面临着某些问题我无法按照 NET MAUI 文档声明的方式在 Android 设备上显示基本的输入控件以下是输入字段的代码片段
C++ 和其他语言有小提琴类型的东西吗？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我记得曾经见过一个 jsfiddle 类型的东西在线编译器您可以在其中指定语言 c c asm 以及
辅助阅读将列表视图中的项目显示为列表项 + 标题视图

我正在自定义下拉刷新列表视图中实现可访问性我的下拉刷新列表视图有一个标题视图用于在下拉时显示更新状态如果我的列表仅包含 5 个项目 Talkback 将其读取为显示第 1 项共 6 项而不是显示第 1 项共 5 项我认为总
我们为什么使用 ViewModel？

我最近开始担任网络开发人员我使用 ASP NET MVC 4 和 NHibernate 在我的工作场所我们严格要求使用视图模型在控制器和视图之间来回传输数据并且视图模型不应包含模型的任何对象我知道它是控制器和视图之间的一层但我发现
安卓。 Facebook 分享对话框在 Android 6.0+ 上立即关闭

我正在尝试通过 Facebook 共享对话框共享图像这是代码 private void startFacebookShare SharePhoto photo new SharePhoto Builder setBitmap getCap
IBOutlet 应该是 ivars 还是属性？

尽管我确信它们存在但我很难找到或确定在 ViewController 中声明出口的官方最佳实践据我所知有 3 个选项仅伊瓦尔仅限财产由 ivar 支持的财产当前当我尝试通过从 IB 拖入 ViewController 来自动
重新初始化 JQuery 有 XPage 部分刷新更新 DOM

我有一个来自核心控件的选项卡式面板里面是一个
Python FastAPI：返回的 gif 图像没有动画

下面是我的 Python FastAPI 路由和 HTML 页面 Python app get status code 200 async def upload file file UploadFile File error img Ima
HTML5 / JavaScript：打开文本文件，加载到文本区域/将文本区域内容保存到文本文件

我想在浏览器中做两件事将文本文件加载到文本区域必须通过对话框选择将文本区域的内容保存到文本文件中必须再次通过对话框选择加载视频文件并获取文件路径以将其与视频播放器一起使用 1 http www longtailvideo com
Rails 2：当 id 1 不存在时，Model.find(1) 给出 ActiveRecord 错误

我正在使用 Rails 2 3 5 如果我给出Model find 1 如果 1 不在数据库中则返回 ActiveRecord 错误是否应该回归nil正如以下情况Model find by column 这是预期的行为我认为 Davi
使用 JSON 字符串解析 URL 时捕获 IllegalArgumentException

我需要使用 JSON 数据制定一个 url 如下所示 http someurl com passfail parameter http someurl com passfail parameter data1 123456789 data2
将EhCache磁盘存储内容加载到内存中

正如中所述EhCache文档 http ehcache org documentation get started storage options 在实践中这意味着持久内存缓存将启动其所有元素都在磁盘上因此 Ehcache 设计不会在
如何获得最大可能的精度？（Python - 十进制）

我正在使用Decimal https docs python org 2 library decimal html用于需要精度的操作的类我想使用最大可能的精度我的意思是程序运行的系统可以处理的精确度要设置一定的精度很简单 imp
在 Linq to Sql 中调用 InsertOnSubmit 时出现 NullReferenceException

我尝试使用 LINQ to SQL 将新对象插入到数据库中但当我在下面的代码片段中调用 InsertOnSubmit 时出现 NullReferenceException 我传入一个名为 FileUploadAudit 的派生类并设置
移动 .git 目录

我有一个在项目学习曲线早期创建的存储库随着我了解更多我意识到这会产生问题因为我想要跟踪的一些文件在编译的源代码中并不需要我想做的是创建一个新的项目父目录将现有的源目录移动到该父目录中并将不需要编译的文件迁移到该父目录中用
码头服务器配置

我使用 Jetty 9 但配置有一些问题我简单的 REST 效果很好但是当我尝试向所有请求和错误处理程序添加新标头时问题就开始了我能够处理标头的唯一方法是将以下代码添加到每个响应中 return Response ok murals
使用Python正确解析PDF段落

我正在创建一个 Python 脚本该脚本应该从系统加载一堆 PDF 文件进行一些数据分析并输出结果数据分析的本质是我必须按段落解析 PDF 并且对于每个段落我必须迭代每个短语检查是否满足某些条件我目前正在使用 Tika 进行解

使用Python正确解析PDF段落

使用Python正确解析PDF段落 的相关文章

随机推荐

热门标签

使用Python正确解析PDF段落的相关文章