在Python中将pdf转换为text/html以便我可以解析它

2024-02-14

我有以下示例代码，我从欧洲议会网站下载了有关给定立法提案的 pdf 文件：

编辑：我最终得到了链接并将其提供给 adobes 在线转换工具（请参阅下面的代码）：

import mechanize
import urllib2
import re
from BeautifulSoup import *

adobe = "http://www.adobe.com/products/acrobat/access_onlinetools.html"

url = "http://www.europarl.europa.eu/oeil/search_reference_procedure.jsp"

def get_pdf(soup2):
    link = soup2.findAll("a", "com_acronym")
    new_link = []
    amendments = []
    for i in link:
        if "REPORT" in i["href"]:
            new_link.append(i["href"])
    if new_link == None:
        print "No A number"
    else:
        for i in new_link:
            page = br.open(str(i)).read()
            bs = BeautifulSoup(page)
            text = bs.findAll("a")
            for i in text:
                if re.search("PDF", str(i)) != None:
                    pdf_link = "http://www.europarl.europa.eu/" + i["href"]
            pdf = urllib2.urlopen(pdf_link)
            name_pdf = "%s_%s.pdf" % (y,p)
            localfile = open(name_pdf, "w")
            localfile.write(pdf.read())
            localfile.close()

            br.open(adobe)
            br.select_form(name = "convertFrm")
            br.form["srcPdfUrl"] = str(pdf_link)
            br["convertTo"] = ["html"]
            br["visuallyImpaired"] = ["notcompatible"]
            br.form["platform"] =["Macintosh"]
            pdf_html = br.submit()

            soup = BeautifulSoup(pdf_html)


page = range(1,2) #can be set to 400 to get every document for a given year
year = range(1999,2000) #can be set to 2011 to get documents from all years

for y in year:
    for p in page:
        br = mechanize.Browser()
        br.open(url)
        br.select_form(name = "byReferenceForm")
        br.form["year"] = str(y)
        br.form["sequence"] = str(p)
        response = br.submit()
        soup1 = BeautifulSoup(response)
        test = soup1.find(text="No search result")
        if test != None:
            print "%s %s No page skipping..." % (y,p)
        else:
            print "%s %s  Writing dossier..." % (y,p)
            for i in br.links(url_regex="file.jsp"):
                link = i
            response2 = br.follow_link(link).read()
            soup2 = BeautifulSoup(response2)
            get_pdf(soup2)

在 get_pdf() 函数中，我想将 pdf 文件转换为 python 中的文本，以便我可以解析文本以获取有关立法程序的信息。谁能解释一下这是怎么做到的？

Thomas

听起来你找到了一个解决方案，但如果你想在没有网络服务的情况下做到这一点，或者你需要根据 PDF 页面上的精确位置来抓取数据，我可以建议我的库吗？pdfquery https://github.com/jcushman/pdfquery？它基本上将 PDF 转换为 lxml 树，可以将其输出为 XML，或者使用 XPath、PyQuery 或任何您想要使用的其他内容进行解析。

要使用它，一旦将文件保存到磁盘，您将返回pdf = pdfquery.PDFQuery(name_pdf)，或者如果不需要保存则直接传入一个urllib文件对象。要使用 BeautifulSoup 获取 XML 进行解析，您可以这样做pdf.tree.tostring().

如果您不介意使用 JQuery 风格的选择器，可以使用带有位置扩展的 PyQuery 接口，这会非常方便。例如：

balance = pdf.pq(':contains("Your balance is")').text()
strings_near_the_bottom_of_page_23 = [el.text for el in pdf.pq('LTPage[page_label=23] :in_bbox(0, 0, 600, 200)')]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在Python中将pdf转换为text/html以便我可以解析它的相关文章

django_openid_auth TypeError openid.yadis.manager.YadisServiceManager 对象不是 JSON 可序列化

I used django openid auth在我的项目上一段时间以来它运行得很好但今天我测试了该应用程序并遇到了这个异常 Environment Request Method GET Request URL http local
查找文本的确切边界

我需要知道一段文本的确切边界相当于获取文本边界 https developer android com reference android graphics Paint html对于安卓我意识到这在某种程度上与 Flutter 的设计背
如何在 AWS CDK 创建的 Python Lambda 函数中安装外部模块？

我在 Cloud9 中使用 Python AWS CDK 并且我部署简单的 Lambda 函数那应该是发送 API 请求到 Atlassian 的 API当对象上传到 S3 存储桶时也是由 CDK 创建的这是我的 CDK 堆栈代码 fr
C# 是否有像 Java 那样的字符串分词器？

我正在做简单的字符串输入解析我需要一个字符串标记器我是 C 新手但已经编写过 Java 程序因此 C 应该有一个字符串标记生成器似乎很自然可以它在哪里我该如何使用它你可以使用String Split 方法 http msdn
pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
从 python 发起 SSH 隧道时出现问题

目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道我已经在我的服务器之间设置了公钥身份验证因此它们只需直接登录而无需密码提示怎么办我试过帕拉米科它看起来不错但仅仅建立一个基本的隧道就变得相当复杂尽管代码示例将受
将 JSON 对象传递给带有请求的 url

所以我想利用 Kenneth 的优秀请求模块 https github com kennethreitz requests 在尝试使用时偶然发现了这个问题自由库API http wiki freebase com wiki API 基本上
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
mac osx 10.8 上的初学者 python

我正在学习编程并且一直在使用 Ruby 和 ROR 但我觉得我更喜欢 Python 语言来学习编程虽然我看到了 Ruby 和 Rails 的优点但我觉得我需要一种更容易学习编程概念的语言因此是 Python 但是我似乎找不到适用于
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
如何为每个屏幕添加自己的 .py 和 .kv 文件？

我想为每个屏幕都有一个单独的 py 和 kv 文件应通过 main py main kv 中的 ScreenManager 选择屏幕设计应从文件 screen X kv 加载类等应从文件 screen X py 加载 Screens
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
字典和数组作为类变量与实例变量

这是赚取积分的简单方法请解释以下内容 class C a b 0 c def init self self x def d self k v self x k v self a k v self b v self c append v d
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户

随机推荐

如何为班级中的所有测试设置测试类别

我在用MSTest https en wikipedia org wiki MSTest 并且我想一次为测试类中的所有方法设置相同的测试类别而不需要单独为每个方法设置 TestCategory 属性如何才能做到这一点最方便最明显的方
如何将 UIColor 转换为十六进制字符串？

我有一个项目需要将 UIColor 的 RGBA 值作为 8 个字符的十六进制字符串存储在数据库中例如 UIColor blueColor 将为 0000FFFF 我知道我可以像这样获取组件值 CGFloat r g b a color
Facebook 广告 API - 批量请求定位搜索

问题我在提交 Facebook Ads API 的批量请求时遇到问题我想知道是否有人可以提供有关以下错误的见解我尝试获取艺术家列表在这个简化示例中仅列出 50 名然后针对这些艺术家提交 TargetingSearch 请求但是
Hadoop put 性能 - 大文件（20GB）

我正在使用 hdfs put 将一个 20GB 的大文件加载到 hdfs 中目前该过程运行 4 分钟我正在尝试缩短将数据加载到 hdfs 的写入时间我尝试利用不同的块大小来提高写入速度但得到以下结果 512M blocksize 4
Chrome 加载第一个 AJAX 响应速度很慢

我正在使用 React 和 Flux 构建一个应用程序单击项目列表会启动一个操作然后使用以下命令启动通过效果 AJAX 请求axios 虽然我已经尝试过superagent bluebird promise具有相同的结果问题是使用
如何杀死 iPhone 中后台运行的应用程序？

我只是想知道如何杀死 iPhone 中的后台进程应用程序就像在 Auto Lock SBSettings 中一样进程切换能够列出所有后台进程并允许用户杀死其中的任何进程提前致谢感谢 refulgentis Chuck 的快速回复
设置 BOOL 属性的正确方法

我想在类初始值设定项中设置一个 BOOL 属性 property assign nonatomic BOOL isEditMode id init self setValue NO forKey isEditMode return self
如何隐藏 Chrome“在调试器中暂停”覆盖层？

Chrome 的一些半新更新现在在断点处暂停时在我的网页上放置了一个叠加层此时我特别尝试查看页面标记的状态而叠加层正好隐藏了我想要看到的内容有没有办法关闭这个标记或者有没有办法将 Chrome 恢复到没有此错误功能的版本现在 I
放置Database.SetInitializer的地方

我正在开发一个项目该项目最终可能会出现多个 UI 版本变体但到目前为止我的解决方案 Web 中有两个子项目包含带有 ASP NET MVC 的 Web 界面服务项目是我定义数据库上下文和模型的地方我的目标是在我的 Web 项目
iPhone：键盘挡住屏幕[重复]

这个问题在这里已经有答案了可能的重复 UITableView和键盘滚动问题 https stackoverflow com questions 594181 uitableview and keyboard scrolling issue
相当于 Matlab 的“randsample”随机样本

Java中有没有类似的函数randsample在Matlab中它可以返回加权样本随机均匀采样并放回并且具有权重 w i 对于每个数字选择数字 i 的概率是 w i sum w 我想用这样的东西 randsample 0 1 1 tr
如何将 Vuetify 选项卡与 vue-router 一起使用

我有以下内容jsfiddle https jsfiddle net jjloneman e5a6L27u 12 有两个 Vuetify 选项卡该文档没有显示使用示例vue router跟他们我找到了这个Medium com 帖子 htt
Docker Rails mysql 未连接

我正在尝试将主机上的 Rails 应用程序连接到 docker mysql 映像但我收到此错误 Authentication plugin caching sha2 password cannot be loaded dlopen usr
如何使用 Python 将新列附加到 CSV 文件？ [复制]

这个问题在这里已经有答案了我在一个数组中存储了一组四个数字我想将其添加到分数列下的 CSV 文件中 with open Player csv ab as csvfile fieldnames Score writer csv Dic
有没有办法可以从包含代码的字符串动态定义谓词主体？

这可能是一个愚蠢的问题但就这样吧我希望能够从数据库 VARCHAR 列或任何字符串解析的字符串动态构造谓词例如假设数据库中的列包含以下字符串 return e SomeStringProperty Contains foo 这些代码
MySQL 存储函数创建错误 ERROR 1064 & 1327

我正在使用 MySQL v5 1 36 我正在尝试使用此代码创建一个存储函数 DELIMITER CREATE FUNCTION modx getSTID x VARCHAR 255 RETURNS INT DETERMINISTIC BE
为视图控制器设置插座/操作

我有一个UIButton在不是我的应用程序中的根视图控制器的视图控制器中我无法在头文件中拖动并为其创建插座或操作我只能从根视图控制器执行此操作这有一个简单的原因吗使用故事板时 XCode 仅为第一个视图控制器名为 ViewCont
CSS 同步转换

您好有一个在 hover 上打开的菜单当我将鼠标悬停到下一个元素时它会等待一会儿我希望两个过渡同时产生手风琴效果我缺少什么 Fiddle http jsfiddle net jSBf3 css ul border 2px soli
全屏查看 ionic 移动应用程序

我有一个离子移动应用程序我在移动浏览器上运行它有一个静态标头即使向下滚动我也需要隐藏该网络应用程序的地址栏但这不会发生它有一个标题如下它在本机移动浏览器上运行我使用控制台构建了应用程序所以请帮助我隐藏地址标题栏并像 Fa
在Python中将pdf转换为text/html以便我可以解析它

我有以下示例代码我从欧洲议会网站下载了有关给定立法提案的 pdf 文件编辑我最终得到了链接并将其提供给 adobes 在线转换工具请参阅下面的代码 import mechanize import urllib2 import re

在Python中将pdf转换为text/html以便我可以解析它

在Python中将pdf转换为text/html以便我可以解析它 的相关文章

随机推荐

热门标签

在Python中将pdf转换为text/html以便我可以解析它的相关文章