寻找有关如何将 PDF 转换为结构化格式的建议

2024-07-04

我想对即将举行的拍卖中列出的一些房产进行一些分析。不幸的是，举办拍卖的城市并没有以结构化格式发布信息，而是提供了700 多页 PDF https://ttc.lacounty.gov/Proptax/docs/AuctionBook2013.pdf即将拍卖的房产。

我想知道社区是否有任何关于如何将所述 PDF 解析为结构化格式以插入数据库或创建属性电子表格的想法。

Here's an image of what each page represents: Property Guide

And here's a page that lists some properties: Sample List of Properties

我对 python 和 ruby 很满意，所以我在编写解决方案时没有任何问题，但是因为“列”和这些列中的数据没有必要捆绑在一起，所以这似乎是一个可疑的提议。

任何想法将不胜感激。

经过 3 个小时的研究，我能够从数据创建一个可解析的 XML 文档。不幸的是，我未能成功地整理出一套完全可重复使用的步骤，以便我在未来的拍卖出版物中使用。

顺便说一句，我确实尝试打电话询问洛杉矶县是否可以提供拍卖房产的替代格式（excel 等），但答案是否定的。这就是你的政府。

这是我的方法的高级视图：

使用以下命令将 PDF 转换为文本文件Poppler http://poppler.freedesktop.org/
使用 RegEx foo 从数据中清理并创建 XML 节点
使用 XML 美化器/验证器来查找错误并进行清理
使用Python/ruby添加Google Maps Link节点，并链接到LA County Assessors Map（http://assessormap.co.la.ca.us/mapping/rolldata.asp?ain=APN-GOES_HERE http://assessormap.co.la.ca.us/mapping/rolldata.asp?ain=APN-GOES_HERE) and
使用 Ruby 将 XML 转换为 CSV

I used http://xmlbeautifier.com/ http://xmlbeautifier.com/作为我的 XML 美化器/验证器，因为它速度快并且提供准确的错误报告，包括行号。

Use Homebrew http://brew.sh/Mac 版 Poppler 安装：

brew install poppler

安装 Poppler 后，您应该可以访问 pdftotext 实用程序来转换 PDF：

pdftotext -layout -f 24 -l 687 AuctionBook2013.pdf auction_book.txt

这是 XML 的预览（单击此处获取完整的 XML http://xml.nopaste.dk/p58862):

<?xml version="1.0" encoding="UTF-8"?>
<listings>
   <item id="1">
      <nsb>536</nsb>
      <minbid>3,422</minbid>
      <apn>2006 003 001</apn>
      <delinquent_year>03</delinquent_year>
      <apn_old>2006 003 001</apn_old>
      <description>LICENSED SURVEYOR'S MAP
          AS PER BK 25 PG 28 OF L S LOT 1              
          BLK 1 ASSESSED TO    J   AND   S
          LIMITED LLC C/O DUNA CSARDAS -
          JULIUS JANCSO LOCATION COUNTY OF
          LOS ANGELES</description>
      <address>VACANT LOT</address>
   </item>

编辑：添加我编写的 Ruby 将 XML 转换为 CSV。

require 'rexml/document'
require 'CSV'

class Auction

  def initialize

    f = File.new('AuctionBook2013.xml', 'r')
    doc = REXML::Document.new(f)

    CSV.open("auction.csv", "w+b") do |csv|
      csv << ['id', 'minbid', 'apn', 'delinquent_year', 'apn_old', 'description', 'address']

      doc.elements.each('/listings/item') do |item|
        csv << [item.attributes['id'],
                item.elements['minbid'].text,
                item.elements['apn'].text,
                item.elements['delinquent_year'].text,
                item.elements['apn_old'].text,
                item.elements['description'].text,
                item.elements['address'].text]
      end
    end
  end
end

a = Auction.new()

链接到最终 CSV http://nopaste.dk/p58958

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

ruby

Parsing

pdf

pdfparsing

寻找有关如何将 PDF 转换为结构化格式的建议的相关文章

pandas 预期第 153 行有 10 个字段，看到 11 个字段，如何再添加一列

我有一个 info txt 文件它看起来像这样 B 19960331 00100000 00000000000000 00000000000000 00000000000000 00000000 00000000000000 000000
如何在 Python 3 中使用 smtplib.sendmail() 对收件人姓名（而不是地址）中的国际字符进行编码？

我在 Python 3 程序中使用标准 smtplib sendmail 调用来发送电子邮件如下所示 smtp session sendmail The Sender lt email protected cdn cgi l email
ipython：如何设置终端宽度

当我使用ipython terminal并想要打印一个numpy ndarray它有很多列行会在大约 80 个字符处自动断行即行的宽度为 cca 80 个字符 z zeros 2 20 print z 据推测 ipython 预计我的终
ModuleNotFoundError：没有名为“binance.client”的模块； “binance”不是一个包

嘿我是 Stack Over Flow 和 Python 的新手但想学习并希望有人可以帮助我我正在尝试在 python 中开发一个币安交易机器人请参阅下面我的脚本 from binance client import Client
Django - 旋转图像并保存

我想在 django 中为图像添加向左旋转和向右旋转按钮这似乎很容易但我浪费了一些时间尝试了在 stackoverflow 上找到的一些解决方案但还没有结果我的模型有一个 FileField class MyModel m
了解 Python 2.7 中 io.open() 方法的缓冲参数

我试图理解的缓冲参数io open https docs python org 2 library functions html openPython 2 7 中的方法我在Python解释器中执行 import utils buffer
Pandas：处理测试中看不见的数据

我有一个训练数据集正在构建一些机器学习模型我无权访问测试集并且想要处理在训练中未观察到测试中的分类特征之一的可能性这是一个玩具示例说明了我的意思我有一个数据框 old 像这样 old pd DataFrame car Audi
django value_list 外键中所有字段

我有一个类它有另一个类的外键 class MyEvent models Model msg models ForeignKey MyMessage event type models IntegerField choices EVENTS
嵌入式Python，导入数学错误

首先我使用的是 Mac OSX 10 12 6 我想在我的 C 应用程序中嵌入 python 环境我把 github python 项目放在https github com python cpython https github com
上传大文件nginx + uwsgi

堆栈 flask 0 10 uwsgi 1 4 5 nginx 1 2 3 我可以通过我的应用程序上传小文件 CONTENT LENGTH 无效太大跳过 nginx 日志没有显示任何有用的内容我尝试了以下操作但没有成功 nginx配
包装 np.arrays __pow__ 方法

我只是重新审视我的一些代码以提高性能并遇到了一些奇怪的事情 a np linspace 10 1000 1000000 reshape 1000 1000 timeit np square a 100 loops best of 3 8
Rails 计算时间差

我已经尝试过这样的代码但它不起作用 require time diff cur time Time now strftime Y m d H M time diff components Time diff art datetime of
OpenCV 图像处理——C++、C、Python

我正在考虑在一个项目中尝试 OpenCV 并注意到它有 C C 和 Python 我正在尝试确定是否应该使用 C C 还是 Python 并且希望使用具有最佳 OpenCV 支持的任何语言仅从查看各种文档的索引页来看 C 绑定可能比其他绑
与 C 数组相比，带有 NumPy 数组内存视图的 Cython 性能较差

我遇到了一个非常奇怪的结果基准 http nbviewer ipython org github rasbt One Python benchmark per day blob master ipython nbs day4 python
将 LIVE SPEECH 与 Tkinter GUI 连接

我想将 pocketsphinx livespeech 与 Python tkinter GUI 连接起来这样 GUI 在前端可见而 Livespeech 在后端工作但是当我将 tkinter 代码与 livespeech 代码合并时
如何让机器人加入语音频道discord.py

我正在使用 Discord py 创建音乐机器人但我在将该机器人连接到语音通道时遇到问题我使用 Cog 将音乐功能与其他功能分开 commands command async def join voice self ctx channe
Python：汇总和聚合 DataFrame 中的组和子组

我正在尝试构建一个表其中的组按子组划分并包含每个子组的计数和平均值例如我想转换以下数据框到一个看起来像这样的表其中interval是一个更大的组和列a thru i成为组内的子组每个单元格中具有相应子组的计数和平均值我尝试过
分组依据，在 pandas 中

select df id count distinct airports as num from df group by df id having count distinct airports gt 3 我正在尝试在 Python pan
Python Selenium Webdriver - 代理身份验证

我想将 Selenium Webdriver 与需要用户身份验证的代理一起使用这可能吗这就是我到目前为止所拥有的但我不知道在哪里放置凭据 user pass proxy port from selenium import webdri
使用 M1 Mac 进行 Python 多处理

我有一台 Mac Mac Os 11 1 Python Ver 3 8 2 需要在多处理中工作但程序不起作用 import multiprocessing def func index int print index manager mu

随机推荐

为什么 Pandas 中的 Pandas .loc 速度取决于 DataFrame 初始化？如何使 MultiIndex .loc 尽可能快？

我正在尝试提高代码性能我使用 Pandas 0 19 2 和 Python 3 5 我刚刚意识到根据数据帧初始化的不同一次写入一大堆值的 loc 速度有很大不同有人可以解释为什么并告诉我什么是最好的初始化吗它可以让我加快我的代码
如何使用 wistream 从内存中读取数据，就像从文件中读取数据一样？

In my previous https stackoverflow com questions 4346240 how can i read from memory just like from a file using iostream
在事件监听器函数中传递参数[重复]

这个问题在这里已经有答案了我想将参数传递给事件侦听器内部调用的函数下面的代码显示了我想要做的事情但它不允许我按照常规方式进行操作有什么解决方法吗 HTML 代码
逻辑和物理 URL

这个问题是我之前问题的延伸此网络服务是否安静 https webmasters stackexchange com questions 49832 what qualifies as a rest web service尝试更好地理解 R
Google API Drive V3 检索已用驱动器存储空间

我正在使用谷歌服务帐户来检索不同用户的数据使用情况我正在使用谷歌的 python 客户端来验证和检索数据 Code service build drive v3 credentials auth result service about
MinGW 应用程序的崩溃报告

我有一个用 MinGW 编译的 C 应用程序我一直收到客户的崩溃投诉因此除了大量记录可能崩溃的部分在发布新版本之前之外我一直在寻找一个崩溃报告器它可以帮助我在出现错误时找到堆栈跟踪和任何其他有用的调试信息是否存在与 MinG
是否可以在 QWebView 中从 JavaScript 调用 C++ 函数？

我在 QWebView 中加载了一个网页在那里我想让 JavaScript 调用我的应用程序的函数然后该函数将返回 JavaScript 动态显示的一些字符串使用QWebView可以完成吗基本上是否可以在应用程序 C 中和 Q
如何使用html解析器获取网页标题

如何使用 HTML 解析器获取给定 URL 的网页标题是否可以使用正则表达式获取标题我更喜欢使用 HTML 解析器我正在 Java Eclipse IDE 中工作我尝试使用以下代码但没有成功有任何想法吗预先感谢 import
SQL Server 2008 R2 中缺少 Microsoft Office 12.0 Access 数据库引擎 OLE DB 提供程序？

我正在尝试导入一个 accdbMS Access 数据库导入 SQL Server 2008 R2 但在导入向导和 SSIS 的提供程序列表中找不到 Microsoft Office 12 0 Access 数据库引擎 OLE DB 提供程
检测应用程序中安装的 Play 服务和使用的 Play 服务

我拥有的我有一个应用程序严重依赖 Google Play 服务对于 Firebase 所以我需要用户的设备安装 Play 服务更重要的是设备中安装的 Play 服务版本应等于或高于我在应用程序中使用的 Play 服务版本我想要的是
未找到命令 - exec() 命令中出现错误

我从 php 文件运行这个 exec epm package 我在 error log 中收到以下错误 sh epm command not found 我在终端手动测试它工作正常尝试输入完整路径名 exec path to epm pa
如何在Verilog中设计64 x 64位数组乘法器？

我知道如何设计 4x4 数组乘法器但如果我遵循相同的逻辑编码就会变得乏味 4 x 4 16 部分积 64 x 64 4096 部分产品除了 8 个全加器和 4 个半加器之外 64 x 64 位还需要多少个全加器和半加器如何减少部分产
Laravel Passport 密码授予令牌：自己的移动应用程序

所以我的移动应用程序将是客户端我为其生成了一个 client id 和一个 client secret 使用移动应用程序的用户必须使用其用户名密码登录我应该在哪里存储 client id 和 client secret 是否可以公开它
startup.m 应该在哪里？

我长期以来一直在 MATLAB 文档中寻找这个问题的答案例如在底部 http www mathworks com help matlab matlab env changing the startup folder html http
Angular 2 中的提交与 ngSubmit

为了在 Angular 2 中提交表单我们可以使用表单的 submit 或 ngSubmit 事件
无法加载捆绑包“MyProjectUITests”，因为它已损坏或缺少必要的资源。尝试重新安装捆绑包

我愿意向我的应用程序添加单元和 UI 测试我首先成功配置了单元测试我尝试对 UI 测试执行相同的操作添加新的 UI 测试包目标后这是我的 Podfile platform ios 8 0 use frameworks inhibit
在 LINQ 中根据子对象的属性对父对象进行排序

如何在 LINQ 中按子对象排序类 A B 和 C A 有 B 的集合 B 有 C 的集合我想通过 C 的 Ordinal int 属性对对象 A 进行排序 var query from a in db A orderby a Bs O
为什么 .ToList().Distinct() 抛出错误而不是 .Distinct().ToList() 与 linq 查询

我不知道之间的区别Linq Query ToList Distinct and Linq Query Distinct ToList 对我来说两者看起来都一样考虑这个示例代码 List
使用“jsonPath”过滤掉包含空数组的元素的表达式

我有一个以下形式的 JSON 有效负载 id 1 list 1 name one id 2 list 1 2 name two id 3 list name three 我想从包含空的数组中过滤掉元素 list 财产换句话说我想丢弃该元
寻找有关如何将 PDF 转换为结构化格式的建议

我想对即将举行的拍卖中列出的一些房产进行一些分析不幸的是举办拍卖的城市并没有以结构化格式发布信息而是提供了700 多页 PDF https ttc lacounty gov Proptax docs AuctionBook2013 p

寻找有关如何将 PDF 转换为结构化格式的建议

寻找有关如何将 PDF 转换为结构化格式的建议 的相关文章

随机推荐

热门标签

寻找有关如何将 PDF 转换为结构化格式的建议的相关文章