如何从 PDF 中提取数据?

2024-01-09

我的公司通过 Excel 从外部公司接收数据。我们将其导出到 SQL Server 以运行数据报告。他们现在正在更改为PDF格式,有没有办法可靠地从PDF中移植数据并将其插入到我们的SQL Server 2008数据库中?

这是否需要编写一个应用程序,或者是否有一种自动化的方法来做到这一点?


正如已经提到的——你will必须编写一个应用程序来执行此操作,但理想情况下,您能够从外部公司获取原始数据,而不必处理 PDF。

但是,如果您do想要从PDF中提取数据,我用过iText http://www.lowagie.com/iText/并发现它非常强大、可靠而且最重要的是 - 免费。它有 Java 和 .Net 风格 -iTextSharp http://itextsharp.sourceforge.net/是.Net版本。它允许您以编程方式操作 PDF 文档,并将 PDF 的内容公开给您编写的应用程序。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何从 PDF 中提取数据? 的相关文章

  • 使用 PDFBox 在 PDF 上绘制矢量图像

    我想使用 Apache PDFBox 在 PDF 上绘制矢量图像 这是我用来绘制常规图像的代码 PDPage page PDPage document getDocumentCatalog getAllPages get 1 PDPageC
  • 基于 Microsoft Word 模板生成 PDF 文档 [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我需要一个 Word 文档 它是某种模板 收集用户输入以填充该模板中的特定字段 然后生成一个 PDF
  • 按空值和非空值分组

    我有一个包含用户 facebook ID 的表 我必须报告谁在使用 facebook 或不使用 对于 facebook 用户 数据行包含一个数字 否则包含 null 我的结果必须是这样的 NbUsers Facebook 1000 no 5
  • 在 SQL Server 上执行分页的最佳方式是什么?

    我有一个数据库超过200万记录 我需要执行分页以在我的 Web 应用程序上显示 该应用程序每页必须有 10 条记录DataGrid 我已经尝试使用ROW NUMBER 但是这种方式会选择所有 200 万条记录 然后只得到 10 条记录 我也
  • 将文本从文本文件添加到 PDF 文件[重复]

    这个问题在这里已经有答案了 这是我的代码 using FileStream msReport new FileStream pdfPath FileMode Create step 1 using Document pdfDoc new D
  • 基于多个表的数据更新单个表 SQL Server 2005,2008

    我需要更新表one使用表中的数据two 表一和表二没有任何公共列相关 桌子three与表相关two 例如 表一 reg det 表 reg det id reg id results 101 11 344 表二 临时表 venue resu
  • 一周中的多天存储在一个字段中

    关于特定整数字段存储数据的方式 我遇到了一些心理障碍 具体来说 有一列的整数范围为 1 127 每个整数代表一周中不同日期的组合 例如 星期一 2 0 或 1 星期二 2 2 或 2 星期三 2 3 或 8 如果可以选择添加 星期一 星期二
  • MS SQL Server 2008:获取接下来 8 周的开始日期和结束日期

    我是 SQL 新手 任何人都可以给我查询这种情况 我需要显示从今天的日期到接下来 8 周的一周的开始日期和结束日期 例如 如果我选择今天的日期 它应该显示 开始日期 结束日期 17 03 2012 2012年3月23日 2012 年 3 月
  • 在 Snow Leopard 上的 64 位 Cocoa 应用程序中快速提取电影帧

    我在 Snow Leopard 上编写了一个 64 位 Cocoa 应用程序 用于提取单个帧 来自使用 QuickTime API 的电影 它使用 QTMovie currentFrameImage 不幸的是 这非常慢 正如这里指出的 ht
  • 将 html 文件另存为 PDF

    我正在使用 PHP 输出缓冲区创建动态 数据查看 页面的 HTML 文件 然后将此输出作为 HTML 文件保存到服务器 并希望创建此 HTML 文件的 PDF 文件 存储在服务器 但我看过的每个解决方案都要求您将 HTML 代码放入变量中
  • 为什么我无法在 SQL Server 上查询 OFFSET/ FETCH 查询?

    我想在我的 SQL Server 上运行此查询 如下所示 微软SQL Server管理工作室10 50 1600 1 但它无法识别 OFFSET 因此显示 ERROR SELECT FROM dbo tbl MatchDetail ORDE
  • 合并 PDF iTextSharp

    我在网上查看了一些示例 并提出了使用 iTextSharp 合并 pdf 的代码 但我收到一个错误 该文档没有页面 它失败于页面 writer GetImportedPage reader X 这是堆栈跟踪 at iTextSharp te
  • 将 PDF 附加到另一个 PDF 文件的可用空间

    病毒帕特尔的教程 http viralpatel net blogs itext tutorial merge split pdf files using itext jar 关于如何合并和拆分 PDF 文件很有用 不幸的是 我需要的不仅仅
  • 无法打开 PDF,该 PDF 是使用 C# 编写的打印到 pdf 代码生成的

    我使用 C 使用 Microsoft Print to PDF 打印机将文件打印为 PDF 文件已成功生成 但我无法打开该文件 因为 Adob e Reader 说该文件已损坏 这是代码 PrintDocument pd new Print
  • 存储过程 EXEC 与 sp_executesql 的区别?

    我写了两个存储过程 其中一个是sp executesql而其他没有 sp executesql 两者都正确执行相同的结果 我不明白两者之间有什么区别 EXEC SQL 与 EXEC sp executesql SQL N eStatus v
  • 如何消除错误 3002?

    假设我在 SQL Server 2008 中有以下表定义 CREATE TABLE Person PersonId INT IDENTITY NOT NULL PRIMARY KEY Name VARCHAR 50 NOT NULL Man
  • Angular UI Grid - 将图像导出为 pdf

    我想将图像添加到 pdf 的标题中 我正在尝试添加已转换为 base64 的图像以导出 Pdf 标题 scope gmGrid exporterPdfHeader margin 30 5 30 15 table widths body MC
  • 如何在 Windows 上以编程方式将 SVG 转换为 PDF?

    我希望在服务器上以编程方式将 SVG 转换为 PDF 文档 在 Windows 上执行此操作有哪些选项 我看过链接Inkscape http www inkscape org Batik http xmlgraphics apache or
  • 删除 SQL Server 上的所有扩展属性

    如何以可编写脚本的方式删除 SQL Server 上的所有扩展属性 如果您想要一个能够一次性删除所有扩展属性的脚本 请使用 Jamie Thomson 创建的脚本 该脚本将为所有扩展属性生成删除 您可以从这里下载article http s
  • 使用 GhostScript.NET 打印 PDF DPI 打印问题

    我在用GhostScript NET http ghostscriptnet codeplex com打印 PDF 当我以 96DPI 打印时 PDF 打印效果很好 但有点模糊 如果我尝试以 600DPI 打印文档 打印的页面会被极大地放大

随机推荐