如何从 pdf 文件中提取附件？

2023-11-24

我有大量 pdf 文档，其中附有 xml 文件。我想提取那些附加的 xml 文件并读取它们。如何使用 .net 以编程方式执行此操作？

iTextSharp 也非常有能力提取附件...尽管您可能必须使用低级对象来执行此操作。

有两种方法可以在 PDF 中嵌入文件：

在文件注释中
在文档级别“EmbeddedFiles”。

一旦您拥有来自任一来源的文件规范字典，文件本身将成为标记为“EF”（嵌入文件）的字典中的流。

因此，要在文档级别列出所有文件，可以编写如下代码（用 Java）：

Map<String, byte[]> files = new HashMap<String,byte[]>();

PdfReader reader = new PdfReader(pdfPath);
PdfDictionary root = reader.getCatalog();
PdfDictionary names = root.getAsDict(PdfName.NAMES); // may be null
PdfDictionary embeddedFilesDict = names.getAsDict(PdfName.EMBEDDEDFILES); //may be null
PdfArray embeddedFiles = embeddedFilesDict.getAsArray(PdfName.NAMES); // may be null

int len = embeddedFiles.size();
for (int i = 0; i < len; i += 2) {
  PdfString name = embeddedFiles.getAsString(i); // should always be present
  PdfDictionary fileSpec = embeddedFiles.getAsDict(i+1); // ditto

  PdfDictionary streams = fileSpec.getAsDict(PdfName.EF);
  PRStream stream = null;

  if (streams.contains(PdfName.UF))
    stream = (PRStream)streams.getAsStream(PdfName.UF);
  else
    stream = (PRStream)streams.getAsStream(PdfName.F); // Default stream for backwards compatibility

  if (stream != null) {
    files.put( name.toUnicodeString(), PdfReader.getStreamBytes((PRStream)stream));
  }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

NET

pdf

如何从 pdf 文件中提取附件？的相关文章

如何将隐藏字段从一个页面传递到另一页面？

我有一个 Net 类库我想从一次代码隐藏页面传递一个隐藏变量并在另一个代码隐藏页面中获取它请注意我没有任何可以使用表单标签和 get post 方法的设计页面 aspx 页面我们应该怎么做注意我想使用隐藏字段将值从一页传递到另
如何将 #ifdef DEBUG 添加到 Xcode？

我的项目中有一些代码永远不应该在发布版本中使用但在测试时很有用我想做这样的事情 ifdef DEBUG Run my debugging only code endif 在 Xcode 4 中哪里添加 DEBUG 设置我尝试将其放入
将内置类型转换为向量

我的 TcpClient 类接受vector
在新的浏览器进程中打开 URL

我需要在新的浏览器进程中打开 URL 当浏览器进程退出时我需要收到通知我当前使用的代码如下 Process browser new Process browser EnableRaisingEvents true browser Star
用于检查项目文件中的项目变量和引用路径的 api

我正在研究一个 net application VS2010 与 x 没有解和变量号这些解决方案中的项目数量我需要检查项目属性特定于一定数量的项目是否同质并且检查验证构建期间的参考路径有没有一个API是这样的吗如果没有我该
使用 C 语言使用 strftime() 获取缩写时区

我看过this https stackoverflow com questions 34408909 how to get abbreviated timezone and this https stackoverflow com ques
关于在 Windows 上使用 WiFi Direct Api？

我目前正在开发一个应用程序我需要在其中创建链接阅读无线网络连接在桌面应用程序在 Windows 10 上和平板电脑 Android 但无关紧要之间工作流程按钮 gt 如果需要提升权限 gt 创建类似托管网络的 WiFi 网
如何在 Linq 中获得左外连接？

我的数据库中有两个表如下所示顾客 C ID city 1 Dhaka 2 New york 3 London 个人信息 P ID C ID Field value 1 1 First Name Nasir 2 1 Last Name U
PlaySound 可在 Visual Studio 中运行，但不能在独立 exe 中运行

我正在尝试使用 Visual Studio 在 C 中播放 wav 文件我将文件 my wav 放入项目目录中并使用代码 PlaySound TEXT my wav NULL SND FILENAME SND SYNC 我按下播放按钮或
批量更新 SQL Server C#

我有一个 270k 行的数据库带有主键mid和一个名为value 我有一个包含中值和值的文本文件现在我想更新表格以便将每个值分配给正确的中间值我当前的方法是从 C 读取文本文件并为我读取的每一行更新表中的一行必须有更快的方法来做
使用 Moq 使用内部构造函数模拟类型

我正在尝试模拟 Microsoft Sync Framework 中的一个类它只有一个内部构造函数当我尝试以下操作时 var fullEnumerationContextMock new Mock
如何使用 Mongodb C# 驱动程序连接多个集合

我需要将 3 个集合与多个集合合并在一起 lookup我在 C 驱动程序中尝试过它允许我 lookup用户采集但无法执行秒 lookup用于设置集合有人可以帮忙吗 db Transactions aggregate lookup fro
将 log4net 与 Autofac 结合使用

我正在尝试将 log4net 与 Autofac 一起使用我粘贴了这段代码http autofac readthedocs org en latest examples log4net html http autofac readthed
如何编写一个同时需要请求和响应Dtos的ServiceStack插件

我需要提供本地化数据服务所有本地化的响应 Dto 都共享相同的属性 IE 我定义了一个接口 ILocalizedDto 来标记那些 Dto 在请求端有一个ILocalizedRequest对于需要本地化的请求 Using IPlugin
有人可以提供一个使用 Amazon Web Services 的 itemsearch 的 C# 示例吗

我正在尝试使用 Amazon Web Services 查询艺术家和标题信息并接收回专辑封面使用 C 我找不到任何与此接近的示例所有在线示例都已过时并且不适用于 AWS 的较新版本有一个开源项目CodePlex http www c
(de)从 CSV 序列化为对象（或者最好是类型对象的列表）

我是一名 C 程序员试图学习 C 似乎有一些内置的对象序列化但我在这里有点不知所措我被要求将测试数据从 CSV 文件加载到对象集合中 CSV 比 xml 更受青睐因为它更简单且更易于人类阅读我们正在创建测试数据来运行单元测试该集
gcc 的配置选项如何确定默认枚举大小（短或非短）？

我尝试了一些 gcc 编译器来查看默认枚举大小是否很短至少一个字节强制使用 fshort enums 或无短至少 4 个字节强制使用 fno short enums user host echo Static assert 4 si
memset 未填充数组

u32 iterations 5 u32 ecx u32 malloc sizeof u32 iterations memset ecx 0xBAADF00D sizeof u32 iterations printf 8X n ecx 0
使用 GhostScript.NET 打印 PDF DPI 打印问题

我在用GhostScript NET http ghostscriptnet codeplex com打印 PDF 当我以 96DPI 打印时 PDF 打印效果很好但有点模糊如果我尝试以 600DPI 打印文档打印的页面会被极大地放大
当另一个线程可能设置共享布尔标志（最多一次）时，是否可以读取共享布尔标志而不锁定它？

我希望我的线程能够更优雅地关闭因此我尝试实现一个简单的信号机制我不认为我想要一个完全事件驱动的线程所以我有一个工作人员有一种方法可以使用关键部分优雅地停止它Monitor 相当于C lock我相信绘图线程 h class Drawi

随机推荐

Cypress，cy.visit() 尝试加载 ESOCKETTIMEDOUT 失败 [关闭]

Closed 这个问题需要调试细节目前不接受答案致力于www github com cy visit 尝试加载 ESOCKETTIMEDOUT 失败但在其他网站上没有对我来说通过在赛普拉斯配置中添加以下内容解决了问题 header
禁用 ASP.NET-MVC3 中 unicode 字符的编码

在我的网站上每个文本都以 UTF 8 格式提供由于现在每个浏览器都支持 unicode 字符因此我想按原样使用它们 asp net 框架非常有用它可以用数字字符引用替换任何 unicode 例如 225 供参考检查 http en
自 Mac OS 10.11 El Capitan 起，具有系统完整性保护的 DYLD_LIBRARY_PATH 技巧的替代方案

这是我所拥有的 Mac 操作系统 10 11 埃尔卡皮坦 python 2 7 12 从 python org 安装 Library Frameworks Python framework 皮查姆 2016 2 3 vtk 7 1 0 这是
curl_easy_perform：无法解析主机名

我有一个奇怪的问题libcurl 它拒绝解析特定的 URL 返回错误消息无法解析主机名它在解析其他主机时没有任何问题我怀疑原因是失败的 URL 返回 302 重定向但我已经为其设置了适当的选项有问题的网址 http serverm
如何将Webcam集成到Java的Swing应用程序中？

我正在 swing Java 中创建一个 GUI 应用程序我必须将网络摄像头与我的 GUI 集成有人对此有想法吗下载并安装JMF 将 jmf jar 添加到您的项目库中下载图像采集卡源文件并将其添加到您的项目中按如下方式使用它开始
为什么不能将受约束的开放泛型类型转换为受约束类型？

我想我一定错过了一些东西为什么我不能编译这个 class Foo
如何在Android中的ListView中显示图像列表？

如何使用 ListView 显示图像列表我正在运行时下载图像图像总数不固定我会从这样的事情开始如果我的代码有问题我当然会感谢任何评论 public class ItemsList extends ListActivity priv
在带有 Java/JDBC 的 Oracle PL/SQL 中使用游标并获取结果

我有一个像这样构建的 PL SQL 查询 DECLARE a NUMBER B NUMBER CURSOR cursor IS SOME SELECT QUERY BEGIN OPEN cursor LOOP SOME STUFF END
angularjs ui-router stateparams 在页面刷新时不可见丢失

我正在开发一个有角度的项目我在其中设置了状态如下所示 stateProvider state UserPanel url user params userId null views content templateUrl AngView
Java JIT 编译器导致 OutOfMemoryError

我们最近开始偶尔崩溃的一个应用程序并显示一条有关 java lang OutOfMemoryError 为 Chunk new 请求 8589934608 字节交换空间不足的消息我在网上环顾四周到处的建议都仅限于恢复到以前的 J
JPA 2 和 Hibernate 3.5.1 MEMBER OF 查询不起作用

我正在尝试以下 JPQL 但它失败了 Query query em createQuery SELECT u FROM User u WHERE admin MEMBER OF u roles List users query query
从 NFC 标签读取数据

您好我正在开发一个用于向 NFC 标签读取和写入数据的应用程序我在从 NFC 标签读取数据时遇到问题当我尝试读取数据时我的应用程序第一次崩溃当我第二次扫描标签时应用程序读取数据时再次崩溃请帮我解决这个问题这是我的代码提前致
我可以将一个查询拆分为多个查询或创建并行性来加速查询吗？

我有一张桌子avl pool 我有一个函数可以在地图上找到最接近该链接的链接 x y 位置此选择的性能非常线性该函数需要约 8 毫秒才能执行所以计算一下这个 select 1000 行需要 8 秒或者正如我在此示例中所示 20 00
抛出格式异常 C#

我试图在有人在提示输入年龄时尝试输入非整数字符的实例中抛出格式异常 Console WriteLine Your age age Int32 Parse Console ReadLine 我不熟悉 C 语言可以使用帮助来为此实例编写 tr
反编译APK，修改它然后重新编译它

我需要修改现有的 APK 修改源代码然后重新编译它我可以使用 dex2jar 或 apktool 反编译它效果很好从jar文件中我可以获得java源代码使用jd gui 然后我可以修改java文件但现在我想知道如何重新编译jav
StartCoroutine/yield 返回模式在 Unity 中到底如何工作？

我了解了协程的原理我知道如何达到标准StartCoroutine yield return在 Unity 中的 C 中工作的模式例如调用一个方法返回IEnumerator via StartCoroutine并在该方法中做某事做yie
Enum 类型属性的 RestSharp 反序列化

我有一个对象 var testTcc new TrendingConfigurationConfigDto TrendingConfigurationId 1 ConfigId 1 DeviceId 1 Selected true YAxi
手动安装 NPM 包

我使用node windows installer v0 8 3来安装nodejs 当我尝试像这样安装express时 npm install express 它不起作用我认为这是因为我的公司使用了代理所以我从github下载了expr
本机库加载时出现莫名其妙的 UnsatisfiedLinkError

首先也是最重要的我的申请一般有效我在所有四个 32 位 CPU ABI 上有许多客户端并且他们运行该应用程序没有任何问题本机库是为所有四种架构构建的库就在那里方法都就位并且命名正确然而我偶尔会收到无法加载本机库的异常报告
如何从 pdf 文件中提取附件？

我有大量 pdf 文档其中附有 xml 文件我想提取那些附加的 xml 文件并读取它们如何使用 net 以编程方式执行此操作 iTextSharp 也非常有能力提取附件尽管您可能必须使用低级对象来执行此操作有两种方法可以在 PDF

如何从 pdf 文件中提取附件？

如何从 pdf 文件中提取附件？ 的相关文章

随机推荐

热门标签

如何从 pdf 文件中提取附件？的相关文章