从S3读取pdf对象

2024-04-22

我正在尝试创建一个 lambda 函数，它将访问上传到 s3 的 pdf 表单，并删除输入到表单中的数据并将其发送到其他地方。

当我可以在本地下载文件时，我就可以执行此操作。因此，下面的脚本可以工作并允许我将 pdf 中的数据读取到我的 pandas 数据框中：

import PyPDF2 as pypdf
import pandas as pd

s3 = boto3.resource('s3')
s3.meta.client.download_file(bucket_name, asset_key, './target.pdf')

pdfobject = open("./target.pdf", 'rb')
pdf = pypdf.PdfFileReader(pdfobject)
data = pdf.getFormTextFields()

pdf_df = pd.DataFrame(data, columns=get_cols(data), index=[0])

但是使用 lambda 我无法在本地保存文件，因为我收到“只读文件系统”错误。

我尝试使用 s3.get_object() 方法，如下所示：

s3_response_object= s3.get_object(
    Bucket='pdf-forms-bucket',
    Key='target.pdf',
)

pdf_bytes = s3_response_object['Body'].read()

但我不知道如何将生成的字节转换为可以用 PyPDF2 解析的对象。我需要的输出以及 PyPDF2 将产生的输出如下所示：

{'form1[0].#subform[0].nameandmail[0]': 'Burt Lancaster',
 'form1[0].#subform[0].mailaddress[0]': '675 Creighton Ave, Washington DC',
 'form1[0].#subform[0].Principal[0]': 'David St. Hubbins',
 'Principal[1]': None,
 'form1[0].#subform[0].Principal[2]': 'Bart Simpson',
 'Principal[3]': None}

总之，我需要能够将带有可填写表单的 pdf 读取到内存中并解析它，而无需下载文件，因为我的 lambda 函数环境不允许本地临时文件。

Solved:

这可以解决问题：

import boto3
from PyPDF2 import PdfFileReader
from io import BytesIO

bucket_name ="pdf-forms-bucket"
item_name = "form.pdf"


s3 = boto3.resource('s3')
obj = s3.Object(bucket_name, item_name)
fs = obj.get()['Body'].read()
pdf = PdfFileReader(BytesIO(fs))

data = pdf.getFormTextFields()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pdf

amazons3

python37

从S3读取pdf对象的相关文章

安装 geopandas 会卸载底图，反之亦然

我需要一个同时包含底图和 geopandas 的 Python 环境但安装其中一个会删除另一个是否有两种方法都可以或者是否有一种合理的方法可以在同一脚本中的解释器之间切换我知道底图因 cartopy 而被贬值但我正在使用底图这就
C# 3.0 使用MemoryStream将itextsharp pdf保存到数据库

我正在尝试将 itextsharp 生成的 pdf 文件保存到数据库但是到目前为止我还没有成功我正在使用 Linq to sql 这是代码 MemoryStream ms new MemoryStream Document d new
如何在使用 Active Storage 上传之前调整图像大小（与 AWS 链接）

我尝试将 Active Storage 与 Amazon Web Services 结合使用而不是 Carrierwave 和 Cloudinary 使用 Carrierwave 我有一些功能可以在通过上传器控制器上传之前调整图像大小但
Amazon Web Services：设置 S3 策略以允许 putObject 和 getObject 但拒绝 listBucket

我在 Amazon S3 上使用 getObject 和 putObject 请求并在创建访问存储桶的策略时发现如果我不允许 listBucket 则会收到访问被拒绝错误这样做的问题是 listBucket 意味着用户可以列出存储
如何以编程方式生成在图像顶部带有标签的维恩图图像？

我正在尝试为 pdf 报告生成维恩图其中文本位于不同区域的顶部我们使用 htmldoc 生成 pdf 这会排除背景图像之上的文本我们使用谷歌图表 API 来处理其他图像但他们的维恩图不支持图表顶部的文本据我所知最简单的路径是使用
无法在 Angular 10 中的“pdf-viewer”=>“ng2-pdf-viewer”中显示 blob url

我有一个 API 它将上传的文件作为 blob 返回当我尝试绑定时src如果使用 blob URL 则它不会显示任何内容但是当我尝试绑定直接 URL 时它可以显示 PDF 文件这是我下面给出的代码我的 TS 代码 downloa
itextsharp读取表[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我使用 itextsharp 创建了一个带有表格的 pdf 我找到了一个例子http itextsharp sourceforge n
如何在PHP中将图像从内存上传到AWS S3？

所以我目前有一个使用 AWS S3 上传图像的上传系统这是代码 Upload image to S3 s3 Aws S3 S3Client factory array key gt mykey secret gt myskey try s
如何在AWS策略中提供多个StringNotEquals条件？

我正在尝试编写 AWS S3 存储桶策略拒绝所有流量除非来自两个 VPC 的流量我正在尝试编写的策略如下所示两者之间有逻辑与StringNotEquals 除非这是无效的政策 Version 2012 10 17 Id Policy
AWS S3 公共对象与私有对象？

回到 S3 我的存储桶中有图像的 URL 我将在我的应用程序中呈现这些图像但它们被设置为私有当我尝试单击该链接时它显示访问被拒绝当我将链接的设置更改为公共时它会通过但是我读到公共访问并不是最安全的事情所以这本质上是一个由两部
是否有一个 C++ 库可以从 PDF 文件中提取文本，例如 PDFBox for Java？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案去年我使用 PDFBox 在 Java 中创建了一个应用程序来获取某些 PDF 文件中的原始文本现在
是否可以修改 PDF 表单字段名称？

情况是这样的我有一个 PDF 其中包含自动生成的 pdf 表单字段名称问题是这些名称不太用户友好它们看起来像 topmostSubform 0 Page1 0 Website Address 0 我希望能够更改它们使它们类似于 We
无法使用文件提供程序从内部存储打开 PDF 以便在 Android 8 和 9 上查看

仅适用于 Android 8 和 9 我这里有一个 PDF 文件管理器 String url file storage emulated 0 Android data com verna poc files Download mypdf p
无法在jspdf中加载多个图像

我正在尝试加载动态生成的多个图像我想将这些图像转换为 PDF 格式 HTML 代码如下
编码员的 PDF 规范：Adobe 还是 ISO？

我想编写一个可以读取和解码 pdf 文档的应用程序现在我应该在哪里获取此文件格式的规格 PDF 格式是由 ISO 组织标准化的但我不清楚哪里是获取此类信息的最可靠来源什么是开始使用这种文件格式的好来源您实际上可以使用您提到的两个来源
在 RMarkdown 输出到 PDF 时缩进而不添加项目符号点或编号

之前有人问过如何在没有项目符号的情况下缩进文本 RMarkdown 中的点但这是针对 HTML 输出的在 RMarkdown 中缩进而不添加项目符号点或数字 https stackoverflow com questions 47087
如何向 boto 中的联合用户授予 s3 存储桶的权限？

尝试从文档中找出答案但无法创建可以访问 s3 存储桶的联合用户首先是进口 gt gt gt from boto s3 connection import S3Connection gt gt gt from boto sts impor
jasper 报告 pdf 导出中忽略半透明（半透明）背景色

问为什么保存为 PDF 时 Alpha 信息会丢失 Jaspersoft studio 不允许我用 Alpha 指定颜色因此我尝试聪明地在着色元素上指定键并更改代码中的颜色如下所示 JasperReport jasperRepor
Amazon s3 – 403 禁止使用正确的存储桶策略

我正在尝试使用以下存储桶策略使存储在 s3 存储桶中的所有图像可供公开读取 Id Policy1380877762691 Statement Sid Stmt1380877761162 Action s3 GetObject Effect
如何修复 Laravel 中未找到的“PDF”类

在我的 Laravel 应用程序中遇到以下错误 CollaboPDFController php 第 14 行中的 FatalErrorException 未找到 PDF 类这是我的ColaboPDFController php

随机推荐

哪个更快：多行还是多列？

在 MySQL 中返回 100 行 3 列或 1 行 100 列通常更快更高效可扩展吗换句话说当存储与一条记录相关的许多 key gt value 对时是将每个 key gt value 对存储在单独的行中并以 record i
获取数组类型的 Class 对象的最佳方法是什么？

获取类的类文字很容易 String class 但是如何获取数组类型的类对象呢这可行但很丑陋而且可能不是编译时常量 new byte 0 getClass 我查看了 JLS 但我唯一发现的是根据 JLS 定义我所说的类文字并不
git 附件 / ssh：ControlPath 太长

运行命令 gitannexsync 时出现以下错误 ControlPath too long Command ssh S
配置 maven-failsafe-plugin 以查找不在 src/test/java 中的集成测试

我的目录结构是这样的 src integrationTest java src test java src main java 我正在尝试进行故障保护以进行集成测试但未能按照我想要的方式进行我已经尝试过这个
Nashorn：在命名空间内调用函数

我已经使用以下脚本评估了NashornScriptEngine var Namespace test function return It works 现在我想调用该函数test 使用方法时invokeFunctionnashorn 引擎抛
如果可能的话，在 C# 中使用 FtpWebRequest 实现无需第三方 dll 的 FTP/SFTP

我试图通过 C 中的 FtpWebRequest 类实现 ftp sftp 但到目前为止还没有成功我不想使用任何第三方免费或付费 dll 凭证就像主机名 sftp xyz com 用户 ID abc 密码 123 我能够使用 IP 地址
使用正则表达式进行 Verilog 端口映射

我有一个很长的端口映射我想在其中替换一堆 SignalName i with SignalName SignalName i 我想我可以用正则表达式轻松地做到这一点但我无法弄清楚如何做到这一点有任何想法吗假设 SignalData
按组平均值创建标签

我有一个数据集如下 library data table dt1 data table A c rnorm 1 5 mean 5 sd 1 rnorm 1 5 mean 7 sd 1 rnorm 1 5 mean 2 sd 1 group
Google Dataproc 支持 Apache Impala 吗？

我刚开始使用云服务并且浏览 Google 的云平台相当令人生畏当谈到 Google Dataproc 时他们确实宣传 Hadoop Spark 和 Hive 我的问题是 Impala 是否可用我想使用所有这四种工具来做一些基准测试项
如何在 Apex 中向 D3 力定向图添加动态图例？

我在 Apex 中构建了一个 D3 力图基本上就像http bl ocks org mbostock 1093130 http bl ocks org mbostock 1093130 or http bl ocks org mbosto
如何在没有 HttpEntity 的情况下使用 Volley 发送多部分请求？

我正在遵循使用齐射发送多部分请求的解决方案如何使用 Android Volley 分割数据 https stackoverflow com questions 18288864 how to multipart data using and
如何在 Android 启动画面中播放音频

如何在启动屏幕期间播放音频需要指导我的方法是不需要外部声音因为我将声音文件放在资源文件夹中在 onCreate 中 mp MediaPlayer create getBaseContext R raw sound Gets you
为什么一切都命名为win32？

涉及到Windows操作系统很多东西都用到32这个数字尤其是Win32 我在系统文件夹的所有内容中都看到了它 C Windows System32 到系统文件 C Windows System32 win32k sys Windows
使用 Firebase 的 Firestore 高效（持续）更新聊天消息

我正在开发一个使用 Firebase 的 Firestore 作为后端的 React Native 应用程序现在每次收到新消息时我都会从 Firestore 中获取所有消息并更新我的状态尽管这只是收到的一条新消息 function
对字符串进行排序以匹配第二个字符串的最快方法 - 仅允许相邻交换

我想获得将一个字符串转换为匹配第二个字符串所需的最小字母交换次数仅允许相邻交换输入为字符串长度 string 1 string 2 一些例子 Length String 1 String 2 Output 3 ABC BCA 2 7
无法使用 gradle 将 xstream 1.4.8 依赖项添加到 Android

我在将 xstream 库包含到我的基于 Android gradle 的应用程序中时遇到困难根据我在 xstream 文档中读到的内容它应该开箱即用但是当我添加依赖项时 compile com thoughtworks xstr
将一组对象分成一定数量的组的算法？

例如假设我有一个 2D 像素数组换句话说一个图像我想将它们排列成组以便组数加起来完美达到某个数字例如另一个 2D 中的总项目数像素阵列目前我尝试使用比率和像素的组合但这在完美整数比率例如 1 2 1 3 1 4 等
布局底部有两个按钮的滚动视图

我想创建一个具有滚动视图的布局在布局顶部的滚动视图内将有两个 Textview 在中心将有两个 Edittexts 在布局的底部将有两个按钮但一切都将在主滚动视图下我的要求的直观描述我已经完成了一些编码可以滚动顶部内容但将底部的
ASP.NET 中的模拟和委托（使用 SQL Server）

我编写了一个简单的 ASP NET 应用程序它用作简单 MSSQL 数据库的前端该应用程序可通过互联网访问涉及两台物理服务器一台也运行 MSQL Server 2008 R2 的 WS2008R2 Active Directory
从S3读取pdf对象

我正在尝试创建一个 lambda 函数它将访问上传到 s3 的 pdf 表单并删除输入到表单中的数据并将其发送到其他地方当我可以在本地下载文件时我就可以执行此操作因此下面的脚本可以工作并允许我将 pdf 中的数据读取到我的 pa

从S3读取pdf对象

从S3读取pdf对象 的相关文章

随机推荐

热门标签

从S3读取pdf对象的相关文章