AWS Textract - GetDocumentAnalysisRequest 仅返回文档第一页的正确结果

2024-01-01

我编写了使用 Amazon Textract 从 pdf 中提取表和名称值对的代码。我按照这个例子：https://docs.aws.amazon.com/texttract/latest/dg/async-analyzing-with-sqs.html https://docs.aws.amazon.com/textract/latest/dg/async-analyzing-with-sqs.html这是在java版本1.1的sdk中。我已经为版本 2 重构了它。

这是一个仅适用于多页文档的异步过程。当我得到结果时，第一页的结果非常准确。但连续的页面大多是空行。我解析的文档是扫描的，因此质量不是很好。但是，如果我获取单个页面的 jpg 并使用单页操作，即AnalyzeDocumentRequest，则每个页面都会显示良好。 Amazon Textract tryit 服务也可以正确呈现页面。

所以错误一定是在我的代码中，但看不到在哪里。正如你所看到的，这一切都发生在这里：

    GetDocumentAnalysisRequest documentAnalysisRequest = GetDocumentAnalysisRequest.builder().jobId(jobId)
                    .maxResults(maxResults).nextToken(paginationToken).build();

            response = textractClient.getDocumentAnalysis(documentAnalysisRequest);

我真的无法做任何干预。

我最有可能犯错误的地方是收集页面和表块的 util 文件，即这里：

  PageModel pageModel = tableUtil.getTableResults(blocks);

但这对于第一页来说效果很好，而且我还可以在上面的响应对象中看到，返回的块数量要少得多。

这是完整的代码：


private DocumentModel getDocumentAnalysisResults(String jobId) throws Exception {

        int maxResults = 1000;
        String paginationToken = null;
        GetDocumentAnalysisResponse response = null;
        Boolean finished = false;

        int pageCount = 0;
        DocumentModel documentModel = new DocumentModel();
        // loops until pagination token is null
        while (finished == false) {
            GetDocumentAnalysisRequest documentAnalysisRequest = GetDocumentAnalysisRequest.builder().jobId(jobId)
                    .maxResults(maxResults).nextToken(paginationToken).build();

            response = textractClient.getDocumentAnalysis(documentAnalysisRequest);

            // Show blocks, confidence and detection times
            List<Block> blocks = response.blocks();
            PageModel pageModel = tableUtil.getTableResults(blocks);
            pageModel.setPageNumber(pageCount++);
            Map<String,String> keyValues = formUtil.getFormResults(blocks);
            pageModel.setKeyValues(keyValues);
            documentModel.getPages().add(pageModel);
            paginationToken = response.nextToken();
            if (paginationToken == null)
                finished = true;
        }
        return documentModel;

    }

还有其他人遇到过这个问题吗？

非常感谢

如果响应中有NextToken，则需要调用texttract并传入NextToken以获取下一批Block。我不知道如何在 Java 中执行此操作，但这是来自 AWS 存储库的 python 示例https://github.com/aws-samples/amazon-textract-serverless-large-scale-document-processing/blob/master/src/jobresultsproc.py https://github.com/aws-samples/amazon-textract-serverless-large-scale-document-processing/blob/master/src/jobresultsproc.py

对于我的解决方案，我做了一个简单的 if response['NextToken'] then recall 方法并将 response['Blocks'] 连接到我当前的列表。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

amazontextract

AWS Textract - GetDocumentAnalysisRequest 仅返回文档第一页的正确结果的相关文章

使 div 自动向左而不是向右扩展宽度

我的网站上有一个 div 其中包含充当菜单的项目列表我已经设置了CSSwidth auto这样如果菜单项太长它会重新调整大小但目前这将扩展到右侧并将我的其余内容推到右侧这很难解释所以举个例子如果你去http redsq
C 中 _Bool 和 bool 类型之间的区别？

谁能解释一下两者之间有什么区别 Bool and boolC 中的数据类型例如 Bool x 1 bool y true printf d x printf d y 这些数据类型是在 C99 中添加的自从bool在 C99 之前没有保留
如何在 Sails js (nodejs MVC) 中使用外部 REST API

我正在使用 sails js 作为 Node js 的 MVC 我仍在学习它我设法从自己的数据库中获取数据并使用它但现在我需要想要从外部 REST API 获取数据我在我的控制器中使用了这个 api controllers Some
C++ 的首选命名约定是什么？

通过查看 boost 库和 stl 然后查看人们的示例我感到非常困惑看起来大写的类型名称都散布在所有小写字母中并用下划线分隔如今事情到底应该怎样做呢我知道 NET 世界有自己的一套约定但它似乎与 C 领域完全不同你打开了一个
监听来自 Dart 的 javascript 事件

Dart 有没有办法监听 javascript 库中的事件例如 jqrangesliderhttp ghusse github io jQRangeSlider http ghusse github io jQRangeSlider 当有
过滤字典内的数组 - Swift

我正在尝试搜索索引字典以根据客户的姓氏返回特定客户以下是我正在使用的数据结构每个客户端对象都有一个名称属性它是一个字符串 var clients Client loadAllClients Returns client array v
滚动条触发的jquery mouseleave文档

document ready function document mouseleave function desktop subscribe modal modal show 我试图在鼠标离开文档窗口时触发一个功能上面的代码在 Firef
knitr 的 kable 将 2.29e-30 打印为“0”

CODE some data dat lt data frame log2fc c 0 28 10 82 8 54 5 64 8 79 6 46 pvalue c 0 00e 00 2 29e 30 7 02e 30 4 14e 29 1
Firebase 流式 REST 连接是否计入并发连接限制？

In a 最近的问题 https stackoverflow com q 28229543 209103有人指出Firebase 定价文档 https www firebase com pricing html states REST AP
是否可以在 Eclipse 中从多个包运行 JUnit 测试？

是否可以同时运行多个包的 JUnit 测试而无需手动创建测试套件例如如果我有层次结构代码 branchone代码 branchone aaa代码 branchone bbb代码 branchtwo代码 branchtwo aaa代码
在整个 Webresource.axd 中使用嵌入式 WebResources

问题很简单如何在 ASP NET 应用程序中使用嵌入式资源将资源包含在程序集中的步骤是什么以及如何引用它可能会遇到哪些问题编辑对于未引用 Page 和 ClientScript 的版本请参阅在 Razor 视图上处理嵌入式资源
正则表达式匹配星号和换行符之间的字符串

例子 blah blah Match this text Match this text Match this text Match this text Match this text more text more text 如何从星号内部
Semantic-ui 与 Bootstrap [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案哪一种最好用如果可能请提供这两者的区别和优点语义用户界面 http semantic ui com vs 引导程序 http getboo
将 Rails 应用程序部署到 Heroku 不断崩溃

这个答案似乎已经以多种方式得到了回答但似乎没有一个适合我的确切问题我正在使用 RailsApps 中的应用程序https github com RailsApps rails devise pundit https github com
如何将git存储库的根设置为vi/vim查找路径？

我想设置 vim 文件搜索路径以包括 git 存储库根可以通过以下方式找到 git rev parse show toplevel 我不知道如何附加这个输出git命令 set path 在 vimrc 中 Thanks 您可以使用此命令
在从 XAML 实例化的控件中使用 MEF

我创建了一个 UserControl 它使用 Import 属性 public class MyUserControl UserControl IPartImportsSatisfiedNotification Import public
使用正确的派生类型调用泛型方法

我有以下场景我有三个课程我们称它们为A B and C 它们的共同点是它们继承自相同的接口 ISomeInterface它们是使用实体框架映射到实体的类我有一个方法接收实现此接口的对象列表但对象本身将是A B or C 方法外壳看起

随机推荐

网格碰撞器在应该有孔的地方有墙壁并且变形了

我的曲线水管模型需要一个曲线圆柱对撞机以便我的玩家红色立方体可以轻松通过我尝试了网格碰撞器它不起作用还尝试了另一种技巧我在搅拌机中构建了 2 个模型一个用于网格渲染一个用于碰撞器作为一个整体九分之一导致网格碰撞器无法在整个
Gtest：“{”之前预期的类名

我正在尝试将 Gtest 下的测试用例转换为使用测试夹具以便在添加更多测试时可以有一个通用的设置然而这会导致错误 test integrate cc 4 47 error expected class name before toke
使用 perl 和 Net::DNS 检查 DNS

所以在有一个小脚本参见第 173 页其目的是迭代检查 DNS 服务器以查看它们是否为给定主机名返回相同的地址然而书中给出的解决方案仅当主机具有静态IP地址时才有效如果我希望该脚本能够与具有多个关联地址的主机一起使用我该如何编
jquery 相当于 getcompulatedstyle()

我在一个中找到了这个 getCompulatedStyle polyfillJavaScript 插件 https github com viljamis responsive nav js if computed window getCo
为什么根文件系统被加载到ramdisk中？

我正在研究Linux的启动过程我遇到过这样一句话 RAM 比软盘快几个数量级因此 ramdisk 的系统运行速度很快无论如何内核都会将根文件系统加载到 RAM 中来执行它所以我的问题是如果内核将根文件系统加载到 RAM 中为什
Twig - 获取规范标签的 URL

我希望在我的应用程序中创建一个动态 rel canonical 标签该标签会拉入当前 URL 但希望确保删除所有查询参数例如http www example com test page 2 http www example com te
使用 karma 进行角度单元测试时，dispatchEvent() 和 triggerEventHandler() 有什么区别？

我正在为指令在输入事件上调用编写单元测试该指令正在修改 formControl 上的输入值我在我的规范文件中创建了一个测试组件我注意到triggerEventHandler 和dispatchEvent 之间的区别在trigge
对“__android_log_print”的未定义引用

我的 make 文件有什么问题 Android mk LOCAL PATH call my dir include CLEAR VARS LOCAL MODULE foo LOCAL SRC FILES foo c LOCAL EXPORT
使用流有条件地填充地图 - Java 8

我正在尝试将此简化的代码转换为使用 Java 8 流 Map
XSLT Xalan dyn：评估示例

我希望您在样式表中使用 EXSLT DYN EVALUATE 我已添加名称pace 但我不知道需要导入的 xsl 文件在哪里我不相信我安装了 XALAN 来指向导入我该如何安装这个安装后我将其指向 xsl 它会选择该函数并应用它吗
显示表，描述 redshift 中等效的表

我是 aws 新手谁能告诉我 redshifts 与 mysql 命令的等价物是什么 show tables redshift command describe table name redshift command 所有信息都可以在PG
生成随机、唯一的值 C#

我已经搜索了一段时间并一直在努力找到这个我试图用 C 生成几个随机的唯一的数字我在用着System Random 我正在使用DateTime Now Ticks seed public Random a new Random Date
R studio - 我需要使用混淆矩阵的敏感性和特异性以及阳性和阴性预测值的置信区间

我正在写一篇关于住院儿童帐单代码有效性的论文我是一个非常新手的 R studio 用户我需要敏感性和特异性以及阳性和阴性预测值的置信区间但我不知道该怎么做我的数据有 3 列 ID true value billing value 这
Golang 模板“减号”功能

我知道在go我可以调用名为的模板函数add对于像这样的表达1 1 但是如何为表达式命名函数2 1 没有add默认包含的功能但是您可以轻松地自己编写此类函数例如 tmpl template Must template New Funcs
为什么 C++ 标准文件流没有更严格地遵循 RAII 约定？

为什么 C 标准库使用流open close 语义与对象生命周期分离从技术上讲关闭销毁可能仍会生成类 RAII 但获取释放独立性会在范围内留下漏洞其中句柄可以指向任何内容但仍需要运行时检查来捕获为什么库设计者选择他们的方法而不是
Django 教程：运行服务器错误

我正在遵循 django 教程但我立即在第 1 部分中遇到了问题运行 python manage py runserver 后我在浏览器中输入 URL 并收到错误 ImproperlyConfigured Module django
如何使用 jQuery 查找特定类型（表）的最后一个子项？

假设我有以下结构 div table tbody tr td div table tbody tr td div table Last table here table div td tr tbody table div td tr tbo
使用 Android NDK 中的系统函数在 Android 嵌入式设备上运行 Shell 脚本文件

All 这里我想通过android NDK中的系统调用运行 sh文件我能跑cp rm通过系统调用命令但 sh 命令无法通过系统调用运行我还在 android 上安装 busybox 我使用下面的代码我设置了所有权限test sh C
Swift 中根据 String 计算出 UILabel 的大小

我正在尝试根据不同的字符串长度计算 UILabel 的高度 func calculateContentHeight gt CGFloat var maxLabelSize CGSize CGSizeMake frame size width
AWS Textract - GetDocumentAnalysisRequest 仅返回文档第一页的正确结果

我编写了使用 Amazon Textract 从 pdf 中提取表和名称值对的代码我按照这个例子 https docs aws amazon com texttract latest dg async analyzing with sqs

AWS Textract - GetDocumentAnalysisRequest 仅返回文档第一页的正确结果

AWS Textract - GetDocumentAnalysisRequest 仅返回文档第一页的正确结果 的相关文章

随机推荐

热门标签

AWS Textract - GetDocumentAnalysisRequest 仅返回文档第一页的正确结果的相关文章