文本提取 - 逐行

2023-11-25

我正在使用 Google Vision API，主要是为了提取文本。我工作得很好，但对于我需要 API 扫描输入行的特定情况，在移动到下一行之前吐出文本。然而，该 API 似乎正在使用某种逻辑，使其从左侧从上到下扫描，然后移动到右侧并进行从上到下扫描。我希望 API 能够从左到右读取、向下移动等等。

例如，考虑图像：

API 返回如下文本：

“ Name DOB Gender: Lives In John Doe 01-Jan-1970 LA ”

然而，我本来期望这样的事情：

“ Name: John Doe DOB: 01-Jan-1970 Gender: M Lives In: LA ”

我想有一种方法可以定义块大小或边距设置（？）来逐行读取图像/扫描？

感谢您的帮助。亚历克斯

这可能是一个迟到的答案，但添加它以供将来参考。您可以向 JSON 请求添加功能提示以获得所需的结果。

{
  "requests": [
    {
      "image": {
        "source": {
          "imageUri": "https://i.stack.imgur.com/TRTXo.png"
        }
      },
      "features": [
        {
          "type": "DOCUMENT_TEXT_DETECTION"
        }
      ]
    }
  ]
}

对于相距很远的文本，DOCUMENT_TEXT_DETECTION 也无法提供正确的行分段。

下列code根据角色多边形坐标进行简单的线分割。

https://github.com/sshniro/line-segmentation-algorithm-to-gcp-vision

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

googlecloudvision

googlevision

文本提取 - 逐行的相关文章

Google Cloud Vision API：“请求的身份验证范围不足。”

你好我正在尝试使用谷歌的云视觉 API 特别是这个例子 https cloud google com vision docs label tutorial label tutorial 1 我按照这个教程进行操作 https cloud
如何使用 Google Cloud Vision API 读取一列文本

我有下一个文档图像当我尝试将图像转换为文本时结果是这样的 Top Text Ref Rad Dte Ddo Ejecutivo 76520400300 Banco de Bogot Luz Adriana Bottom Text 问题是
谷歌云视觉OCR支持条码读取吗？

我正在构建一个利用谷歌云平台的 OCR 服务的应用程序我仍在进行中只是想知道该服务是否也可以检测条形码并对其进行解码 Thanks 不可以要求用户有网络连接只是为了读取条形码会太过分而且速度太慢查看谷歌移动视觉API相反它在设备
谷歌云：身份验证范围不足

我在向部署在 Google Cloud Kubernetes 集群中的 Spring Boot 应用程序发送请求时遇到困难我的应用程序收到一张照片并将其发送到 Google Vision API 我正在使用提供的客户端库 https cl
如何在Android中有效地实时操作YUV相机帧？

我在从 Android 获取的 NV21 框架的感兴趣区域中心周围添加黑色 0 填充CameraPreview线程中的回调为了避免转换为 RGB 位图和反向的开销我尝试直接操作 NV21 字节数组但这涉及嵌套循环这也会使预览处
使用 TEXT_DETECTION 来自 Cloud Vision API 的结果区域设置

我在用着npm node cloud vision api API 正确检测文档的语言但结果字符以与区域设置不对应的西方字符子集返回我假设它们应该以 UTF 8 字符返回但所有区域设置特定字符都映射到基本西方字符子集例如 Warto
Mobile Vision API - 连接新的检测器对象以继续帧处理

我想在应用程序中使用视觉 API 提供的新面部检测功能以及附加帧处理为此我需要访问由面部检测器处理的相机帧并使用面部检测到的数据连接处理器正如我在示例中看到的 CameraSource 抽象了检测和相机访问并且我无法访问正在处理的
Google Mobile Vision 支持 iOS 上的 OCR 吗？

我正在考虑将 Google Mobile Vision 与 iOS 应用程序一起使用他们的文档讨论了面部识别条形码扫描和文本识别 OCR 然而 iOS 开发的代码示例仅包含面部识别并且我在 iOS 的 API 文档中除了面部识别支持之
如何从 Node 中的图像 url 将图像上传到 Google Cloud Storage？

给定一个图像 url 如何将该图像上传到 Google Cloud Storage 以使用 Node js 进行图像处理这是一个 2 个步骤的过程使用下载文件到本地request https stackoverflow com a 12
Google Vision ocr：垂直和水平线文本识别

我们正在使用 google Vision ocr 来收集收据中的文本在某些情况下收据上有一些垂直书写的文本例如增值税信息等问题是谷歌视觉仅有效地读取主方向例如水平方向的文本并丢弃在同一收据中以垂直方向而不是水平方向写入的所有
Google Vision API指定JSON文件

我正在尝试使用 JSON 文件对 Google Vision API 进行身份验证通常我使用GOOGLE APPLICATION CREDENTIALS环境变量指定 JSON 文件本身的路径但是我需要在应用程序本身中指定这一点并使
如何在 Ruby 中将 Base64 图像发送到 Google Cloud Vision API 标签检测？

您好我正在用 Ruby 构建一个程序来为网页上的图像生成 alt 属性我正在抓取图像页面然后将其 src 即 URL 发送到 google cloud vision 以进行标签检测和其他 Cloud Vision 方法每张图像大约需
AndroidcameraSource.stop()导致应用程序冻结

我正在使用 google Vision API 构建一个具有二维码扫描仪的应用程序读取二维码后我无法停止相机流量是MainActivity gt QrActivity一旦二维码收到检测应用程序应返回到主活动如果我不打电话camer
Google Cloud Vision API - TEXT_DETECTION

当我尝试识别图像中的文本例如意大利语单词 Perch 时 Vision API 会返回单词 Perche 返回 e 而不是正确的我不想使用 languageHints 来尝试获得更好的结果因为我必须跨不同语言进行 OCR 识别这里有
我可以收到 LABEL_DETECTION 结果的 boudingPoly 吗？

请问如何使用 Google Vision API 来完成此操作将图像发送到vision api 请求功能 LABEL DETECTION maxResults 10 收到标签特别是我感兴趣的标签是时钟接收boundingPoly
相机2输出位图

我正在尝试使用谷歌移动视觉API https developers google com vision barcodes overview使用camera2模块我遇到了很多麻烦我正在使用谷歌的android Camera2Video h
使用 google mlkit 视觉样本减少跟踪窗口

我想在使用 google Vision api 时减少减少条形码跟踪窗口有一些答案here https stackoverflow com questions 36405717 android vision reduce bar code
如何使用 Google Vision API 对 Base64 编码图像进行文本检测？

我有一个 Base64 编码的图像 imageData data image png base64 iVBORw0rrfwfwHReger32QRQWr 我应该如何使用谷歌云视觉Python库进行文本检测我的代码如下所示 from goo
谷歌云视觉 API - Python

我似乎找不到在哪里添加 API 密钥也找不到在我的 google 云视觉代码中找到 google 凭证文件的位置 import argparse import base64 import httplib2 import validator
Google Cloud Vision API：“错误代码：3”，“消息”：“图像数据错误。”

我正在尝试 POST HTTP 请求来检测从 mat 图像转换为 base64 的图像中的文本当我运行代码时我得到 responses error code 3 message Bad image data 我的curl POST 字段

随机推荐

如何仅从左到右缩放

这是我的CSS代码 body transform scaleX 0 67 在此我的整个网站从右侧和左侧缩小但我只需要从左侧缩放我该怎么做我相信转换原点在这里会有所帮助 body transform scale 0 67 transfor
如何覆盖“::-webkit-scrollbar”CSS规则并使滚动条再次可见

我使用以下规则使滚动条不可见 webkit scrollbar display none 如何覆盖此规则以使滚动条再次可见我尝试了以下方法 webkit scrollbar display initial 在这种情况下滚动条保留其空间
默认情况下向 gcc 添加一些标志（最好使用 specs 文件）

我想让我的gcc默认情况下总是添加一些标志有没有一种干净的方法可以做到这一点基本上我每次调用时都会传递一些标志gcc 例如但不限于 g 这样它就有调试信息有几种解决方法但它们都很丑陋 alias g 但我不喜欢这种方法编写一个围
Java user.home 被设置为 %userprofile% 并且未被解析

我们公司最近从 Windows XP 升级到 Windows 7 Enterprise JDK安装不再设置用户主页到用户目录的完整路径而是将 user home 设置为 userprofile 这导致 Eclipse Maven 等应用程
Express 4.0 中的“扩展”是什么意思？

我在我的应用程序中使用 Express 和 body parser app use bodyParser urlencoded extended false 但是 express 4 0 中的扩展是什么意思我找到了这个 extende
如何清除Python脚本中间的所有变量？

我正在Matlab中寻找类似于 clear 的东西一个命令函数它从工作区中删除所有变量从系统内存中释放它们 Python中有这样的东西吗编辑我想编写一个脚本在某个时候清除所有变量以下命令序列确实删除了every当前模块的名称
Google API 密钥的有效期是多久？

我正在使用获取播放列表的详细信息Youtube API V3使用 API 密钥我找不到任何有关API KEY有效期的信息我想确保在应用程序过期之前为其重新生成新的 API 密钥公共 API 密钥位于底部谷歌开发者控制台API 和身份验
播放 HTTP Live Streaming 视频时访问 AVPlayer 的数据

我正在使用 AVPlayer 播放 HTTP 实时流媒体视频有什么办法可以访问播放器的缓存数据并将其保存在本地吗太长了这并非不可能但结果很可能不会那么好请记住 HTTP 视频流实际上由多个带宽流组成其中每一个都被分为更小的 MP
ffmpeg 格式设置，矩阵 bt709

有谁知道我如何实现以下色彩空间 bt 709 通过 FFmpeg 这是我的文件中现在的内容正如你所看到的Format settings Matrix默认情况下我该如何设置它格式设置矩阵自定义或标准组件原色 BT 709 传输特性
border-radius 应该裁剪内容吗？

当容器有时我的容器中的内容不应该被切断吗 border radius HTML 和 CSS 示例 progressbar height 5px width 100px border radius 5px buffer width 25px
从网站打开新的 Outlook，mailTo 链接太长，*.eml 文件密件抄送字段未加载

我正在尝试打开一个 eml使用 Microsoft Outlook 2010 文件并遇到问题bcc field 这是我的eml file To email protected Subject Mail Subject cc email pr
如何向soapVars添加属性

我想创建具有如下属性的soapVars
Firebase/Android - 定期丢失数据库连接

我遵循了 Firebase 身份验证和数据库的文档全新安装后一切正常用户可以注册或登录数据按应有的方式检索按应有的方式写入超快超干净耶然后通过 android Studio 重新启动几次后数据库的东西就不再工作了重新启
即使线程中的方法已返回，为什么 Thread.Join() 仍会挂起？

我有一个 WPF 应用程序它使用一些库代码进行身份验证需要在单线程单元线程中运行我的方法是生成一个单独的线程来获取身份验证对象阻塞直到线程返回然后继续执行然而在some即使线程方法已返回我的应用程序也会挂在 Thread J
在docker中更改JAVA_HOME

我想要 dockerise 的遗留 Web 应用程序使用一些旧的类例如com sun image codec jpeg ImageFormatExceptionJava SE7 之前都支持现在在 docker 容器中默认的 jdk 获取
如何在 R 中重用管道运算符长链的部分？

我有一组管道操作员链 gt 用不同的数据集做不同的事情例如 dataset gt mutate gt filter gt rowwise gt summarise gt etc 如果我想重用这些链的某些部分有没有办法做到这一点而不仅仅
线程忽略键盘中断异常

我正在运行这个简单的代码 import threading time class reqthread threading Thread def run self for i in range 0 10 time sleep 1 print
使用 IronPython 访问 Pandas 库

我的目标是将 Python 连接到 NET 以实现流程我正在使用 IronPython Python 部分涉及一些计算我使用 Pandas 库有没有办法连接 IronPython 和 Pandas 我发现使用 IronPython 我
在 Swift 中对 PDF 进行注释/绘图

我正在编写一个应用程序其中包含多个 PDF 文档我将根据用户的输入在屏幕上显示这些文档显示后我希望允许用户在 PDF 上绘图注释然后我想保存带有绘图注释的 PDF 以供以后使用我一直在无休止地搜索有关 PDF 注释的教程但
文本提取 - 逐行

我正在使用 Google Vision API 主要是为了提取文本我工作得很好但对于我需要 API 扫描输入行的特定情况在移动到下一行之前吐出文本然而该 API 似乎正在使用某种逻辑使其从左侧从上到下扫描然后移动到右侧并进行从

文本提取 - 逐行

文本提取 - 逐行 的相关文章

随机推荐

热门标签

文本提取 - 逐行的相关文章