文本提取 - 逐行

2023-11-25

我正在使用 Google Vision API,主要是为了提取文本。我工作得很好,但对于我需要 API 扫描输入行的特定情况,在移动到下一行之前吐出文本。然而,该 API 似乎正在使用某种逻辑,使其从左侧从上到下扫描,然后移动到右侧并进行从上到下扫描。我希望 API 能够从左到右读取、向下移动等等。

例如,考虑图像:

enter image description here

API 返回如下文本:

“ Name DOB Gender: Lives In John Doe 01-Jan-1970 LA ”

然而,我本来期望这样的事情:

“ Name: John Doe DOB: 01-Jan-1970 Gender: M Lives In: LA ”

我想有一种方法可以定义块大小或边距设置(?)来逐行读取图像/扫描?

感谢您的帮助。 亚历克斯


这可能是一个迟到的答案,但添加它以供将来参考。 您可以向 JSON 请求添加功能提示以获得所需的结果。

{
  "requests": [
    {
      "image": {
        "source": {
          "imageUri": "https://i.stack.imgur.com/TRTXo.png"
        }
      },
      "features": [
        {
          "type": "DOCUMENT_TEXT_DETECTION"
        }
      ]
    }
  ]
}

对于相距很远的文本,DOCUMENT_TEXT_DETECTION 也无法提供正确的行分段。

下列code根据角色多边形坐标进行简单的线分割。

enter image description here

https://github.com/sshniro/line-segmentation-algorithm-to-gcp-vision

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

文本提取 - 逐行 的相关文章

  • Google Cloud Vision API:“请求的身份验证范围不足。”

    你好 我正在尝试使用谷歌的云视觉 API 特别是这个例子 https cloud google com vision docs label tutorial label tutorial 1 我按照这个教程进行操作 https cloud
  • 如何使用 Google Cloud Vision API 读取一列文本

    我有下一个文档图像 当我尝试将图像转换为文本时 结果是这样的 Top Text Ref Rad Dte Ddo Ejecutivo 76520400300 Banco de Bogot Luz Adriana Bottom Text 问题是
  • 谷歌云视觉OCR支持条码读取吗?

    我正在构建一个利用谷歌云平台的 OCR 服务的应用程序 我仍在进行中 只是想知道该服务是否也可以检测条形码并对其进行解码 Thanks 不可以 要求用户有网络连接只是为了读取条形码会太过分 而且速度太慢 查看谷歌移动视觉API相反 它在设备
  • 谷歌云:身份验证范围不足

    我在向部署在 Google Cloud Kubernetes 集群中的 Spring Boot 应用程序发送请求时遇到困难 我的应用程序收到一张照片并将其发送到 Google Vision API 我正在使用提供的客户端库 https cl
  • 如何在Android中有效地实时操作YUV相机帧?

    我在从 Android 获取的 NV21 框架的感兴趣区域 中心 周围添加黑色 0 填充CameraPreview线程中的回调 为了避免转换为 RGB 位图和反向的开销 我尝试直接操作 NV21 字节数组 但这涉及嵌套循环 这也会使预览 处
  • 使用 TEXT_DETECTION 来自 Cloud Vision API 的结果区域设置

    我在用着npm node cloud vision api API 正确检测文档的语言 但结果字符以与区域设置不对应的西方字符子集返回 我假设它们应该以 UTF 8 字符返回 但所有区域设置特定字符都映射到基本西方字符子集 例如 Warto
  • Mobile Vision API - 连接新的检测器对象以继续帧处理

    我想在应用程序中使用视觉 API 提供的新面部检测功能以及附加帧处理 为此 我需要访问由面部检测器处理的相机帧 并使用面部检测到的数据连接处理器 正如我在示例中看到的 CameraSource 抽象了检测和相机访问 并且我无法访问正在处理的
  • Google Mobile Vision 支持 iOS 上的 OCR 吗?

    我正在考虑将 Google Mobile Vision 与 iOS 应用程序一起使用 他们的文档讨论了面部识别 条形码扫描和文本识别 OCR 然而 iOS 开发的代码示例仅包含面部识别 并且我在 iOS 的 API 文档中除了面部识别支持之
  • 如何从 Node 中的图像 url 将图像上传到 Google Cloud Storage?

    给定一个图像 url 如何将该图像上传到 Google Cloud Storage 以使用 Node js 进行图像处理 这是一个 2 个步骤的过程 使用下载文件到本地request https stackoverflow com a 12
  • Google Vision ocr:垂直和水平线文本识别

    我们正在使用 google Vision ocr 来收集收据中的文本 在某些情况下 收据上有一些垂直书写的文本 例如增值税信息等 问题是 谷歌视觉仅有效地读取主方向 例如水平方向 的文本 并丢弃在同一收据中以垂直方向而不是水平方向写入的所有
  • Google Vision API指定JSON文件

    我正在尝试使用 JSON 文件对 Google Vision API 进行身份验证 通常 我使用GOOGLE APPLICATION CREDENTIALS环境变量 指定 JSON 文件本身的路径 但是 我需要在应用程序本身中指定这一点并使
  • 如何在 Ruby 中将 Base64 图像发送到 Google Cloud Vision API 标签检测?

    您好 我正在用 Ruby 构建一个程序来为网页上的图像生成 alt 属性 我正在抓取图像页面 然后将其 src 即 URL 发送到 google cloud vision 以进行标签检测和其他 Cloud Vision 方法 每张图像大约需
  • AndroidcameraSource.stop()导致应用程序冻结

    我正在使用 google Vision API 构建一个具有二维码扫描仪的应用程序 读取二维码后 我无法停止相机 流量是MainActivity gt QrActivity一旦二维码收到检测 应用程序应返回到主活动 如果我不打电话camer
  • Google Cloud Vision API - TEXT_DETECTION

    当我尝试识别图像中的文本 例如意大利语单词 Perch 时 Vision API 会返回单词 Perche 返回 e 而不是正确的 我不想使用 languageHints 来尝试获得更好的结果 因为我必须跨不同语言进行 OCR 识别 这里有
  • 我可以收到 LABEL_DETECTION 结果的 boudingPoly 吗?

    请问如何使用 Google Vision API 来完成此操作 将图像发送到vision api 请求 功能 LABEL DETECTION maxResults 10 收到标签 特别是我感兴趣的标签是 时钟 接收boundingPoly
  • 相机2输出位图

    我正在尝试使用谷歌移动视觉API https developers google com vision barcodes overview使用camera2模块 我遇到了很多麻烦 我正在使用谷歌的android Camera2Video h
  • 使用 google mlkit 视觉样本减少跟踪窗口

    我想在使用 google Vision api 时减少减少条形码跟踪窗口 有一些答案here https stackoverflow com questions 36405717 android vision reduce bar code
  • 如何使用 Google Vision API 对 Base64 编码图像进行文本检测?

    我有一个 Base64 编码的图像 imageData data image png base64 iVBORw0rrfwfwHReger32QRQWr 我应该如何使用谷歌云视觉Python库进行文本检测 我的代码如下所示 from goo
  • 谷歌云视觉 API - Python

    我似乎找不到在哪里添加 API 密钥 也找不到在我的 google 云视觉代码中找到 google 凭证文件的位置 import argparse import base64 import httplib2 import validator
  • Google Cloud Vision API:“错误代码:3”,“消息”:“图像数据错误。”

    我正在尝试 POST HTTP 请求来检测从 mat 图像转换为 base64 的图像中的文本 当我运行代码时 我得到 responses error code 3 message Bad image data 我的curl POST 字段

随机推荐

  • 如何仅从左到右缩放

    这是我的CSS代码 body transform scaleX 0 67 在此我的整个网站从右侧和左侧缩小 但我只需要从左侧缩放我该怎么做 我相信转换原点在这里会有所帮助 body transform scale 0 67 transfor
  • 如何覆盖“::-webkit-scrollbar”CSS规则并使滚动条再次可见

    我使用以下规则使滚动条不可见 webkit scrollbar display none 如何覆盖此规则以使滚动条再次可见 我尝试了以下方法 webkit scrollbar display initial 在这种情况下 滚动条保留其空间
  • 默认情况下向 gcc 添加一些标志(最好使用 specs 文件)

    我想让我的gcc默认情况下总是添加一些标志 有没有一种干净的方法可以做到这一点 基本上我每次调用时都会传递一些标志gcc 例如 但不限于 g 这样它就有调试信息 有几种解决方法 但它们都很丑陋 alias g 但我不喜欢这种方法 编写一个围
  • Java user.home 被设置为 %userprofile% 并且未被解析

    我们公司最近从 Windows XP 升级到 Windows 7 Enterprise JDK安装不再设置用户主页到用户目录的完整路径 而是将 user home 设置为 userprofile 这导致 Eclipse Maven 等应用程
  • Express 4.0 中的“扩展”是什么意思?

    我在我的应用程序中使用 Express 和 body parser app use bodyParser urlencoded extended false 但是 express 4 0 中的 扩展 是什么意思 我找到了这个 extende
  • 如何清除Python脚本中间的所有变量?

    我正在Matlab中寻找类似于 clear 的东西 一个命令 函数 它从工作区中删除所有变量 从系统内存中释放它们 Python中有这样的东西吗 编辑 我想编写一个脚本 在某个时候清除所有变量 以下命令序列确实删除了every当前模块的名称
  • Google API 密钥的有效期是多久?

    我正在使用获取播放列表的详细信息Youtube API V3使用 API 密钥 我找不到任何有关API KEY有效期的信息 我想确保在应用程序过期之前为其重新生成新的 API 密钥 公共 API 密钥位于底部谷歌开发者控制台API 和身份验
  • 播放 HTTP Live Streaming 视频时访问 AVPlayer 的数据

    我正在使用 AVPlayer 播放 HTTP 实时流媒体视频 有什么办法可以访问播放器的缓存数据并将其保存在本地吗 太长了 这并非不可能 但结果很可能不会那么好 请记住 HTTP 视频流实际上由多个带宽流组成 其中每一个都被分为更小的 MP
  • ffmpeg 格式设置,矩阵 bt709

    有谁知道我如何实现以下色彩空间 bt 709 通过 FFmpeg 这是我的文件中现在的内容 正如你所看到的Format settings Matrix默认情况下 我该如何设置它 格式设置 矩阵 自定义或标准 组件原色 BT 709 传输特性
  • border-radius 应该裁剪内容吗?

    当容器有时 我的容器中的内容不应该被切断吗 border radius HTML 和 CSS 示例 progressbar height 5px width 100px border radius 5px buffer width 25px
  • 从网站打开新的 Outlook,mailTo 链接太长,*.eml 文件密件抄送字段未加载

    我正在尝试打开一个 eml使用 Microsoft Outlook 2010 文件并遇到问题bcc field 这是我的eml file To email protected Subject Mail Subject cc email pr
  • 如何向soapVars添加属性

    我想创建具有如下属性的soapVars
  • Firebase/Android - 定期丢失数据库连接

    我遵循了 Firebase 身份验证和数据库的文档 全新安装后一切正常 用户可以注册或登录 数据按应有的方式检索 按应有的方式写入 超快 超干净 耶 然后 通过 android Studio 重新启动几次后 数据库的东西就不再工作了 重新启
  • 即使线程中的方法已返回,为什么 Thread.Join() 仍会挂起?

    我有一个 WPF 应用程序 它使用一些库代码进行身份验证 需要在单线程单元线程中运行 我的方法是生成一个单独的线程来获取身份验证对象 阻塞直到线程返回 然后继续执行 然而 在some即使线程方法已返回 我的应用程序也会挂在 Thread J
  • 在docker中更改JAVA_HOME

    我想要 dockerise 的遗留 Web 应用程序使用一些旧的类 例如com sun image codec jpeg ImageFormatExceptionJava SE7 之前都支持 现在在 docker 容器中默认的 jdk 获取
  • 如何在 R 中重用管道运算符长链的部分?

    我有一组管道操作员链 gt 用不同的数据集做不同的事情 例如 dataset gt mutate gt filter gt rowwise gt summarise gt etc 如果我想重用这些链的某些部分 有没有办法做到这一点 而不仅仅
  • 线程忽略键盘中断异常

    我正在运行这个简单的代码 import threading time class reqthread threading Thread def run self for i in range 0 10 time sleep 1 print
  • 使用 IronPython 访问 Pandas 库

    我的目标是将 Python 连接到 NET 以实现流程 我正在使用 IronPython Python 部分涉及一些计算 我使用 Pandas 库 有没有办法连接 IronPython 和 Pandas 我发现使用 IronPython 我
  • 在 Swift 中对 PDF 进行注释/绘图

    我正在编写一个应用程序 其中包含多个 PDF 文档 我将根据用户的输入在屏幕上显示这些文档 显示后 我希望允许用户在 PDF 上绘图 注释 然后我想保存带有绘图 注释的 PDF 以供以后使用 我一直在无休止地搜索有关 PDF 注释的教程 但
  • 文本提取 - 逐行

    我正在使用 Google Vision API 主要是为了提取文本 我工作得很好 但对于我需要 API 扫描输入行的特定情况 在移动到下一行之前吐出文本 然而 该 API 似乎正在使用某种逻辑 使其从左侧从上到下扫描 然后移动到右侧并进行从