为什么 GCP Vision API 在 python 中返回的结果比在线演示中的结果更差

2023-11-26

我编写了一个基本的 python 脚本来调用和使用 GCP Vision API。我的目标是向其发送产品图像并检索（使用 OCR）此盒子上写的文字。我有一个预定义的品牌列表，因此我可以在 API 返回的文本中搜索品牌并检测它是什么。

我的Python脚本如下：

import  io
from google.cloud import vision
from google.cloud.vision import types
import os
import cv2
import numpy as np

os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "**************************"


def detect_text(file):
    """Detects text in the file."""
    client = vision.ImageAnnotatorClient()

    with io.open(file, 'rb') as image_file:
        content = image_file.read()

    image = types.Image(content=content)

    response = client.text_detection(image=image)
    texts = response.text_annotations
    print('Texts:')

    for text in texts:
        print('\n"{}"'.format(text.description))

        vertices = (['({},{})'.format(vertex.x, vertex.y)
                    for vertex in text.bounding_poly.vertices])

        print('bounds: {}'.format(','.join(vertices)))


file_name = "Image.jpg"
img = cv2.imread(file_name)

detect_text(file_name)

For now, I am experimenting with the following product image: (951 × 335 resolution)

它的品牌是Acuvue.

问题如下。当我测试 GCP Cloud Vision API 的在线演示时，我得到了该图像的以下文本结果：

FOR ASTIGMATISM 1-DAY ACUVUE MOIST WITH LACREON™ 30 Lenses BRAND CONTACT LENSES UV BLOCKING

（此 json 结果返回所有上述单词，包括单词Acuvue这对我来说很重要，但是 json 太长，无法发布到这里）

因此，在线演示可以很好地检测产品上的文本，至少可以准确地检测到单词Acuvue（这是品牌）。但是，当我在 python 脚本中使用相同的图像调用相同的 API 时，我得到以下结果：

Texts:

"1.DAY
FOR ASTIGMATISM
WITH
LACREONTM
MOIS
30 Lenses
BRAND CONTACT LENSES
UV BLOCKING
"
bounds: (221,101),(887,101),(887,284),(221,284)

"1.DAY"
bounds: (221,101),(312,101),(312,125),(221,125)

"FOR"
bounds: (622,107),(657,107),(657,119),(622,119)

"ASTIGMATISM"
bounds: (664,107),(788,107),(788,119),(664,119)

"WITH"
bounds: (614,136),(647,136),(647,145),(614,145)

"LACREONTM"
bounds: (600,151),(711,146),(712,161),(601,166)

"MOIS"
bounds: (378,162),(525,153),(528,200),(381,209)

"30"
bounds: (614,177),(629,178),(629,188),(614,187)

"Lenses"
bounds: (634,178),(677,180),(677,189),(634,187)

"BRAND"
bounds: (361,210),(418,210),(418,218),(361,218)

"CONTACT"
bounds: (427,209),(505,209),(505,218),(427,218)

"LENSES"
bounds: (514,209),(576,209),(576,218),(514,218)

"UV"
bounds: (805,274),(823,274),(823,284),(805,284)

"BLOCKING"
bounds: (827,276),(887,276),(887,284),(827,284)

但这根本没有像演示那样检测到“Acuvue”这个词！

为什么会发生这种情况？

我可以修复 python 脚本中的某些内容以使其正常工作吗？

来自文档:

Vision API 可以检测并提取图像中的文本。有两种支持 OCR 的注释功能：

TEXT_DETECTION 从任何图像中检测并提取文本。例如，照片可能包含街道标志或交通标志。 JSON 包括整个提取的字符串、单个单词及其边界框。

DOCUMENT_TEXT_DETECTION 还从图像中提取文本，但响应针对密集文本和文档进行了优化。 JSON 包括页面、块、段落、单词和中断信息。）

我希望 Web API 实际上使用后者，然后根据置信度过滤结果。

DOCUMENT_TEXT_DETECTION 响应包括附加布局信息，例如页面、块、段落、单词和中断信息，以及每个信息的置信度分数。

无论如何，我希望（我的经验是）后一种方法会“更加努力”地找到所有字符串。

我不认为你做任何“错误”的事情。只有两种并行检测方法。其中一种 (DOCUMENT_TEXT_DETECTION) 更为密集，针对文档进行了优化（可能针对拉直、对齐和均匀间隔的线条），并提供了更多对于某些应用程序可能不需要的信息。

所以我建议你按照Python修改你的代码例子在这里.

最后，我的猜测是\342\204\242您询问的是与 utf-8 字符相对应的转义八进制值，它认为在尝试识别 ™ 符号时找到了它。

如果您使用以下代码片段：

b = b"\342\204\242"
s = b.decode('utf8')
print(s)

您会很高兴看到它打印™。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 GCP Vision API 在 python 中返回的结果比在线演示中的结果更差的相关文章

没有任何元数据的 zip 文件

我想找到一种简单的方法来压缩一堆文件而无需任何文件元数据例如时间戳这zip命令似乎总是保留元数据我没有找到禁用元数据的方法我希望解决方案是一个命令或最多一个 python 脚本谢谢正如一些帖子已经指出的那样 zip 标头中的大
在 Pandas 中按日期获取有效合约

我在检测 pandas DataFrame 中的活动合约方面遇到了一些困难假设每一行都是一个协商对于每一行我有两列 initial date 和 end date 我想知道的是按日期划分的活跃合约数量到目前为止我做了一个非常低效的方
在Python3.6中调用C#代码

由于完全不了解 C 编码我希望在我的 python 代码中调用 C 函数我知道有很多关于同一问题的问答但由于一些奇怪的原因我无法从示例 python 模块导入简单的 c 类库以下是我所做的事情 C 类库设置我使用的是 VS 20
on_delete=models.PROTECT 和 on_delete=models.CASCADE 在 Django 模型上有什么作用？

我对 Django 很熟悉但最近注意到有一个on delete models CASCADE and on delete models PROTECT模型的选项 on delete models CASCADE and on delete
即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
如何使用Python将WebP图像转换为Gif？

我已经尝试过这个 from PIL import Image im Image open this webp im save that gif gif save all True 这给了我这个错误类型错误不支持的操作数类型 tuple
PIL Image.size 返回相反的宽度/高度

使用PIL确定图像的宽度和高度在特定图像上幸运的是只有这一个但这很麻烦从 image size 返回的宽度高度是相反的图片 http storage googleapis com cookila 533ebf752b9d1f7c
Pandas重置索引未生效[重复]

这个问题在这里已经有答案了我不确定我在哪里误入歧途但我似乎无法重置数据帧上的索引当我跑步时test head 我得到以下输出正如您所看到的数据帧是一个切片因此索引超出范围我想做的是重置该数据帧的索引所以我跑test rese
如果字段值在外部列表中，Django 会注释布尔值

想象一下我有这个 Django 模型 class Letter models Model name models CharField max length 1 unique True 还有这个列表 vowels a e i o u 我想查询
如何使用 python urllib 在 HTTP/1.1 中保持活力

现在我正在这样做 Python3 urllib url someurl headers HOST somehost Connection keep alive Accept Encoding gzip deflate opener urll
无法打开 Python。错误 0xc000007b

我最近一直在学习 Python 3 我在我的上网本 32 位 Windows 7 上创建简单的小程序没有任何问题当我将它安装在我的上网本上时我没有遇到任何问题但现在我已经开始使用它了我想将它安装在我的台式机上并且我有一个我的桌面
conda-env list / conda info --envs 如何查找环境？

我一直在尝试 anaconda miniconda 因为我的用户使用随 miniconda 安装的结构生物学程序并且作者都没有 A 考虑到可能存在其他 miniconda 应用程序 B 他们的程序将在多用户环境中使用因此使用 Arch
select() 可以在 Windows 下使用 Python 中的文件吗？

我正在尝试在 Windows 下运行以下 python 服务器 An echo server that uses select to handle multiple clients at a time Entering any line o
Pandas Dataframe：将包含列表的行扩展到多行，并为所有列提供所需的索引

我在 pandas 数据框中有时间序列数据索引为测量开始时的时间列中包含以固定采样率记录的值列表连续索引列表中元素数量的差异这是它的样子 Time A B Z 0 1 2 3 4 1 2 3 4 2 5 6 7 8 5 6 7 8
在 MacO 和 Linux 上安装 win32com [重复]

这个问题在这里已经有答案了我的问题很简单我可以安装吗win32com蟒蛇API pywin32特别是在非 Windows 操作系统上我一直在Mac上尝试多个版本pip install pywin32 都失败了下面是一个例子如果你
如何在与应用程序初始化文件不同的文件中迭代 api 路由

我有一个 apiroutes py 文件其中定义了许多路由例如 api route api read methods GET api route api write methods POST 其中 api 是导入 from import
为什么实现 __iter__ 的对象不被识别为可迭代的？

假设您使用包装对象 class IterOrNotIter def init self self f open tmp toto txt def getattr self item try return self getattribute
为什么我们应该在 def __init__(self, n) -> None: 中使用 -> ？

我们为什么要使用 gt in def init self n gt None 我读了以下摘录来自 PEP 484 https www python org dev peps pep 0484 the meaning of annotatio
Python 3.2 中 **kwargs 和 dict 有什么区别？

看起来Python的很多方面都只是功能的重复除了我在 Python 中的 kwargs 和 dict 中看到的冗余之外还有什么区别吗参数解包存在差异许多人使用kwargs 并通过dict作为论据之一使用参数解包 Prepare f
在 Python 模块中使用 InstaLoader

我正在尝试使用 Instaloader 下载与主题标签相关的照片以进行图像分析我在GitHub存储库中找到了一个全面的方法如何在终端中执行它但是我需要将脚本集成到Python笔记本中这是脚本 instaloader no vide

随机推荐

如何使用 CSS 将两个标题并排放置？

h5 Category h5 h6 auto h6 places Category and auto在单独的行上如下所示 Category auto 我怎样才能将它们放在同一条线上就像这样类别汽车 h n 元素是块元素这意味着它
RewriteEngine On 对于所有重写都是强制的吗？

我只是想知道是否有必要在每次添加重写时都包含 RewriteEngine On 和 Rewrite Base 例如我想同时使用从 URL 中删除 QUERY STRING 和在一天中的某些时间段阻止对文件的访问引用自 Askapac
JSON 模式属性依赖于先前属性的值

我希望能够编写 JSON 架构代码允许一个属性的值依赖于另一个属性的值更具体地说我有两个问题A和B 只有当问题A有具体答案时问题B的答案才能不为空如果问题 A 没有该答案则问题 B 的值必须为空 E g A Do you lik
如何获取经过的时间（以毫秒为单位）

由于 VB6 中字符串连接的性能相当弱因此我正在测试几个 StringBuilder 实现要查看它们运行了多长时间我目前使用内置 Timer 函数只给出午夜后经过的秒数有没有办法我想通过导入系统函数来获得毫秒精度的东西是的您
在Java中parseFloat的正确方法是什么

我注意到 Java 浮点精度存在一些问题 Float parseFloat 0 0065 0 001 0 0055000000134110451 new Float 0 027 0 001 0 02600000000700354575 Fl
如何向 Android SQLite 数据库添加新列？

我在使用 Android 时遇到一个问题SQLite数据库我有一张表其中包含一个字段 StudentFname 该应用程序在 Android 2 3 1 上工作正常现在如果我添加另一个字段那么我的应用程序将无法正常工作任何对数据库
让 select2 与活动管理员一起工作

我正在使用带有 Active Admin 的应用程序需要从选择输入中选择多个值我添加了 Select2 gem 它添加了所有相关的 JS 和 CSS 没有任何问题但由于某种原因选择框似乎改变了它们的外观稍微但不是完整的 Select
Python的win32api仅打印到默认打印机

我正在尝试使用win32api将 PDF 文档输出到特定打印机 win32api ShellExecute 0 print filename d s printername 0 filename是文件的完整路径名并且printname是我
给定一个点，找到一条与已知直线成直角相交的直线

这是基本的图形几何和或三角函数我觉得问它很愚蠢但我不记得这是怎么回事所以我有一条由两个点 x1 y1 和 x2 y2 定义的线我有第三个点 xp yp 它位于其他地方 I want to compute the point x
Java Bean 验证：如何指定相同类型但不同组的多个验证约束？

我有多个进程其中 bean 属性必须具有不同的值例子 Min value 0 groups ProcessA class Min value 20 groups ProcessB class private int temperatur
如何以编程方式强制停止我的 Android 应用程序？

我想在单击 closeButton 时强制停止我的 Android 应用程序这是我的代码 protected void onCreate Bundle savedInstanceState this setContentView R la
as 和 let 之间的异步管道区别

举这些例子
React - useState - 为什么setTimeout函数没有最新的状态值？

最近我正在研究 React Hooks 并遇到了一个问题疑问下面是重现该问题的基本实现这里我只是切换flag单击按钮时的状态变量 const flag toggleFlag useState false const data us
当 BIO 是内存 BIO 而不是套接字 BIO 时，BIO_read/BIO_write 和 SSL_read/SSL_write 之间有什么区别？

我对 BIO 例程之间的差异感到困惑BIO read BIO write 和SSL read SSL write 当 BIO 是内存 BIO 而不是套接字 BIO 时我正在尝试使用以下代码编写 WebRTC 服务器libnice用于 IC
如何使用IntelliJ IDEA查找所有未使用的代码？

当我在 java 文件中时未使用的代码通常呈灰色或有绿色下划线表示该代码可能可能是因为一些奇怪的 JNI Reflection 极端情况未使用但我有一个包含数千个 Java 文件的项目我想找到所有实例此类可能未使用的代码我怎样
从 Maven 运行测试时如何查看 IntelliJ IDEA“测试运行器选项卡”？

在 IntelliJ IDEA 中当我通常运行单元测试时我会看到一个对话框其中显示测试进度并让我轻松查看测试结果然而我使用 Maven 进行正常的构建过程并且也想从 Maven 运行我的单元测试然而当我从 Maven 运行测
使用固定 div 布局和最小宽度滚动

我一直在尝试布局此页面但在我的一生中似乎无法让它按照我想要的方式工作 Window black Titlebar red Content div blue Vertical scrollbar green Horizontal scro
实体框架 - 有没有一种方法可以在不使用 Include() 的情况下自动预先加载子实体？

有没有一种方法可以装饰 POCO 类以自动预先加载子实体而无需使用Include 每次加载它们时假设我有一辆类车具有车轮门发动机保险杠窗户排气管等复杂类型的属性在我的应用程序中我需要使用不同的查询从 DbContext
是否可以确保复制省略？

复制省略是一种巧妙的优化技术在某些情况下依赖于复制省略实际上可以更快而不是手动传递引用因此假设您已经确定了一条关键代码路径您依赖于编译器为代码路径执行复制省略以获得最大性能的事实但现在您依赖于编译器优化是否有任何显然是特定
为什么 GCP Vision API 在 python 中返回的结果比在线演示中的结果更差

我编写了一个基本的 python 脚本来调用和使用 GCP Vision API 我的目标是向其发送产品图像并检索使用 OCR 此盒子上写的文字我有一个预定义的品牌列表因此我可以在 API 返回的文本中搜索品牌并检测它是什么我的Py

为什么 GCP Vision API 在 python 中返回的结果比在线演示中的结果更差

为什么 GCP Vision API 在 python 中返回的结果比在线演示中的结果更差 的相关文章

随机推荐

热门标签

为什么 GCP Vision API 在 python 中返回的结果比在线演示中的结果更差的相关文章