Google Cloud Vision API 是否检测 OCRed 文本中的格式，例如粗体、斜体、字体名称（helvetica 或 times new roman）等？

2023-12-15

快的brown狐狸跳over懒狗

在这种情况下，假设也有不同的字体系列，云视觉 API 是否可以检测到这一点。或者任何其他 OCR API 都能清楚地检测到这一点。 Tesseract 有能力，但它非常不准确。

谷歌云视觉 API 是否检测 OCRed 文本中的格式，例如粗体、斜体、字体名称（helvetica 或 times new roman）等？

很不幸的是，不行。

在我的项目中，我使用ABBYY云OCR SDK以此目的。如果你想尝试的话，你可以开启免费体验其中包括 500 个免费请求（页面）。创建试用帐户后，您将收到 ABBYY 发送的电子邮件，其中包含您的应用程序 ID 和应用程序密码。使用这 2 个值根据以下内容创建您的身份验证标头验证.

请参见以下示例：

Perform 处理图像要求。在请求正文中传递您的图像。

Request:

POST / https://cloud.ocrsdk.com/v2/processImage?exportFormat=xml&profile=documentConversion&xml:writeFormatting=true
Authorization: <your token>

回复：

{
    "taskId": "a226a0b6-6705-4d6f-9f4c-517fa9b4e28e",
    "registrationTime": "2020-07-26T09:42:39Z",
    "statusChangeTime": "2020-07-26T09:42:39Z",
    "status": "Queued",
    "filesCount": 1,
    "requestStatusDelay": 10000
}

Perform 获取任务状态请求以检查您的任务是否完成。使用上一步响应中的taskId。

Request:

GET / https://cloud.ocrsdk.com/v2/getTaskStatus?taskId=a226a0b6-6705-4d6f-9f4c-517fa9b4e28e
Authorization: <your token>

回复：

{
    "taskId": "a226a0b6-6705-4d6f-9f4c-517fa9b4e28e",
    "registrationTime": "2020-07-26T09:42:39Z",
    "statusChangeTime": "2020-07-26T09:42:40Z",
    "status": "Completed",
    "filesCount": 1,
    "requestStatusDelay": 0,
    "resultUrls": [
        "https://ocrsdk.blob.core.windows.net/files/a226a0b6-6705-4d6f-9f4c-517fa9b4e28e.result?sv=2012-02-12&se=2020-07-26T19%3A00%3A00Z&sr=b&si=downloadResults&sig=4k9FcRoBfhodq%2BMj%2Ffj%2BGLBfwK2BsO7sj15JQOLcArk%3D"
    ]
}

下载结果（请参阅上一步响应中的 resultUrls）。

I used the following picture and received the following result

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

OCR

Tesseract

googlecloudvision

abbyy

abbyycloudocr

Google Cloud Vision API 是否检测 OCRed 文本中的格式，例如粗体、斜体、字体名称（helvetica 或 times new roman）等？的相关文章

OCR：图像转文本？

在标记为复制或重复问题之前请先阅读整个问题我目前能做的如下获取图像并裁剪 OCR 所需的部分使用处理图像tesseract and leptonica 当应用的文档被裁剪成块即每个图像 1 个字符时它提供 96 的准确度如果
Microsoft Azure 认知服务手写检测边界框参数

我目前正在使用Microsoft Azure 认知服务手写检测 API https learn microsoft com en in azure cognitive services computer vision quickstarts
Pytesseract 对于实时 OCR 来说非常慢，有什么方法可以优化我的代码吗？

我正在尝试使用 python 创建实时 OCRmss and pytesseract 到目前为止我已经能够捕获整个屏幕其 FPS 稳定为 30 如果我想捕获大约 500x500 的较小区域我已经能够获得 100 FPS 然而一旦我包
使用 OCR 识别上标字符

我已经开始了一个简单的项目其中它必须获取包含带有上标的文本的图像然后通过使用 OCR 目前我使用的是 tesseract 它必须识别上标字符普通字符例如我们有一个化学方程式例如 Cl 但是当我使用超立方体识别它时它给出了 Cl
什么是可以检测手写的好的 OCR？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我需要一个库可以在扫描手写纸后从其中提取文本正常拉丁文本它可以是一个免费的解决方案甚至是我必须付费的解决方案只要它可以处理大写字
android ndk-构建错误

我正在尝试为 Android 构建 tesseract 我已将 tesseract 放入示例文件夹中 C Android NDK android ndk r8 samples tesseract之内tesseract我有的文件夹tesser
烦人的 python tesseract 错误打开数据文件时出错 ./tessdata/eng.traineddata

我遇到了这个错误这让我对 tesseract 的 python 包装器有点疯狂这是一个名为 tesseract 的 python 模块这是我尝试运行的 python 代码 img cv2 imread image 0 api tess
提高 Python Tesseract OCR 的准确性

我在用pytesseract https pypi org project pytesseract 随着openCV https pypi org project opencv python 在 Python 中的简单 django 应用程
提高识别率的图像预处理步骤

我正在为我的项目使用 TessBaseAPI 制作一个简单的 OCR Android 应用程序我已经完成了一些图像预处理步骤例如二值化和图像增强但他们的结果是50 到60 怎样才能提高识别率呢我包括两个示例图像 http image
在Python中从pdf中提取印地语编写的文本[重复]

这个问题在这里已经有答案了我想从 pdf 文档中提取印地文输入的文本我已附上示例页面的图像 https i stack imgur com UkT86 jpg我正在处理我尝试使用 pdfminer 从中获取文本但文本是乱码可能是由
无法在 Mac 上安装 Tesseract-OCR

我正在尝试使用 pytesseract 在 python 2 7 14 中制作 OCR 程序当我运行我的代码时 from PIL import Image import pytesseract print pytesseract imag
pytesseract 错误 Windows 错误 [错误 2]

您好我正在尝试使用 python 库 pytesseract 从图像中提取文本请查找代码 from PIL import Image from pytesseract import image to string print image
裁剪图像后，如何找到新的边界框坐标？

这是我得到的收据图像我使用 matplotlib 绘制了它 x1 y1 x2 y2 x3 y3 x4 y4 bbox coords 650 850 1040 850 1040 930 650 930 image cv2 imread IM
从图像中识别数字

我正在尝试编写一个应用程序来查找图像内的数字并将它们相加如何识别图像中的书写数字图像中有很多框我需要获取左侧的数字并将它们相加得出总数我怎样才能实现这个目标编辑我对图像进行了 java tesseract ocr 但没有得到任何
在进行字符识别之前使用 OpenCV 进行图像预处理（超正方体）

我正在尝试开发简单的 PC 应用程序用于车牌识别 Java OpenCV Tess4j 图像不是很好进一步它们会很好我想对超立方体图像进行预处理但我被困在车牌检测矩形检测上我的步骤 1 源图像 Mat img new Mat i
使用 python 突出显示图像中的特定文本

我想突出显示网站屏幕截图中的特定单词句子截取屏幕截图后我使用提取文本pytesseract and cv2 效果很好我可以获得有关它的文本和数据 import pytesseract import cv2 if name main
在tesseract中添加任何traineddata文件并在IOS中使用

我能够编译英语版本该版本已经在 tesseract 的示例中但无法添加其他语言例如 ara traineddata 我正在做这样的事 Tesseract tesseract Tesseract alloc initWithDataPa
提高 pytesseract 从图像中正确识别文本的能力

我正在尝试使用读取验证码pytesseract模块大多数时候它都能提供准确的文本但并非总是如此这是读取图像操作图像以及从图像中提取文本的代码 import cv2 import numpy as np import pytesser
Tesseract 是否会忽略扫描文档中的任何非文本区域？

我正在使用 Tesseract 但我不知道它是否忽略任何非文本区域并仅针对文本我是否必须删除任何非文本区域作为预处理步骤以获得更好的输出 Tesseract 有一个非常好的算法来检测文本但它最终会给出误报匹配理想情况下您应该在将图像
Tess4j 问题 java.lang.UnsatisfiedLinkError

我正在尝试解决 Tess4J 安装问题 1 我在 WEB INF win32 x86 中创建了一个文件夹2 我把 libtesseract302 dll 和 liblept168 dll 放在那里然后将其添加到 java 构建路径中的源

随机推荐

PHP imap_search UID SEARCH 返回 false

我正在使用 PHP 的 imap 函数并且想要检索 UID gt n 的电子邮件这适用于搜索日期但不适用于 UID imap imap open host username password emails imap search ima
谷歌地图 API 标记与标签

I have var marker new MarkerWithLabel position uav Position icon mapStyles uavSymbolBlack labelContent uav Callsign div
旋转整个 ggplot() 而不旋转任何文本 R

我希望旋转整个图轴和所有内容但保持轴标签和标题的原样以便可以水平阅读它们 library ggplot2 data mtcars ggplot geom point data mtcars aes x mpg y cyl labs t
nginx 删除 .php 和 .html 文件扩展名

我一直在尝试让 nginx 在没有 php 或 html 扩展名的情况下工作并且我需要一些帮助在此先感谢您的时间我尝试了在以下位置找到的解决方案如何使用 NGINX 从 url 中删除 php 和 html 扩展名但没有效果这是我
viewWillAppear 在 iOS5 中被调用两次

我正在运行我的所有应用程序以确保它不仅仅是一个应用程序并且在我拥有的每个应用程序中当我在 iOS5 模拟器或设备上运行时 viewWillAppear方法在每个视图上被调用两次我有一个简单的NSLog 1 并且每次都会在我的控制台中
从 python 集中获取唯一的元组

我目前有一套如下所示 a b b a c b b c 我想要的是 a b c b 您可能会注意到重复值已被完全删除因此无论顺序如何两个元组内部永远不会有相同的元素如何告诉集合忽略元组中元素的顺序并仅检查元组之间的值好的你已经有了
如何在 SQL Server 中对 IN 或列表使用 LIKE

我有一个以逗号分隔的关键字字符串我已使用带有 String并返回一个 TABLE Value varchar 30 我现在可以在 where 子句中使用此列表如下所示 SELECT project FROM Projects proje
R - 将多列绘制为 x 轴上的年份，将行绘制为不同的线

这是我的数据框 2010 2011 2012 2013 2014 2015 A 0 100 164 75 154 110 B 71 77 136 58 138 136 C 0 0 132 53 83 0 我想制作一个折线图其中年份沿 x
在javascript中使用reduce对数组中的变量求和

我想对数组数据中的调用次数进行求和我找到了 reduce 函数但不知道如何选择数组的调用部分这是我的尝试 data links source 0 target 1 calls 20 texts 0 source 0 target
Microsoft Edge 中的 ActiveX 是否有替代方案？

微软已经发布了Edge浏览器该浏览器不支持ActiveX 我有一个应用程序需要从 Windows 注册表获取信息因此我对 ActiveX 的替代方案有一些疑问有没有办法从 Edge 或类似的东西例如 Chrome 中的本机消息传递
jquery 在点击时或 10 秒后重定向

我的网站上有一个闪屏其中有一个 ID 为 splash 的 div 我试图让 div 淡入然后如果用户单击该 div 它就会淡出并重定向到主站点如果用户没有点击它就会淡出并在 10 秒后重定向定时重定向有效但点击功能无效
相当于IE中的text-shadow

我的CSS中有这个 body transparent background color transparent color ffffff text shadow 0 1px 000 1px 0 000 0 1px 000 1px 0 000
在真实设备上选取 PDF 时，iOS 文档选取器崩溃

我尝试为我的 iOS 应用程序创建一个文档选择器这是我的代码我将 UIDocumentPickerViewController 包装在我的 SwiftUI 视图中并使用 UIViewControllerRepresentable im
Awk/Bash 将数字从行首移动到行尾

我想将数字数字字符串从行首移动到行尾输入示例 123example 321example 34292example 预期输出 example123 example321 example34292 GNU awk 的match函数可以完成
如何在 Java EE 环境（Tomcat + JSF）中调整 persistence.xml 文件以将 JPA 连接到 JDBC/MySQL 数据库

我正在使用 JSF PrimeFaces JPA 开发一个动态 Web 项目 Java EE 并在 Tomcat 7 上运行项目开发基于http www simtay com simple crud web application wit
MFMailComposeViewControllerDelegate 未被调用

我意识到这个问题已经被不准确地问过但我一直无法找到我的问题的答案我有一个带有静态单元格的 UITableViewController 其中一个单元格用于打开邮件编辑器视图并在用户发送或取消电子邮件后通过委托将其关闭我的问题是委托方法
单击相同的发布版本但程序集版本不同，更新没有发生

我部署了一个 clickonce 应用程序在我的应用程序中我有 10 个外部 dll 由于我的 dll 文件中的代码不断变化并且很难重新分发因此我采用了 clickonce 部署策略但我想知道一件事如果我更改其中一个 dll 文件并
printf 在 C 中给我错误的输出

这可能是一个非常基本的问题但我在任何地方都找不到答案这是我在用 C 编程几周后第一次遇到这个问题本质上如果我编写一些看起来像这样的代码 int size scanf d size printf size is d size 如果我输
有人可以解释一下 exynos ARM 中的电源控制寄存器吗？

在Linux内核中更准确地说 arch arm mach exynos cpuidle c在 3 9 rc6 上该行显示 static unsigned int g pwr ctrl g diag reg static void sav
Google Cloud Vision API 是否检测 OCRed 文本中的格式，例如粗体、斜体、字体名称（helvetica 或 times new roman）等？

快的brown狐狸跳over懒狗在这种情况下假设也有不同的字体系列云视觉 API 是否可以检测到这一点或者任何其他 OCR API 都能清楚地检测到这一点 Tesseract 有能力但它非常不准确谷歌云视觉 API 是否检测 O

Google Cloud Vision API 是否检测 OCRed 文本中的格式，例如粗体、斜体、字体名称（helvetica 或 times new roman）等？

Google Cloud Vision API 是否检测 OCRed 文本中的格式，例如粗体、斜体、字体名称（helvetica 或 times new roman）等？ 的相关文章

随机推荐

热门标签

Google Cloud Vision API 是否检测 OCRed 文本中的格式，例如粗体、斜体、字体名称（helvetica 或 times new roman）等？的相关文章