使用 tesseract 3.01 的字符置信度值

2024-06-19

我执行了以下代码来生成按字符置信度值：

int main(int argc, char **argv) {

    const char *lang="eng";
    const PIX   *pixs;
     if ((pixs = pixRead(argv[1])) == NULL) {
       cout <<"Unsupported image type"<<endl;
        exit(3);
      }
    TessBaseAPI  api;
    api.SetVariable("save_blob_choices", "T");
    api.SetPageSegMode(tesseract::PSM_SINGLE_WORD  );        
    api.SetImage(pixs);
    int rc = api.Init(argv[0], lang);
    api.Recognize(NULL);
    ResultIterator* ri = api.GetIterator();
    if(ri != 0)
    {
        do
        {
            const char* symbol = ri->GetUTF8Text(RIL_SYMBOL);
            if(symbol != 0)
            {
                float conf = ri->Confidence(RIL_SYMBOL);
                cout<<"\nnext symbol: "<< symbol << " confidence: " << conf <<"\n" <<endl;

             }


            delete[] symbol;
                }    while((ri->Next(RIL_SYMBOL)));
    }
    return 0;
}

上图获得的输出为：

下一个符号：N 置信度：72.3563 下一个符号：B 置信度：72.3563

下一个符号：E 置信度：69.9937 下一个符号：T 置信度：69.9937
下一个符号：R 置信度：69.9937 下一个符号：A 置信度：69.9937
下一个符号：N 置信度：69.9937 下一个符号：G 置信度：69.9937
下一个符号：- 置信度：69.9937 下一个符号：I 置信度：69.9937

显然，属于同一单词的字符的置信度值是相同的。这是预期的输出吗？每个角色的置信度值不应该不同吗？我尝试执行一个单词的代码，其中每个字符都采用不同的字体样式。但是，对于属于同一单词的字符，置信度值是相同的。

问题是你正在调用 InitafterSetVariable 调用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Tesseract

使用 tesseract 3.01 的字符置信度值的相关文章

Tesseract 不使用路径变量

为什么我的 Tesseract 实例要求我显式设置数据路径但不想读取环境变量让我澄清一下运行代码 ITesseract tesseract new Tesseract String result tesseract doOCR myI
配置：错误：leptonica 库丢失（在 MinGW 上构建 tesseract-ocr-3.01 时）

运行配置时失败 checking for leptonica yes checking for pixCreate in llept no configure error leptonica library missing 但我已经构建了l
Tesseract OCR 无法检测数字

我正在尝试用 python 中的 tesseract 检测一些数字下面您将看到我的起始图像以及我可以将其简化为的内容这是我用来获取它的代码 import pytesseract import cv2 import numpy as np
连接附近的点进行 OCR（要求一些提示，例如使用形态学操作）

目标让软件库例如 Tesseract 能够阅读作品TMP HW从下图可以看出我正在尝试寻找连接点的方法可以这么说使用 OpenCV 但我不确定这是否可能我有不同颜色的点状文本的图片如下所示然后我将其转换为灰度图片然后应
Java 异常 - 线程“main”中的异常 java.lang.NoClassDefFoundError: net/sourceforge/tess4 j/Tesseract

我试图让事情与 tess4j OCR 算法一起工作并且我使用以下代码 import java awt image RenderedImage import java io File import java net URL import
opencv 中的二值化和背景过滤

不久我想在OCR之前进行预处理程序建议来自ABBYY的技术 http www abbyy developers eu en tech insideocr adaptive binarisation 文章分为两部分 Background
netbeans 中的 libtesseract303.dll 问题

我正在实施 OCR 系统当我将 dll 文件放在 java 类路径上时出现以下错误 Exception in thread main java lang UnsatisfiedLinkError G software apache to
Tesseract OCR Android tessdata 目录未找到

我目前正在使用 OCR 开发 Android 应用程序并且已经达到了调用 BaseAPI init 方法的程度我不断收到错误消息指出该目录必须包含 tessdata 作为子文件夹我已检查文件目录是否包含其中包含训练数据文件的文件夹
OCR：图像转文本？

在标记为复制或重复问题之前请先阅读整个问题我目前能做的如下获取图像并裁剪 OCR 所需的部分使用处理图像tesseract and leptonica 当应用的文档被裁剪成块即每个图像 1 个字符时它提供 96 的准确度如果
提高识别率的图像预处理步骤

我正在为我的项目使用 TessBaseAPI 制作一个简单的 OCR Android 应用程序我已经完成了一些图像预处理步骤例如二值化和图像增强但他们的结果是50 到60 怎样才能提高识别率呢我包括两个示例图像 http image
Python Tesseract 无法识别这种字体

我有这个图像我想使用 python 将其读取为字符串我认为这并不难我发现了 tesseract 然后是使用 tesseract 的 python 脚本的包装器所以我开始阅读图像效果很好直到我尝试阅读这张图像我是否需要训练它来读
有没有办法在 venv/web 服务器中安装 Tesseract OCR？

我制作了一个执行 OCR 功能的 Python 脚本然后回收了该脚本并使用 Flask 制作了一个 Web 应用程序 Web 应用程序及其库位于 virtualenv 中但该应用程序使用操作系统 Windows 中安装的 Tessera
Tesseract OCR 将削减的 0 混淆为 8

我已经在终点字体上训练了 tesseract 但无论如何我都无法让它识别 0 我正在使用 jTessEditor 创建训练 tif 和框即使在验证时它也会将所有 0 读取为 8 我有什么遗漏的吗下面是 0 的示例它将其读作 8 我
在tesseract中添加任何traineddata文件并在IOS中使用

我能够编译英语版本该版本已经在 tesseract 的示例中但无法添加其他语言例如 ara traineddata 我正在做这样的事 Tesseract tesseract Tesseract alloc initWithDataPa
如何去除给定图像中的噪声，使 ocr 输出完美？

我已经对这个孟加拉文本图像进行了大津阈值处理并使用 tesseract 进行 OCR 但输出非常糟糕我应该应用什么预处理来消除噪音我也想校正图像因为它有轻微的倾斜我的代码如下 import tesserocr from PIL i
如何在 Ubuntu/Linux 发行版中安装 Tesseract-OCR 3.03？

我和一个朋友有兴趣为 CV 项目训练 tesseract OCR 引擎我们尝试使用一些包装器例如 PyTesser 和 pyocr 但结果目前不如我们需要的那么准确因此我们希望尝试训练超立方体以更好地实现我们的目的即识别食品标签上
超立方体错误。非法的最小或最大规格

尝试从这里运行示例代码http tess4j sourceforge net codesample html http tess4j sourceforge net codesample html我收到一条错误消息 Error Illega
Tesseract OCR 培训的替代方案？

在过去的三个月里我一直在尝试训练 Tesseract通过识别我拥有的图像集合由于真正的缺乏适当的文档以及非常高的复杂性我开始放弃 Tesseract 作为解决方案我正在寻找一种相对无痛的替代方案对于训练我不想在这里重新发现轮子如
Tesseract 无法读取这个极其简单的数字串

我目前正在用 python 编写一个脚本需要使用 tesseract 来读取如下数字仅使用数字和 psm 6 或 7 它输出 5 551 我在其他数字上取得了一些成功 5 700 有效但这个特定的数字给我带来了很多问题不幸的是我的
在 Android 上训练 Tesseract [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在使用tess two https github com rmtheis tess twoAndr

随机推荐

在 Ajax 类型的 Extjs 5 存储上进行本地分页

我正在开发一个应用程序从一开始就加载所有数据并不是很不方便我通过 Ajax 从服务器获取 json 数据而我的商店执行此操作非常简单 Ext define MODIFE store CentroBeneficio extend Ext
在 postgresql 中查找和汇总具有重叠记录的日期范围

我有一个大型数据集我想对记录具有重叠时间的计数进行求和例如给定数据 id 1 name A start 2018 12 10 00 00 00 end 2018 12 20 00 00 00 count 34 id 2 name B
3rd party API 返回 500 错误，我的 API 应该返回什么代码

我在基于 ZF2 Zend Framework 2 的框架中编写了一个 API 称为 Apigility 我的服务可以查询第 3 方 API 偶尔我会收到 500 错误消息要么是由于令牌过期要么是其他原因我的 API 应如何响应我的
如何通过控制台应用程序将文件上传到 OneDrive？

我正在尝试将文件上传到OneDrive http msdn microsoft com onedrive从控制台应用程序内深入谷歌后我发现Live SDK http msdn microsoft com en us library dn6
在其他数组中使用 ForEach 的索引

为什么我不能使用 FromEach 的索引作为其他数组的索引这个索引是Int 那么有什么问题呢 var word String return slova selector var symbols Array
使用 Java 访问 HTML5 本地存储

是否可以直接使用Java访问localstorage对象如果是的话怎么办更新我知道 localstorage 是客户端 java 是服务器端但我在网上读到 GWT 有 api 允许读取 localstorage 本地存储顾名思义
layout_constrainedWidth 无法正常工作

我的 ConstraintLayout 中有 EditText 和 TextView TextView显示EditText的内容输入时我需要 EditText 展开直到屏幕中间而 TextView 跟随它并填充后半部分我将指导方针设
来自 Azure Application Insights Analytics API 的页面结果

是否可以对 Analytics API 的结果进行分页如果我使用以下查询通过http POST query customEvents project customDimensions FilePath timestamp where
C++ 将字符与字符串文字进行比较[重复]

这个问题在这里已经有答案了初学者程序员在这里我正在为计算机科学课编写一个非常简单的程序并且遇到了一个我想了解更多的问题这是我的代码 include
我们可以在 javascript 和除 Literal 之外的其他部分使用资源表达式吗？

The 文字控制一直有效
为 id EF Core 3.1 创建重复的外键和列

ef core 3 1 为另一个表中的 id 字段创建重复列时遇到问题我目前有一个继承自 IdentityUser 的 ApplicationUser 实体以及一个将 ApplicationUser id 存储为 UserId 的属性实
PHP 裁剪图像以固定宽度和高度而不丢失尺寸比例

我希望创建尺寸为 100 像素 x 100 像素的缩略图我看过很多解释这些方法的文章但如果要保持尺寸比大多数文章最终都会有宽度高度例如我有一个 450 像素 x 350 像素的图像我想裁剪为 100px x 100px 如果我
在重载算术运算符中调用 C++ 析构函数

我有一个用于神经网络程序和重载算术运算符的定制矩阵库这是类声明 class Matrix public int m int n double mat Matrix int int Matrix int Matrix const Matri
如何使用 Fabric8 maven 插件使用环境变量中的值指定 spring.profiles.active 参数？

我有一个定义 ENVIRONMENT 参数的 K8s 配置映射该值使用 src fabric8 deployment yml 中的摘录作为环境变量安装在部署 yaml 上 spec template spec containers env
Tomcat 连接超时

我正在 tomcat 上运行 Spring Ext JS 应用程序由于很少有繁重的过程需要花费大量时间所以我会遇到以下异常 DefaultHandlerExceptionResolver 141 处理 org springframewo
使用属性来减少枚举到枚举的映射以及枚举/常量到操作开关语句

我想每个人都见过这样的代码 public void Server2ClientEnumConvert ServerEnum server switch server case ServerEnum One return ClientEnum
为 Zend 应用程序提供数据库处理程序的“正确”方法是什么

假设您严格遵守某个组织的惯例Zend应用程序 http framework zend com manual en zend application html 您应该在哪里设置数据库处理程序以供应用程序开发人员访问我知道如何设置ZendDb
指令中的 Angular + 茉莉花 + 模拟 $stateParams

在指令中模拟 stateParams 的最佳方法是什么 stateParam成员会根据测试而改变我可以使用 controller ctrl stateParams 轻松模拟控制器中的 stateParams 但不知道如何修改注入指令的 s
如何在 Android 中的 onCreate() 内部创建方法

如何在里面创建一个方法onCreate 方法当我创建它的显示错误时令牌 void 预期存在语法错误并且如果无法在内部创建方法onCreate 方法比请告诉我如何在外部创建方法onCreate 并通过mContext and mActi
使用 tesseract 3.01 的字符置信度值

我执行了以下代码来生成按字符置信度值 int main int argc char argv const char lang eng const PIX pixs if pixs pixRead argv 1 NULL cout lt lt

使用 tesseract 3.01 的字符置信度值

使用 tesseract 3.01 的字符置信度值 的相关文章

随机推荐

热门标签

使用 tesseract 3.01 的字符置信度值的相关文章