使用 tesseract 3.01 的字符置信度值

2024-06-19

我执行了以下代码来生成按字符置信度值:

int main(int argc, char **argv) {

    const char *lang="eng";
    const PIX   *pixs;
     if ((pixs = pixRead(argv[1])) == NULL) {
       cout <<"Unsupported image type"<<endl;
        exit(3);
      }
    TessBaseAPI  api;
    api.SetVariable("save_blob_choices", "T");
    api.SetPageSegMode(tesseract::PSM_SINGLE_WORD  );        
    api.SetImage(pixs);
    int rc = api.Init(argv[0], lang);
    api.Recognize(NULL);
    ResultIterator* ri = api.GetIterator();
    if(ri != 0)
    {
        do
        {
            const char* symbol = ri->GetUTF8Text(RIL_SYMBOL);
            if(symbol != 0)
            {
                float conf = ri->Confidence(RIL_SYMBOL);
                cout<<"\nnext symbol: "<< symbol << " confidence: " << conf <<"\n" <<endl;

             }


            delete[] symbol;
                }    while((ri->Next(RIL_SYMBOL)));
    }
    return 0;
}

上图获得的输出为:

下一个符号:N 置信度:72.3563 下一个符号:B 置信度:72.3563

下一个符号:E 置信度:69.9937 下一个符号:T 置信度:69.9937
下一个符号:R 置信度:69.9937 下一个符号:A 置信度:69.9937
下一个符号:N 置信度:69.9937 下一个符号:G 置信度:69.9937
下一个符号:- 置信度:69.9937 下一个符号:I 置信度:69.9937

显然,属于同一单词的字符的置信度值是相同的。 这是预期的输出吗?每个角色的置信度值不应该不同吗? 我尝试执行一个单词的代码,其中每个字符都采用不同的字体样式。但是,对于属于同一单词的字符,置信度值是相同的。


问题是你正在调用 InitafterSetVariable 调用。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 tesseract 3.01 的字符置信度值 的相关文章

  • Tesseract 不使用路径变量

    为什么我的 Tesseract 实例要求我显式设置数据路径 但不想读取环境变量 让我澄清一下 运行代码 ITesseract tesseract new Tesseract String result tesseract doOCR myI
  • 配置:错误:leptonica 库丢失(在 MinGW 上构建 tesseract-ocr-3.01 时)

    运行配置时失败 checking for leptonica yes checking for pixCreate in llept no configure error leptonica library missing 但我已经构建了l
  • Tesseract OCR 无法检测数字

    我正在尝试用 python 中的 tesseract 检测一些数字 下面您将看到我的起始图像以及我可以将其简化为的内容 这是我用来获取它的代码 import pytesseract import cv2 import numpy as np
  • 连接附近的点进行 OCR(要求一些提示,例如使用形态学操作)

    目标 让软件库 例如 Tesseract 能够阅读作品TMP HW从下图可以看出 我正在尝试寻找 连接点 的方法 可以这么说 使用 OpenCV 但我不确定这是否可能 我有不同颜色的点状文本的图片 如下所示 然后我将其转换为灰度图片 然后应
  • Java 异常 - 线程“main”中的异常 java.lang.NoClassDefFoundError: net/sourceforge/tess4 j/Tesseract

    我试图让事情与 tess4j OCR 算法 一起工作 并且我使用以下代码 import java awt image RenderedImage import java io File import java net URL import
  • opencv 中的二值化和背景过滤

    不久 我想在OCR之前进行预处理程序 建议来自ABBYY的技术 http www abbyy developers eu en tech insideocr adaptive binarisation 文章分为两部分 Background
  • netbeans 中的 libtesseract303.dll 问题

    我正在实施 OCR 系统 当我将 dll 文件放在 java 类路径上时 出现以下错误 Exception in thread main java lang UnsatisfiedLinkError G software apache to
  • Tesseract OCR Android tessdata 目录未找到

    我目前正在使用 OCR 开发 Android 应用程序 并且已经达到了调用 BaseAPI init 方法的程度 我不断收到错误消息 指出该目录必须包含 tessdata 作为子文件夹 我已检查文件目录是否包含其中包含训练数据文件的文件夹
  • OCR:图像转文本?

    在标记为复制或重复问题之前 请先阅读整个问题 我目前能做的如下 获取图像并裁剪 OCR 所需的部分 使用处理图像tesseract and leptonica 当应用的文档被裁剪成块 即每个图像 1 个字符 时 它提供 96 的准确度 如果
  • 提高识别率的图像预处理步骤

    我正在为我的项目使用 TessBaseAPI 制作一个简单的 OCR Android 应用程序 我已经完成了一些图像预处理步骤 例如二值化和图像增强 但他们的结果是50 到60 怎样才能提高识别率呢 我包括两个示例图像 http image
  • Python Tesseract 无法识别这种字体

    我有这个图像 我想使用 python 将其读取为字符串 我认为这并不难 我发现了 tesseract 然后是使用 tesseract 的 python 脚本的包装器 所以我开始阅读图像 效果很好 直到我尝试阅读这张图像 我是否需要训练它来读
  • 有没有办法在 venv/web 服务器中安装 Tesseract OCR?

    我制作了一个执行 OCR 功能的 Python 脚本 然后回收了该脚本并使用 Flask 制作了一个 Web 应用程序 Web 应用程序及其库位于 virtualenv 中 但该应用程序使用操作系统 Windows 中安装的 Tessera
  • Tesseract OCR 将削减的 0 混淆为 8

    我已经在终点字体上训练了 tesseract 但无论如何 我都无法让它识别 0 我正在使用 jTessEditor 创建训练 tif 和框 即使在验证时 它也会将所有 0 读取为 8 我有什么遗漏的吗 下面是 0 的示例 它将其读作 8 我
  • 在tesseract中添加任何traineddata文件并在IOS中使用

    我能够编译英语版本 该版本已经在 tesseract 的示例中 但无法添加其他语言 例如 ara traineddata 我正在做这样的事 Tesseract tesseract Tesseract alloc initWithDataPa
  • 如何去除给定图像中的噪声,使 ocr 输出完美?

    我已经对这个孟加拉文本图像进行了大津阈值处理 并使用 tesseract 进行 OCR 但输出非常糟糕 我应该应用什么预处理来消除噪音 我也想校正图像 因为它有轻微的倾斜 我的代码如下 import tesserocr from PIL i
  • 如何在 Ubuntu/Linux 发行版中安装 Tesseract-OCR 3.03?

    我和一个朋友有兴趣为 CV 项目训练 tesseract OCR 引擎 我们尝试使用一些包装器 例如 PyTesser 和 pyocr 但结果目前不如我们需要的那么准确 因此 我们希望尝试训练超立方体以更好地实现我们的目的 即识别食品标签上
  • 超立方体错误。非法的最小或最大规格

    尝试从这里运行示例代码http tess4j sourceforge net codesample html http tess4j sourceforge net codesample html我收到一条错误消息 Error Illega
  • Tesseract OCR 培训的替代方案?

    在过去的三个月里我一直在尝试训练 Tesseract通过识别我拥有的图像集合 由于真正的缺乏适当的文档 以及非常高的复杂性 我开始放弃 Tesseract 作为解决方案 我正在寻找一种相对无痛的替代方案对于训练 我不想在这里重新发现轮子 如
  • Tesseract 无法读取这个极其简单的数字串

    我目前正在用 python 编写一个脚本 需要使用 tesseract 来读取如下数字 仅使用数字和 psm 6 或 7 它输出 5 551 我在其他数字上取得了一些成功 5 700 有效 但这个特定的数字给我带来了很多问题 不幸的是 我的
  • 在 Android 上训练 Tesseract [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我正在使用tess two https github com rmtheis tess twoAndr

随机推荐