如何防止 Tesseract 在单词中插入多余的空格？

2023-12-09

我在上问过这个问题超立方论坛 already

通过 Tesseract （和 ImageMagick），我试图找出这个的文本PDF file

这是我正在处理的 PDF 部分，它是第 7 行 PDF：

在本节中，Tesseract 在尝试识别时遇到了问题字符串建设者.

It sees 建设者

应该看到建设者

任何人都可以建议任何可能的解决方案吗？

这是命令行序列：

convert -density 600 my_pdf.pdf tmp.tif 
tesseract -l spa tmp.tif stdout > tmp.txt

这些是软件版本：

~% tesseract --version 
tesseract 3.05.01 
leptonica-1.74.4 
  libgif 4.1.6(?) : libjpeg 8d (libjpeg-turbo 1.3.0) : libpng 1.2.50 : 
libtiff 4.0.3 : zlib 1.2.8 
~% convert --version 
Version: ImageMagick 6.7.7-10 2014-08-28 Q16 http://www.imagemagick.org 
Copyright: Copyright (C) 1999-2012 ImageMagick Studio LLC 
Features: OpenMP

为了处理PDF文件的不规则字距调整，Will建议调整参数tosp_min_sane_kn_sp文档的https://github.com/naptha/tesseract.js/blob/master/docs/tesseract_parameters.md

Setting tosp_min_sane_kn_sp=2.8解决了问题中描述的问题。

新的 Tesseract 调用如下：

tesseract -c tosp_min_sane_kn_sp=2.8 -l spa tmp.tif stdout > tmp.txt

默认值为tosp_min_sane_kn_sp好像是1.5。到目前为止，我只测试了大于 1.5 的值。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ImageMagick

OCR

Tesseract

如何防止 Tesseract 在单词中插入多余的空格？的相关文章

如何使用c#读取EPS的属性或颜色信息？

我的要求是读取另外50个EPS文件并导出EPS的属性颜色模式这可能吗颜色模式有灰度 RGB 和 CMYK 到目前为止我尝试使用 BitmapImage 来读取 EPS 但我没有运气 BitmapImage 不读取 EPS 因为它是矢
用于屏幕文本的 OCR（光学字符识别）

我正在尝试创建一个软件通过捕获屏幕截图来自动化 PC 然后使用 OCR 光学字符识别来查找要单击的特定按钮例如我已经有了鼠标和键盘控制部分但现在我需要 OCR 来处理屏幕截图我发现 Tesseract OCR 似乎不能很好地处
将 PNG 图像中的透明度替换为白色背景

我有一个带有 Alpha 通道即透明度的 PNG 图像我需要创建将图像层合成到白色背景上的版本我想使用可编写脚本的命令使用 CLI 工具例如 Image Magick 将 PNG 直接无损地转换为 PNG 导致错误的非工作 Im
错误：通过 Homebrew 安装 ImageMagick 时未定义方法 `=~'

当我尝试通过 Homebrew 安装 ImageMagick 时我得到了一个非常奇怪的答案它给了我这个 Holger Sindbaeks MacBook Air showwwdown 0 3 holgersindbaek brew in
在python中使用tesseract 3.02的C API与ctypes和cv2

我正在尝试在 python 中将 Tesseract 3 02 与 ctypes 和 cv2 一起使用 Tesseract 提供了一组公开的 DLL C 风格 API 其中之一如下 TESS API void TESS CALL TessB
在 R 中导入 png 文件并转换为动画（.mp4）

我正在尝试用 R 中的几个 png 文件创建一个简短的动画我尝试了 packagemagick但只有当我将它们保存为 gif 时它才有效当我尝试另存为 mp4 时它将生成一个 mp4 文件但一旦打开它只会显示第一张图像我的代码是
TensorFlow：训练时参数不更新

我正在使用 TensorFlow 实现分类模型我面临的问题是当我运行训练步骤时我的权重和误差没有更新结果我的网络不断返回相同的结果我根据以下内容开发了我的模型MNIST 示例 https www tensorflow org v
从 GIF 提取帧到 PNG 时丢失数据？

当我尝试使用 fraxel 的答案时 http stackoverflow com questions 10269099 pil convert gif frames to jpg 在图像上http 24 media tumblr com
将 Magick::Image 转换为 cv::Mat

我正在尝试将通过 Magick 从 GIF 加载的图像转换为cv Mat 我已经从cv Mat to Magick Image但似乎无法找到如何从 Magick 中的图像中提取数据以便将其加载到 Mat 中最好的方法是什么供参考反过来
使用 ImageMagick 进行 SVG 转换无法正确应用翻译

我使用的是 Mac OS X 10 5 的 Mac 我正在尝试使用 ImageMagick 来转换SVG http en wikipedia org wiki Scalable Vector Graphics文件到一个PNG http en
PHP Imagick - “-量化透明”等效项

是否有 PHP Imagick 等效项 quantize transparent 量化透明使用示例 http www imagemagick org Usage quantize color trans注意在页面中搜索量化透明 Quan
以编程方式识别 PDF 文件中的扫描文本 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我有一个 PDF 文件其中包含我们需要导入数据库的数据这些文件似乎是打印的字母数字文本的 pdf
如何去除给定图像中的噪声，使 ocr 输出完美？

我已经对这个孟加拉文本图像进行了大津阈值处理并使用 tesseract 进行 OCR 但输出非常糟糕我应该应用什么预处理来消除噪音我也想校正图像因为它有轻微的倾斜我的代码如下 import tesserocr from PIL i
imagemagick 不会删除 tmp 文件

我有一个使用 Carrierwave S3 和 rmagci 的应用程序或多或少以下http railscasts com episodes 253 rierwave file uploads http railscasts com ep
如何使用网格分割图像并保留透明度边界框

我有一些 png 图像我想将其分成几个部分例如按网格或大小但每个部分应具有与原始图像相同的边界框透明度 Example 将图像分成两部分原来的 200 89 Output 部分 1 png 200 89 第2部分 png 200
MoviePY 无法在 Windows 上检测 ImageMagick 二进制文件

我刚买了一台新笔记本电脑想要设置MoviePY在那新的Windows 64x Python3 7 0 机器我对所有内容都进行了三次检查但是当涉及到我的代码的文本部分时它向我抛出了这个错误 OSError MoviePy Error
使用 Kivy 应用程序进行 Tesseract OCR

是否可以将 Tesseract OCR 或 Tess Two 与 Kivy 应用程序集成我正在寻找使用 Kivy 框架创建一个用于基于 OCR 的文本识别的 Android 应用程序我在我的 PC 上使用 Tesseract API 一
使用 Imagick 动态图像创建/Apache 标头

在将现有的稳定网站转移到新服务器时我遇到了一些使用 Imagick 动态创建图像的代码的间歇性问题该代码解析 GET 查询例如 example com image php ipid 750123 r 0 w 750 h 1000 然后
ImageMagick 没有解码委托

我正在尝试使用 imagemagick 转换图像但收到此错误转换此图像格式 i imgur com nTheJ jpg 没有解码委托 error constitute c ReadImage 532 我正在这样做 convert ht
在Tomcat中设置环境变量TESSDATA_PREFIX

我们正在使用名为 Tess4J 的 Tesseract OCR Java 库如果作为独立应用程序运行它可以正常工作它需要一个名为 TESSDATA PREFIX 的变量其中包含 tessdata 配置和其他字符集相关文件它也可以与

随机推荐

php - 我应该在调用 Location: header 之后调用 exit() 吗？ [复制]

这个问题在这里已经有答案了调用重定向函数头后是否应该调用 exit 谢谢你绝对应该单独设置标头不会终止脚本执行
在 .NET C# 中存储加密密钥的最佳方法

在我们的应用程序中我们有很多敏感的配置设置我们将它们存储在再次加密的 xml 文件中该安全文件必须在运行时解密并读取配置值但是出现了一个问题密钥和初始化向量是硬编码在代码中的因此任何人都可以使用 Reflector 读取它在
使用java从服务器（ServerSocket）读取客户端（客户端Socket）上的字节包

我是新人我是一名 Java 开发人员新手目前我正在从事 BSE 项目我面临着从服务器服务器套接字读取客户端客户端套接字上的字节包的问题如果你能帮助我请帮助我提前致谢好吧如果你想直接与数据包交互那么你需要使用Dat
如何从User字段LookupId获取用户

我在 sharepoint 在线有一个列表在这个列表中我有一个人员字段当我调用 API 端点来获取列表中的所有项目时我获得了 person 字段的 LookupId 值我尝试使用lookupid的值来获取用户但它不起作用因为该
为什么 Hibernate 会忽略 package-info.java？

我正在尝试在包级别上使用 Hibernate TypeDef 注释正如它所描述的那样休眠文档我在用着Hibernate 3 6 and Spring 3 0 7 代码编译并显示package info class位于类路径中但 Hib
我们究竟如何计算时间戳差异？

我们将时间戳作为姿势图片和点数据的双精度值它们并不总是对齐如何计算两个时间戳之间的时间距离是的我知道如何减去两个双精度数但我完全不确定增量如何与时间相对应我有一些有趣的时间戳数据可以阐明您的问题但没有准确回答它我一直在尝试
MySQL BIGINT(20) 与 Varchar(31) 性能对比

我读过像 23423423423423423637 这样的 bigint 作为 primare 唯一键比像 961637593864109 412954765521130 这样的 varchar 更好但是how当有 100 万行时我永
twig 继承和 symfony2 控制器变量

我正在尝试使用 symfony2 twig 进行我的第一个项目我使用定义的块创建了基本的树枝模板它基本上看起来像这样 block content some content endblock block footer footer con
angularJS：用于溢出文本和性能的 dotdotdot

我是 angularJS 的新手也许写了一些不好的东西但我怎样才能正确实现这个插件 https github com BeSite jQuery dotdotdot 在我的桌子上吗现在用我的代码我的编辑表单和表格真的不太快真的太慢
使用 Google App Engine for Java 出现 ClassNotFoundException

我和一个朋友正在使用 Java SDK 涉足 App Engine 我们已经毫无问题地组合一个 Hello World 示例然而当我们尝试添加代码以使用以下方式对 Web 服务进行简单调用 com google api client
使用 libpqxx 库插入 NULL/空字符串

在下面的代码片段中名为 mac 的 std string 对象有时是一个空字符串即我希望准备好的语句自动将此变量视为 null 我想知道如何在下面的代码中实现这一点在我的谷歌搜索尝试中我碰巧发现有一种方法可以设置指示空值的标志但
使用包含 @ 的密码使用 PHP 连接到 FTP

我有以下问题我需要连接到 FTP 并读取一个 CSV 文件主要问题是它的密码有我如何连接特殊字符我尝试了以下几种连接方式文件打开 filename ftp user p s email protected file csv han
更改子类模型表中的列顺序

在 peewee 中有一个子类化模型的情况下如何告诉 peewee 在表中创建列的顺序在下面的例子中顺序是 b c a 但我想要 a b c class BaseModel Model b CharField c CharField
从 MS Access 执行 SQL Server 存储过程

我使用 MS Access 2013 和 SQL Server 2012 我已将 SQL Server 数据库连接到 MS Access 我通过 SQL Server 身份验证连接到 SQL Server 我想执行一个存储过程并将值输入到
如何删除 jq 输出中的双引号以在 bash 中解析 json 文件？

我正在使用 jq 解析 JSON 文件如图所示here 但是字符串值的结果包含预期的双引号如下所示 cat json txt jq name Google 如何将其传递到另一个命令中以删除所以我得到 cat json txt jq
如何让Perl crypt加密超过8个字符？

Perl 时仅对前 8 个字符进行加密crypt使用函数有没有办法让它使用更多字符举个例子 crypted password crypt PassWord SALT and crypted password crypt PassWord
调用较少约束的功能等效函数

考虑以下代码 include
如何停止覆盖谷歌地图上触摸事件的传播

你可以查一下代码here 我尝试过全球和本地活动 event preventDefault event stopPropagation event returnValue false event cancelBubble true 上面的代
Heroku PostgreSQL 中的“错误：无法在只读事务中执行 TRUNCATE TABLE”

我正在得到ERROR cannot execute TRUNCATE TABLE in a read only transaction在 Heroku PostgreSQL 中我该如何解决它我在尝试着TRUNCATE一张桌子我正在使用
如何防止 Tesseract 在单词中插入多余的空格？

我在上问过这个问题超立方论坛 already 通过 Tesseract 和 ImageMagick 我试图找出这个的文本PDF file 这是我正在处理的 PDF 部分它是第 7 行 PDF 在本节中 Tesseract 在尝试识别时遇到

如何防止 Tesseract 在单词中插入多余的空格？

如何防止 Tesseract 在单词中插入多余的空格？ 的相关文章

随机推荐

热门标签

如何防止 Tesseract 在单词中插入多余的空格？的相关文章