用于 OCR 的 Python OpenCV 倾斜校正

2024-01-25

目前，我正在开发一个 OCR 项目，需要读取标签上的文本（请参见下面的示例图片）。我遇到了图像倾斜的问题，我需要帮助修复图像倾斜，以便文本是水平的而不是成角度的。目前，我正在使用的过程尝试从给定范围（下面包含代码）对不同角度进行评分，但这种方法不一致，有时会过度校正图像倾斜或完全无法识别倾斜并进行校正。需要注意的是，在进行倾斜校正之前，我将所有图像旋转 270 度以使文本直立，然后我将图像传递给下面的代码。传递给该函数的图像已经是二进制图像。

Code:


def findScore(img, angle):
    """
    Generates a score for the binary image recieved dependent on the determined angle.\n
    Vars:\n
    - array <- numpy array of the label\n
    - angle <- predicted angle at which the image is rotated by\n
    Returns:\n
    - histogram of the image
    - score of potential angle
    """
    data = inter.rotate(img, angle, reshape = False, order = 0)
    hist = np.sum(data, axis = 1)
    score = np.sum((hist[1:] - hist[:-1]) ** 2)
    return hist, score

def skewCorrect(img):
    """
    Takes in a nparray and determines the skew angle of the text, then corrects the skew and returns the corrected image.\n
    Vars:\n
    - img <- numpy array of the label\n
    Returns:\n
    - Corrected image as a numpy array\n
    """
    #Crops down the skewImg to determine the skew angle
    img = cv2.resize(img, (0, 0), fx = 0.75, fy = 0.75)

    delta = 1
    limit = 45
    angles = np.arange(-limit, limit+delta, delta)
    scores = []
    for angle in angles:
        hist, score = findScore(img, angle)
        scores.append(score)
    bestScore = max(scores)
    bestAngle = angles[scores.index(bestScore)]
    rotated = inter.rotate(img, bestAngle, reshape = False, order = 0)
    print("[INFO] angle: {:.3f}".format(bestAngle))
    #cv2.imshow("Original", img)
    #cv2.imshow("Rotated", rotated)
    #cv2.waitKey(0)
    
    #Return img
    return rotated

校正前和校正后的标签示例图像

修正前->修正后

如果有人能帮我解决这个问题，那将会有很大帮助。

这是一个实现用于斜角估计的投影轮廓法算法 http://www.cvc.uab.es/%7Ebagdanov/pubs/ijdar98.pdf。各个角度点被投影到累加器阵列中，其中倾斜角可以被定义为最大化对准的搜索间隔内的投影角度。这个想法是以不同角度旋转图像并为每次迭代生成像素直方图。为了确定倾斜角度，我们比较峰值之间的最大差异，并使用该倾斜角度旋转图像以校正倾斜。

原来的->已更正

倾斜角度：-2

import cv2
import numpy as np
from scipy.ndimage import interpolation as inter

def correct_skew(image, delta=1, limit=5):
    def determine_score(arr, angle):
        data = inter.rotate(arr, angle, reshape=False, order=0)
        histogram = np.sum(data, axis=1, dtype=float)
        score = np.sum((histogram[1:] - histogram[:-1]) ** 2, dtype=float)
        return histogram, score

    gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
    thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)[1] 

    scores = []
    angles = np.arange(-limit, limit + delta, delta)
    for angle in angles:
        histogram, score = determine_score(thresh, angle)
        scores.append(score)

    best_angle = angles[scores.index(max(scores))]

    (h, w) = image.shape[:2]
    center = (w // 2, h // 2)
    M = cv2.getRotationMatrix2D(center, best_angle, 1.0)
    corrected = cv2.warpAffine(image, M, (w, h), flags=cv2.INTER_CUBIC, \
            borderMode=cv2.BORDER_REPLICATE)

    return best_angle, corrected

if __name__ == '__main__':
    image = cv2.imread('1.png')
    angle, corrected = correct_skew(image)
    print('Skew angle:', angle)
    cv2.imshow('corrected', corrected)
    cv2.waitKey()

Note:您可能需要调整delta or limit值取决于图像。这deltavalue 控制迭代步长，它将迭代直到limit它控制最大角度。这种方法很简单，通过迭代检查每个角度 +delta目前仅适用于纠正 +/- 5 度范围内的倾斜。如果需要以更大的角度进行校正，请调整limit价值。对于处理倾斜的另一种方法，看看这个替代方法 https://stackoverflow.com/questions/57713358/how-to-rotate-skewed-fingerprint-image-to-vertical-upright-position.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

用于 OCR 的 Python OpenCV 倾斜校正的相关文章

str.translate 与 str.replace - 何时使用哪一个？

何时以及为什么使用前者而不是后者反之亦然目前尚不完全清楚为什么有些人使用前者以及为什么有些人使用后者它们有不同的目的 translate只能用任意字符串替换单个字符但一次调用可以执行多次替换它的参数是一个特殊的表它将单个字符映射
scipy.optimize on pandas dataframe

我试图搜索它但结果很差有人可以向我解释一下如何在 Pandas DataFrame 上执行 optimize minimize 以便最小化 DataFrame 中的类别和结果列之间的错误考虑这个例子 import pandas as
如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th
Matplotlib 图例，跨列添加项目而不是向下添加项目

对于下面的简单绘图有没有办法让 matplotlib 填充图例以便它从左到右填充行而不是第一列然后第二列 gt gt gt from pylab import gt gt gt x arange 2 pi 2 pi 0 1 gt gt
使用 NumPy 编写一个函数来计算具有特定公差的积分

我想编写一个自定义函数来以特定容差对表达式 python 或 lambda 函数进行数字积分我知道与scipy integrate quad人们可以简单地改变epsabs但我想使用 numpy 自己编写该函数 From 这篇博文 htt
App Engine NDB：如何访问属性的 verbose_name

假设我有这个代码 class A ndb Model prop ndb StringProperty verbose name Something m A m prop a string value 当然现在如果我打印 m prop 它会
在 Linux 上使用多处理时，TKinter 窗口不会出现

我想生成另一个进程来异步显示错误消息同时应用程序的其余部分继续我正在使用multiprocessingPython 2 6 中的模块来创建进程我试图用以下命令显示窗口TKinter 这段代码在Windows上运行良好但在Linux上
数据框中 .map(str) 和 .astype(str) 有什么区别

我有一个数据框其列名为 col1 和 col2 的整数类型条目我想将 col1 和 col2 的条目以及其间的点连接起来我搜索并发现添加两个列条目 df col df col1 map str df col2 map str 并添
类型错误：此 COM 对象无法自动执行 makepy 过程 - 请为此对象手动运行 makepy

这是什么错误回溯错误 C Users DELL PycharmProjects MyNew venv Scripts python exe C Users DELL PycharmProjects MyNew agaaaaain py T
Python-验证我的文档 xls 中是否存在工作表

我正在尝试在空闲时间设计一个小程序加载 xls 文件然后在要扫描的文档中选择一张纸步骤1 用户导入 xls文件导入程序后检查文件是否存在我能做到的第 2 步我要求用户提供要分析的文档表 xls 的名称这就是它停止的地方该程
使用 if 语句的网格网格和用户定义函数的真值不明确

假设我有一个函数f x y 足够光滑然而有些值仅在有限的意义上存在以sin x x的价值x 0只存在于极限 x gt 0 中在一般情况下我用一个来处理这个问题if陈述如果我在情节中使用它meshgrid我收到一条错误消息 Val
Django 2、python 3.4 无法解码 urlsafe_base64_decode(uidb64)

我正在尝试通过电子邮件激活用户电子邮件有效编码有效我使用了 django1 11 中的方法该方法运行成功在 Django 1 11 中以下内容成功解码为 28 其中 uidb64 b Mjg force text urlsafe
如何按 pandas 中的值对系列进行分组？

我现在有一只熊猫Series与数据类型Timestamp 我想按日期对其进行分组并且每组中有许多行具有不同的时间看似显而易见的方法类似于 grouped s groupby lambda x x date 然而熊猫的groupby按索
Django 将 JSON 数据传递给静态 getJSON/Javascript

我正在尝试从 models py 中获取数据并将其序列化为views py 中的 JSON 对象模型 py class Platform models Model platformtype models CharField max len
jpegtran 优化而不更改文件名

我需要优化一些图像但不更改它们的名称 jpegtran copy none optimize image jpg gt image jpg 但是这似乎创建了 0 的文件大小当我对不同的文件名执行此操作时大小仍然完全相同怎么样 jp
UnicodeDecodeError：部署到 Heroku 时，“utf-8”编解码器无法解码位置 0 中的字节 0xff

我尝试在heroku上部署我的简单django项目但我不明白如何解决这个问题这是git push heroku master remote Traceback most recent call last remote File tmp
python中有没有一种方法可以将存储在列表中的正则表达式模式列表应用到单个字符串？

我有一个正则表达式模式列表存储在列表类型中我想将其应用于字符串有谁知道一个好方法将列表中的每个正则表达式模式应用于字符串和如果匹配则调用与列表中该模式关联的不同函数如果可能的话我想用 python 来做这件事提前致谢 im
没有名为“turtle”的模块

我正在学习并尝试用Python3制作贪吃蛇游戏我正在进口海龟我正在使用 Linux mint 19 PyCharm python37 python3 tk Traceback most recent call last File hom
使用 MPI 的 Allreduce 对 Python 对象求和

我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作我想让并行使用这个数组操作成为可能最重要的是我最终在每个节点上都有计数器我想使用 MPI Allreduce 或另一个不错的解决方案将其添加在一起例如使用计数
基于值的 matplotlib 条形图颜色

有没有一种方法可以根据条形图的值对条形图的条形进行着色例如 values below 0 5 red values between 0 5 to 0 green values between 0 to 08 blue etc 我找到了一些

随机推荐

如何在同一个解决方案的不同项目中使用相同的obj文件

我有一个包含多个项目的解决方案其中一些项目共享源文件我已经设置了项目树以便共享源文件的项目放在一起我的问题是当我进行清理并构建共享源文件时每个项目都会重新编译而不仅仅是第一个使用它们的项目结果是初始构建花费的时间比应有的时间
如何在linux上使用python在后台捕获鼠标事件和按键事件

我想制作一个可以在后台运行但在发生鼠标事件或按键事件时打印文本的 python 脚本是否有任何库内置功能可以实现此目的或者我可以调用任何系统命令来获取此信息成为 root 没有问题我想您可能会使用 python 绑定来执行 ev
使用 Selenium Webdrivers 方法“browser.helperApps.neverAsk.saveToDisk”如何在单击链接时自动下载文件

在 Java 中使用 Selenium Web 驱动程序我尝试通过单击应用程序中的链接来下载文件即单击链接后应开始下载而不询问是否使用 Firefox 12 浏览器保存文件我正在使用 browser helperApps nev
我能够将几乎所有 XML 元素内容输出到表中，除了 (Local ="No") 的值

我正在尝试为以下 xml 代码编写 xsl 代码到目前为止我能够将几乎所有元素内容输出到表中除了 food 元素标签中的 Local No 值有没有办法输出该属性及其值谢谢
BroadcastReceiver onReceive() 线程安全吗？

Is onReceive 的方法BroadcastReceiver线程安全还是我需要自己实现同步如果我有任何正在使用的类级别变量onReceive 方法以及onReceive 方法被多次快速调用会导致问题吗 public class
通过代码刷新WPF-Control

我正在尝试禁用一个按钮来拒绝垃圾邮件点击此按钮我使用刷新委托来渲染调用控件但它显示为已启用 connect Methode 大约需要 4 秒时间按钮才会显示为已启用哪里有问题 public static class Extensio
google.visualization.DataTable() 合并行

我在 Google DataTable 中有这些数据我需要合并具有相同日期的行所以结果是 DataTable 中是否有内置方法可以实现此目的或者有人可以给我提示如何执行此操作而无需典型地迭代表并比较每一行这是我现在正在尝试的 js
如何更改 ASP.NET MVC 2 中的主题

我想要一个选项其中用户可以从下拉列表中选择他的网站主题并且该主题适用于该页面至少我希望在 ASP NET MVC 2 中完成此操作而不使用类似 jquery 的框架这怎么能实现呢我正在使用默认的 Webforms 视图引擎并
switch / case 语句中的 JavaScript 变量作用域是什么？

在使用 ASP NET MVC 创建 JavaScript 时我注意到几个范围警告并意识到我缺少一些对 switch case 语句内变量范围的理解警告 i 已定义参考案例b和案例c 我的代码看起来与此类似 switch elemen
如何使用 System.Text.Json 处理可为 null 的引用类型？

我已将项目升级到 net core 3 0 并且正在重构项目以使用新的可为空引用类型功能但由于以下问题很快就陷入困境假设我使用一个 REST api 它返回以下 JSON Name Volvo 240 Year 1989 此 api 始
无法将大文件上传到 GCP App Engine 中的 Python + Flask

更新 2020 年 5 月 18 日解决方法在本文最后我正在尝试将大型 CSV 文件 30MB 2GB 从浏览器上传到运行 Python 3 7 Flask 的 GCP App Engine 然后将这些文件推送到 GCP 存储这在使用
使用 PyParsing 解析带有重要换行符的语言（如 Python）

我正在实现一种语言其中换行符有时很重要就像在 Python 中一样具有完全相同的规则出于我的问题的目的我们可以采用与赋值括号以及换行符和分号处理有关的 Python 片段例如可以这样写 a 1 2 3 ok b c but
C 中 va_list 可能存在缓冲区溢出漏洞？

我有以下代码 int ircsocket print char message char buffer 512 int iError va list va va start va message vsprintf buffer messag
Rails 中的implicit_order_column 和default_scope 有什么区别？

有什么区别 self implicit order column id and default scope order id ASC self implicit order column允许您使用另一列然后使用主键作为隐式排序列这会影响
Cabal 中“source-repository-package”和“本地无索引存储库”之间的区别

我知道我可以将本地包添加到 cabal 项目中 https cabal readthedocs io en 3 4 nix local build html developing multiple packages通过将其列在package
gnuplot 将数据文件中的一个数字存储到变量中

OSX v10 6 8 和 Gnuplot v4 4 我有一个包含 8 列的数据文件我想从第六列中取出第一个值并将其作为标题这是我到目前为止所拥有的 m1 m2 q taua taue K avgPeriodRatio time 1 2
Python：检测物理非 HT CPU 的跨平台解决方案？

我正在尝试使用跨平台方法检测计算机上非超线程核心的数量多重处理的CPU计数 http hg python org cpython file 60f7719c0415 Lib multiprocessing init py l108只检测处
如何在java中设置SSL协议版本？我怎么知道是哪一个？ javax.net.ssl.SSLException：收到致命警报：protocol_version

我正在使用 Apache HttpClient 4 3 与 hubic com 的 API 进行交互我的最小可复制示例只是一行 HttpClientBuilder create build execute new HttpGet http
如何将文本文件作为 PHP 包含在 PHP 中，而不打印到页面？

我正在为自己制作一个网页在页面加载时简单地重定向到其他网站列表之一为了能够更轻松地编辑站点列表我将列表移至单独的文本文档中将文件包含在 PHP 代码中后浏览器将恢复解析 HTML 并在包含结束后再次返回结果我的代码被打印到屏幕
用于 OCR 的 Python OpenCV 倾斜校正

目前我正在开发一个 OCR 项目需要读取标签上的文本请参见下面的示例图片我遇到了图像倾斜的问题我需要帮助修复图像倾斜以便文本是水平的而不是成角度的目前我正在使用的过程尝试从给定范围下面包含代码对不同角度进行评分但这种方

用于 OCR 的 Python OpenCV 倾斜校正

用于 OCR 的 Python OpenCV 倾斜校正 的相关文章

随机推荐

热门标签

用于 OCR 的 Python OpenCV 倾斜校正的相关文章