有没有办法可以检测图像方向并将图像旋转到直角？

2024-02-08

我正在制作一个修复扫描文档的脚本，现在我需要一种方法来检测图像方向并旋转图像，以便其旋转正确。

现在我的脚本不可靠而且不够精确。

现在我寻找一条线，它会旋转它正确看到的第一条线，但这几乎不起作用，除了一些图像

img_before = cv2.imread('rotated_377.jpg')

img_gray = cv2.cvtColor(img_before, cv2.COLOR_BGR2GRAY)
img_edges = cv2.Canny(img_gray, 100, 100, apertureSize=3)
lines = cv2.HoughLinesP(img_edges, 1, math.pi / 180.0, 100, minLineLength=100, maxLineGap=5)

angles = []

for x1,y1,x2,y2 in lines[0]:
    angle = math.degrees(math.atan2(y2 - y1, x2 - x1))
    angles.append(angle)

median_angle = np.median(angles)
img_rotated = ndimage.rotate(img_before, median_angle)

print("Angle is {}".format(median_angle))
cv2.imwrite('rotated.jpg', img_rotated)

I want to make a script that gets an image like this one(don't mind the image its for testing purposes)

并以正确的方式旋转它，这样我就可以获得正确方向的图像。

这是一个有趣的问题，我尝试了多种方法来纠正文档图像的方向，但所有方法都有不同的例外。我正在分享一种基于文本方向的方法。对于文本区域检测，我使用输入图像的梯度图。

所有其他实现细节都在代码中注释。

请注意，这仅在图像中存在的所有文本具有相同方向时才有效。

#Document image orientation correction
#This approach is based on text orientation

#Assumption: Document image contains all text in same orientation

import cv2
import numpy as np

debug = True

#Display image
def display(img, frameName="OpenCV Image"):
    if not debug:
        return
    h, w = img.shape[0:2]
    neww = 800
    newh = int(neww*(h/w))
    img = cv2.resize(img, (neww, newh))
    cv2.imshow(frameName, img)
    cv2.waitKey(0)

#rotate the image with given theta value
def rotate(img, theta):
    rows, cols = img.shape[0], img.shape[1]
    image_center = (cols/2, rows/2)
    
    M = cv2.getRotationMatrix2D(image_center,theta,1)

    abs_cos = abs(M[0,0])
    abs_sin = abs(M[0,1])

    bound_w = int(rows * abs_sin + cols * abs_cos)
    bound_h = int(rows * abs_cos + cols * abs_sin)

    M[0, 2] += bound_w/2 - image_center[0]
    M[1, 2] += bound_h/2 - image_center[1]

    # rotate orignal image to show transformation
    rotated = cv2.warpAffine(img,M,(bound_w,bound_h),borderValue=(255,255,255))
    return rotated


def slope(x1, y1, x2, y2):
    if x1 == x2:
        return 0
    slope = (y2-y1)/(x2-x1)
    theta = np.rad2deg(np.arctan(slope))
    return theta


def main(filePath):
    img = cv2.imread(filePath)
    textImg = img.copy()

    small = cv2.cvtColor(textImg, cv2.COLOR_BGR2GRAY)

    #find the gradient map
    kernel = cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (3, 3))
    grad = cv2.morphologyEx(small, cv2.MORPH_GRADIENT, kernel)

    display(grad)

    #Binarize the gradient image
    _, bw = cv2.threshold(grad, 0.0, 255.0, cv2.THRESH_BINARY | cv2.THRESH_OTSU)
    display(bw)

    #connect horizontally oriented regions
    #kernal value (9,1) can be changed to improved the text detection
    kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (9, 1))
    connected = cv2.morphologyEx(bw, cv2.MORPH_CLOSE, kernel)
    display(connected)

    # using RETR_EXTERNAL instead of RETR_CCOMP
    # _ , contours, hierarchy = cv2.findContours(connected.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_NONE)
    contours, hierarchy = cv2.findContours(connected.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_NONE) #opencv >= 4.0



    mask = np.zeros(bw.shape, dtype=np.uint8)
    #display(mask)
    #cumulative theta value
    cummTheta = 0
    #number of detected text regions
    ct = 0
    for idx in range(len(contours)):
        x, y, w, h = cv2.boundingRect(contours[idx])
        mask[y:y+h, x:x+w] = 0
        #fill the contour
        cv2.drawContours(mask, contours, idx, (255, 255, 255), -1)
        #display(mask)
        #ratio of non-zero pixels in the filled region
        r = float(cv2.countNonZero(mask[y:y+h, x:x+w])) / (w * h)

        #assume at least 45% of the area is filled if it contains text
        if r > 0.45 and w > 8 and h > 8:
            #cv2.rectangle(textImg, (x1, y), (x+w-1, y+h-1), (0, 255, 0), 2)

            rect = cv2.minAreaRect(contours[idx])
            box = cv2.boxPoints(rect)
            box = np.int0(box)
            cv2.drawContours(textImg,[box],0,(0,0,255),2)

            #we can filter theta as outlier based on other theta values
            #this will help in excluding the rare text region with different orientation from ususla value 
            theta = slope(box[0][0], box[0][1], box[1][0], box[1][1])
            cummTheta += theta
            ct +=1 
            #print("Theta", theta)
            
    #find the average of all cumulative theta value
    orientation = cummTheta/ct
    print("Image orientation in degress: ", orientation)
    finalImage = rotate(img, orientation)
    display(textImg, "Detectd Text minimum bounding box")
    display(finalImage, "Deskewed Image")

if __name__ == "__main__":
    filePath = 'D:\data\img6.jpg'
    main(filePath)

这是检测到文本区域的图像，从中我们可以看到一些文本区域丢失了。文本方向检测在整个文档方向检测中起着关键作用，因此根据文档类型，应在文本检测算法中进行一些小调整，以使该方法更好地工作。

Here is the final image with correct orientation

请建议对此方法进行修改，以使其更加稳健。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

imageprocessing

有没有办法可以检测图像方向并将图像旋转到直角？的相关文章

2d 图像点和 3d 网格之间的交点

Given 网格源相机我有内在和外在参数图像坐标 2d Output 3D 点是从相机中心发出的光线穿过图像平面上的 2d 点与网格的交点我试图找到网格上的 3d 点 This is the process From Multip
从字典的元素创建 Pandas 数据框

我正在尝试从字典创建一个 pandas 数据框字典设置为 nvalues y1 1 2 3 4 y2 5 6 7 8 y3 a b c d 我希望数据框仅包含 y1 and y2 到目前为止我可以使用 df pd DataFrame fr
McNemar 在 Python 中的测试以及分类机器学习模型的比较 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有用 Python 实现的好的 McNemar 测试我在 Scipy stats 或 Scikit
最快的高斯模糊实现

如何以最快的速度实施高斯模糊 http en wikipedia org wiki Gaussian blur算法我要用Java来实现它所以GPU http en wikipedia org wiki Graphics processi
如何在python中附加两个字节？

说你有b x04 and b x00 你如何将它们组合起来b x0400 使用Python 3 gt gt gt a b x04 gt gt gt b b x00 gt gt gt a b b x04 x00
将 C++ 指针作为参数传递给 Cython 函数

cdef extern from Foo h cdef cppclass Bar pass cdef class PyClass cdef Bar bar def cinit self Bar b bar b 这总是会给我类似的东西 Can
python array(10,1) 和 array(10,) 之间的区别

我正在尝试将 MNIST 数据集加载到数组中当我使用 X train y train X test y test mnist load data 我得到一个数组 y test 10000 但我希望它的形状为 10000 1 数组 1000
如何使用 Homebrew 在 Mac 上安装 Python 2 和 3？

我需要能够在 Python 2 和 3 之间来回切换我如何使用 Homebrew 来做到这一点因为我不想弄乱路径并陷入麻烦现在我已经通过 Homebrew 安装了 2 7 我会用pyenv https github com yyuu
如何在 Python 中的函数入口、内部和退出处进行日志记录

我希望能够使用 Python 日志记录工具在我的代码中进行简单且一致的日志记录我能够执行以下操作我希望所有现有未来的模块和函数都有输入和完成日志消息我不想添加相同的代码片段来定义日志记录参数如下所示don t want t
python 中的 h2o 框架子集

如何在 python 中对 h2o 框架进行子集化如果 x 是一个 df 并且 Origin 是一个变量那么在 pandas 中我们通常可以通过以下方式进行子集化 x x Origin AAF 但使用 h2o 框架会出现以下错误 H2O
如何在 Django Rest 框架中编写“删除”操作的测试

我正在为 Django Rest Framework API 编写测试我一直在测试删除我对创建的测试工作正常这是我的测试代码 import json from django urls import reverse from re
为什么在Python解释器中输入_会返回True？ [复制]

这个问题在这里已经有答案了我的翻译行为非常奇怪 gt gt gt True gt gt gt type True
NumPy 相当于 Keras 函数 utils.to_categorical

我有一个使用 Keras 进行机器学习的 Python 脚本我正在构建 X 和 Y 它们分别是特征和标签标签的构建方式如下 def main depth 10 nclass 101 skip True output True video
pygame：使用 sprite.RenderPlain 绘制精灵组的顺序

我有一个精灵组需要按一定的顺序绘制以便其精灵按应有的方式重叠然而即使使用运算符模块函数 sorted self sprites key attrgetter y x 对组进行排序顺序也是错误的我该如何解决这个问题直截了当地说
将字符串中的随机字符转换为大写

我尝试随机附加文本字符串这样就不只是有像这样的输出 gt gt gt david 我最终会得到类似的东西 gt gt gt DaViD gt gt gt dAviD 我现在的代码是这样的 import random import stri
如何通过函数注释指示函数需要函数作为参数，或返回函数？

您可以使用函数注释 http www python org dev peps pep 3107 在python 3中指示参数和返回值的类型如下所示 def myfunction name str age int gt str return
根据多个阈值将 SciPy 分层树状图切割成簇

我想将 SciPy 的树状图切割成多个具有多个阈值的簇我尝试过使用 fcluster 但它只能削减一个阈值例如这是我从另一个问题中摘取的一段代码 import pandas data pandas DataFrame total ru
非法指令：MacOS High Sierra 上有 4 条指令

我正在尝试在 pygame 3 6 中制作一个看起来像聊天的窗口我刚刚将我的 MacBook 更新到版本 10 13 6 在我这样做之前它工作得很好但在我收到消息之后非法指令 4 Code import pygame from pyg
将时间添加到日期时间

我有一个像这样的日期字符串然后使用strptime 所以就像这样 my time datetime datetime strptime 07 05 15 m d Y 现在我想添加 23 小时 59 分钟my time 我努力了 timed
使用 paramiko 运行 Sudo 命令

我正在尝试执行sudo使用 python paramiko 在远程计算机上运行命令我尝试了这段代码 import paramiko ssh paramiko SSHClient ssh set missing host key polic

随机推荐

如何使用 VBA 将 ShapeStyle 应用于 Excel 中图表的特定系列？

如何使用 vba 以编程方式将 ShapeStyle 应用于单个图表系列中的一组点看来我需要一个形状对象其中仅包含我尝试格式化的系列中的点一些信息在这里 http peltiertech com WordPress program
检索网格的内容

我在用jqGrid http www trirand com jqgridwiki doku php id start在客户端显示值最初网格是空的用户内联输入数据根据要求我需要在用户提交表单后提交数据我打算在提交表单之前格式化内容
串行端口重定向或拆分[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一本关于如何进行串行端口重定向或端口分割的书和或代码示例我编写了很多 com 端口应用程
如何阻止Android硬件后退按钮在react-native的react-navigation中起作用？

我正在开发一个问答游戏我使用react navigation来处理导航我有3个组件 newGame 问题结果如果没有我不希望用户从结果页面返回到问题问题已经用尽但是按后退按钮 Android 硬件将使他回到问题然后我尝试
Python、Flask客户端ip地址

我需要记录我使用 Python 和 Flask 创建的 web 应用程序的每个用户的 IP 地址我在用着 request remote addr 但这会返回应用程序部署到的服务器的 IP 地址有解决办法吗如何部署 Flask 应用程序
C++ 中静态全局标识符和非静态全局标识符有什么区别？

有什么区别static全球和非staticC 中的全局标识符静态将变量的范围限制为相同翻译单位 https stackoverflow com questions 1106149 what is a translation unit in
React/redux，显示多个组件，共享相同的操作，但具有不同的状态

假设我有一个可重复使用的容器它是一个具有多个页面的向导向导状态由 redux actions 驱动当一个动作被触发时我使用一个减速器来更新我的状态如果我想要复制多个向导并拥有自己的状态怎么办我认为必须有一种方法可以让某个动态减速
在nodejs（express）中的router.route()中设置中间件

我想要它做什么 router post xxxx authorize xxxx function authorize req res next if xxx res send 500 else next 我想检查每条路线的会话但既然路由器
如何在没有 if 语句的情况下做出决定

我正在学习 Java 课程但我们还没有正式学习 if 语句我在学习的时候看到这个问题编写一个名为 pay 的方法它接受两个参数一个代表助教工资的实数一个代表助教本周工作时数的整数该方法应该返回付给TA多少钱例如调用 pay
@NSManaged 是做什么的？

我在不同的场合都遇到过这个关键词我有点知道它应该做什么但我真的想更好地理解它我注意到了什么 NSManaged 不是基于文档而是通过重复使用它神奇地取代了键值编码大致相当于 dynamic在 Objective C 中我不太了
如何在 Haskell 中安装旧版本的 base

我已经安装了Haskell平台并且有7 10 3版本的ghci 其中有4 8 2 0版本的base 我需要安装gloss 1 8 哪个需要base 4 7 基础版本我的问题是当我已经有了新版本时如何安装这个旧版本是否可以或者我必
ms-access：通过打印来填写申请表

我将打印访问报告该报告不会印刷成普通的白皮书它将打印在带有复选框和字段的纸张上我需要根据访问数据打印这些复选框和字段有没有任何库可以让这变得更容易是否有一个功能可以帮助在特定坐标上打印请注意我需要在数千份表格上打印并且我必须
使用准备好的语句后 SELECT LAST_INSERT_ID() 返回 0

我正在使用 MySQL 和准备好的语句来插入BLOB记录 jpeg 图像执行准备好的语句后我发出一个SELECT LAST INSERT ID 它返回 0 在我的代码中我在执行命令后放置了一个断点并在 MySQL 命令监视器窗口
为什么 Chrome 开发工具显示 200 状态代码而不是 304

当我用 Chrome 测试缓存处理中的奇怪行为时我问了一些关于它的问题 here https stackoverflow com questions 67016037 chrome doesnt send if none match he
Discord.js V12 粗鲁言语过滤器不起作用

所以我添加了一个粗鲁的单词过滤器每当有人说这个单词小写或大写时它就会删除他们的消息并回复一些内容然后回复会在几秒钟内被删除这是我当前的代码但它不读取rudeWords当我在聊天中写下任何粗鲁的话时它不会做任何事情 clien
Rails4：康康舞还是康康康舞？使用 has_secure_password

我正在尝试实现某种类型的用户以便用户可以编辑数据而其他用户只能读取 user rb class User lt ActiveRecord Base has secure password validates presence of em
AVAudioRecorder 内存泄漏

我希望有人能在这件事上支持我我一直在开发一个应用程序该应用程序允许最终用户录制一个小音频文件以供以后播放并且正在测试内存泄漏当 AVAudioRecorder 的停止方法尝试关闭其正在录制的音频文件时我仍然经常遇到内存泄漏这
create-react-app 返回错误：执行时找不到模块“react-scripts/scripts/init.js”

当我尝试使用 npm 和yarn 创建一个 React 项目时它显示以下错误我尝试重新安装节点并确保它是最新的以及通过运行 npm install g create react app latest 来创建 react app 我还删
glFlush() vs [[self openGLContext]lushBuffer] vs glFinish vs glSwapAPPLE vs aglSwapBuffers

使用 NSOpenGLView 时有几个类似的 OpenGL 操作 glFlush self openGLContext flushBuffer glFinish glSwap苹果 egl交换缓冲区何时应该使用其中的每一个在示例应用程序
有没有办法可以检测图像方向并将图像旋转到直角？

我正在制作一个修复扫描文档的脚本现在我需要一种方法来检测图像方向并旋转图像以便其旋转正确现在我的脚本不可靠而且不够精确现在我寻找一条线它会旋转它正确看到的第一条线但这几乎不起作用除了一些图像 img before cv2 im

有没有办法可以检测图像方向并将图像旋转到直角？

有没有办法可以检测图像方向并将图像旋转到直角？ 的相关文章

随机推荐

热门标签

有没有办法可以检测图像方向并将图像旋转到直角？的相关文章