基于大空白的扫描图像切片

2023-12-19

我打算将问题分开this https://www.tnpsc.gov.in/Tentative/Document/RAGS-2022_opt.pdfPDF 文档。挑战在于问题的间隔不是有序的。例如第一个问题占据一整页，第二个问题也占据一整页，第三个问题和第四个问题一起占据一页。如果我必须手动切片，那将需要很长时间。所以，我想把它分成图像并对其进行处理。是否有可能拍摄这样的图像

并像这样分成单独的组件？

这是一个经典的情况dilate https://opencv24-python-tutorials.readthedocs.io/en/latest/py_tutorials/py_imgproc/py_morphological_ops/py_morphological_ops.html#dilation。这个想法是相邻的文本对应于同一问题，而较远的文本是另一个问题的一部分。每当您想要将多个项目连接在一起时，您可以扩大它们以将相邻轮廓连接成单个轮廓。这是一个简单的方法：

获取二值图像。 加载图像 https://www.geeksforgeeks.org/python-opencv-cv2-imread-method/，转换成灰度 https://opencv24-python-tutorials.readthedocs.io/en/stable/py_tutorials/py_imgproc/py_colorspaces/py_colorspaces.html, 高斯模糊 https://opencv24-python-tutorials.readthedocs.io/en/latest/py_tutorials/py_imgproc/py_filtering/py_filtering.html#gaussian-filtering, then 大津的门槛 https://opencv24-python-tutorials.readthedocs.io/en/latest/py_tutorials/py_imgproc/py_thresholding/py_thresholding.html#otsus-binarization以获得二值图像。
消除小噪音和伪影。我们创建一个矩形核 https://opencv24-python-tutorials.readthedocs.io/en/latest/py_tutorials/py_imgproc/py_morphological_ops/py_morphological_ops.html#structuring-element and 变形开放 https://opencv24-python-tutorials.readthedocs.io/en/latest/py_tutorials/py_imgproc/py_morphological_ops/py_morphological_ops.html#opening去除图像中的小噪声和伪影。
将相邻的单词连接在一起。我们创建一个更大的矩形内核并且dilate https://opencv24-python-tutorials.readthedocs.io/en/latest/py_tutorials/py_imgproc/py_morphological_ops/py_morphological_ops.html#dilation将各个轮廓合并在一起。
检测问题。从这里我们找到轮廓 https://docs.opencv.org/2.4/modules/imgproc/doc/structural_analysis_and_shape_descriptors.html#findcontours，使用从上到下对轮廓进行排序imutils.sort_contours() https://github.com/PyImageSearch/imutils/blob/master/imutils/contours.py#L7，用过滤器最小轮廓面积 https://docs.opencv.org/2.4/modules/imgproc/doc/structural_analysis_and_shape_descriptors.html#contourarea，得到矩形边界矩形坐标 https://docs.opencv.org/2.4/modules/imgproc/doc/structural_analysis_and_shape_descriptors.html?highlight=boundingrect#boundingrect and 突出显示矩形轮廓 https://opencv24-python-tutorials.readthedocs.io/en/latest/py_tutorials/py_imgproc/py_contours/py_contours_begin/py_contours_begin.html。然后，我们使用 Numpy 切片裁剪每个问题并保存 ROI 图像。

获得二值图像的大津阈值

这是有趣的部分发生的地方。我们假设相邻的文本/字符是同一问题的一部分，因此我们将各个单词合并成一个轮廓。问题是靠近在一起的单词的一部分，因此我们扩展以将它们连接在一起。

个别问题以绿色突出显示

热门问题

底部问题

已保存的 ROI 问题（假设从上到下）

Code

import cv2
from imutils import contours

# Load image, grayscale, Gaussian blur, Otsu's threshold
image = cv2.imread('1.png')
original = image.copy()
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
blur = cv2.GaussianBlur(gray, (7,7), 0)
thresh = cv2.threshold(blur, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)[1]

# Remove small artifacts and noise with morph open
open_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (5,5))
opening = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, open_kernel, iterations=1)

# Create rectangular structuring element and dilate
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (9,9))
dilate = cv2.dilate(opening, kernel, iterations=4)

# Find contours, sort from top to bottom, and extract each question
cnts = cv2.findContours(dilate, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = cnts[0] if len(cnts) == 2 else cnts[1]
(cnts, _) = contours.sort_contours(cnts, method="top-to-bottom")

# Get bounding box of each question, crop ROI, and save
question_number = 0
for c in cnts:
    # Filter by area to ensure its not noise
    area = cv2.contourArea(c)
    if area > 150:
        x,y,w,h = cv2.boundingRect(c)
        cv2.rectangle(image, (x, y), (x + w, y + h), (36,255,12), 2)
        question = original[y:y+h, x:x+w]
        cv2.imwrite('question_{}.png'.format(question_number), question)
        question_number += 1

cv2.imshow('thresh', thresh)
cv2.imshow('dilate', dilate)
cv2.imshow('image', image)
cv2.waitKey()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

基于大空白的扫描图像切片的相关文章

顶级棉花糖模式验证

From 棉花糖 validation http marshmallow readthedocs org en latest quickstart html validation 我知道我可以在架构中的特定字段上注册验证器如果验证器失败
合并数据框中的值以写入 Excel

我有一个看起来像的数据框 column1 column2 column3 colum4 column5 1 r n 1 r s 1 r n 2 r s 3 r n 3 2 r n 1 r s 1 r n 4 r s 4 r n 5 3 r
使用 Python 的 optparse 模块时如何遵守 PEP 257 文档字符串？

根据PEP 257 http www python org dev peps pep 0257 multi line docstrings命令行脚本的文档字符串应该是它的使用消息脚本的文档字符串 a 独立程序应该可用作为其使用消息
[python]没有属性“TessBaseAPI”

当我编译代码时出现错误 import tessercat api tesseract TessBaseAPI 错误是 AttributeError 模块对象没有属性 TessBaseAPI 我已经安装了tesseract via pip
在Python中迭代文件对象不起作用，但readlines()可以，但效率低下

在下面的代码中如果我使用 for line in fin 它只对 a 执行但如果我使用 wordlist fin readlines for line in wordlist 然后它执行 a thru z But readlines 立
SQLAlchemy：检查给定值是否在列表中

问题在 PostgreSQL 中检查某个字段是否在给定列表中是使用IN操作员 SELECT FROM stars WHERE star type IN Nova Planet SQLAlchemy 的等价物是什么INSQL查询我尝试过
导入错误：没有名为“wordcloud”的模块

我正在努力将 wordcloud 安装到我的环境中这是我正在运行的代码 import os import matplotlib pyplot as plt from wordcloud import WordCloud 我收到以下错误 I
__getitem__、__setitem__ 如何处理切片？

我正在运行 Python 2 7 10 我需要拦截列表中的更改我所说的更改是指在浅层意义上修改列表的任何内容如果列表由相同顺序的相同对象组成则列表不会更改无论这些对象的状态如何否则它会更改我不需要找出来how列表已经改变
来自数据框 groupby 的条形图

import pandas as pd import numpy as np import matplotlib pyplot as plt df pd read csv arrests csv df df replace np nan 0
直接打开Spyder还是通过Pythonxy打开？

之前我一直在运行PythonSpyder 我总是开始Spyder直接双击其图标今天突然发现我还有一个东西叫Python x y 我注意到我也可以开始Spyder通过它这两种方法有什么区别吗如果不是的话有什么意义Python x y
Microsoft Azure 数据仓库和 SqlAlchemy

我正在尝试使用 python 的 sqlalchemy 库连接到 microsoft azure 数据仓库并收到以下错误 pyodbc Error HY000 HY000 Microsoft ODBC SQL Server Driver
opencv中如何去除二值图像噪声？

将图像转换为二值图像黑白后如果有任何噪音怎么办我消除了那些不需要的噪音您可以看到下图的黑色区域内有一些白噪声我该如何去除噪声使用opencv http img857 imageshack us img857 999 blackn
Learning_rate 不是合法参数

我正在尝试通过实现 GridSearchCV 来测试我的模型但我似乎无法在 GridSearch 中添加学习率和动量作为参数每当我尝试通过添加这些代码来执行代码时我都会收到错误这是我创建的模型 def define model op
让 TensorFlow 在 ARM Mac 上使用 GPU

我已经安装了TensorFlow在 M1 上 ARM Mac 根据这些说明 https github com apple tensorflow macos issues 153 一切正常然而模型训练正在进行CPU 如何将培训切换到GPU
使用 plone.api 创建文件的 Python 脚本在设置文件时出现错误 WrongType

Dears 我正在创建一个脚本python来在Plone站点中批量上传文件安装是UnifiedInstaller Plone 4 3 10 该脚本读取了一个txt 并且该txt以分号分隔在新创建的项目中设置文件时出现错误下面是脚本 f
如何从外语线程调用Python函数（C++）

我正在开发一个程序使用 DirectShow 来抓取音频数据媒体文件 DirectShow 使用线程将音频数据传递给回调我的程序中的函数然后我让该回调函数调用另一个函数 Python 中的函数我使用 Boost Python 来包
单击 selenium 中的链接时循环遍历表格的行（python）

示例页面源代码如下所示 div class div1 table class foot market tbody td class today name td tbody tbody td class today name td tbody
在哪里可以找到Python内置序列类型的时间和空间复杂度

我一直无法找到此信息的来源无法亲自查看 Python 源代码来确定这些对象是如何工作的有谁知道我可以在网上找到这个吗结帐时间复杂度 http wiki python org moin TimeComplexitypy dot org
使用 Python 进行 Google 搜索网页抓取 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案最近为了工作中的一些项目学习了很多python 目前我需要使用谷歌搜索结果进行一些网络抓取我发现几
Chrome + 另一个进程：进程间通信比 HTTP/XHR 请求更快？

我有一个进程 1 对视频流进行实时图像处理我需要在 Chrome 中的 HTML 页面中渲染该视频同一台计算机上的进程 2 在canvas or img or videoHTML5 元素由于我有 1000x1000 像素 x 3 字节

随机推荐

Eclipse 使用 EGit，很难看到 git-blame 信息

使用 Eclipse Indigo Service Release 2 EGit 插件和 JDK 1 7 我已经看到它应该支持责备注释但我无法让它像我看到的那样显示在 Eclipse Wiki 上 http wiki eclipse or
在 ngFor Angular 2 中设置输入类型复选框的选中状态

我有一个 Angular 2 应用程序我使用 ngFor 来处理一堆复选框当我初始化这个组件时我需要根据天气设置复选框的状态 id 存在于数组中 div class col md 12 div class col lg 12 opti
延迟加载DLL

为简单起见我将 DLL TUTORIAL dll 和头文件 MathFuncsDll h 放在根文件夹 C 中然后创建空项目设置配置属性 gt 链接器 gt 输入 gt 延迟加载Dll s to C DLL TUTORIAL dl
pace.js“隐藏除 PACE 之外的所有内容，直到页面完全加载”本地副本

我能够隐藏除速度之外的所有内容直到安装时加载页面pace js 与 eager io https eager io app kYKTiQjoVjQk install 但是当使用 Bower 安装插件并下载 css 主题时我无法弄清楚如
Bash 脚本根据另一个文件中指定的日期从日志文件中提取条目？

我有一个相当大的逗号分隔 CSV 日志文件 gt 50000 行我们称之为 file1 csv 看起来像这样 field1 field2 MM DD YY HH MM SS field4 field5 field1 field2 07 2
将字节数组作为 char* 从 C# 传递到 C++ DLL

我正在通过一个byte 从 C 到 C DLL 在 C DLL 中我需要调用一个接受和读取的函数istream对象我打算收到byte 从 C 为char 并将其转换为istream C DLL extern C declspec dll
和 ${param} 之间有什么区别

在 struts 中我注意到有两种不同的方式来访问变量我很好奇它们之间有什么区别以及何时正确使用它们例如假设我们像这样设置变量高度
如何将按钮的文本左对齐？

现在我想用代码将按钮的文本左对齐该怎么做我编码如下 button titleLabel textAlignment UITextAlignmentLeft 但它不起作用你必须使用contentVerticalAlignment and
.gitattributes：text=auto 是否仍然使用 core.autocrlf 来检测 EOL

With a gitattributes entry text auto 签出文本文件时使用什么行分隔符这文档 https git scm com docs gitattributes gitattributes Settostringv
Eclipse 高亮显示出现次数，右列标记颜色

类似但又不同这个问题 https stackoverflow com questions 671219 eclipse coloring what is the pref item for background color of all
未找到内部存储上的 Android 文件

我正在尝试在我的应用程序的 Android 内部存储空间中写入一个文件经过多次尝试终于用这个方法成功了在 Android 手机的内存中写入读取文件 https stackoverflow com questions 9306155 w
我是否需要关闭和/或处置通过OperationContext.Current.GetCallbackChannel 获取的回调通道？

我正在使用 OperationContext Current GetCallbackChannel 获取调用 WCF 服务操作的客户端的通道我是否需要担心关闭处置这些回调通道或者这是由框架处理的好吧我自己尝试了一下结果发现如果
JavaFx：使用列名称将 TableView 导出到 Excel

我正在尝试导出tableView擅长使用阿帕奇兴趣点 http poi apache org 一切都很好但我需要导出所有表而不仅仅是项目我的意思是当我使用此代码时使用列名称 HSSFWorkbook workbook new HSSFW
使用 vuejs 中的方法进行条件 @click

这是我的 for 循环 li a href crumb name a li click methodName 不应在最后一次迭代中可用我可以使用 index breadcrumbs length 1 检查最后一次迭代使用 apply v
Caffe Sigmoid交叉熵损失层损失函数

我正在查看Caffe的代码Sigmoid 交叉熵损失层 https github com BVLC caffe blob master src caffe layers sigmoid cross entropy loss layer cp
wkhtmltopdf 的字母间距太大

我正在使用 wkhtmltopdf 将网页下载为 pdf 但是css属性letter spacing似乎不起作用 font size 20px letter spacing 0px font size 20px letter spacing
iOS - MKMapView 使用地址而不是纬度/经度进行位置注释

我可以在我的MKMapView然而通过使用纬度和经度我需要使用位置的提要是使用街道地址而不是纬度和经度例如 1234 西 1234 东旧金山 CA 这会不会与CLLocationManager 以前有人尝试过吗基于psoft的优秀
UILabel 文本作为 html 文本

我被一个小问题困住了我需要使用一个句子其中前两个单词为粗体后两个单词为斜体喜欢 I am using an O目标C开发商怎么做这在 Objective C 中可能吗对于 iOS7 你可以使用这个 NSString htmlS
BLOb：无法读取所有数据，但只有几kb

我正在使用 BLOb 支持从 MySQl 插入和读取 JDBC 我可以做到这一点但是当它读取时它只有几kb 我不知道为什么这是工作代码 import java sql import java io public class Inser
基于大空白的扫描图像切片

我打算将问题分开this https www tnpsc gov in Tentative Document RAGS 2022 opt pdfPDF 文档挑战在于问题的间隔不是有序的例如第一个问题占据一整页第二个问题也占据一整页第

基于大空白的扫描图像切片

基于大空白的扫描图像切片 的相关文章

随机推荐

热门标签

基于大空白的扫描图像切片的相关文章