基于YOLO-fastest-xl的OCR

2023-05-16

文章目录

基于YOLO-fastest-xl的OCR
- 项目介绍
- 对于yolo-fastest-xl的结构的更改
- 运行方法
- 效果总结

基于YOLO-fastest-xl的OCR

github链接https://github.com/qqsuhao/yolo-fastest-with-CRNN-for-OCR

项目介绍

本项目参考chineseOCR项目，使用了其代码架构和CRNN部分相关的代码与训练模型。
基于pytorch进行训练，基于opencv的dnn模块进行推理。
本项目的主要区别在于将yolov3的模型替换为yolo-fastest-xl，使得原本大小为200MB左右的模型缩减为3.5MB。
发现了chineseOCR中的一处bug：在本项目的crnn/opencv_dnn_detect.py的text_detect函数中的33-35行，改为36-38行。

对于yolo-fastest-xl的结构的更改

原本的yolo-fastest-xl模型只有两层yolo层，难以应对小目标检测，尤其是文本检测。因此增加一层yolo层，更改后的模型文件存放于yolo/configs/yolo-fastest-xl-3yolo.cfg中。

运行方法

克隆本项目以后安装相关的运行环境。
建议使用pycharm打开本项目，使用vscode的话可能会出现import文件路径错误。
在configs.py中进行配置。其他参数不用更改，需要关注第16行。如果使用第16行，则为使用yolov3进行推理，如果使用第17行，则为使用yolo-fastest-xl进行推理。
运行demo.py就可以完成文字检测到识别的整个过程。
由于yolo-fastest-xl权值文件较小，所以随着项目一起上传。但是yolov3的权值文件太大，没有上传。读者可以从文末的链接下载（包含yolov3的权值和crnn的权值），然后把所有文件放在yolov3-ocr/weights中。
其他关键文件说明：
- yolo/Toonnx.py 该文件将模型加载权值以后将模型转换为onnx文件。demo.py中的推理是使用onnx文件完成的。
- yolo/weights 和 yolo/checkpoints中存放着相关的权值文件，yolo/checkpoints是训练过程中存放断点的文件夹。
- yolo/中的大部分文件都和我其他的的yolo-fastest-xl相关的项目一致，可以参考我的其他项目。

效果总结

在test_samples/0.jpg上进行测试，yolov3需要0.8s左右，yolo-fastest-xl需要0.4s左右。
demo.py中有些参数在不同的模型和测试样本下可能需要进行微调。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

YOLO

fastest

OCR

基于YOLO-fastest-xl的OCR 的相关文章

在 OCR（光学字符识别）之前，您推荐使用什么软件进行图像增强？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们目前正在研究在提交 OCR 之前提高图像质量的方法我们当前使用的 OCR 引擎是 Nuance v15 的 Scansoft API
字符识别（OCR算法）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在开发一个项目其中我必须开发 OCR 算法我必须从图像中读取文本然后将其转换为不同的语言所以我的第一个任务是从图像中获取文
当我使用 pytesser 运行 tesseract 时，如何隐藏控制台窗口

我是Python新手我正在从事 OCR 项目我在 Windows 7 上使用 Python 2 7 12 我已在路径 C Program Files x86 Tesseract OCR 中安装了 tesseract 我在这里找到了 py
将冻结模型“.pb”文件转换为“.tflite”文件所需的参数 input_arrays 和 output_arrays 是什么？

我需要转换我的 pb张量流模型和我的 cpkt文件到一个tflite模型以使其在移动设备中工作有没有什么直接的方法可以找出如何找到我应该用于 input arrays 和 output arrays 的参数 import tensorfl
神经网络特征提取

我正在使用神经网络进行字母和数字的简单识别到目前为止我使用字母图像的每个像素作为网络的输入不用说这种方法产生的网络非常大所以我想从图像中提取特征并将它们用作神经网络的输入我的第一个问题是字母的哪些属性有利于识别它们第二个问题是
描边宽度变换 (SWT) 实现（Java、C#...）[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我最近发现了笔划宽度变换如以下研究论文中所述使用笔划宽度变换检测自然场景中的文本 https ie
opencv 中的二值化和背景过滤

不久我想在OCR之前进行预处理程序建议来自ABBYY的技术 http www abbyy developers eu en tech insideocr adaptive binarisation 文章分为两部分 Background
OCR 解决方案可以检测数字手写体吗？

有没有一种解决方案可以很好地书写数字 1 10 我尝试了超正方体但我只得到垃圾理想情况下是 OSS 但商业也可以 OpenCV 现在附带手写数字识别 OCR 示例你可以参考一下 http code opencv org project
Microsoft Azure 认知服务手写检测边界框参数

我目前正在使用Microsoft Azure 认知服务手写检测 API https learn microsoft com en in azure cognitive services computer vision quickstarts
提高 Python Tesseract OCR 的准确性

我在用pytesseract https pypi org project pytesseract 随着openCV https pypi org project opencv python 在 Python 中的简单 django 应用程
提高识别率的图像预处理步骤

我正在为我的项目使用 TessBaseAPI 制作一个简单的 OCR Android 应用程序我已经完成了一些图像预处理步骤例如二值化和图像增强但他们的结果是50 到60 怎样才能提高识别率呢我包括两个示例图像 http image
暗网 YOLO 图像大小

我正在尝试在 Darknet YOLO v2 中训练自定义对象分类器https pjreddie com darknet yolo https pjreddie com darknet yolo 我收集了一个图像数据集其中大多数尺寸为 6
让 tesseract 只识别数字

我正在尝试改进我制作的 OCR 程序来读取我正在使用的某个图像的布局现在我希望我的 OCR 程序只能识别数字 0 9 我尝试遵循问题的解决方案限制 tesseract 正在寻找的字符 https stackoverflow com q
OCR 扑克牌 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我决定做一个有趣的项目我想将扑克牌的图像作为输入并返回其等级和花色我认为我只需要查看左上角因为那里包含了所有信息它应该是稳健的
裁剪图像后，如何找到新的边界框坐标？

这是我得到的收据图像我使用 matplotlib 绘制了它 x1 y1 x2 y2 x3 y3 x4 y4 bbox coords 650 850 1040 850 1040 930 650 930 image cv2 imread IM
在 google Vision OCR 中被识别为单个单词的特殊字符？

我试图让谷歌视觉 OCR 正则表达式可搜索我已经完成了它并且当文档仅包含英文字符时效果很好但当有其他语言的文本时它就会失败发生这种情况是因为我在谷歌视觉单词组件中只有英文字符如下所示 VISION API WORD COUNTE
用Python识别图像

我对 OCR 识别和 Python 都有点陌生我想要实现的是从 Python 脚本运行 Tesseract 以识别 tif 中的某些特定数字我以为我可以为 Tesseract 做一些培训但我在 Google 和 SO 上没有找到任何
训练 tesseract 与 iPhone 一起使用

我正在尝试在我的 iPhone 应用程序中使用 tesseract 2 04 只想检测数字我在这里所做的首先是使用这篇文章交叉编译 tesseract 以生成 lib 文件http robertcarlsen net 2009 07 15
如何从图像生成 tiff/box 文件以在 Windows 中训练 Tesseract

我正在尝试在 Windows 中训练 Tesseract 为此我需要一对 tiff box 文件并且我正在尝试使用 jTessBoxEditor 创建它但它不接受图像作为输入我也尝试过 boxFactory 但它无法正常运行有谁知道
在Tomcat中设置环境变量TESSDATA_PREFIX

我们正在使用名为 Tess4J 的 Tesseract OCR Java 库如果作为独立应用程序运行它可以正常工作它需要一个名为 TESSDATA PREFIX 的变量其中包含 tessdata 配置和其他字符集相关文件它也可以与

随机推荐

eclipse中SVN分支合并到主干

在项目开发中 xff0c 需要添加一些新的功能 xff0c 但是又不想影响到其他开发人员的项目进度 xff0c 所以决定使用SVN分支进行开发 xff0c 分支开发完毕后再合并到主干本文介绍如何在eclipse中合并分支到主干要想将分支
阿里云服务器

一年多之前 xff0c 也就11年5月份的样子 xff0c 阿里云云服务器产品线终于上线了但那时候 xff0c 国内完全没有能称得上云服务器的 xff0c 很多小公司就是搞个VPS就叫云服务器了以至于阿里云云服务器刚出来的时候 xff0
mac 下使用 iterm2 配置及快键键使用

mac 下使用 iterm2 配置及快键键使用标签 xff08 空格分隔 xff09 xff1a mac 之前介绍过一篇关于mac 下使用和配置 iterm2的blog 今天这篇稍微详细一点介绍并且搭配 zsh zsh 会单独开一篇博
Java实现快速排序

一原理快速排序算法通过多次比较和交换来实现排序 xff0c 其排序流程如下 xff1a 1 首先设定一个分界值 xff0c 通过该分界值将数组分成左右两部分 2 将大于或等于分界值的数据集中到数组右边 xff0c 小于分界值的数据集中到
C#，生信软件实践（03）——DNA数据库GenBank格式详解及转为FASTA序列格式的源代码

1 GenBank 1 1 NCBI 美国国家生物技术信息中心 xff08 美国国立生物技术信息中心 xff09 NCBI xff08 美国国立生物技术信息中心 xff09 是在NIH的国立医学图书馆 xff08 NLM xff09 的一个
【坑】zsh和oh-my-zsh卸载后导致无法登陆

apt get remove zsh 然后断开终端 xff0c 就再也连不上了 xff0c 崩溃啊 xff01 以下登陆为www用户登陆各种找 xff0c 到这里 https www cnblogs com EasonJim p 7863
获取最近使用应用列表

获取最近使用的应用列表需要使用到UsageStatsManager类 xff0c 还需要申请允许防御应用使用情况的权限 private void getPackagesInfo UsageStatsManager manager 61 Us
使用MediaProjectionManager进行截屏

最近项目中有用到远程截屏并上传截屏文件的需求一开始使用的是以下方法进行截屏 xff1a private void screenshot 获取屏幕 View dView 61 getWindow getDecorView dView set
安卓TV开发遇到的那些坑

最近公司需要开发一个TV的luancher xff0c 就是那种纯物理按键的遥控 xff0c 没有触摸屏 xff0c 现在说说我踩得那些坑 xff08 其实布局和代码逻辑和正常的安卓应用差不多 xff09 1 焦点焦点焦点 xff0c
安卓TV列表刷新时焦点自动变成第一个

最近在开发安卓TV项目 xff0c 列表调用notifyDataSetChanged xff08 xff09 方法刷新数据时 xff0c 焦点自动就变成第一个子item去了 xff0c 查了半天发现用notifyItemRangeChang
安卓蓝牙BLE设备通讯发送和接受超过20个字节的问题

最近做的项目是手机端和BLE设备通讯 xff0c 而BLE设备又做了限制一次包只能传递20个字节的数据 xff0c 多了就得分包发送 xff0c 在这里记录一下如何解决这个问题 xff08 PS xff1a 之前链接什么的回调什么的就不过
获取最近运行应用方法和杀进程的方法

最近公司的项目有个需求就是获取最近手机正在运行的进程 xff0c 以及杀掉进程就是类似于安卓手机中的长按home键的效果先说说获取最近手机正在运行的进程方法 xff1a 直接上代码 xff0c 代码中有注释 xff1a appbeans
把自己的应用程序push至system/app下，把自己的app改成系统级别的app

想把一个应用程序放入到系统文件夹下的话 xff0c 手机必须的root的情况下才能push进去下面我就说说步骤吧 xff1a 1 先把手机用USB和电脑连接 2 如果电脑配置了adb的环境的话直接cmd xff0c 未配置环境的话找到sd
ConcurrentModificationException异常出现原因以及解决方法

今天在开发过程中遇到一个异常叫ConcurrentModificationException xff0c 这个异常用我的白话翻译是叫同时修改异常这个异常是怎么出现的呢 xff0c 先看看已下的代码 xff1a span class hlj
retrofit中使用body标签传RequestBody

现在的Android开发者基本上都用过retrofit这个第三方网络请求库吧 xff01 xff01 xff01 网络请求中有get post delete和put等等请求方式现在我们需要用到post请求 xff1a span class
SpringBoot配置拦截器拦截器使用

拦截器介绍 Java中的拦截器是动态拦截 action 调用的对象 xff0c 然后提供了可以在 action 执行前后增加一些操作 xff0c 也可以在 action执行前停止操作 xff0c 功能与过滤器类似 xff0c 但是标准和实现
百度地图上根据经纬度集合绘制行车轨迹

以下是素材最近项目中用到了根据一段线路的经纬度集合来在地图上播放该车辆的行驶轨迹的需求下面我就讲一下我实现步骤效果图如下因为制作gif图为了控制大小去掉了很多帧不必在意这些细节嘿嘿 1 首先在界面上展示百度地图这不是废话么如
skip-GANomaly复现总结

文章目录 skip GANomaly复现总结附MvTec数据集介绍实验结果总结谈谈我对于skip GANomaly的看法最后的感想代码 skip GANomaly复现总结附MvTec数据集链接 xff1a https pan baid
YOLOv3 从入门到部署：（五）YOLOv3模型的部署（基于C++ opencv）

文章目录 YOLOv3 从入门到部署 xff1a xff08 五 xff09 YOLOv3模型的部署 xff08 基于C 43 43 opencv xff09 目录关于opencv的DNN介绍代码讲解效果展示 YOLOv3 从入门到部署 x
基于YOLO-fastest-xl的OCR

文章目录基于YOLO fastest xl的OCR项目介绍对于yolo fastest xl的结构的更改运行方法效果总结基于YOLO fastest xl的OCR github链接https github com qqsuhao yol

基于YOLO-fastest-xl的OCR

文章目录

基于YOLO-fastest-xl的OCR

项目介绍

对于yolo-fastest-xl的结构的更改

运行方法

效果总结

基于YOLO-fastest-xl的OCR 的相关文章

随机推荐

热门标签