收藏丨8个常用中文OCR数据集,附下载链接

2023-10-31

扫一扫识别文字、拍照翻译、拍照搜题、车牌自动识别……这些随处可见的功能,给我们的工作和生活带来了极大的便利,其背后都离不开OCR技术的支持。

随着深度学习技术的发展,智能OCR算法与应用也越来越丰富,对相关数据的需求也增加。

许多小伙伴反馈中文OCR数据集不好找,今天我们贴心地帮大家整理了8个常用的中文OCR数据集资源,记得收藏。

 No.1  

MSRA-TD500 (MSRA Text Detection 500 Database)

下载链接:

https://opendatalab.com/MSRA-TD500

MSRA-TD500由华中科技大学于 2012 年在 CVPR 发布,是一个用于测试和评估多方向、多语言文字检测算法的自然图像数据集,包含500幅拍摄于室内(办公室和商场)和室外(街道)场景的自然图像。室内的图像主要包括标识、门牌和标牌等,室外的图像主要是路牌和广告牌等。图像的分辨率较高,介于1294*864和1920*1280之间。

该数据集由两部分构成:训练集、测试集。训练集中一共有300幅图像,通过随机抽样的形式从原始数据集中抽取出来。余下的200幅图像构成测试集。

数据集中的所有图像都经过完整标注。数据集的基本单元是文本行而非单词。

MSRA-TD500数据集样例(图源:参考资料[1])

MSRA-TD500数据集中的典型图像以及文字的标准矩形框 每一个矩形框对应一个文本行。红色的矩形框表示其中的文字被标记为“困难”。在MSRA-TD500数据集中,难以检测的文字(一般由低分辨率、模糊和遮挡等因素造成)会被标记为“困难”。

 No.2  

Chinses Text in the Wild(CTW)

下载链接:

https://ctwdataset.github.io/

由清华大学与腾讯共同推出的一个大型中文自然文本数据集(Chinese Text in the Wild,CTW)。该数据集包含 32,285 张图像和 1,018,402 个中文字符。

每张图像尺寸为2048*2048,数据集大小为31GB。CTW以(8:1:1)的比例将数据集分为:

训练集(25887张图像,812872个中文字符);

测试集(3269张图像,103519个中文字符);

验证集(3129张图像,103519个中文字符);

这些图像源于腾讯街景,从中国的几十个不同城市中捕捉得到。数据多样、复杂,它包含了平面文本、凸出文本、城市街景文本、乡镇街景文本、弱照明条件下的文本、远距离文本、部分显示文本等。

CTW数据集样例示意(图源:参考资料[2])

对于每张图像,数据集中都标注了所有中文字符。对每个中文字符,数据集都标注了其真实字符、边界框和 6 个属性以指出其是否被遮挡、有复杂的背景、被扭曲、3D 凸出、艺术化,和手写体等。

 No.3  

Reading Chinses Text in the Wild(RCTW-17)

下载链接:

https://rctw.vlrlab.net/dataset.html

ICDAR(国际文档分析和识别大会)在2017年发起了一项专注于中文检测和识别比赛项目(RCTW),RCTW-17为竞赛数据集,它由12263张包含中文的自然场景图片组成,其中大部分是直接由摄像头或手机拍摄,少部分为生成图像,并且每张图像至少包含一行中文。图像尺寸不规则,数据集大小为11.4GB。

数据的标注均通过标注工具手工标注完成,通过绘制四边形来标注一个文本行,而不是以单词为单位进行标注,每个文本行的内容以UTF-8字符串进行标注。在数据集中存在字体、布局和语言等多样性。

数据集划分为两部分:训练集和验证集。训练集包含8034张图片,测试集包含4229张图片。

RCTW-17数据集样例示意(图源:参考资料[3])

 No.4  

ICPR MWI 2018挑战赛

下载链接:

https://tianchi.aliyun.com/competition/entrance/231685/information

ICPR MWI 大赛提供的包含2000张图像的官方数据集,主要由合成图像,产品描述,网络广告构成。该数据集数据量充分,中英文混合,涵盖数十种字体,字体大小不一,多种版式,背景复杂。数据集大小为2GB。其中训练集10000张,测试集10000张。

ICPR MWI 2018数据集标注样例,红框代表标注的文本框(图源:参考资料[4])

 No.5  

ShopSign

下载链接:

https://github.com/chongshengzhang/shopsign

该数据由河南大学科研团队发布的,是一个大规模中英文自然场景文本数据集,其包含25770张街景中文招牌图像,196010条文本行。

ShopSign中的图像是在不同的场景(市中心到偏远地区)中使用50多种不同的手机拍摄。相比于CTW,其包含了4000张夜间图像,同时也包含了2516对图像来对一个sign获取水平和多视角的图片。其包含多种分辨率,包括3024*4032、1920*1080、2180*720等。

CMT主要包含了几个主要发达城市,而ShopSign包含的地理范围广(北京、上海、厦门、新疆、蒙古、牡丹江、葫芦岛和河南省的一些城市和小城镇),包括许多街景车辆无法到达的郊区或小城镇。CMT使用了固定的拍摄角度,而ShopSign使用了多种角度进行拍摄。[5]

ShopSign数据集中广告牌样例示意(图源:参考资料[5])

ShopSign数据集中广告牌分类示意(图源:参考资料[5])

注释包括了每个文本行的四边形边界框的坐标(顺序:左上、右上、右下、左下)以及相对应的文本行的相应文本。ShopSign仅仅处理广告牌上的文本。

 No.6  

ICDAR2019-LSVT

下载链接:

https://github.com/chongshengzhang/shopsign

ICDAR 2019-LSVT(Large-scale Street View Text with Partial Labeling,弱标注大规模街景文字识别)国际学术竞赛公开的大规模弱标注场景文字数据集。

数据集采自中国街景,并由街景图片中的文字行区域(例如店铺标牌、地标等等)截取出来而形成。是首个提出弱标注数据的场景文字数据集,其中包括5万张精标注街景图像、40万张弱标注街景图像,总计45万张。

所有图像都经过一些预处理,将文字区域利用仿射变化,等比映射为一张高为48像素的图片。

LSVT数据集精标注示意(图源:参考资料[6])

LSVT数据集弱标注示意(图源:参考资料[6])

 No.7  

TotalText

下载链接:

https://opendatalab.com/TotalText

Total-Text是最大弯曲文本数据集之一-ArT(任意形状文本数据集)训练集中的一部分。该数据集共1555张图像,11459文本行,包含水平文本,倾斜文本,弯曲文本。文件大小441MB。大部分为英文文本,少量中文文本。其中训练集有1255张图像,测试集有300张图像。

TotalText数据集样例示意(图源:OpenDataLab)

 No.8  

Caffe-ocr中文合成数据

下载链接:

https://github.com/senlinuc/caffe_ocr

共360万张图片,图像分辨率为280*32,文件大小约为8.6GB。数据利用中文语料库(新闻+文言文),通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成,字典中包含汉字、标点、英文、数字共5990个字符(语料字频统计,全角半角合并)。

每个样本固定10个字符,字符随机截取自语料库中的句子。按9:1分成训练集、验证集,测试集约6万张。

Caffe-ocr数据集样例示意(图源:参考资料[7])

参考资料

[1]http://www.iapr-tc11.org/dataset/MSRA-TD500/Detecting_Texts_of_Arbitrary_Orientations_in_Natural_Images.pdf

[2]https://ctwdataset.github.io/

[3]https://arxiv.org/pdf/1708.09585v2.pdf

[4]https://tianchi.aliyun.com/competition/entrance/231685/information

[5]https://arxiv.org/pdf/1903.10412v1.pdf

[6]https://rrc.cvc.uab.es/?ch=16

[7]https://github.com/senlinuc/caffe_ocr

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

收藏丨8个常用中文OCR数据集,附下载链接 的相关文章

  • 常见多线程与并发服务器设计方案举例

    常见多线程与并发服务器设计方案举例 一 3点基础知识 1 一个主机的端口号为所有进程所共享 但普通用户进程绑定bind不了一些特殊端口号如20 80等 多个进程不能同时监听listen同一个端口 会失败 当然父进程可以先listen然后fo

随机推荐

  • kotlin时间戳转格式化时间

    kotlin时间戳转对应时间格式有很简洁的语法糖 下面就一起了解一下吧 比如说UI图需要这样的时间格式 10月20日 10 24 data createTime toLong formatBy MM月dd日 HH mm 10 20 10 2
  • 【VirtualBox】win10安装配置 Vbox---超详细 最新 持续更新中

    概述 一个好的文章能够帮助开发者完成更便捷 更快速的开发 书山有路勤为径 学海无涯苦作舟 我是秋知叶i 期望每一个阅读了我的文章的开发者都能够有所成长 一 开发环境 VirtualBox 官网 开发环境 windows10 VirtualB
  • 程序,进程,作业之间的区别和联系

    程序与进程之间的区别 1 进程更能真实地描述并发 而程序不能 2 进程由程序和数据两部分组成 进程是竞争计算机系统有限资源的基本单位 也是进程处理机调度的基本单位 3 程序是静态的概念 进程是程序在处理机上一次执行的过程 是动态的概念 4
  • vue-cli3.0 项目内使用vue-skeleton-webpack-plugin插件根据路由来渲染不同的骨架屏

    为了前端体验更加友好 减缓用户的焦虑情绪 提升项目质量等 我们在项目里面可以使用骨架屏 提前渲染出来一个跟正式页面相似的页面出来 减小首屏加载时间 在vue中使用骨架屏 因为我们的代码会使用webpack打包 所以在我们的js下载运行之前
  • Django电商项目(九)用户中心-订单页、支付宝对接、订单评论

    Django电商项目 订单支付页面 用户订单页面 支付宝支付 订单评论 订单支付页面 订单支付模板 extends base user center html load staticfiles block right content div
  • Dynamics CRM邮箱配置

    Dynamics CRM对邮箱有很好的支持 开通邮箱后方便用户通过邮件进行Dynamics CRM的业务处理 同时也可以作为一直消息流提醒的手段应用于审批 通知等场景 可以做一些更深入的功能拓展 本次集成以Outlook邮箱为例 集成方式使
  • Webpack基础打包

    认识webpack 事实上随着前端的快速发展 目前前端的开发已经变的越来越复杂了 比如开发过程中我们需要通过模块化的方式来开发 比如也会使用一些高级的特性来加快我们的开发效率或者安全性 比如通过ES6 TypeScript开发脚本逻辑 通过
  • 【华为OD统一考试A卷

    华为OD统一考试A卷 B卷 新题库说明 2023年5月份 华为官方已经将的 2022 0223Q 1 2 3 4 统一修改为OD统一考试 A卷 和OD统一考试 B卷 你收到的链接上面会标注A卷还是B卷 请注意 根据反馈 目前大部分收到的都是
  • 利用LSB算法隐藏文字信息的MATLAB实现

    LSB算法 隐藏文字信息 LSB Least Significant Bit 最低有效位 指二进制中最低位数值 详见WiKi https en wikipedia org wiki Least significant bit 隐写术 隐写术
  • FPGA原理与结构——FIFO IP核原理学习

    一 FIFO概述 1 FIFO的定义 FIFO是英文First In First Out的缩写 是一种先入先出的数据缓冲器 与一般的存储器的区别在于没有地址线 使用起来简单 缺点是只能顺序读写数据 其数据地址由内部读写指针自动加1完成 不能
  • No module named ‘tensorflow.examples.tutorials‘报错解决办法

    如图该情况报错 解决办法 1 照着图片上 打开anconda中的cmd prompt 输入如下代码 如下图 查看自己tensorflow安装路径 activate tensorflow python import tensorflow as
  • 375. 猜数字大小 II

    我们正在玩一个猜数游戏 游戏规则如下 我从 1 到 n 之间选择一个数字 你来猜我选了哪个数字 如果你猜到正确的数字 就会 赢得游戏 如果你猜错了 那么我会告诉你 我选的数字比你的 更大或者更小 并且你需要继续猜数 每当你猜了数字 x 并且
  • Android JNI编程 与 NDK开发(一) 简介,区别,使用场景

    JNI是什么 JNI 全称Java Native Interface 是java与其他语言 主要是c c 交互的接口 是java的一种特性一种协议 开发者可以通过JNI在java中调用c c 代码或在c c 中调用java代码 NDK是什么
  • checkbox与dataTable的完美结合

    本文介绍了richface的一种使用情况 datatable和checkbox的结合 rich dataTable是很不错的web控件 但如果编写如下图效果的业务 必须结合checkbox来使用 现附上代码 然后分析 Html代码
  • Xpath方法精准采集网页内容-完整版

    采集规则配置时 主要的问题是如何只采集网页上的有效内容 现在新一代的采集工具都会先智能自动配置好采集规则 效果与准确性就得看各家采集器的智能算法了 但如果有特殊的需求 要采集网页上特定区域的内容 智能算法配置的采集规则就得进行修改了 重新定
  • ArchiMate® 3.1 规范:新版标准

    2019年11月5日 面向Enterprise Architecture的最新版 ArchiMate 建模语言在阿姆斯特丹 The Open Group 会议上发布 版本 3 1 是对之前主要版本 3 0 2016 年发布 的更新 此次更新
  • Web前端——Javascript学习(API)

    1 API 应用程序编程接口 这是实现的 现成的对象和方法 提高开发效率 2 数组API 1 arr to String var str arr toString var str arr join 连接符 自定义连接符 固定套路 1 将字符
  • Python新手入门-操作篇

    原文来自于 https www jb51 net article 163306 htm pycharm是一款高效的python IDE工具 它非常强大 且可以跨平台 是新手首选工具 下面我给第一次使用这款软件的朋友做一个简单的使用教程 希望
  • redhat系统操作小解

    redhat操作系统常见操作问题 今天给大家讲一讲redhat系统常见的操作问题 不用命令就能知道的问题 很多大家都是知道的 但也给大家一一罗列出来 希望能够有帮助 也是对自己知识的一种巩固 首先 大家看到的是开机界面 一般无论是普通用户还
  • 收藏丨8个常用中文OCR数据集,附下载链接

    扫一扫识别文字 拍照翻译 拍照搜题 车牌自动识别 这些随处可见的功能 给我们的工作和生活带来了极大的便利 其背后都离不开OCR技术的支持 随着深度学习技术的发展 智能OCR算法与应用也越来越丰富 对相关数据的需求也增加 许多小伙伴反馈中文O