Synth text 数据集官网下载的主要包含图像文件夹和gt.mat标注文件,共85万(858750)多张图片数据。该数据集中包含了词级别标注、字符级别标注和文本识别内容,可用于文本检测和文本识别模型。
1、mat格式标注文件读取,采用scipy.io中的loadmat函数读取,读到的结果是一个字典。
from scipy.io import loadmat
m = loadmat('gt.mat')
2、Synth text的mat标注数据的keys包括('__header__', '__version__', '__globals__', 'charBB', 'wordBB', 'imnames', 'txt'),关键的标注数据有:
(1)'charBB':字符标注框,绝对坐标,1x858750;
(2) 'wordBB':词标注框,绝对坐标,1x858750;
(3) 'imnames':图片名称,1x858750;
(4) 'txt':文本识别内容,,1x858750。
3、字符和词标注框:以词标注框为例,首先分为两个维度,一个是x坐标,一个是y坐标。这两个维度又分别包含4个维度,这4个维度分别对应左上、右上、右下和左下四个点的坐标。这些维度下包含N个值,这N个值就代表N个字符或词。
4、imnames存放图片名称
5、txt文本识别内容,包含去不的字符和单词,单词的实际个数不是txt的长度,txt可能认为是句子的标注,词需要根据其中的换行符\n进行区分。