MSCOCO数据集格式转化成VOC数据集格式

2023-11-18

MSCOCO数据集格式转化成VOC数据集格式


转载请注明原出处:http://blog.csdn.net/ouyangfushu/article/details/79543575

作者:SyGoing

QQ:  2446799425


SSD目标检测算法在MSCOCO上训练,SSD默认训练格式是VOC数据集格式,要想训练MSCOCO数据集可以将其转化成VOC,然后再训练。

一、数据集介绍

1、MSCOCO数据集(针对目标检测)

   COCO数据集是微软团队获取的一个可以用来图像recognition+segmentation+captioning数据集,数据集具有以下特点:

(1)Object segmentation

(2)Recognition in Context

(3)Multiple objects per image

(4)More than 300,000 images

(5)More than 2 Million instances

(6)80 object categories

(7)5 captions per image

(8)Keypoints on 100,000 people

COCO的2014版本的数据集一共有20G左右的图片和500M左右的标签文件。标签文件标记了每个segmentation的像素精确位置+bounding box的精确坐标,其精度均为小数点后两位。文件目录:

其中trian和val存放图片,annotations文件夹存放json格式的标注信息:

 

一个目标的标签示意如下(anotation的.json文件中):

{"segmentation":[[392.87,275.77, 402.24, 284.2, 382.54, 342.36, 375.99, 356.43, 372.23, 357.37, 372.23,397.7, 383.48, 419.27,407.87, 439.91, 427.57, 389.25, 447.26, 346.11, 447.26,328.29, 468.84, 290.77,472.59, 266.38], [429.44,465.23, 453.83, 473.67, 636.73,474.61, 636.73, 392.07, 571.07, 364.88, 546.69,363.0]], "area":28458.996150000003, "iscrowd": 0,"image_id": 503837, "bbox":[372.23, 266.38, 264.5,208.23], "category_id":4, "id": 151109}

详情参考MSCOCO链接:http://mscoco.org/

 

2、PASCAL VOC数据集(针对目标检测)

PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛在2012年后便不再举办,但其数据集图像质量好,标注完备,非常适合用来测试算法性能。

官网链接:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

   SSD官方给的训练demo就是在VOC数据集格式,

SSD目标检测主要关注:Annotations、ImageSets和JPEGImages

Annotations:存放每张图片的XML文件,该文件内容有每张图片目标的BBOX坐标、图片名称、类别等信息,文件的内容具体为:

1.   <annotation>  

2.       <folder>VOC2012</folder>                             

3.       <filename>2007_000392.jpg</filename>                  //文件名  

4.       <source>                                            //图像来源(不重要)  

5.           <database>The VOC2007 Database</database>  

6.           <annotation>PASCAL VOC2007</annotation>  

7.           <image>flickr</image>  

8.       </source>  

9.       <size>                //图像尺寸(长宽以及通道数)                        

10.         <width>500</width>  

11.         <height>332</height>  

12.         <depth>3</depth>  

13.     </size>  

14.     <segmented>1</segmented>      //是否用于分割(在图像物体识别中01无所谓)  

15.     <object>                              //检测到的物体  

16.         <name>horse</name>                //物体类别  

17.         <pose>Right</pose>                //拍摄角度  

18.         <truncated>0</truncated>          //是否被截断(0表示完整)  

19.         <difficult>0</difficult>   //目标是否难以识别(0表示容易识别)  

20.         <bndbox>                  //bounding-box(包含左下角和右上角xy坐标)  

21.             <xmin>100</xmin>  

22.             <ymin>96</ymin>  

23.             <xmax>355</xmax>  

24.             <ymax>324</ymax>  

25.         </bndbox>  

26.     </object>  

27.     <object>                                      //检测到多个物体  

28.         <name>person</name>  

29.         <pose>Unspecified</pose>  

30.         <truncated>0</truncated>  

31.         <difficult>0</difficult>  

32.         <bndbox>  

33.             <xmin>198</xmin>  

34.             <ymin>58</ymin>  

35.             <xmax>286</xmax>  

36.             <ymax>197</ymax>  

37.         </bndbox>  

38.     </object>  

39. </annotation>  

ImageSets:存放的是每一种类型的challenge对应的图像数据。

在ImageSets下有四个文件夹:


目标检测主要关注Main文件下包含test.txt,train.txt,trainval.txt,val.txt四个txt文件:


实际用到的事test.txt和trainval.txt(val.txt和train.txt的结合)

JPEGImages:存放所有图片的文件夹。


二、数据集转化(COCOàVOC)

   对于数据集有个初步认识之后,现在开始实施转化。主要是生成VOC的XML格式,这一步完成剩下的就很简单了,这里我只是筛选其中的car,bus,truck,person。

准备工作:建立好一个存放COCOàVOC的文件夹,该文件夹VOC2007_g,该目录下包含Annotations,ImageSets,JPEGImages三个文件:

好的,现在开始:

Step 1:截取需要的类别(和VOC相同的类别) getclassNum.py

#-*- coding:utf-8-*-
import json
className = {
    1:'person',
    3:'car',
    6:'bus',
    8:'truck'
}
classNum = [1, 3,6,8]
cocojson="E:/coco/COCO/annotations/instances_train2014.json"
def writeNum(Num):
    withopen("COCO_train.json", "a+") as f:
        f.write(str(Num))
inputfile = []
inner = {}
with open(cocojson, "r+") as f:
    allData = json.load(f)
    data =allData["annotations"]
    print(data[1])
    print("read ready")
for i in data:
    if (i['category_id'] in classNum):
        inner = {
            "filename":str(i["image_id"]).zfill(12),
            "name":className[i["category_id"]],
            "bndbox":i["bbox"]
        }
        inputfile.append(inner)
inputfile = json.dumps(inputfile)
writeNum(inputfile)

 

Step2: 根据选取出来的类别中的图片筛选需要的图片到指定目录存放。chooseImagesbyID.py

# -*- coding: utf-8 -*-
# @Time    : 2018/03/09 10:46
# @Author  : SyGoing
# @Site    :
# @File    : getimagesbyID.py
# @Software: PyCharm
import json
import os
import cv2
nameStr = []
with open("COCO_train.json", "r+") as f:
    data = json.load(f)
    print("read ready")
for i in data:
    imgName = "COCO_train2014_"+ str(i["filename"]) + ".jpg"
    nameStr.append(imgName)
nameStr = set(nameStr)
print(nameStr)
print(len(nameStr))


path = 'E:/coco/COCO/train/'
savePath="E:/coco/COCO/VOC2007_/JPEGImages/"
count=0
for file in nameStr:
    img=cv2.imread(path+file)
    cv2.imwrite(savePath+file,img)
    count=count+1
    print('num: '+count.__str__()+'     '+file+'\n')

Step 3:根据筛选出来的图片ID生成VOC数据集的XML文件到Annotations文件夹下。CreateXML.py

#-*- coding:utf-8-*-

import xml.dom
import xml.dom.minidom
import os
# from PIL import Image
import cv2
import json

# xml文件规范定义


_IMAGE_PATH = 'E:/coco/COCO/train'

_INDENT = '' * 4
_NEW_LINE = '\n'
_FOLDER_NODE = 'COCO2014'
_ROOT_NODE = 'annotation'
_DATABASE_NAME = 'LOGODection'
_ANNOTATION = 'COCO2014'
_AUTHOR = 'SyGoing_CSDN'
_SEGMENTED = '0'
_DIFFICULT = '0'
_TRUNCATED = '0'
_POSE = 'Unspecified'

# _IMAGE_COPY_PATH= 'JPEGImages'
_ANNOTATION_SAVE_PATH = 'E:/coco/COCO/VOC2007_/Annotations'


# _IMAGE_CHANNEL= 3

# 封装创建节点的过程
def createElementNode(doc, tag, attr):  #创建一个元素节点
    element_node = doc.createElement(tag)

    # 创建一个文本节点
    text_node = doc.createTextNode(attr)

    # 将文本节点作为元素节点的子节点
    element_node.appendChild(text_node)

    return element_node


# 封装添加一个子节点
def createChildNode(doc, tag, attr, parent_node):
    child_node = createElementNode(doc,tag, attr)

    parent_node.appendChild(child_node)


# object节点比较特殊
def createObjectNode(doc, attrs):
    object_node =doc.createElement('object')

    midname=attrs['name']

    if midname !='person':
        midname='car'

    createChildNode(doc, 'name', midname,
                    object_node)

    #createChildNode(doc, 'name',attrs['name'],
    #                object_node)

    createChildNode(doc, 'pose',
                    _POSE, object_node)

    createChildNode(doc, 'truncated',
                    _TRUNCATED,object_node)

    createChildNode(doc, 'difficult',
                    _DIFFICULT,object_node)

    bndbox_node = doc.createElement('bndbox')

    createChildNode(doc, 'xmin',str(int(attrs['bndbox'][0])),
                    bndbox_node)

    createChildNode(doc, 'ymin',str(int(attrs['bndbox'][1])),
                    bndbox_node)

    createChildNode(doc, 'xmax',str(int(attrs['bndbox'][0] + attrs['bndbox'][2])),
                    bndbox_node)

    createChildNode(doc, 'ymax',str(int(attrs['bndbox'][1] + attrs['bndbox'][3])),
                    bndbox_node)

    object_node.appendChild(bndbox_node)

    return object_node


# 将documentElement写入XML文件
def writeXMLFile(doc, filename):
    tmpfile = open('tmp.xml', 'w')

    doc.writexml(tmpfile, addindent='' *4, newl='\n', encoding='utf-8')


    tmpfile.close()

    # 删除第一行默认添加的标记

    fin = open('tmp.xml')
    # print(filename)
    fout = open(filename, 'w')
    # print(os.path.dirname(fout))

    lines = fin.readlines()

    for line in lines[1:]:

        if line.split():
            fout.writelines(line)

            # new_lines =''.join(lines[1:])

        # fout.write(new_lines)

    fin.close()

    fout.close()


if __name__ == "__main__":
    ##读取图片列表
    img_path ="E:/coco/COCO/VOC2007_/JPEGImages/"
    fileList = os.listdir(img_path)
    if fileList == 0:
        os._exit(-1)

    withopen("COCO_train.json", "r") as f:
        ann_data = json.load(f)

    current_dirpath =os.path.dirname(os.path.abspath('__file__'))

    if notos.path.exists(_ANNOTATION_SAVE_PATH):
        os.mkdir(_ANNOTATION_SAVE_PATH)

        # if notos.path.exists(_IMAGE_COPY_PATH):
    #    os.mkdir(_IMAGE_COPY_PATH)

    for imageName in fileList:

        saveName =imageName.strip(".jpg")
        print(saveName)
        # pos =fileList[xText].rfind(".")
        # textName =fileList[xText][:pos]

        # ouput_file = open(_TXT_PATH +'/' + fileList[xText])
        # ouput_file =open(_TXT_PATH)

        # lines = ouput_file.readlines()

        xml_file_name =os.path.join(_ANNOTATION_SAVE_PATH, (saveName + '.xml'))
        # withopen(xml_file_name,"w") as f:
        #     pass

        img =cv2.imread(os.path.join(img_path, imageName))
        print(os.path.join(img_path,imageName))
        # cv2.imshow(img)
        height, width, channel =img.shape
        print(height, width, channel)

        my_dom = xml.dom.getDOMImplementation()

        doc = my_dom.createDocument(None,_ROOT_NODE, None)

        # 获得根节点
        root_node = doc.documentElement

        # folder节点

        createChildNode(doc, 'folder',_FOLDER_NODE, root_node)

        # filename节点

        createChildNode(doc, 'filename',saveName + '.jpg', root_node)

        # source节点

        source_node =doc.createElement('source')

        # source的子节点

        createChildNode(doc, 'database',_DATABASE_NAME, source_node)

        createChildNode(doc, 'annotation',_ANNOTATION, source_node)

        createChildNode(doc, 'image','flickr', source_node)

        createChildNode(doc, 'flickrid','NULL', source_node)

       root_node.appendChild(source_node)

        # owner节点

        owner_node = doc.createElement('owner')

        # owner的子节点

        createChildNode(doc, 'flickrid','NULL', owner_node)

        createChildNode(doc, 'name',_AUTHOR, owner_node)

        root_node.appendChild(owner_node)

        # size节点

        size_node =doc.createElement('size')

        createChildNode(doc, 'width',str(width), size_node)

        createChildNode(doc, 'height',str(height), size_node)

        createChildNode(doc, 'depth',str(channel), size_node)

        root_node.appendChild(size_node)

        # segmented节点

        createChildNode(doc, 'segmented',_SEGMENTED, root_node)

        for ann in ann_data:
            imgName ="COCO_train2014_" + str(ann["filename"])
            cname=saveName;
            if (saveName == imgName ):
                # object节点
                object_node =createObjectNode(doc, ann)
               root_node.appendChild(object_node)

            else:
                continue

                # 构建XML文件名称

        print(xml_file_name)

        # 创建XML文件

        # createXMLFile(attrs, width,height, xml_file_name)

        # # 写入文件
        #
        writeXMLFile(doc, xml_file_name)

 

Step4:生成Main文件夹下的trainval.txt,train.txt,val.txt

Test.txt. 这里用的事matlab写的.m文件

clc; 

clear; 

 

xmlfilepath='F:\ObjectDetection\object_mark\datamake\VOCdevkit\VOC2007\Annotations'; 

txtsavepath='F:\ObjectDetection\object_mark\datamake\VOCdevkit\VOC2007\ImageSets\Main\'; 

trainval_percent=0.5;  

train_percent=0.5;     

 

xmlfile=dir(xmlfilepath); 

numOfxml=length(xmlfile)-2;

 

trainval=sort(randperm(numOfxml,floor(numOfxml*trainval_percent))); 

test=sort(setdiff(1:numOfxml,trainval)); 

 

trainvalsize=length(trainval);

train=sort(trainval(randperm(trainvalsize,floor(trainvalsize*train_percent)))); 

val=sort(setdiff(trainval,train)); 

 

ftrainval=fopen([txtsavepath'trainval.txt'],'w'); 

ftest=fopen([txtsavepath'test.txt'],'w'); 

ftrain=fopen([txtsavepath'train.txt'],'w'); 

fval=fopen([txtsavepath'val.txt'],'w'); 

 

for i=1:numOfxml 

    if ismember(i,trainval) 

       fprintf(ftrainval,'%s\n',xmlfile(i+2).name(1:end-4)); 

        if ismember(i,train) 

           fprintf(ftrain,'%s\n',xmlfile(i+2).name(1:end-4)); 

        else 

           fprintf(fval,'%s\n',xmlfile(i+2).name(1:end-4)); 

        end 

    else 

       fprintf(ftest,'%s\n',xmlfile(i+2).name(1:end-4)); 

    end 

end 

fclose(ftrainval); 

fclose(ftrain); 

fclose(fval); 

fclose(ftest); 

 

 

到这里基本完工!然后根据自己的需求应用吧!

 

参考博客:

http://blog.csdn.net/zhangjunbob/article/details/52769381

http://blog.csdn.net/yjl9122/article/details/56842098

http://blog.csdn.net/hehangjiang/article/details/79108232

http://blog.csdn.net/u012905422/article/details/52372755

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

MSCOCO数据集格式转化成VOC数据集格式 的相关文章

  • DateFormat类

    DateFormat类 DateFormat类用于将日期格式化为字符串或者将用特定格式显示的日期字符串转换成一个Date对象 DateFormat是一个抽象类 不能直接被实例化 提供了一系列静态方法来获取DateFormat类的实例对象 D
  • 一文读懂「Attention is All You Need」

    前言 2017 年中 有两篇类似同时也是笔者非常欣赏的论文 分别是 FaceBook 的Convolutional Sequence to Sequence Learning和 Google 的Attention is All You Ne
  • Android实战——Zxing实现二维码扫描

    Zxing实现二维码扫描 前言 本篇文章从初学者的角度出发 从一个不知道对二维码扫描怎么下手的工作者 需要一个简单的扫描功能的话 可以阅读该篇文章 作为Google开源框架Zxing 里面的文件很大 这里主要讲的是精简ZXing项目后只保留
  • 数据库字典表设计

    数据库字典表设计 村长大神 发表于2年前 在稍大一些的项目中 我们总是需要管理各种各样的类型类型数据 如商品类型 游戏类型 对于这些类型的管理类似 如果为每 一种类型都建立一张表去维护 而在项目中 正常

随机推荐

  • H.264视频码流解析

    原理 H 264原始码流 又称为 裸流 是由一个一个的NALU组成的 他们的结构如下图所示 其中每个NALU之间通过startcode 起始码 进行分隔 起始码分成两种 0x000001 3Byte 或者0x00000001 4Byte 如
  • 在vs2005中,写c程序,所有的局部变量都要放在函数体的最前面

    没有放在最前面的源码 怎么办呢 修改量太大
  • matlab动态神经网络进行时间序列预测分析

    matlab动态神经网络进行时间序列预测分析 时间序列预测问题分类 有y 无x 即 y t f y t 1 y t 2 y t f y t
  • Pycharm上Modify Run Configuration的使用方法,带参数配置

    前言 我们在搭建yolo系列目标检测模型时 往往需要对代码进行逐步调试 及时发现错误 所以本文在pycharm的基础上 对yolov6中的infer py进行逐步调试 首先我们在conda环境一切准备就绪的情况下 能在终端tenminal中
  • 【UE5 Cesium】11-Cesium for Unreal 切换Dynamic Pawn为其它Pawn

    前言 我们知道在Cesium for Unreal中默认使用的是DynamicPawn来浏览地图场景 DynamicPawn适用全球浏览 可以按自定义曲线进行飞行 但是DynamicPawn是使用的是地理参考坐标系 并不是标准的UE坐标系
  • iOS利用九切片进行切图UI不会变形

    p 1 手写代码 p p p UIImageView svRect UIImage backgroundImage UIImageimageNamed bg png backgroundImage backgroundImageresiza
  • 《机器学习》读书笔记2--线性模型

    目录 线性模型基本形式 线性回归 对数几率回归 线性判别分析 多分类学习 类别不平衡问题 ps 写在前面 本文是在参加datawhale组队学习 学习周志华老师的 机器学习 过程的学习笔记 文中出现的图片均引自 机器学习 机器学习 是初学者
  • AI绘画Stable Diffusion原理之扩散模型DDPM

    前言 传送门 stable diffusion Git 论文 stable diffusion webui Git Google Colab Notebook部署stable diffusion webui Git kaggle Noteb
  • 量化交易框架开发实践(一)

    量化交易平台指支持通过对数据进行多维度的定量分析 结合发现的特征定制策略 并能够基于历史数据对策略进行回测 最后支持实盘买卖的交易平台 从业务流上看 量化交易可以分解成 行情获取 gt 数据清洗 gt 指标计算 gt 策略开发 gt 策略回
  • RobotStudio ABB 仿真软件过期 后的处理

    首先查看当前是在试用期还是已经过期了 查看方法如下 在打开软件后的首页找到 帮助 右侧会显示当前授权状态是否为 试用 1 如果当前在试用期内 可以通过直接修改注册表方式 修改方法 找到如下位置 HKEY LOCAL MACHINE SOFT
  • 正则表达式匹配中* . c++实现

    题目描述 请实现一个函数用来匹配包括 和 的正则表达式 模式中的字符 表示任意一个字符 而 表示它前面的字符可以出现任意次 包含0次 在本题中 匹配是指字符串的所有字符匹配整个模式 例如 字符串 aaa 与模式 a a 和 ab ac a
  • QT 怎么导入qss文件?

    方式一 比较常见的方法 QFile file qss psblack css if file open QFile ReadOnly QString qss QLatin1String file readAll qApp gt setSty
  • 提高电脑寿命的维护技巧与方法分享

    在维护电脑运行方面 我有一些自己觉得非常有用的技巧和方法 下面我将分享一些我常用的维护技巧 并解释为什么我会选择这样做以及这样做的好处 首先 我经常清理我的电脑内部的灰尘 电脑内部的灰尘会影响散热效果 导致电脑发热严重甚至性能下降 因此 定
  • Google Colab 上部署 Stable Diffusion Web UI

    什么是 Stable Diffusion Web UI Colab Stable Diffusion 是 Stability AI 推出的一个基于深度学习技术文字生成图片AI模型 Stable Diffusion Web UI 是一个强大好
  • [技术经理]03 到底是能力重要,还是态度重要?

    对于一个技术团队而言 团队里面的人员是最最重要的财富 人员的招聘和人员的管理是技术经理最重要的工作之一 但是 事实也是 没有什么问题比人的问题更难处理的了 我先讲两个发生在我们团队里面的事件 今年上半年的时候 我们团队同时入职了两名前端开发
  • C语言中sizeof()和strlen()的区别

    sizeof 一 sizeof的基本概念 sizeof操作符以字节形式给出了其操作数的存储大小 操作数可以是一个表达式或括在括号 内的类型名 操作数的存储大小由操作数的类型决定 二 使用方法 1 用于数据类型 sizeof使用形式 size
  • UBUNTU16.04命令行安装PCL1.7(亲测有效)

    安装PCL点云库 最开始是按照先安装相关依赖 然后github上clone PCL相关版本包的形式安装的 编译遇到了很多问题 结果最后安装完成 但却无法运行例程 难过 又尝试了命令行的形式 命令行的形式直观简单 可安装编译好的点云库 PCL
  • [Python人工智能] 九.gensim词向量Word2Vec安装及《庆余年》中文短文本相似度计算

    从本专栏开始 作者正式开始研究Python深度学习 神经网络及人工智能相关知识 前一篇详细讲解了卷积神经网络CNN原理 并通过TensorFlow编写CNN实现了MNIST分类学习案例 本篇文章将分享gensim词向量Word2Vec安装
  • 时频分析常用工具:STFT短时傅里叶变换 & 小波变化

    文章目录 1 傅里叶变换的局限性 2 STFT 3 小波变换 参考 时频分析之STFT 短时傅里叶变换的原理与实现 形象易懂讲解算法I 小波变换 https www zhihu com question 58814934 1 傅里叶变换的局
  • MSCOCO数据集格式转化成VOC数据集格式

    MSCOCO数据集格式转化成VOC数据集格式 转载请注明原出处 http blog csdn net ouyangfushu article details 79543575 作者 SyGoing QQ 2446799425 SSD目标检测