MSCOCO数据集格式转化成VOC数据集格式

2023-11-18

MSCOCO数据集格式转化成VOC数据集格式

转载请注明原出处：http://blog.csdn.net/ouyangfushu/article/details/79543575

作者：SyGoing

QQ: 2446799425

SSD目标检测算法在MSCOCO上训练，SSD默认训练格式是VOC数据集格式，要想训练MSCOCO数据集可以将其转化成VOC，然后再训练。

一、数据集介绍

1、MSCOCO数据集（针对目标检测）

COCO数据集是微软团队获取的一个可以用来图像recognition+segmentation+captioning数据集，数据集具有以下特点：

（1）Object segmentation

（2）Recognition in Context

（3）Multiple objects per image

（4）More than 300,000 images

（5）More than 2 Million instances

（6）80 object categories

（7）5 captions per image

（8）Keypoints on 100,000 people

COCO的2014版本的数据集一共有20G左右的图片和500M左右的标签文件。标签文件标记了每个segmentation的像素精确位置+bounding box的精确坐标，其精度均为小数点后两位。文件目录：

其中trian和val存放图片，annotations文件夹存放json格式的标注信息：

一个目标的标签示意如下（anotation的.json文件中）：

{"segmentation":[[392.87,275.77, 402.24, 284.2, 382.54, 342.36, 375.99, 356.43, 372.23, 357.37, 372.23,397.7, 383.48, 419.27,407.87, 439.91, 427.57, 389.25, 447.26, 346.11, 447.26,328.29, 468.84, 290.77,472.59, 266.38], [429.44,465.23, 453.83, 473.67, 636.73,474.61, 636.73, 392.07, 571.07, 364.88, 546.69,363.0]], "area":28458.996150000003, "iscrowd": 0,"image_id": 503837, "bbox":[372.23, 266.38, 264.5,208.23], "category_id":4, "id": 151109}

详情参考MSCOCO链接：http://mscoco.org/

2、PASCAL VOC数据集（针对目标检测）

PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试，提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录：人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛在2012年后便不再举办，但其数据集图像质量好，标注完备，非常适合用来测试算法性能。

官网链接：http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

SSD官方给的训练demo就是在VOC数据集格式，

SSD目标检测主要关注：Annotations、ImageSets和JPEGImages

Annotations:存放每张图片的XML文件，该文件内容有每张图片目标的BBOX坐标、图片名称、类别等信息，文件的内容具体为：

1.   <annotation>  

2.       <folder>VOC2012</folder>                             

3.       <filename>2007_000392.jpg</filename>                  //文件名  

4.       <source>                                            //图像来源（不重要）  

5.           <database>The VOC2007 Database</database>  

6.           <annotation>PASCAL VOC2007</annotation>  

7.           <image>flickr</image>  

8.       </source>  

9.       <size>                //图像尺寸（长宽以及通道数）                        

10.         <width>500</width>  

11.         <height>332</height>  

12.         <depth>3</depth>  

13.     </size>  

14.     <segmented>1</segmented>      //是否用于分割（在图像物体识别中01无所谓）  

15.     <object>                              //检测到的物体  

16.         <name>horse</name>                //物体类别  

17.         <pose>Right</pose>                //拍摄角度  

18.         <truncated>0</truncated>          //是否被截断（0表示完整）  

19.         <difficult>0</difficult>   //目标是否难以识别（0表示容易识别）  

20.         <bndbox>                  //bounding-box（包含左下角和右上角xy坐标）  

21.             <xmin>100</xmin>  

22.             <ymin>96</ymin>  

23.             <xmax>355</xmax>  

24.             <ymax>324</ymax>  

25.         </bndbox>  

26.     </object>  

27.     <object>                                      //检测到多个物体  

28.         <name>person</name>  

29.         <pose>Unspecified</pose>  

30.         <truncated>0</truncated>  

31.         <difficult>0</difficult>  

32.         <bndbox>  

33.             <xmin>198</xmin>  

34.             <ymin>58</ymin>  

35.             <xmax>286</xmax>  

36.             <ymax>197</ymax>  

37.         </bndbox>  

38.     </object>  

39. </annotation>

ImageSets:存放的是每一种类型的challenge对应的图像数据。

在ImageSets下有四个文件夹：

目标检测主要关注Main文件下包含test.txt,train.txt,trainval.txt,val.txt四个txt文件：

实际用到的事test.txt和trainval.txt(val.txt和train.txt的结合)

JPEGImages:存放所有图片的文件夹。

二、数据集转化（COCOàVOC）

对于数据集有个初步认识之后，现在开始实施转化。主要是生成VOC的XML格式，这一步完成剩下的就很简单了，这里我只是筛选其中的car,bus,truck,person。

准备工作：建立好一个存放COCOàVOC的文件夹，该文件夹VOC2007_g,该目录下包含Annotations,ImageSets,JPEGImages三个文件：

好的，现在开始：

Step 1:截取需要的类别(和VOC相同的类别) getclassNum.py

#-*- coding:utf-8-*-
import json
className = {
    1:'person',
    3:'car',
    6:'bus',
    8:'truck'
}
classNum = [1, 3,6,8]
cocojson="E:/coco/COCO/annotations/instances_train2014.json"
def writeNum(Num):
    withopen("COCO_train.json", "a+") as f:
        f.write(str(Num))
inputfile = []
inner = {}
with open(cocojson, "r+") as f:
    allData = json.load(f)
    data =allData["annotations"]
    print(data[1])
    print("read ready")
for i in data:
    if (i['category_id'] in classNum):
        inner = {
            "filename":str(i["image_id"]).zfill(12),
            "name":className[i["category_id"]],
            "bndbox":i["bbox"]
        }
        inputfile.append(inner)
inputfile = json.dumps(inputfile)
writeNum(inputfile)

Step2: 根据选取出来的类别中的图片筛选需要的图片到指定目录存放。chooseImagesbyID.py

# -*- coding: utf-8 -*-
# @Time    : 2018/03/09 10:46
# @Author  : SyGoing
# @Site    :
# @File    : getimagesbyID.py
# @Software: PyCharm
import json
import os
import cv2
nameStr = []
with open("COCO_train.json", "r+") as f:
    data = json.load(f)
    print("read ready")
for i in data:
    imgName = "COCO_train2014_"+ str(i["filename"]) + ".jpg"
    nameStr.append(imgName)
nameStr = set(nameStr)
print(nameStr)
print(len(nameStr))


path = 'E:/coco/COCO/train/'
savePath="E:/coco/COCO/VOC2007_/JPEGImages/"
count=0
for file in nameStr:
    img=cv2.imread(path+file)
    cv2.imwrite(savePath+file,img)
    count=count+1
    print('num: '+count.__str__()+'     '+file+'\n')

Step 3:根据筛选出来的图片ID生成VOC数据集的XML文件到Annotations文件夹下。CreateXML.py

#-*- coding:utf-8-*-

import xml.dom
import xml.dom.minidom
import os
# from PIL import Image
import cv2
import json

# xml文件规范定义


_IMAGE_PATH = 'E:/coco/COCO/train'

_INDENT = '' * 4
_NEW_LINE = '\n'
_FOLDER_NODE = 'COCO2014'
_ROOT_NODE = 'annotation'
_DATABASE_NAME = 'LOGODection'
_ANNOTATION = 'COCO2014'
_AUTHOR = 'SyGoing_CSDN'
_SEGMENTED = '0'
_DIFFICULT = '0'
_TRUNCATED = '0'
_POSE = 'Unspecified'

# _IMAGE_COPY_PATH= 'JPEGImages'
_ANNOTATION_SAVE_PATH = 'E:/coco/COCO/VOC2007_/Annotations'


# _IMAGE_CHANNEL= 3

# 封装创建节点的过程
def createElementNode(doc, tag, attr):  #创建一个元素节点
    element_node = doc.createElement(tag)

    # 创建一个文本节点
    text_node = doc.createTextNode(attr)

    # 将文本节点作为元素节点的子节点
    element_node.appendChild(text_node)

    return element_node


# 封装添加一个子节点
def createChildNode(doc, tag, attr, parent_node):
    child_node = createElementNode(doc,tag, attr)

    parent_node.appendChild(child_node)


# object节点比较特殊
def createObjectNode(doc, attrs):
    object_node =doc.createElement('object')

    midname=attrs['name']

    if midname !='person':
        midname='car'

    createChildNode(doc, 'name', midname,
                    object_node)

    #createChildNode(doc, 'name',attrs['name'],
    #                object_node)

    createChildNode(doc, 'pose',
                    _POSE, object_node)

    createChildNode(doc, 'truncated',
                    _TRUNCATED,object_node)

    createChildNode(doc, 'difficult',
                    _DIFFICULT,object_node)

    bndbox_node = doc.createElement('bndbox')

    createChildNode(doc, 'xmin',str(int(attrs['bndbox'][0])),
                    bndbox_node)

    createChildNode(doc, 'ymin',str(int(attrs['bndbox'][1])),
                    bndbox_node)

    createChildNode(doc, 'xmax',str(int(attrs['bndbox'][0] + attrs['bndbox'][2])),
                    bndbox_node)

    createChildNode(doc, 'ymax',str(int(attrs['bndbox'][1] + attrs['bndbox'][3])),
                    bndbox_node)

    object_node.appendChild(bndbox_node)

    return object_node


# 将documentElement写入XML文件
def writeXMLFile(doc, filename):
    tmpfile = open('tmp.xml', 'w')

    doc.writexml(tmpfile, addindent='' *4, newl='\n', encoding='utf-8')


    tmpfile.close()

    # 删除第一行默认添加的标记

    fin = open('tmp.xml')
    # print(filename)
    fout = open(filename, 'w')
    # print(os.path.dirname(fout))

    lines = fin.readlines()

    for line in lines[1:]:

        if line.split():
            fout.writelines(line)

            # new_lines =''.join(lines[1:])

        # fout.write(new_lines)

    fin.close()

    fout.close()


if __name__ == "__main__":
    ##读取图片列表
    img_path ="E:/coco/COCO/VOC2007_/JPEGImages/"
    fileList = os.listdir(img_path)
    if fileList == 0:
        os._exit(-1)

    withopen("COCO_train.json", "r") as f:
        ann_data = json.load(f)

    current_dirpath =os.path.dirname(os.path.abspath('__file__'))

    if notos.path.exists(_ANNOTATION_SAVE_PATH):
        os.mkdir(_ANNOTATION_SAVE_PATH)

        # if notos.path.exists(_IMAGE_COPY_PATH):
    #    os.mkdir(_IMAGE_COPY_PATH)

    for imageName in fileList:

        saveName =imageName.strip(".jpg")
        print(saveName)
        # pos =fileList[xText].rfind(".")
        # textName =fileList[xText][:pos]

        # ouput_file = open(_TXT_PATH +'/' + fileList[xText])
        # ouput_file =open(_TXT_PATH)

        # lines = ouput_file.readlines()

        xml_file_name =os.path.join(_ANNOTATION_SAVE_PATH, (saveName + '.xml'))
        # withopen(xml_file_name,"w") as f:
        #     pass

        img =cv2.imread(os.path.join(img_path, imageName))
        print(os.path.join(img_path,imageName))
        # cv2.imshow(img)
        height, width, channel =img.shape
        print(height, width, channel)

        my_dom = xml.dom.getDOMImplementation()

        doc = my_dom.createDocument(None,_ROOT_NODE, None)

        # 获得根节点
        root_node = doc.documentElement

        # folder节点

        createChildNode(doc, 'folder',_FOLDER_NODE, root_node)

        # filename节点

        createChildNode(doc, 'filename',saveName + '.jpg', root_node)

        # source节点

        source_node =doc.createElement('source')

        # source的子节点

        createChildNode(doc, 'database',_DATABASE_NAME, source_node)

        createChildNode(doc, 'annotation',_ANNOTATION, source_node)

        createChildNode(doc, 'image','flickr', source_node)

        createChildNode(doc, 'flickrid','NULL', source_node)

       root_node.appendChild(source_node)

        # owner节点

        owner_node = doc.createElement('owner')

        # owner的子节点

        createChildNode(doc, 'flickrid','NULL', owner_node)

        createChildNode(doc, 'name',_AUTHOR, owner_node)

        root_node.appendChild(owner_node)

        # size节点

        size_node =doc.createElement('size')

        createChildNode(doc, 'width',str(width), size_node)

        createChildNode(doc, 'height',str(height), size_node)

        createChildNode(doc, 'depth',str(channel), size_node)

        root_node.appendChild(size_node)

        # segmented节点

        createChildNode(doc, 'segmented',_SEGMENTED, root_node)

        for ann in ann_data:
            imgName ="COCO_train2014_" + str(ann["filename"])
            cname=saveName;
            if (saveName == imgName ):
                # object节点
                object_node =createObjectNode(doc, ann)
               root_node.appendChild(object_node)

            else:
                continue

                # 构建XML文件名称

        print(xml_file_name)

        # 创建XML文件

        # createXMLFile(attrs, width,height, xml_file_name)

        # # 写入文件
        #
        writeXMLFile(doc, xml_file_name)

Step4：生成Main文件夹下的trainval.txt,train.txt,val.txt

Test.txt. 这里用的事matlab写的.m文件

clc; 

clear; 

 

xmlfilepath='F:\ObjectDetection\object_mark\datamake\VOCdevkit\VOC2007\Annotations'; 

txtsavepath='F:\ObjectDetection\object_mark\datamake\VOCdevkit\VOC2007\ImageSets\Main\'; 

trainval_percent=0.5;  

train_percent=0.5;     

 

xmlfile=dir(xmlfilepath); 

numOfxml=length(xmlfile)-2;

 

trainval=sort(randperm(numOfxml,floor(numOfxml*trainval_percent))); 

test=sort(setdiff(1:numOfxml,trainval)); 

 

trainvalsize=length(trainval);

train=sort(trainval(randperm(trainvalsize,floor(trainvalsize*train_percent)))); 

val=sort(setdiff(trainval,train)); 

 

ftrainval=fopen([txtsavepath'trainval.txt'],'w'); 

ftest=fopen([txtsavepath'test.txt'],'w'); 

ftrain=fopen([txtsavepath'train.txt'],'w'); 

fval=fopen([txtsavepath'val.txt'],'w'); 

 

for i=1:numOfxml 

    if ismember(i,trainval) 

       fprintf(ftrainval,'%s\n',xmlfile(i+2).name(1:end-4)); 

        if ismember(i,train) 

           fprintf(ftrain,'%s\n',xmlfile(i+2).name(1:end-4)); 

        else 

           fprintf(fval,'%s\n',xmlfile(i+2).name(1:end-4)); 

        end 

    else 

       fprintf(ftest,'%s\n',xmlfile(i+2).name(1:end-4)); 

    end 

end 

fclose(ftrainval); 

fclose(ftrain); 

fclose(fval); 

fclose(ftest);

到这里基本完工！然后根据自己的需求应用吧！

参考博客：

http://blog.csdn.net/zhangjunbob/article/details/52769381

http://blog.csdn.net/yjl9122/article/details/56842098

http://blog.csdn.net/hehangjiang/article/details/79108232

http://blog.csdn.net/u012905422/article/details/52372755

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习

目标检测数据制作

MSCOCO数据集格式转化成VOC数据集格式的相关文章

DateFormat类

DateFormat类 DateFormat类用于将日期格式化为字符串或者将用特定格式显示的日期字符串转换成一个Date对象 DateFormat是一个抽象类不能直接被实例化提供了一系列静态方法来获取DateFormat类的实例对象 D
一文读懂「Attention is All You Need」

前言 2017 年中有两篇类似同时也是笔者非常欣赏的论文分别是 FaceBook 的Convolutional Sequence to Sequence Learning和 Google 的Attention is All You Ne
Android实战——Zxing实现二维码扫描

Zxing实现二维码扫描前言本篇文章从初学者的角度出发从一个不知道对二维码扫描怎么下手的工作者需要一个简单的扫描功能的话可以阅读该篇文章作为Google开源框架Zxing 里面的文件很大这里主要讲的是精简ZXing项目后只保留
数据库字典表设计

数据库字典表设计村长大神发表于2年前在稍大一些的项目中我们总是需要管理各种各样的类型类型数据如商品类型游戏类型对于这些类型的管理类似如果为每一种类型都建立一张表去维护而在项目中正常

随机推荐

H.264视频码流解析

原理 H 264原始码流又称为裸流是由一个一个的NALU组成的他们的结构如下图所示其中每个NALU之间通过startcode 起始码进行分隔起始码分成两种 0x000001 3Byte 或者0x00000001 4Byte 如
在vs2005中，写c程序，所有的局部变量都要放在函数体的最前面

没有放在最前面的源码怎么办呢修改量太大
matlab动态神经网络进行时间序列预测分析

matlab动态神经网络进行时间序列预测分析时间序列预测问题分类有y 无x 即 y t f y t 1 y t 2 y t f y t
Pycharm上Modify Run Configuration的使用方法，带参数配置

前言我们在搭建yolo系列目标检测模型时往往需要对代码进行逐步调试及时发现错误所以本文在pycharm的基础上对yolov6中的infer py进行逐步调试首先我们在conda环境一切准备就绪的情况下能在终端tenminal中
【UE5 Cesium】11-Cesium for Unreal 切换Dynamic Pawn为其它Pawn

前言我们知道在Cesium for Unreal中默认使用的是DynamicPawn来浏览地图场景 DynamicPawn适用全球浏览可以按自定义曲线进行飞行但是DynamicPawn是使用的是地理参考坐标系并不是标准的UE坐标系
iOS利用九切片进行切图UI不会变形

p 1 手写代码 p p p UIImageView svRect UIImage backgroundImage UIImageimageNamed bg png backgroundImage backgroundImageresiza
《机器学习》读书笔记2--线性模型

目录线性模型基本形式线性回归对数几率回归线性判别分析多分类学习类别不平衡问题 ps 写在前面本文是在参加datawhale组队学习学习周志华老师的机器学习过程的学习笔记文中出现的图片均引自机器学习机器学习是初学者
AI绘画Stable Diffusion原理之扩散模型DDPM

前言传送门 stable diffusion Git 论文 stable diffusion webui Git Google Colab Notebook部署stable diffusion webui Git kaggle Noteb
量化交易框架开发实践（一）

量化交易平台指支持通过对数据进行多维度的定量分析结合发现的特征定制策略并能够基于历史数据对策略进行回测最后支持实盘买卖的交易平台从业务流上看量化交易可以分解成行情获取 gt 数据清洗 gt 指标计算 gt 策略开发 gt 策略回
RobotStudio ABB 仿真软件过期后的处理

首先查看当前是在试用期还是已经过期了查看方法如下在打开软件后的首页找到帮助右侧会显示当前授权状态是否为试用 1 如果当前在试用期内可以通过直接修改注册表方式修改方法找到如下位置 HKEY LOCAL MACHINE SOFT
正则表达式匹配中* . c++实现

题目描述请实现一个函数用来匹配包括和的正则表达式模式中的字符表示任意一个字符而表示它前面的字符可以出现任意次包含0次在本题中匹配是指字符串的所有字符匹配整个模式例如字符串 aaa 与模式 a a 和 ab ac a
QT 怎么导入qss文件？

方式一比较常见的方法 QFile file qss psblack css if file open QFile ReadOnly QString qss QLatin1String file readAll qApp gt setSty
提高电脑寿命的维护技巧与方法分享

在维护电脑运行方面我有一些自己觉得非常有用的技巧和方法下面我将分享一些我常用的维护技巧并解释为什么我会选择这样做以及这样做的好处首先我经常清理我的电脑内部的灰尘电脑内部的灰尘会影响散热效果导致电脑发热严重甚至性能下降因此定
Google Colab 上部署 Stable Diffusion Web UI

什么是 Stable Diffusion Web UI Colab Stable Diffusion 是 Stability AI 推出的一个基于深度学习技术文字生成图片AI模型 Stable Diffusion Web UI 是一个强大好
[技术经理]03 到底是能力重要，还是态度重要？

对于一个技术团队而言团队里面的人员是最最重要的财富人员的招聘和人员的管理是技术经理最重要的工作之一但是事实也是没有什么问题比人的问题更难处理的了我先讲两个发生在我们团队里面的事件今年上半年的时候我们团队同时入职了两名前端开发
C语言中sizeof（）和strlen（）的区别

sizeof 一 sizeof的基本概念 sizeof操作符以字节形式给出了其操作数的存储大小操作数可以是一个表达式或括在括号内的类型名操作数的存储大小由操作数的类型决定二使用方法 1 用于数据类型 sizeof使用形式 size
UBUNTU16.04命令行安装PCL1.7（亲测有效）

安装PCL点云库最开始是按照先安装相关依赖然后github上clone PCL相关版本包的形式安装的编译遇到了很多问题结果最后安装完成但却无法运行例程难过又尝试了命令行的形式命令行的形式直观简单可安装编译好的点云库 PCL
[Python人工智能] 九.gensim词向量Word2Vec安装及《庆余年》中文短文本相似度计算

从本专栏开始作者正式开始研究Python深度学习神经网络及人工智能相关知识前一篇详细讲解了卷积神经网络CNN原理并通过TensorFlow编写CNN实现了MNIST分类学习案例本篇文章将分享gensim词向量Word2Vec安装
时频分析常用工具：STFT短时傅里叶变换 & 小波变化

文章目录 1 傅里叶变换的局限性 2 STFT 3 小波变换参考时频分析之STFT 短时傅里叶变换的原理与实现形象易懂讲解算法I 小波变换 https www zhihu com question 58814934 1 傅里叶变换的局
MSCOCO数据集格式转化成VOC数据集格式

MSCOCO数据集格式转化成VOC数据集格式转载请注明原出处 http blog csdn net ouyangfushu article details 79543575 作者 SyGoing QQ 2446799425 SSD目标检测

MSCOCO数据集格式转化成VOC数据集格式

MSCOCO数据集格式转化成VOC数据集格式

MSCOCO数据集格式转化成VOC数据集格式 的相关文章

随机推荐

热门标签

MSCOCO数据集格式转化成VOC数据集格式的相关文章