MSCOCO数据集格式转化成VOC数据集格式

2023-11-14

MSCOCO数据集格式转化成VOC数据集格式

转载请注明原出处：http://blog.csdn.net/ouyangfushu/article/details/79543575

作者：SyGoing

QQ: 2446799425

SSD目标检测算法在MSCOCO上训练，SSD默认训练格式是VOC数据集格式，要想训练MSCOCO数据集可以将其转化成VOC，然后再训练。

一、数据集介绍

1、MSCOCO数据集（针对目标检测）

COCO数据集是微软团队获取的一个可以用来图像recognition+segmentation+captioning数据集，数据集具有以下特点：

（1）Object segmentation

（2）Recognition in Context

（3）Multiple objects per image

（4）More than 300,000 images

（5）More than 2 Million instances

（6）80 object categories

（7）5 captions per image

（8）Keypoints on 100,000 people

COCO的2014版本的数据集一共有20G左右的图片和500M左右的标签文件。标签文件标记了每个segmentation的像素精确位置+bounding box的精确坐标，其精度均为小数点后两位。文件目录：

其中trian和val存放图片，annotations文件夹存放json格式的标注信息：

一个目标的标签示意如下（anotation的.json文件中）：

{"segmentation":[[392.87,275.77, 402.24, 284.2, 382.54, 342.36, 375.99, 356.43, 372.23, 357.37, 372.23,397.7, 383.48, 419.27,407.87, 439.91, 427.57, 389.25, 447.26, 346.11, 447.26,328.29, 468.84, 290.77,472.59, 266.38], [429.44,465.23, 453.83, 473.67, 636.73,474.61, 636.73, 392.07, 571.07, 364.88, 546.69,363.0]], "area":28458.996150000003, "iscrowd": 0,"image_id": 503837, "bbox":[372.23, 266.38, 264.5,208.23], "category_id":4, "id": 151109}

详情参考MSCOCO链接：http://mscoco.org/

2、PASCAL VOC数据集（针对目标检测）

PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试，提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录：人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛在2012年后便不再举办，但其数据集图像质量好，标注完备，非常适合用来测试算法性能。

官网链接：http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

SSD官方给的训练demo就是在VOC数据集格式，

SSD目标检测主要关注：Annotations、ImageSets和JPEGImages

Annotations:存放每张图片的XML文件，该文件内容有每张图片目标的BBOX坐标、图片名称、类别等信息，文件的内容具体为：

1.   <annotation>  

2.       <folder>VOC2012</folder>                             

3.       <filename>2007_000392.jpg</filename>                  //文件名  

4.       <source>                                            //图像来源（不重要）  

5.           <database>The VOC2007 Database</database>  

6.           <annotation>PASCAL VOC2007</annotation>  

7.           <image>flickr</image>  

8.       </source>  

9.       <size>                //图像尺寸（长宽以及通道数）                        

10.         <width>500</width>  

11.         <height>332</height>  

12.         <depth>3</depth>  

13.     </size>  

14.     <segmented>1</segmented>      //是否用于分割（在图像物体识别中01无所谓）  

15.     <object>                              //检测到的物体  

16.         <name>horse</name>                //物体类别  

17.         <pose>Right</pose>                //拍摄角度  

18.         <truncated>0</truncated>          //是否被截断（0表示完整）  

19.         <difficult>0</difficult>   //目标是否难以识别（0表示容易识别）  

20.         <bndbox>                  //bounding-box（包含左下角和右上角xy坐标）  

21.             <xmin>100</xmin>  

22.             <ymin>96</ymin>  

23.             <xmax>355</xmax>  

24.             <ymax>324</ymax>  

25.         </bndbox>  

26.     </object>  

27.     <object>                                      //检测到多个物体  

28.         <name>person</name>  

29.         <pose>Unspecified</pose>  

30.         <truncated>0</truncated>  

31.         <difficult>0</difficult>  

32.         <bndbox>  

33.             <xmin>198</xmin>  

34.             <ymin>58</ymin>  

35.             <xmax>286</xmax>  

36.             <ymax>197</ymax>  

37.         </bndbox>  

38.     </object>  

39. </annotation>

ImageSets:存放的是每一种类型的challenge对应的图像数据。

在ImageSets下有四个文件夹：

目标检测主要关注Main文件下包含test.txt,train.txt,trainval.txt,val.txt四个txt文件：

实际用到的事test.txt和trainval.txt(val.txt和train.txt的结合)

JPEGImages:存放所有图片的文件夹。

二、数据集转化（COCOàVOC）

对于数据集有个初步认识之后，现在开始实施转化。主要是生成VOC的XML格式，这一步完成剩下的就很简单了，这里我只是筛选其中的car,bus,truck,person。

准备工作：建立好一个存放COCOàVOC的文件夹，该文件夹VOC2007_g,该目录下包含Annotations,ImageSets,JPEGImages三个文件：

好的，现在开始：

Step 1:截取需要的类别(和VOC相同的类别) getclassNum.py

#-*- coding:utf-8-*-
import json
className = {
    1:'person',
    3:'car',
    6:'bus',
    8:'truck'
}
classNum = [1, 3,6,8]
cocojson="E:/coco/COCO/annotations/instances_train2014.json"
def writeNum(Num):
    withopen("COCO_train.json", "a+") as f:
        f.write(str(Num))
inputfile = []
inner = {}
with open(cocojson, "r+") as f:
    allData = json.load(f)
    data =allData["annotations"]
    print(data[1])
    print("read ready")
for i in data:
    if (i['category_id'] in classNum):
        inner = {
            "filename":str(i["image_id"]).zfill(12),
            "name":className[i["category_id"]],
            "bndbox":i["bbox"]
        }
        inputfile.append(inner)
inputfile = json.dumps(inputfile)
writeNum(inputfile)

Step2: 根据选取出来的类别中的图片筛选需要的图片到指定目录存放。chooseImagesbyID.py

# -*- coding: utf-8 -*-
# @Time    : 2018/03/09 10:46
# @Author  : SyGoing
# @Site    :
# @File    : getimagesbyID.py
# @Software: PyCharm
import json
import os
import cv2
nameStr = []
with open("COCO_train.json", "r+") as f:
    data = json.load(f)
    print("read ready")
for i in data:
    imgName = "COCO_train2014_"+ str(i["filename"]) + ".jpg"
    nameStr.append(imgName)
nameStr = set(nameStr)
print(nameStr)
print(len(nameStr))


path = 'E:/coco/COCO/train/'
savePath="E:/coco/COCO/VOC2007_/JPEGImages/"
count=0
for file in nameStr:
    img=cv2.imread(path+file)
    cv2.imwrite(savePath+file,img)
    count=count+1
    print('num: '+count.__str__()+'     '+file+'\n')

Step 3:根据筛选出来的图片ID生成VOC数据集的XML文件到Annotations文件夹下。CreateXML.py

#-*- coding:utf-8-*-

import xml.dom
import xml.dom.minidom
import os
# from PIL import Image
import cv2
import json

# xml文件规范定义


_IMAGE_PATH = 'E:/coco/COCO/train'

_INDENT = '' * 4
_NEW_LINE = '\n'
_FOLDER_NODE = 'COCO2014'
_ROOT_NODE = 'annotation'
_DATABASE_NAME = 'LOGODection'
_ANNOTATION = 'COCO2014'
_AUTHOR = 'SyGoing_CSDN'
_SEGMENTED = '0'
_DIFFICULT = '0'
_TRUNCATED = '0'
_POSE = 'Unspecified'

# _IMAGE_COPY_PATH= 'JPEGImages'
_ANNOTATION_SAVE_PATH = 'E:/coco/COCO/VOC2007_/Annotations'


# _IMAGE_CHANNEL= 3

# 封装创建节点的过程
def createElementNode(doc, tag, attr):  #创建一个元素节点
    element_node = doc.createElement(tag)

    # 创建一个文本节点
    text_node = doc.createTextNode(attr)

    # 将文本节点作为元素节点的子节点
    element_node.appendChild(text_node)

    return element_node


# 封装添加一个子节点
def createChildNode(doc, tag, attr, parent_node):
    child_node = createElementNode(doc,tag, attr)

    parent_node.appendChild(child_node)


# object节点比较特殊
def createObjectNode(doc, attrs):
    object_node =doc.createElement('object')

    midname=attrs['name']

    if midname !='person':
        midname='car'

    createChildNode(doc, 'name', midname,
                    object_node)

    #createChildNode(doc, 'name',attrs['name'],
    #                object_node)

    createChildNode(doc, 'pose',
                    _POSE, object_node)

    createChildNode(doc, 'truncated',
                    _TRUNCATED,object_node)

    createChildNode(doc, 'difficult',
                    _DIFFICULT,object_node)

    bndbox_node = doc.createElement('bndbox')

    createChildNode(doc, 'xmin',str(int(attrs['bndbox'][0])),
                    bndbox_node)

    createChildNode(doc, 'ymin',str(int(attrs['bndbox'][1])),
                    bndbox_node)

    createChildNode(doc, 'xmax',str(int(attrs['bndbox'][0] + attrs['bndbox'][2])),
                    bndbox_node)

    createChildNode(doc, 'ymax',str(int(attrs['bndbox'][1] + attrs['bndbox'][3])),
                    bndbox_node)

    object_node.appendChild(bndbox_node)

    return object_node


# 将documentElement写入XML文件
def writeXMLFile(doc, filename):
    tmpfile = open('tmp.xml', 'w')

    doc.writexml(tmpfile, addindent='' *4, newl='\n', encoding='utf-8')


    tmpfile.close()

    # 删除第一行默认添加的标记

    fin = open('tmp.xml')
    # print(filename)
    fout = open(filename, 'w')
    # print(os.path.dirname(fout))

    lines = fin.readlines()

    for line in lines[1:]:

        if line.split():
            fout.writelines(line)

            # new_lines =''.join(lines[1:])

        # fout.write(new_lines)

    fin.close()

    fout.close()


if __name__ == "__main__":
    ##读取图片列表
    img_path ="E:/coco/COCO/VOC2007_/JPEGImages/"
    fileList = os.listdir(img_path)
    if fileList == 0:
        os._exit(-1)

    withopen("COCO_train.json", "r") as f:
        ann_data = json.load(f)

    current_dirpath =os.path.dirname(os.path.abspath('__file__'))

    if notos.path.exists(_ANNOTATION_SAVE_PATH):
        os.mkdir(_ANNOTATION_SAVE_PATH)

        # if notos.path.exists(_IMAGE_COPY_PATH):
    #    os.mkdir(_IMAGE_COPY_PATH)

    for imageName in fileList:

        saveName =imageName.strip(".jpg")
        print(saveName)
        # pos =fileList[xText].rfind(".")
        # textName =fileList[xText][:pos]

        # ouput_file = open(_TXT_PATH +'/' + fileList[xText])
        # ouput_file =open(_TXT_PATH)

        # lines = ouput_file.readlines()

        xml_file_name =os.path.join(_ANNOTATION_SAVE_PATH, (saveName + '.xml'))
        # withopen(xml_file_name,"w") as f:
        #     pass

        img =cv2.imread(os.path.join(img_path, imageName))
        print(os.path.join(img_path,imageName))
        # cv2.imshow(img)
        height, width, channel =img.shape
        print(height, width, channel)

        my_dom = xml.dom.getDOMImplementation()

        doc = my_dom.createDocument(None,_ROOT_NODE, None)

        # 获得根节点
        root_node = doc.documentElement

        # folder节点

        createChildNode(doc, 'folder',_FOLDER_NODE, root_node)

        # filename节点

        createChildNode(doc, 'filename',saveName + '.jpg', root_node)

        # source节点

        source_node =doc.createElement('source')

        # source的子节点

        createChildNode(doc, 'database',_DATABASE_NAME, source_node)

        createChildNode(doc, 'annotation',_ANNOTATION, source_node)

        createChildNode(doc, 'image','flickr', source_node)

        createChildNode(doc, 'flickrid','NULL', source_node)

       root_node.appendChild(source_node)

        # owner节点

        owner_node = doc.createElement('owner')

        # owner的子节点

        createChildNode(doc, 'flickrid','NULL', owner_node)

        createChildNode(doc, 'name',_AUTHOR, owner_node)

        root_node.appendChild(owner_node)

        # size节点

        size_node =doc.createElement('size')

        createChildNode(doc, 'width',str(width), size_node)

        createChildNode(doc, 'height',str(height), size_node)

        createChildNode(doc, 'depth',str(channel), size_node)

        root_node.appendChild(size_node)

        # segmented节点

        createChildNode(doc, 'segmented',_SEGMENTED, root_node)

        for ann in ann_data:
            imgName ="COCO_train2014_" + str(ann["filename"])
            cname=saveName;
            if (saveName == imgName ):
                # object节点
                object_node =createObjectNode(doc, ann)
               root_node.appendChild(object_node)

            else:
                continue

                # 构建XML文件名称

        print(xml_file_name)

        # 创建XML文件

        # createXMLFile(attrs, width,height, xml_file_name)

        # # 写入文件
        #
        writeXMLFile(doc, xml_file_name)

Step4：生成Main文件夹下的trainval.txt,train.txt,val.txt

Test.txt. 这里用的事matlab写的.m文件

clc; 

clear; 

 

xmlfilepath='F:\ObjectDetection\object_mark\datamake\VOCdevkit\VOC2007\Annotations'; 

txtsavepath='F:\ObjectDetection\object_mark\datamake\VOCdevkit\VOC2007\ImageSets\Main\'; 

trainval_percent=0.5;  

train_percent=0.5;     

 

xmlfile=dir(xmlfilepath); 

numOfxml=length(xmlfile)-2;

 

trainval=sort(randperm(numOfxml,floor(numOfxml*trainval_percent))); 

test=sort(setdiff(1:numOfxml,trainval)); 

 

trainvalsize=length(trainval);

train=sort(trainval(randperm(trainvalsize,floor(trainvalsize*train_percent)))); 

val=sort(setdiff(trainval,train)); 

 

ftrainval=fopen([txtsavepath'trainval.txt'],'w'); 

ftest=fopen([txtsavepath'test.txt'],'w'); 

ftrain=fopen([txtsavepath'train.txt'],'w'); 

fval=fopen([txtsavepath'val.txt'],'w'); 

 

for i=1:numOfxml 

    if ismember(i,trainval) 

       fprintf(ftrainval,'%s\n',xmlfile(i+2).name(1:end-4)); 

        if ismember(i,train) 

           fprintf(ftrain,'%s\n',xmlfile(i+2).name(1:end-4)); 

        else 

           fprintf(fval,'%s\n',xmlfile(i+2).name(1:end-4)); 

        end 

    else 

       fprintf(ftest,'%s\n',xmlfile(i+2).name(1:end-4)); 

    end 

end 

fclose(ftrainval); 

fclose(ftrain); 

fclose(fval); 

fclose(ftest);

到这里基本完工！然后根据自己的需求应用吧！

参考博客：

http://blog.csdn.net/zhangjunbob/article/details/52769381

http://blog.csdn.net/yjl9122/article/details/56842098

http://blog.csdn.net/hehangjiang/article/details/79108232

http://blog.csdn.net/u012905422/article/details/52372755

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习

目标检测数据制作

MSCOCO数据集格式转化成VOC数据集格式的相关文章

C++set容器set和multiset区别

C set容器set和multiset区别学习目标掌握set和multiset的区别区别 set不可以插入重复数据而multiset可以 set插入数据的同时会返回插入结果表示插入是否成功 multiset不会检测数据因此可以插
QT 自定义信号和槽

好久没有静下心来思考了每天靠工作驱动忙碌但不踏实 QT信号与槽机制一直在用也会用但只是知其然不知其所以然今天临近下班给自己点清醒的时间详细了解了下总结如下信号与槽机制是QT中不同对象相互通信的一种方法有两种写法第一种是S
Cassandra创建键空间（Keyspace）

Cassandra查询语言 CQL 可帮助开发人员与Cassandra沟通交互 Cassandra查询语言的语法与SQL非常相似什么是键空间 Keyspace 键空间 Keyspace 是用于保存列族用户定义类型的对象键空间 Keys
ios 超签签名服务器搭建(超签)

为什么要搭建签名服务器吗因为应用不能上架App Store 使用企业签名频繁掉签造成客户流失用户体验不好 ios安装的app有几种方式吗 1 App Store 安装符合法律法规的能走app Store的app 2 企业签名安装灰色

随机推荐

Paxos算法细节详解(一)--通过现实世界描述算法

Paxos算法细节详解一通过现实世界描述算法 Paxos分析最近研究paxos算法看了许多相关的文章概念还是很模糊觉得还是没有掌握paxos算法的精髓所以花了3天时间分析了libpaxos3的所有代码此代码可以从https
SpringBoot_5

SpringBoot对静态资源的映射规则如果我们需用给web项目中添加css js html文件的话我们会发现此时没有webapp目录由于springboot是以jar包的方式打包程序的因此是没有webapp目录的那么我们的css
VMware虚拟机从一台电脑复制到另一台电脑

在一台电脑上利用虚拟机创建了centos 如果想在家里的电脑虚拟机上也运行centos 不用再重新安装以及漫长的安装等待了可以利用先前在虚拟机上安装centos生成的 vmx文件和 vmdk文件拷贝到U盘再重新导入到新电脑就可以了省
DBMS_STATS分析表 (zt) dbms_stats.set_table_stats 手工设置统计信息

作用 DBMS STATS GATHER TABLE STATS统计表列索引的统计信息 DBMS STATS GATHER TABLE STATS的语法如下 DBMS STATS GATHER TABLE STATS ownname V
关于React + Antd 按需引入样式未生效问题

第一步 npm install antd 安装antd 第二步在根目录下创建 babelrc文件配置按需引入需要用到的plugin npm install save dev import babel import presets bab
跨服务器共享文件,不同服务器之间实现文件共享

不同服务器之间实现文件共享内容精选换一换表1列出了弹性文件服务的常用功能在使用弹性文件服务之前建议您先通过常用概念介绍了解NFS CIFS等基本概念以便更好地理解弹性文件服务提供的功能表示该类型的文件系统支持该功能表示该类型
自定义指令的说明和注册

自定义指令说明 Vue3 除了核心功能默认内置的指令 v model 和 v show Vue 也允许注册自定义指令 v xxx 注意代码复用和抽象的主要形式是组件然而有的情况下你仍然需要对普通 DOM 元素进行底层操作这时候就会
Linux/多线程的同步与互斥

线程安全多个执行流对资源进行争抢访问但不会产生数据二义性线程安全的实现同步互斥同步通过条件判断实现对临界资源访问的合理性互斥通过同一时间对临界资源的唯一访问实现对临界资源访问的安全性互斥锁互斥的实现互斥锁在多任务
第一次使用Eclipse：编写简单的Java小程序

通过前部分的学习了解了Java的安装和配置那么从现在开始要开始自己着手编写Java程序学习一门编程语言学会编写的第一个程序一般都是写一个输出 hello World 语句的小程序来表示自己开始学习这门语言那么这篇教程也不例外因
fsnotify 与 too many open files

fsnotify fsnotify 是用来监听文件目录变化的一个 golang 开源库在 Linux 系统使用中遇到了too many open files问题首次尝试通常有 2 处配置太小会触发too many open f
最惊艳的sql

select from girls where age between 18 and 20 and boyfriend is null order by cup desc
不管人工智能发展如何开发者都有必要了解 Linux 内核

Linux内核在计算机世界的地位有目共睹称它为计算机世界的基石也不为过而且它还是全球最大的开源项目几乎最知名的科技公司都参与其中包括谷歌 Red Hat SUSE Intel Facebook 甲骨文和华为等当然还包括Linux的
将cmd中输出数据保存为TXT文本

原文 http blog sina com cn s blog 6d2d58cd0100x7zw html 在使用Windows XP中的cmd exe工具时有时候我们想要把我们的输入命令及结果保存起来但是用复制的方法过于麻烦有时输出
LeetCode 热题 HOT 100：滑动窗口专题

LeetCode 热题 HOT 100 https leetcode cn problem list 2cktkvj 文章目录 3 无重复字符的最长子串 128 最长连续序列 239 滑动窗口最大值 438 找到字符串中所有字母异位词 3
JFLex和JavaCUP简单使用

由于需要使用到doris中的sql parser功能所以决定使用其定义好的flex文件和cup文件生成自己sqlscanner和parser类步骤如下 1 下载JFlex和JavaCUP程序路径分别为 https www jflex
机械制造与自动化涉及使用计算机吗,论机械设计制造及自动化中计算机技术

将计算机技术运用到机械设计制造中大大提高了机械设计制造智能化水平在机械设计制造中占据很重要的位置但我国机械制造设计水平同国外发达国家相比还存在一定的距离若是可以加大对计算机技术的研究和探索对机械制造行业的发展是非常有利的 1机械
Flowable入门系列文章29 - Activity解读 05

1 消息开始事件描述甲消息开始事件可用于使用已命名的信息来启动一个过程实例这有效地允许我们使用消息名称从一组替代开始事件中选择正确的开始事件在部署具有一个或多个消息启动事件的流程定义时应考虑以下注意事项消息开始事件的名称在给定的
机器学习实战：Python基于支持向量机SVM-RFE进行分类预测（三）

文章目录 1 前言 1 1 支持向量机的介绍 1 2 支持向量机的应用 2 demo数据集演示 2 1 导入函数 2 2 构建数据集拟合 2 3 预测模型及可视化 3 实例演示分类非SVM 3 1 导入函数和数据 3 2 简单线性分类 3
剑指offer Java实现第五题

第五题请实现一个函数将一个字符串中的每个空格替换成 20 例如当字符串为We Are Happy 则经过替换之后的字符串为We 20Are 20Happy 实现代码 public static String replaceSpace
MSCOCO数据集格式转化成VOC数据集格式

MSCOCO数据集格式转化成VOC数据集格式转载请注明原出处 http blog csdn net ouyangfushu article details 79543575 作者 SyGoing QQ 2446799425 SSD目标检测

MSCOCO数据集格式转化成VOC数据集格式

MSCOCO数据集格式转化成VOC数据集格式

MSCOCO数据集格式转化成VOC数据集格式 的相关文章

随机推荐

热门标签

MSCOCO数据集格式转化成VOC数据集格式的相关文章