MSCOCO数据集格式转化成VOC数据集格式

2023-11-14

MSCOCO数据集格式转化成VOC数据集格式


转载请注明原出处:http://blog.csdn.net/ouyangfushu/article/details/79543575

作者:SyGoing

QQ:  2446799425


SSD目标检测算法在MSCOCO上训练,SSD默认训练格式是VOC数据集格式,要想训练MSCOCO数据集可以将其转化成VOC,然后再训练。

一、数据集介绍

1、MSCOCO数据集(针对目标检测)

   COCO数据集是微软团队获取的一个可以用来图像recognition+segmentation+captioning数据集,数据集具有以下特点:

(1)Object segmentation

(2)Recognition in Context

(3)Multiple objects per image

(4)More than 300,000 images

(5)More than 2 Million instances

(6)80 object categories

(7)5 captions per image

(8)Keypoints on 100,000 people

COCO的2014版本的数据集一共有20G左右的图片和500M左右的标签文件。标签文件标记了每个segmentation的像素精确位置+bounding box的精确坐标,其精度均为小数点后两位。文件目录:

其中trian和val存放图片,annotations文件夹存放json格式的标注信息:

 

一个目标的标签示意如下(anotation的.json文件中):

{"segmentation":[[392.87,275.77, 402.24, 284.2, 382.54, 342.36, 375.99, 356.43, 372.23, 357.37, 372.23,397.7, 383.48, 419.27,407.87, 439.91, 427.57, 389.25, 447.26, 346.11, 447.26,328.29, 468.84, 290.77,472.59, 266.38], [429.44,465.23, 453.83, 473.67, 636.73,474.61, 636.73, 392.07, 571.07, 364.88, 546.69,363.0]], "area":28458.996150000003, "iscrowd": 0,"image_id": 503837, "bbox":[372.23, 266.38, 264.5,208.23], "category_id":4, "id": 151109}

详情参考MSCOCO链接:http://mscoco.org/

 

2、PASCAL VOC数据集(针对目标检测)

PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛在2012年后便不再举办,但其数据集图像质量好,标注完备,非常适合用来测试算法性能。

官网链接:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

   SSD官方给的训练demo就是在VOC数据集格式,

SSD目标检测主要关注:Annotations、ImageSets和JPEGImages

Annotations:存放每张图片的XML文件,该文件内容有每张图片目标的BBOX坐标、图片名称、类别等信息,文件的内容具体为:

1.   <annotation>  

2.       <folder>VOC2012</folder>                             

3.       <filename>2007_000392.jpg</filename>                  //文件名  

4.       <source>                                            //图像来源(不重要)  

5.           <database>The VOC2007 Database</database>  

6.           <annotation>PASCAL VOC2007</annotation>  

7.           <image>flickr</image>  

8.       </source>  

9.       <size>                //图像尺寸(长宽以及通道数)                        

10.         <width>500</width>  

11.         <height>332</height>  

12.         <depth>3</depth>  

13.     </size>  

14.     <segmented>1</segmented>      //是否用于分割(在图像物体识别中01无所谓)  

15.     <object>                              //检测到的物体  

16.         <name>horse</name>                //物体类别  

17.         <pose>Right</pose>                //拍摄角度  

18.         <truncated>0</truncated>          //是否被截断(0表示完整)  

19.         <difficult>0</difficult>   //目标是否难以识别(0表示容易识别)  

20.         <bndbox>                  //bounding-box(包含左下角和右上角xy坐标)  

21.             <xmin>100</xmin>  

22.             <ymin>96</ymin>  

23.             <xmax>355</xmax>  

24.             <ymax>324</ymax>  

25.         </bndbox>  

26.     </object>  

27.     <object>                                      //检测到多个物体  

28.         <name>person</name>  

29.         <pose>Unspecified</pose>  

30.         <truncated>0</truncated>  

31.         <difficult>0</difficult>  

32.         <bndbox>  

33.             <xmin>198</xmin>  

34.             <ymin>58</ymin>  

35.             <xmax>286</xmax>  

36.             <ymax>197</ymax>  

37.         </bndbox>  

38.     </object>  

39. </annotation>  

ImageSets:存放的是每一种类型的challenge对应的图像数据。

在ImageSets下有四个文件夹:


目标检测主要关注Main文件下包含test.txt,train.txt,trainval.txt,val.txt四个txt文件:


实际用到的事test.txt和trainval.txt(val.txt和train.txt的结合)

JPEGImages:存放所有图片的文件夹。


二、数据集转化(COCOàVOC)

   对于数据集有个初步认识之后,现在开始实施转化。主要是生成VOC的XML格式,这一步完成剩下的就很简单了,这里我只是筛选其中的car,bus,truck,person。

准备工作:建立好一个存放COCOàVOC的文件夹,该文件夹VOC2007_g,该目录下包含Annotations,ImageSets,JPEGImages三个文件:

好的,现在开始:

Step 1:截取需要的类别(和VOC相同的类别) getclassNum.py

#-*- coding:utf-8-*-
import json
className = {
    1:'person',
    3:'car',
    6:'bus',
    8:'truck'
}
classNum = [1, 3,6,8]
cocojson="E:/coco/COCO/annotations/instances_train2014.json"
def writeNum(Num):
    withopen("COCO_train.json", "a+") as f:
        f.write(str(Num))
inputfile = []
inner = {}
with open(cocojson, "r+") as f:
    allData = json.load(f)
    data =allData["annotations"]
    print(data[1])
    print("read ready")
for i in data:
    if (i['category_id'] in classNum):
        inner = {
            "filename":str(i["image_id"]).zfill(12),
            "name":className[i["category_id"]],
            "bndbox":i["bbox"]
        }
        inputfile.append(inner)
inputfile = json.dumps(inputfile)
writeNum(inputfile)

 

Step2: 根据选取出来的类别中的图片筛选需要的图片到指定目录存放。chooseImagesbyID.py

# -*- coding: utf-8 -*-
# @Time    : 2018/03/09 10:46
# @Author  : SyGoing
# @Site    :
# @File    : getimagesbyID.py
# @Software: PyCharm
import json
import os
import cv2
nameStr = []
with open("COCO_train.json", "r+") as f:
    data = json.load(f)
    print("read ready")
for i in data:
    imgName = "COCO_train2014_"+ str(i["filename"]) + ".jpg"
    nameStr.append(imgName)
nameStr = set(nameStr)
print(nameStr)
print(len(nameStr))


path = 'E:/coco/COCO/train/'
savePath="E:/coco/COCO/VOC2007_/JPEGImages/"
count=0
for file in nameStr:
    img=cv2.imread(path+file)
    cv2.imwrite(savePath+file,img)
    count=count+1
    print('num: '+count.__str__()+'     '+file+'\n')

Step 3:根据筛选出来的图片ID生成VOC数据集的XML文件到Annotations文件夹下。CreateXML.py

#-*- coding:utf-8-*-

import xml.dom
import xml.dom.minidom
import os
# from PIL import Image
import cv2
import json

# xml文件规范定义


_IMAGE_PATH = 'E:/coco/COCO/train'

_INDENT = '' * 4
_NEW_LINE = '\n'
_FOLDER_NODE = 'COCO2014'
_ROOT_NODE = 'annotation'
_DATABASE_NAME = 'LOGODection'
_ANNOTATION = 'COCO2014'
_AUTHOR = 'SyGoing_CSDN'
_SEGMENTED = '0'
_DIFFICULT = '0'
_TRUNCATED = '0'
_POSE = 'Unspecified'

# _IMAGE_COPY_PATH= 'JPEGImages'
_ANNOTATION_SAVE_PATH = 'E:/coco/COCO/VOC2007_/Annotations'


# _IMAGE_CHANNEL= 3

# 封装创建节点的过程
def createElementNode(doc, tag, attr):  #创建一个元素节点
    element_node = doc.createElement(tag)

    # 创建一个文本节点
    text_node = doc.createTextNode(attr)

    # 将文本节点作为元素节点的子节点
    element_node.appendChild(text_node)

    return element_node


# 封装添加一个子节点
def createChildNode(doc, tag, attr, parent_node):
    child_node = createElementNode(doc,tag, attr)

    parent_node.appendChild(child_node)


# object节点比较特殊
def createObjectNode(doc, attrs):
    object_node =doc.createElement('object')

    midname=attrs['name']

    if midname !='person':
        midname='car'

    createChildNode(doc, 'name', midname,
                    object_node)

    #createChildNode(doc, 'name',attrs['name'],
    #                object_node)

    createChildNode(doc, 'pose',
                    _POSE, object_node)

    createChildNode(doc, 'truncated',
                    _TRUNCATED,object_node)

    createChildNode(doc, 'difficult',
                    _DIFFICULT,object_node)

    bndbox_node = doc.createElement('bndbox')

    createChildNode(doc, 'xmin',str(int(attrs['bndbox'][0])),
                    bndbox_node)

    createChildNode(doc, 'ymin',str(int(attrs['bndbox'][1])),
                    bndbox_node)

    createChildNode(doc, 'xmax',str(int(attrs['bndbox'][0] + attrs['bndbox'][2])),
                    bndbox_node)

    createChildNode(doc, 'ymax',str(int(attrs['bndbox'][1] + attrs['bndbox'][3])),
                    bndbox_node)

    object_node.appendChild(bndbox_node)

    return object_node


# 将documentElement写入XML文件
def writeXMLFile(doc, filename):
    tmpfile = open('tmp.xml', 'w')

    doc.writexml(tmpfile, addindent='' *4, newl='\n', encoding='utf-8')


    tmpfile.close()

    # 删除第一行默认添加的标记

    fin = open('tmp.xml')
    # print(filename)
    fout = open(filename, 'w')
    # print(os.path.dirname(fout))

    lines = fin.readlines()

    for line in lines[1:]:

        if line.split():
            fout.writelines(line)

            # new_lines =''.join(lines[1:])

        # fout.write(new_lines)

    fin.close()

    fout.close()


if __name__ == "__main__":
    ##读取图片列表
    img_path ="E:/coco/COCO/VOC2007_/JPEGImages/"
    fileList = os.listdir(img_path)
    if fileList == 0:
        os._exit(-1)

    withopen("COCO_train.json", "r") as f:
        ann_data = json.load(f)

    current_dirpath =os.path.dirname(os.path.abspath('__file__'))

    if notos.path.exists(_ANNOTATION_SAVE_PATH):
        os.mkdir(_ANNOTATION_SAVE_PATH)

        # if notos.path.exists(_IMAGE_COPY_PATH):
    #    os.mkdir(_IMAGE_COPY_PATH)

    for imageName in fileList:

        saveName =imageName.strip(".jpg")
        print(saveName)
        # pos =fileList[xText].rfind(".")
        # textName =fileList[xText][:pos]

        # ouput_file = open(_TXT_PATH +'/' + fileList[xText])
        # ouput_file =open(_TXT_PATH)

        # lines = ouput_file.readlines()

        xml_file_name =os.path.join(_ANNOTATION_SAVE_PATH, (saveName + '.xml'))
        # withopen(xml_file_name,"w") as f:
        #     pass

        img =cv2.imread(os.path.join(img_path, imageName))
        print(os.path.join(img_path,imageName))
        # cv2.imshow(img)
        height, width, channel =img.shape
        print(height, width, channel)

        my_dom = xml.dom.getDOMImplementation()

        doc = my_dom.createDocument(None,_ROOT_NODE, None)

        # 获得根节点
        root_node = doc.documentElement

        # folder节点

        createChildNode(doc, 'folder',_FOLDER_NODE, root_node)

        # filename节点

        createChildNode(doc, 'filename',saveName + '.jpg', root_node)

        # source节点

        source_node =doc.createElement('source')

        # source的子节点

        createChildNode(doc, 'database',_DATABASE_NAME, source_node)

        createChildNode(doc, 'annotation',_ANNOTATION, source_node)

        createChildNode(doc, 'image','flickr', source_node)

        createChildNode(doc, 'flickrid','NULL', source_node)

       root_node.appendChild(source_node)

        # owner节点

        owner_node = doc.createElement('owner')

        # owner的子节点

        createChildNode(doc, 'flickrid','NULL', owner_node)

        createChildNode(doc, 'name',_AUTHOR, owner_node)

        root_node.appendChild(owner_node)

        # size节点

        size_node =doc.createElement('size')

        createChildNode(doc, 'width',str(width), size_node)

        createChildNode(doc, 'height',str(height), size_node)

        createChildNode(doc, 'depth',str(channel), size_node)

        root_node.appendChild(size_node)

        # segmented节点

        createChildNode(doc, 'segmented',_SEGMENTED, root_node)

        for ann in ann_data:
            imgName ="COCO_train2014_" + str(ann["filename"])
            cname=saveName;
            if (saveName == imgName ):
                # object节点
                object_node =createObjectNode(doc, ann)
               root_node.appendChild(object_node)

            else:
                continue

                # 构建XML文件名称

        print(xml_file_name)

        # 创建XML文件

        # createXMLFile(attrs, width,height, xml_file_name)

        # # 写入文件
        #
        writeXMLFile(doc, xml_file_name)

 

Step4:生成Main文件夹下的trainval.txt,train.txt,val.txt

Test.txt. 这里用的事matlab写的.m文件

clc; 

clear; 

 

xmlfilepath='F:\ObjectDetection\object_mark\datamake\VOCdevkit\VOC2007\Annotations'; 

txtsavepath='F:\ObjectDetection\object_mark\datamake\VOCdevkit\VOC2007\ImageSets\Main\'; 

trainval_percent=0.5;  

train_percent=0.5;     

 

xmlfile=dir(xmlfilepath); 

numOfxml=length(xmlfile)-2;

 

trainval=sort(randperm(numOfxml,floor(numOfxml*trainval_percent))); 

test=sort(setdiff(1:numOfxml,trainval)); 

 

trainvalsize=length(trainval);

train=sort(trainval(randperm(trainvalsize,floor(trainvalsize*train_percent)))); 

val=sort(setdiff(trainval,train)); 

 

ftrainval=fopen([txtsavepath'trainval.txt'],'w'); 

ftest=fopen([txtsavepath'test.txt'],'w'); 

ftrain=fopen([txtsavepath'train.txt'],'w'); 

fval=fopen([txtsavepath'val.txt'],'w'); 

 

for i=1:numOfxml 

    if ismember(i,trainval) 

       fprintf(ftrainval,'%s\n',xmlfile(i+2).name(1:end-4)); 

        if ismember(i,train) 

           fprintf(ftrain,'%s\n',xmlfile(i+2).name(1:end-4)); 

        else 

           fprintf(fval,'%s\n',xmlfile(i+2).name(1:end-4)); 

        end 

    else 

       fprintf(ftest,'%s\n',xmlfile(i+2).name(1:end-4)); 

    end 

end 

fclose(ftrainval); 

fclose(ftrain); 

fclose(fval); 

fclose(ftest); 

 

 

到这里基本完工!然后根据自己的需求应用吧!

 

参考博客:

http://blog.csdn.net/zhangjunbob/article/details/52769381

http://blog.csdn.net/yjl9122/article/details/56842098

http://blog.csdn.net/hehangjiang/article/details/79108232

http://blog.csdn.net/u012905422/article/details/52372755

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

MSCOCO数据集格式转化成VOC数据集格式 的相关文章

  • C++set容器set和multiset区别

    C set容器set和multiset区别 学习目标 掌握set和multiset的区别 区别 set不可以插入重复数据 而multiset可以 set插入数据的同时会返回插入结果 表示插入是否成功 multiset不会检测数据 因此可以插
  • QT 自定义信号和槽

    好久没有静下心来思考了 每天靠工作驱动 忙碌但不踏实 QT信号与槽机制一直在用 也会用 但只是知其然不知其所以然 今天临近下班给自己点清醒的时间 详细了解了下 总结如下 信号与槽机制是QT中不同对象相互通信的一种方法 有两种写法 第一种是S
  • Cassandra创建键空间(Keyspace)

    Cassandra查询语言 CQL 可帮助开发人员与Cassandra沟通交互 Cassandra查询语言的语法与SQL非常相似 什么是键空间 Keyspace 键空间 Keyspace 是用于保存列族 用户定义类型的对象 键空间 Keys
  • ios 超签签名服务器搭建(超签)

    为什么要搭建签名服务器吗 因为应用不能上架App Store 使用企业签名频繁掉签造成客户流失 用户体验不好 ios安装的app有几种方式吗 1 App Store 安装 符合法律法规的能走app Store的app 2 企业签名安装 灰色

随机推荐

  • Paxos算法细节详解(一)--通过现实世界描述算法

    Paxos算法细节详解 一 通过现实世界描述算法 Paxos分析 最近研究paxos算法 看了许多相关的文章 概念还是很模糊 觉得还是没有掌握paxos算法的精髓 所以花了3天时间分析了libpaxos3的所有代码 此代码可以从https
  • SpringBoot_5

    SpringBoot对静态资源的映射规则 如果我们需用给web项目中添加css js html文件的话 我们会发现此时没有webapp目录 由于springboot是以jar包的方式打包程序的因此是没有webapp目录的 那么我们的css
  • VMware虚拟机从一台电脑复制到另一台电脑

    在一台电脑上利用虚拟机创建了centos 如果想在家里的电脑虚拟机上也运行centos 不用再重新安装以及漫长的安装等待了 可以利用先前在虚拟机上安装centos生成的 vmx文件和 vmdk文件 拷贝到U盘 再重新导入到新电脑就可以了 省
  • DBMS_STATS分析表 (zt) dbms_stats.set_table_stats 手工设置统计信息

    作用 DBMS STATS GATHER TABLE STATS统计表 列 索引的统计信息 DBMS STATS GATHER TABLE STATS的语法如下 DBMS STATS GATHER TABLE STATS ownname V
  • 关于React + Antd 按需引入样式未生效问题

    第一步 npm install antd 安装antd 第二步 在根目录下创建 babelrc文件 配置按需引入需要用到的plugin npm install save dev import babel import presets bab
  • 跨服务器共享文件,不同服务器之间实现文件共享

    不同服务器之间实现文件共享 内容精选 换一换 表1列出了弹性文件服务的常用功能 在使用弹性文件服务之前 建议您先通过常用概念介绍了解NFS CIFS等基本概念 以便更好地理解弹性文件服务提供的功能 表示该类型的文件系统支持该功能 表示该类型
  • 自定义指令的说明和注册

    自定义指令说明 Vue3 除了核心功能默认内置的指令 v model 和 v show Vue 也允许注册自定义指令 v xxx 注意 代码复用和抽象的主要形式是组件 然而 有的情况下 你仍然需要对普通 DOM 元素进行底层操作 这时候就会
  • Linux/多线程的同步与互斥

    线程安全 多个执行流对资源进行争抢访问 但不会产生数据二义性 线程安全的实现 同步 互斥 同步 通过条件判断实现对临界资源访问的合理性 互斥 通过同一时间对临界资源的唯一访问 实现对临界资源访问的安全性 互斥锁 互斥的实现 互斥锁 在多任务
  • 第一次使用Eclipse:编写简单的Java小程序

    通过前部分的学习 了解了Java的安装和配置 那么从现在开始 要开始自己着手编写Java程序 学习一门编程语言 学会编写的第一个程序一般都是写一个输出 hello World 语句的小程序来表示自己开始学习这门语言 那么这篇教程也不例外 因
  • fsnotify 与 too many open files

    fsnotify fsnotify 是用来监听文件 目录变化的一个 golang 开源库 在 Linux 系统使用中 遇到了too many open files问题 首次尝试 通常 有 2 处配置太小 会触发too many open f
  • 最惊艳的sql

    select from girls where age between 18 and 20 and boyfriend is null order by cup desc
  • 不管人工智能发展如何 开发者都有必要了解 Linux 内核

    Linux内核在计算机世界的地位有目共睹 称它为计算机世界的基石也不为过 而且它还是全球最大的开源项目 几乎最知名的科技公司都参与其中 包括谷歌 Red Hat SUSE Intel Facebook 甲骨文和华为等 当然还包括Linux的
  • 将cmd中输出数据 保存为TXT文本

    原文 http blog sina com cn s blog 6d2d58cd0100x7zw html 在使用Windows XP中的cmd exe工具时 有时候我们想要把我们的输入命令及结果保存起来 但是用复制的方法过于麻烦 有时输出
  • LeetCode 热题 HOT 100:滑动窗口专题

    LeetCode 热题 HOT 100 https leetcode cn problem list 2cktkvj 文章目录 3 无重复字符的最长子串 128 最长连续序列 239 滑动窗口最大值 438 找到字符串中所有字母异位词 3
  • JFLex和JavaCUP简单使用

    由于需要使用到doris中的sql parser功能 所以决定使用其定义好的flex文件和cup文件 生成自己sqlscanner和parser类 步骤如下 1 下载JFlex和JavaCUP程序 路径分别为 https www jflex
  • 机械制造与自动化涉及使用计算机吗,论机械设计制造及自动化中计算机技术

    将计算机技术运用到机械设计制造中 大大提高了机械设计制造智能化水平 在机械设计制造中占据很重要的位置 但我国机械制造设计水平同国外发达国家相比 还存在一定的距离 若是可以加大对计算机技术的研究和探索 对机械制造行业的发展是非常有利的 1机械
  • Flowable入门系列文章29 - Activity解读 05

    1 消息开始事件 描述 甲消息开始事件可用于使用已命名的信息来启动一个过程实例 这有效地允许我们使用消息名称从一组替代开始事件中选择正确的开始事件 在部署具有一个或多个消息启动事件的流程定义时 应考虑以下注意事项 消息开始事件的名称在给定的
  • 机器学习实战:Python基于支持向量机SVM-RFE进行分类预测(三)

    文章目录 1 前言 1 1 支持向量机的介绍 1 2 支持向量机的应用 2 demo数据集演示 2 1 导入函数 2 2 构建数据集拟合 2 3 预测模型及可视化 3 实例演示分类 非SVM 3 1 导入函数和数据 3 2 简单线性分类 3
  • 剑指offer Java实现 第五题

    第五题 请实现一个函数 将一个字符串中的每个空格替换成 20 例如 当字符串为We Are Happy 则经过替换之后的字符串为We 20Are 20Happy 实现代码 public static String replaceSpace
  • MSCOCO数据集格式转化成VOC数据集格式

    MSCOCO数据集格式转化成VOC数据集格式 转载请注明原出处 http blog csdn net ouyangfushu article details 79543575 作者 SyGoing QQ 2446799425 SSD目标检测