XML格式数据集转TXT（YOLO）

2023-11-13

我从网上下载了一个数据集（underwater）它们提供了xml格式的数据，但是我想用yolov5进行训练，所以需要将xml格式转化为txt格式。

正常的xml格式的数据集可以参考

目标检测中将已有的.xml数据集转换成.txt数据集(附代码，归一化后供YOLO格式使用)_orangezs的博客-CSDN博客

但是，我下载的数据集有点不同，它的xml文件中没有size属性，而且还标注了我们不需要的类别

这里我参考了下面几个人的博客

PyTorch版YOLOv4训练自己的数据集---基于Google Colab-python黑洞网

获取VOC数据集xml标注文件的各类别的个数，更改类别名，删除某一类_静候：花开的博客-CSDN博客

【脚本工具】python修改xml文件中类别的名称和删除指定的类别_超级无敌陈大佬的跟班的博客-CSDN博客【目标检测适用】批量修改xml文件中的name字段_*pprp*的博客-CSDN博客_修改xml的name

最终问题得以解决，再附上我自己修改过的代码

MAKE TXT

import os

xmlfilepath = './Annotations'
txtsavepath = './ImageSets'
total_xml = os.listdir(xmlfilepath)
num = len(total_xml)

list = range(num)

train = open('./ImageSets/train.txt', 'w')


for i in list:
    name = total_xml[i][:-4] + '\n'
    train.write(name)

train.close()

delete_xml

import os
import xml.etree.ElementTree as ET
yuan_dir = './Annotations'  # 设置原始标签路径为 Annos
new_dir = './new_xml'  # 设置新标签路径 Annotations
for filename in os.listdir(yuan_dir):
    file_path = os.path.join(yuan_dir, filename)
    new_path=os.path.join(new_dir,filename)
    dom = ET.parse(file_path)
    root = dom.getroot()
    for obj in root.findall('object'):  # 获取object节点中的name子节点
        if obj.find('name').text == 'waterweeds':
            root.remove(obj)
            #print("change %s to %s." % (yuan_name, new_name1))
        # elif obj.find('name').text== 'a':
        #     root.remove(obj)
##可以继续删除，继续用elif语句
 # 保存到指定文件
    dom.write(new_path, xml_declaration=True)

xml2txt

# xml解析包
import xml.etree.ElementTree as ET
import pickle
import os
# os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表
from os import listdir, getcwd
from os.path import join
import cv2


sets = ['train']
classes = ["holothurian", "echinus", "scallop", "starfish"]  ##修改为自己的类别 # 自己训练的类别

images = r"./images"
# 进行归一化操作
def convert(size, box): # size:(原图w,原图h) , box:(xmin,xmax,ymin,ymax)
    dw = 1./size[0]     # 1/w
    dh = 1./size[1]     # 1/h
    x = (box[0] + box[1])/2.0   # 物体在图中的中心点x坐标
    y = (box[2] + box[3])/2.0   # 物体在图中的中心点y坐标
    w = box[1] - box[0]         # 物体实际像素宽度
    h = box[3] - box[2]         # 物体实际像素高度
    x = x*dw    # 物体中心点x的坐标比(相当于 x/原图w)
    w = w*dw    # 物体宽度的宽度比(相当于 w/原图w)
    y = y*dh    # 物体中心点y的坐标比(相当于 y/原图h)
    h = h*dh    # 物体宽度的宽度比(相当于 h/原图h)
    return (x, y, w, h)    # 返回 相对于原图的物体中心点的x坐标比,y坐标比,宽度比,高度比,取值范围[0-1]


# year ='2012', 对应图片的id（文件名）
def convert_annotation(image_id):
    '''
    将对应文件名的xml文件转化为label文件，xml文件包含了对应的bunding框以及图片长款大小等信息，
    通过对其解析，然后进行归一化最终读到label文件中去，也就是说
    一张图片文件对应一个xml文件，然后通过解析和归一化，能够将对应的信息保存到唯一一个label文件中去
    labal文件中的格式：calss x y w h　　同时，一张图片对应的类别有多个，所以对应的ｂｕｎｄｉｎｇ的信息也有多个
    '''
    # 对应的通过year 找到相应的文件夹，并且打开相应image_id的xml文件，其对应bund文件
    in_file = open('./new_xml/%s.xml' % (image_id), encoding='utf-8')
    # print(in_file.name)
    # 准备在对应的image_id 中写入对应的label，分别为
    # <object-class> <x> <y> <width> <height>
    out_file = open('./labels/%s.txt' % (image_id), 'w', encoding='utf-8')
    # print(out_file.name)
    # 解析xml文件
    tree = ET.parse(in_file)
    # 获得对应的键值对
    root = tree.getroot()
    # 获得图片的尺寸大小
    # size = root.find('size')
    # # 获得宽
    # w = int(size.find('width').text)
    # # 获得高
    # h = int(size.find('height').text)

    img = cv2.imread(images + "/" + image_id + '.jpg')
    w = int(img.shape[1])
    h = int(img.shape[0])

    # # 遍历目标obj
    for obj in root.iter('object'):
        cls = obj.find('name').text
        # if cls = waterweeds
        if cls not in classes == 1:
            continue
        cls_id = classes.index(cls)
        xmlbox = obj.find('bndbox')
        b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text),
             float(xmlbox.find('ymin').text), float(xmlbox.find('ymax').text))
        bb = convert((w, h), b)
        out_file.write(
            str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')


# 返回当前工作目录
wd = getcwd()
print(wd)


for image_set in sets:
    '''
    对所有的文件数据集进行遍历
    做了两个工作：
　　　　１．讲所有图片文件都遍历一遍，并且将其所有的全路径都写在对应的txt文件中去，方便定位
　　　　２．同时对所有的图片文件进行解析和转化，将其对应的bundingbox 以及类别的信息全部解析写到label 文件中去
    　　　　　最后再通过直接读取文件，就能找到对应的label 信息
    '''
    # 先找labels文件夹如果不存在则创建
    if not os.path.exists('./labels/'):
        os.makedirs('./labels/')
    # 读取在ImageSets/Main 中的train、test..等文件的内容
    # 包含对应的文件名称
    image_ids = open('./ImageSets/%s.txt' % (image_set)).read().strip().split()
    # 打开对应的2012_train.txt 文件对其进行写入准备
    list_file = open('./%s.txt' % (image_set), 'w')
    # 将对应的文件_id以及全路径写进去并换行
    for image_id in image_ids:
        list_file.write('./images/%s.jpg\n' % (image_id))
        # 调用  year = 年份  image_id = 对应的文件名_id
        convert_annotation(image_id)
    # 关闭文件
    list_file.close()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习

xml

目标检测

XML格式数据集转TXT（YOLO）的相关文章

在 Java 中通过 XSLT 分解 XML

我需要转换具有嵌套分层表单结构的大型 XML 文件
Java - 从 XML 文件读取注释

我必须从 XML 文件中提取注释我找不到使用 JDOM 或其他东西来让它们使用的方法目前我使用 Regex 和 FileReader 但我不认为这是正确的方法您可以使用 JDOM 之类的东西从 XML 文件中获取注释吗或者它仅限于元
在 iOS 上创建 Excel XLS 文件

我正在尝试创建 Excel 格式的报告准备通过电子邮件发送到目前为止我发现最好最简单的方法是创建一个 xml 文档如下所示并将其另存为 xls
保存 xml 文档会导致文件损坏

我有一个关于如何将 xmldoc 保存为 word 文件的问题我想打开 word 文件使用 xmldocument 类对潜在的 xml 结构进行一些操作然后将其重新保存回 word 文件这就是我目前正在做的事情 using Word
PowerShell-V5 Invoke-Webrequest 添加 2 个标头授权标头和接受接受标头

我正在尝试创建一个脚本该脚本将使用 powershell 和 invoke webrequest 自动升级 NSX 以利用 NSX Manager 的 API 调用我已经完成了脚本但脚本的某些部分我需要检查并匹配响应中的某些数据事实
如何将空字符串序列化为单个空标签？

我使用 Simple XML 框架序列化此类 Root public class HowToRenderEmptyTag Element required false private String nullString 我想得到
在浏览器中读取wsdl文件

当我尝试在浏览器中打开 WSDL 文件 http localhost something file wsdl 时我被提议下载该文件但我希望能够在浏览器中以 XML 字符串形式查看而不是下载谢谢如果您的服务器未发送 WSDL 文件
将 < 转换为 < xml 文档

我已读取 XML 文件并转换为 NSXMLDocument 对象但是由于节点的字符串内容中存在我如何将文件作为普通 XML 文件写入其中 lt 将被感谢致敬列宁当的时候 lt 字符出现在文本节点中它将被序列化为 lt 当您
需要 XSL 文件将内部 xml 测试格式转换为 Junit 格式（xUnit Plugin for jenkins）

我正在尝试编写一个 XSL 将我的 XML 转换为 jenkins 采用的 JUNIT 格式见下文我的 xml 看起来像这样我有几个类例如数据中心或网络
xpath 根据子值选择父级

我希望选择状态为实时的每个活动我在 Drupal 的 XPath XML 解析器中使用它并具有上下文基本查询和 xpath 查询字段上下文这是基本查询所有其他查询都将在此上下文中运行我目前有语境 event status
解析XML文件以获取所有命名空间信息

我希望能够从给定的 XML 文件中获取所有名称空间信息例如如果输入 XML 文件类似于
大型 XML 的 XML 节点到字符串转换

到目前为止我一直在使用DOM源在我的 Android 应用程序中将 XML 文件转换为字符串这是我的代码 public String convertElementToString Node element throws Transform
根据 ss:Index 对单元格进行排序

服务器生成的 XML 电子表格具有随机序列
为什么在python中解析xml文件时会在文件中有“/>”的地方添加空格？

当我解析 xml 文件然后将结果写入输出文件时原始文件中存在 gt 的地方都会添加一个空格有什么办法可以阻止它被创建吗我编写了一些 python 代码来更新 xml 文件中的几个字段并认为一切正常但在原始文件和更新后的文件之间运行
如何使用“路径”查询 XDocument？

我想查询一个XDocument给定路径的对象例如 path to element I want 但我不知道如何继续您可以使用以下方法System Xml XPath Extensions http msdn microsoft com
简单 XML 框架：ElementMap 中的对象具有“类似内联”的行为

我正在尝试在 Android 上序列化自定义对象的 Hashmap 以获得如下 xml
JAXB 继承冲突 - 重新注释子类

目前我的项目中有这样的环境 public abstract class Foo private List
膨胀类 android.support.design.widget.NavigationView 时出错

我按照 NavigationView 的教程进行操作但无法解决此错误消息 Error inflating class android support design widget NavigationView 教程链接 https www
以编程方式创建 FloatingActionButton（无需 xml）

我很欣赏 Android 的 FloatingActionButton fab 功能并希望在我的项目中的许多不同地方使用它们现在我有这样的东西我有几个 xml 规范除了 id 图标和 onclick 之外所有这些规范都是相同的
xhtml 文档 - Lang 选项问题

下面显示的两行有什么区别如果我没有meta标签会有什么后果元版本是否会影响屏幕阅读器而顶部版本则不会我对他们到底做什么有点困惑预先感谢您的任何帮助此致 Skip 深入研究辅助功能识别您的语言页面 http diveintoacc

随机推荐

windows安装mysql

一下载安装包以win10企业版 mysql5 7为例官网地址 MySQL Download MySQL Installer Archived Versions 百度网盘链接 https pan baidu com s 1nduWGiG
2022年第一天，体验了一把wan(皖)式服务

在新的一年到来之际一口君首先祝各位粉丝朋友新年快乐心想事成事业顺利阖家欢乐财源广进 2022年的第一天一口君带着家人去了躺马鞍山享受了一下皖式洗浴马鞍山桑拿虽然比不上中国的洗浴之都沈阳但是也还算有自己的特色上点规模的桑拿
刷脸支付在设备落地方面取得了阶段性进展

相比当下流行的扫码支付刷脸支付更便捷资金流动更安全且还有马云马化腾多次亲自站台宣传想不火都难目前与刷脸相关的网络热度词包括刷脸支付手机扫码消费者人工智能花钱等等通过这些关联词也说明了一个问题刷脸支付在落地方面取得了阶
接口测试——Postman配置环境变量和全局变量

我们在测试的过程中遇到最多的问题也可以是环境的问题了吧今天开发用了这个测试环境明天又换了另一个测试环境这样对于我们测试非常的麻烦特别最接口的时候需要来回的输入环境地址比较麻烦今天我们看看强大的工具Postman有没有办法解决这个
javabean存在服务器什么位置,jsp中javaBean的运用

IT168 服务器学院利用JSP JavaServer Pages 技术能有效快速地建造动态数据库查询网页众所周知要学好学精一应用软件首先要装好软件找一可运行实例学习并对实例修改运行学习提高这样你就会很快入门及学精这一软
在32位Windows系统下安装Java

Java分成三个平台 Java SE Java Standard Edition 包含了JRE Java SE runtime environment Java SE运行环境和JDK Java development kit Java开发
设计一个“完美“的测试用例，用户登录模块实例...

前言好的测试用例一定是一个完备的集合它能够覆盖所有等价类以及各种边界值而跟能否发现缺陷无关好的测试用例必须具备哪些特征整体完备性一定是一个完备的整体是有效测试用例组成的集合能够完全覆盖测试需求等价类划分的准确性对于每个等
C++ Attentions

1 switch内部的变量定义 C 语言规定不允许跨过变量的初始化语句直接跳转到该变量作用域内的另一个位置 include
Python学习-----起步1(Python的下载，脚本与交互模式，注释)

目录 Python的下载解释器 IDLE进入Python解释器交互模式脚本模式注释单行注释多行注释 Python的下载解释器百度网盘链接 https pan baidu com s 1WEmOAGGHtHc1fxZzNGKu
Android Studio安装配置、环境搭建详细步骤及基本使用

前言 Android Studio的安装配置及使用篇终于来啦废话不多说以下针对JDK正确安装及其环境变量配置完毕即Java开发环境下 Android Studio的安装配置以及创建工程主题字体更换窗口工具布局快捷方式等的
oracle账号共享

各位小伙伴在oracle官网下载JDK需要oracle账号本人提供账号共享方便大家下载希望大家不要改密码方便更多的人账号 908344069 qq com 密码 Java2019 jdk 8u271 linux x64 tar
Element ui 格式化后端时间、el-date-picker日期格式化

目录 1 el组件格式化后端时间 1 el组件格式化前端时间 1 el组件格式化后端时间 1 引入moment js 先安装 npm install moment save 导入 import moment from moment 使用
EDG王者归来

11月7日凌晨1点刚刚落幕的英雄联盟S11全球总决赛中国战队EDG以3 2击败韩国战队DK 一举夺得S11总冠军随着BO5最后一场 EDG破三路摧毁敌方水晶 6年的努力 6年的汗水与泪水都在这一刻得到了见证断剑重铸之日骑士归来
torch.autograd.set_detect_anomaly在mmdetection中的用法

这里写自定义目录标题作用添加位置作用添加位置
关于数据库的备份个人见解

一关于数据备份和还原 1 在工作中经常碰到生产环境上面数据库数据需要进行一些变更或者改动这个时候呢很多人的第一反应就是先备份整张表为一张临时表然后就开始对表数据进行操作如果出现数据异常需要回退的时候就直接删除现在表然后把备
50个知名的开源网站

1 http snippets dzone com tag c 数以千计的有用的C语言源代码片段 2 http www hotscripts com category c cpp scripts programs Hotscripts 提供
Python 文件的读写操作

文章目录 1 文件对象 1 1 文件打开方式 1 1 1 打开文件 1 1 2 关闭文件 1 1 3 访问模式 1 2文件读取 1 2 1 read 1 2 2 readline 1 2 3 readlines 1 3 文件迭代 1 4 文
最短路径：迪杰斯特拉算法

算法步骤 1 初始化 1 将源点v0加到S中即S v0 true 2 将v0到各个终点的最短路径长度初始化为权值即D i G arcs v0 vi vi属于V S 3 如果v0和顶点vi之间有弧则将vi的前驱置为v0 即Path i
硬件系统工程师宝典（28）-----关于LDO，应该知道的事

各位同学大家好欢迎继续做客电子工程学习圈今天我们继续来讲这本书硬件系统工程师宝典上篇我们说到BJT配合MOSFET控制电源开关的四种电路以及MOSFET的均流电路今天我们来讲讲LDO的应用分析 LDO的结构 LDO Low Dro
XML格式数据集转TXT（YOLO）

我从网上下载了一个数据集 underwater 它们提供了xml格式的数据但是我想用yolov5进行训练所以需要将xml格式转化为txt格式正常的xml格式的数据集可以参考目标检测中将已有的 xml数据集转换成 txt数据集附代码

XML格式数据集转TXT（YOLO）

XML格式数据集转TXT（YOLO） 的相关文章

随机推荐

热门标签

XML格式数据集转TXT（YOLO）的相关文章