使用Keras版本的Yolov3训练自己的数据集和进行目标检测时，需要注意的一些问题

2023-05-16

最近因为工作需要，使用了Yolo v3做目标检测。由于它自带的数据集完全不能够满足需要，只能从头开始自己训练。当然这必须要用python来做了，不能用C语言。。。

首先，我发现那个著名的Keras版本非常好：https://github.com/qqwweee/keras-yolo3 但它的一些地方很麻烦，尤其是关于训练，作者给出的方法太粗糙了，甚至没有使用标注软件。。。

于是我在网上搜索了一下，发现有个网页确实讲得很具体，值得学习啊，感谢鸡立鹤群的大愚弱智为大家所做的贡献：https://blog.csdn.net/u012746060/article/details/81183006

但其中还是有一些问题没有讲清楚，以至于网页下方有很多人在提问，始终没有收到回复。因为我已经基本搞明白了，所以这里补充说明几个关键点，希望对大家有用：

文件夹叫什么名字其实无所谓，不一定要叫VOC2007，只需要在后面的各项设置中把名字对应上就行。

logs/000/目录也不是一定要存在，如果想放在别的路径，记得训练之前去train.py里，把log_dir = ‘logs/000/’ 改掉；训练之后去yolo.py里，把"model_path": ‘logs/000/trained_weights.h5’ 改掉。

就如同一些人发现的那样，使用python yolo.py实际上是无法实现图片检测的，只会显示Using TensorFlow backend，然后立即退出。正确的办法应该是使用python yolo_video.py --image。
PS：如果直接去原作者的Github页面看他的介绍，会发现他描述的用法也是用yolo_video.py，而不是yolo.py。

    我看到有些人反映说，运行之后出现了类似于这样的提示：
    2019-07-09 13:48:45.569398: E tensorflow/core/grappler/optimizers/meta_optimizer.cc:502] shape_optimizer failed: Invalid argument: Subshape must ha ve computed start >= end since stride is negative, but is 0 and 2 (computed from start 0 and end 9223372036854775807 over shape with rank 2 and str ide-1)
    2019-07-09 13:48:46.972414: E tensorflow/core/grappler/optimizers/meta_optimizer.cc:502] remapper failed: Invalid argument: Subshape must have comp uted start >= end since stride is negative, but is 0 and 2 (computed from start 0 and end 9223372036854775807 over shape with rank 2 and stride-1)
    2019-07-09 13:48:47.816976: E tensorflow/core/grappler/optimizers/meta_optimizer.cc:502] layout failed: Invalid argument: Subshape must have comput ed start >= end since stride is negative, but is 0 and 2 (computed from start 0 and end 9223372036854775807 over shape with rank 2 and stride-1)
    这个没有关系的，这个提示完全不妨碍正确的检测结果，我这边也有这类提示。

不用GPU的话，训练速度当然很慢，各位只能自己想办法了。如果现实中找不到好电脑，可以考虑网上云端运行。至于有人说“这个程序不能用GPU运行”，这个情况我完全没有遇到，不知道为何。

修改iou和score的值非常简单，去yolo.py里面，修改第27和第28行即可。不过个人感觉系统默认值其实是挺合理的。

    关于如何修改学习率，这边有一个细节。在鸡立鹤群的大愚弱智的网页上，他是把train.py重写了，这样就和原始的train.py很不一样了。
    如果大家去看原始的文件，会在第53行看到optimizer=Adam(lr=1e-3)，第73行看到optimizer=Adam(lr=1e-4)，它的意思是分成两个阶段训练，第一阶段使用较大的学习率去探索，到后面第二阶段开始微调了，就改成较小的学习率，所以本身Yolo v3的学习率一定是可以设定的。
    但是在重写的文件里，这两行都没了，只剩下第22行的optimizer=‘adam’, 意思应该是从头到尾学习率不变，不分阶段。所以我甚至不确定这个版本的Yolo v3到底用了多大的学习率？系统默认学习率是多少我也不知道。。。
    总之如果想手动修改lr，应该就是在这个地方附近吧。我没改过，感觉没有必要。

有一个细节虽然不影响程序正常运行，但其实是的一个失误。在他的第3步里，他生成了4个txt文件，包括了初步的验证集val.txt，并且在第4步生成了最终的验证集2007_val.txt。但是到了他的第7步，他又在最终的训练集2007_train.txt里面划出10%的数据作为验证集，并且他第7步的train.py里面，根本就没有读取2007_val.txt。换言之，他的2007_val.txt白做了，所有的数据都浪费了，最终的验证集数据其实还是来源于训练集。
对这种情况最简单的处理办法就是，在他第3步里，设置trainval_percent = 0，train_percent = 1，这样最后就没有2007_val.txt了，所有的数据都会进入2007_train.txt，都不浪费。

loss值运行很久之后不下降，或者loss值变得很小之后，检测效果仍然不好，那么有很多种可能性，无法几句话概括。最大的可能性之一是：你的数据太少了。我看到有人说，训练集用了100多张照片，这可不太够。。。

这个程序确实没有输出训练日志文件，没法直接画loss曲线之类的。但实现这一步其实很简单，因为训练数据会展示出来，比如在cmd里或者jupyter notebook里。我们直接把这些数据拷贝出来，粘贴到记事本里就行了。然后你可以用excel读取这个文本文件，转化为excel格式（比如把空格作为分隔符读取），接下来怎么画图都可以。

    Yolo v3确实没有自带的“用测试集评估模型的代码”，这是目标检测本身的原理导致的，所以你只能人工评估。比如你图上有10个目标，结果检测出来9个，有1个是错误的，8个是正确的，那么你的precision就是8/9=0.89，recall就是8/10=0.8，F1 score可以算出来是0.84。这个你只能手动算。。。
    你要想让Yolo v3和你标注的结果（比如LabelImg的xml文件）做对比，然后自动输出统计结果，这不现实，它目前还没这个功能呢。
    这也就是8里为什么我提议设置trainval_percent = 0，train_percent = 1的原因，因为这个程序里根本不包含测试代码，test.txt和2007_test.txt的数据说白了也是被浪费的，不如不要。

    最最重要的一点：很多人都反映了同一个问题，即一张图片最多只能识别20个对象。事实上我做的时候，有2类，一开始就最多只能识别40个对象，所以是遇到了同一个问题（大家都是做小物体检测的吧？）。
    这个问题的答案其实非常简单，我最终是在这个程序Github网页的某个issue里找到答案的。。。外国人A问了这个问题，外国人B给出了答案：
    20是这个程序预设的一个参数（超参数），意思是每张图片最多只能识别20个，所以把这个参数改掉就行了！
    要改的地方有两个：
    （1）训练时，要在yolo3文件夹下面的utils.py里，修改get_random_data()函数，有一个默认参数是max_boxes=20，改成很大的数值就行了。
    （2）检测时，要在yolo3文件夹下面的model.py里，修改yolo_eval()函数，有一个默认参数是max_boxes=20，改成很大的数值就行了。
    （1）是外国人B说的，（2）是我后来自己摸索出来的。（2）很重要，但其实（1）也很关键，要是不改的话，你在一张图里的标注，最多就只有20个被系统输入了，别的都浪费了。

最后总结一下：这个Keras版本的Yolo v3程序肯定是没问题的；如果有问题，都是可以解决和克服的；实在解决不了，网上中文和英文资源那么多，搜一搜就好啦。

————————————————
版权声明：本文为CSDN博主「yitai_kongtiao」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_45488478/article/details/98397947

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用Keras版本的Yolov3训练自己的数据集和进行目标检测时，需要注意的一些问题的相关文章

将 SSIM 损失函数与 Keras 结合使用

我需要使用 Sewar 的 SSIM 作为损失函数以便比较我的模型的图像当我尝试编译模型时出现错误我导入该函数并编译模型如下所示 from sewar full ref import ssim model compile ssim
AMD plaidml 与 CPU Tensorflow - 意外结果

我目前正在运行一个简单的脚本来训练mnist数据集通过 Tensorflow 通过我的 CPU 运行训练给了我49us sample和使用以下代码的 3e 纪元 CPU import tensorflow as tf mnist tf k
加载视频数据集（Keras）

我正在尝试实现 LRCN C LSTM RNN 来对视频中的情绪进行分类我的数据集结构分为两个文件夹 train set 和 valid set 当你打开其中任何一个时你可以找到3个文件夹积极消极和惊喜最后这 3 个文件夹中
Google Colab：为什么 CPU 比 TPU 快？

我正在使用 Google colabTPU训练一个简单的Keras模型删除分布式strategy并在CPU比TPU 这怎么可能 import timeit import os import tensorflow as tf from sk
如何使用功能 API 训练 Keras 模型，该模型具有两个输入和两个输出，并使用两个 ImageDataGenerator 方法 (flow_from_directory)

我想使用 Function Keras API 创建一个模型该模型将有两个输入和两个输出该模型将使用两个实例ImageDataGenerator flow from directory 方法从两个不同的目录分别是inputs1和inp
如何获取 lambda 层内的批量大小

我正在尝试实现一个层通过 lambda 层它执行以下 numpy 过程 def func x n return np concatenate x n np tile x n mean axis 0 x shape 0 1 axis 1
了解 keras 中不同序列的 lstm 输入形状

我对 keras 和 python 都很陌生我有一个具有不同序列长度的时间序列数据集例如第一个序列是 484000x128 第二个序列是 563110x128 等我已将序列放入 3D 数组中我的问题是如何定义输入形状因为我很困惑
当我想在电脑中加载该模型时，我可以在 colab bu 中加载我的深度模型，但我不能

我在colab中通过keras 2 3 1和tensorflow 2 1 0训练了一个深度模型我用JSON和Keras保存了我的模型 saveWeightPath content drive My Drive model info mod
使用 theano 进行多处理

我正在尝试将 theano 与 cpu 多处理和神经网络库 Keras 结合使用 I use device gpu标记并加载 keras 模型然后为了提取超过一百万张图像的特征我使用多处理池该函数看起来像这样 from keras
如何创建 Keras 层来执行 4D 卷积 (Conv4D)？

看起来tf nn convolution应该能够进行 4D 卷积但我无法成功创建 Keras 层来使用此函数我尝试过使用 KerasLambda层来包裹tf nn convolution功能但也许其他人有更好的主意我想利用数据的高维
Keras 服装回调。生成精确召回时，我在 _flow_index 中收到错误

我正在使用 Keras 训练二元分类器我想在每个时期后生成 precision score 和 recall score 以便更深入地分析训练在互联网上我找到了教程帮助例如 https medium com thongonary h
keras 中的增量学习

我正在寻找 scikit learn 的 keras 等效项partial fit https scikit learn org 0 15 modules scaling strategies html incremental learni
错误 - AttributeError：“DirectoryIterator”对象在 keras 的自动编码器设计中没有属性“ndim”

我是 Python 3 5 的新手我正在尝试编写一个简单的自动编码器它将在 60 张苹果图像的数据集上进行训练并尝试重建根中给出的图像我使用了以下代码 from keras layers import Input Dense fro
Tensorflow Hub - 获取模型的输入形状和问题域？

我正在使用最新版本的tensorflow hub 想知道如何获取有关模型的预期输入形状以及模型属于什么类型的集合的信息例如有没有办法以这种方式在 Python 中加载模型后获取有关预期图像形状的信息 model hub load htt
在 keras 中集成采样的 softmax 失败

基于如何在 Keras 模型中使用 TensorFlow 的采样 softmax 损失函数 https stackoverflow com questions 47892380 how can i use tensorflows sampl
在不同的 GPU 上同时训练多个 keras/tensorflow 模型

我想在 Jupyter Notebook 中同时在多个 GPU 上训练多个模型我正在使用 4GPU 的节点上工作我想将一个 GPU 分配给一个模型并同时训练 4 个不同的模型现在我通过例如为一台笔记本选择 GPU import
Tensorflow 不分配完整的 GPU 内存

Tensorflow 默认分配所有 GPU 内存但我的新设置实际上只有 9588 MiB 11264 MiB 我预计大约 11 000MiB 就像我的旧设置一样张量流信息在这里 from tensorflow python client
将 Dropout 与 Keras 和 LSTM/GRU 单元结合使用

在 Keras 中您可以像这样指定 dropout 层 model add Dropout 0 5 但对于 GRU 单元您可以将 dropout 指定为构造函数中的参数 model add GRU units 512 return se
ValueError：没有为“dense_input”提供数据

我正在使用以下简单的代码使用tensorflow加载csv并使用keras执行建模无法弄清楚这个错误 import tensorflow as tf train dataset fp tf keras utils get file fna
如何将神经网络的输出限制在特定范围内？

我正在使用 Keras 进行回归任务并希望将输出限制在一个范围内例如 1 到 10 之间有没有办法保证这一点像这样编写自定义激活函数 a simple custom activation from keras import back

随机推荐

Kaggle Feedback Prize 3比赛总结：针对层级的训练策略

Last Layers Re initialization 我们不使用所有层的预训练权重 xff0c 而是使用原始的Transformer初始化来重新初始化指定的层数重新初始化的层会破坏这些特定块的预训练知识我们知道较低的预训练层学习更
CVPR2021-RSTNet-Captioning with Adaptive Attention on Visual and Non-Visual Words

论文地址 CVPR2021 RSTNet Captioning with Adaptive Attention on Visual and Non Visual Words 背景介绍在image captioning领域最常使用的是 en
CVPR2020-Meshed-Memory Transformer for Image Captioning

论文地址 xff1a Meshed Memory Transformer for Image Captioning thecvf com Background 本文在transformer的基础上 xff0c 对于Image Caption
LLDP链路层发现协议介绍

目录背景基本概念LLDP报文Ethernet II格式封装的LLDP报文SNAP格式封装的LLDP报文 LLDPDUTLV 特点工作机制LLDP的工作模式LLDP报文的发送机制LLDP报文的接收机制参考背景目前 xff0c 网络设备
python带参数的装饰器

装饰器带参数 xff0c 一般都是三层 def first a 第一层 xff1a 负责接收装饰器的参数 def second func 第二层 xff1a 负责接收函数 def third args kwargs 第三层 xff0c 负责
IP地址、子网掩码、网络号、主机号、网络地址、主机地址

IP地址 xff1a 4段十进制 xff0c 共32位二进制 xff0c 如 xff1a 192 168 1 1 二进制就是 xff1a 11000000 xff5c 10101000 xff5c 00000001 xff5c 000000
连接到CentOS(Linux)服务器ssh、mysql缓慢

现象 xff1a 服务器163与服务器164在同一机柜 xff0c 双绞线直接连接 xff0c 从办公室或者服务器163去连机服务器164的ssh mysql均缓慢 xff0c 让机房人员查了 xff0c 无果而164却正常最后发现两个
Ubuntu18.04下安装Nvidia驱动和CUDA10.1＋CUDNN7.6.5

首先 xff0c Ubuntu下查看Nvidia显卡的详细信息 xff1a nvidia smi nvidia smi Fri Aug 16 08 46 25 2019 43 43 NVIDIA SMI 430 26 Driver Vers
嵌入式Linux--U-Boot（三）Boot命令使用

目录介绍1 bootz 命令 bootz启动Linux1 tft启动 1 设置开发板网络设置2 ping虚拟机 xff08 tft服务器 xff09 3 tft下载zImage4 tft下载设备树2 emmc启动Linux2 bootm
Linux命令总结--pwd命令

pwd 简介 pwd xff08 print work directory 打印当前目录 xff09 命令以绝对路径的方式显示用户当前工作目录用法 pwd LP 1 参数 L logical 当目录为连接路径时 xff0c 显示连接路径
关于debian系统网关的设置

1 网关主机设置 eth0为外网网卡 1 修改 etc network interfaces文件内容如下 xff1a auto lo eth0 eth1 iface lo inet loopback allow hotplug eth0 i
uboot bootcmd和bootargs环境变量设置

一官方环境变量bootcmd bootcmd变量定义位于 include configs mx6ull my evk h copy from include configs mx6ullevk h 中 xff0c define CONFI
linux import tensorflow as tf 非法指令 (核心已转储)

安装tensorflow 安装pip的命令 python2 x环境下pip的安装 sudo apt get install python pip python dev python3 x环境下pip的安装 sudo apt get inst
TensorFlow1.2~2.1各个GPU版本CUDA和cuDNN对应版本整理

要搭建TensorFlow的GPU版本 xff0c 首先需要的必备条件就是一块能够支持CUDA的NVIDIA显卡 xff0c 因为在搭建TensorFlow的GPU版本时 xff0c 首先需要做的一件事就是安装其基础支持平台CUDA和其机器
ubuntu解压各种压缩文件方法

一般通过默认安装的ubuntu是不能解压rar文件的 xff0c 只有在安装了rar解压工具之后 xff0c 才可以解压其实在ubuntu下安装rar解压工具是非常简单的 xff0c 只需要两个步骤就可以迅速搞定 ubuntu 下rar
Ubuntu18.04 安装PyQt5

简单安装时 xff0c 用pip3不成功 sudo pip3 install PyQt5 安装报错 xff0c command python setup py egg info failed with error code 1 in tmp
“Failed to get convolution algorithm. This is probably because cuDNN failed to initialize”错误的解决办法

最近在使用TF2 0 运行程序出现以下错误 Failed to get convolution algorithm This is probably because cuDNN failed to initialize 一开始怀疑是CUDA
win7系统下访问ubuntu共享的文件夹

方法一 xff1a 1 打开计算机 2 右键选择添加一个网络位置 3 输入Ubuntu server的共享位置 ip地址 xff08 10 10 26 60 ubuntu share xff09 方法二或者直接在资源管理器中输入IP
linux下vi命令修改文件及保存的使用方法

进入vi的命令 vi filename 打开或新建文件并将光标置于第一行首 vi n filename xff1a 打开文件并将光标置于第n行首 vi filename xff1a 打开文件并将光标置于一行首 vi pattern f
使用Keras版本的Yolov3训练自己的数据集和进行目标检测时，需要注意的一些问题

最近因为工作需要 xff0c 使用了Yolo v3做目标检测由于它自带的数据集完全不能够满足需要 xff0c 只能从头开始自己训练当然这必须要用python来做了 xff0c 不能用C语言首先 xff0c 我发现那个著名的Keras版

使用Keras版本的Yolov3训练自己的数据集和进行目标检测时，需要注意的一些问题

使用Keras版本的Yolov3训练自己的数据集和进行目标检测时，需要注意的一些问题 的相关文章

随机推荐

热门标签

使用Keras版本的Yolov3训练自己的数据集和进行目标检测时，需要注意的一些问题的相关文章