训练CNN时如何去除重复项？

2024-02-12

我正在使用 CNN 解决图像分类问题。我有一个包含重复图像的图像数据集。当我用这些数据训练 CNN 时，它出现了过拟合。因此，我需要删除那些重复项。

我们粗略地称为重复的东西对于算法来说可能很难辨别。您的重复项可以是：

精确重复
近乎精确的重复。（对图像等进行少量编辑）
感知重复（相同的内容，但不同的视图、相机等）

No1和2更容易解决。第三，非常主观，仍然是一个研究课题。我可以为No1和2提供解决方案。两种解决方案都使用了优秀的图像哈希库：https://github.com/JohannesBuchner/imagehash https://github.com/JohannesBuchner/imagehash

精确重复可以使用感知散列测量来找到精确的重复项。 phash 库在这方面非常擅长。我经常用它来清洁训练数据。用法（来自 github 站点）非常简单：

from PIL import Image
import imagehash

# image_fns : List of training image files
img_hashes = {}

for img_fn in sorted(image_fns):
    hash = imagehash.average_hash(Image.open(image_fn))
    if hash in img_hashes:
        print( '{} duplicate of {}'.format(image_fn, img_hashes[hash]) )
    else:
        img_hashes[hash] = image_fn

近乎精确的重复在这种情况下，您必须设置一个阈值并比较哈希值与每个哈希值的距离。其他。这必须通过对图像内容进行反复试验来完成。

from PIL import Image
import imagehash

# image_fns : List of training image files
img_hashes = {}
epsilon = 50

for img_fn1, img_fn2 in zip(image_fns, image_fns[::-1]):
    if image_fn1 == image_fn2:
        continue

    hash1 = imagehash.average_hash(Image.open(image_fn1))
    hash2 = imagehash.average_hash(Image.open(image_fn2))
    if hash1 - hash2 < epsilon:
        print( '{} is near duplicate of {}'.format(image_fn1, image_fn2) )

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

imageprocessing

Keras

deeplearning

convneuralnetwork

训练CNN时如何去除重复项？的相关文章

嵌套字典中的 Django 模板

我正在使用 Django 模板并且遇到了嵌套字典的一个问题 Dict result dict type 0 file name abc count 0 type 1 file name xyz count 50 我的 HTML 文件中的模
如何使用 colorchecker 在 opencv 中进行颜色校准？

我有数码相机获取的色彩检查器图像我如何使用它来使用 opencv 校准图像按照以下颜色检查器图像操作您是想问如何进行颜色校准或如何使用 OpenCV 进行校准为了进行颜色校准您可以使用校准板的最后一行灰色调以下是您应该逐步进行
TensorFlow：带有轴选项的 bincount

在 TensorFlow 中我可以使用 tf bincount 获取数组中每个元素的计数 x tf placeholder tf int32 None freq tf bincount x tf Session run freq feed
numpy python 中的“AttributeError：'matrix'对象没有属性'strftime'”错误

我有一个维度为 72000 1 的矩阵该矩阵涉及时间戳我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
ctypes 错误：libdc1394 错误：无法初始化 libdc1394

我正在尝试将程序编译为共享库我可以使用 ctypes 在 Python 代码中使用该库使用以下命令该库可以正常编译 g shared Wl soname mylib O3 o mylib so fPIC files pkg config
从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
字符串中的注释和注释中的字符串

我正在尝试使用 Python 和 Regex 计算 C 代码中包含的注释中的字符数但没有成功我可以先删除字符串以删除字符串中的注释但这也会删除注释中的字符串结果会很糟糕是否有机会通过使用正则表达式来询问不匹配注释中的字符串反之亦
ValueError：不支持连续[重复]

这个问题在这里已经有答案了我正在使用 GridSearchCV 进行线性回归的交叉验证不是分类器也不是逻辑回归我还使用 StandardScaler 对 X 进行标准化我的数据框有 17 个特征 X 和 5 个目标 y 观察约11
如何使用 javascript/jquery/AJAX 调用 Django REST API？

我想使用 Javascript jQuery AJAX 在前端调用 Django Rest API 请求方法是 POST 但当我看到 API 调用它的调用 OPTIONS 方法时所以我开始了解access control allow o
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
如何从 JSON 响应重定向？

所以我尝试使用 Flask 和 Javascript 上传器 Dropzone 上传文件并在上传完成后重定向文件上传正常但在烧瓶中使用传统的重定向 return redirect http somesite com 不执行任何操作页面
如何在Python中按AaB而不是ABa顺序对字符串进行排序

我正在尝试对字符串进行排序为 punnetsquare 制作基因型我目前的实现是 unsorted genotype ABaB sorted genotype sorted list unsorted genotype sorted s
Python Django-如何从输入文件标签读取文件？

我不想将文件保存在我的服务器上我只想在下一页中读取并打印该文件现在我有这个 index html
Python Pandas：如何对组中的所有项目进行分组并为其分配 id？

我有 df domain orgid csyunshu com 108299 dshu com 108299 bbbdshu com 108299 cwakwakmrg com 121303 ckonkatsunet com 121303
如何在 Azure 数据工厂 - Databricks 中使用 continuation_token 获取 ADF Pipeline 运行详细信息的下一页？

我在用 adf client pipeline runs query by factory resourceGroupName 工厂名称过滤器参数的方法azure mgmt datafactory DataFactoryManageme
为什么我应该使用 WSGI？

使用 mod python 一段时间了我读了越来越多关于 WSGI 有多好的文章但没有真正理解为什么那么我为什么要切换到它呢有什么好处这很难吗学习曲线值得吗为了用 Python 开发复杂的 Web 应用程序您可能会使用更全面
字符串列表，获取n个元素的公共子串，Python

我的问题可能类似于this https stackoverflow com questions 37514193 count the number of occurrences of n length not given string in
Python问题：打开和关闭文件返回语法错误

大家好我发现了这个有用的 python 脚本它允许我从网站获取一些天气数据我将创建一个文件和其中的数据集有些东西不起作用它返回此错误 File
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru

随机推荐

Android 通知上的表情符号

我正在尝试在通知栏上显示表情符号这是我的字符串 ue057 getString R string notification sent hey 我已经尝试过使用 Softbank 以及每种可能的格式 U 1F601 xF0 x9F x98
在 Windows 上的 VSCode 中调试 Python C/C++ 扩展

问题总结我正在为 Python 开发一个自 C 扩展以提高特定代码段的性能我想调试这个扩展但到目前为止还没有成功我关注了几个链接例如这是纳迪亚的 https nadiah org 2020 03 01 example debug
sklearn 维度问题“发现数组具有暗淡 3。预计估计器 <= 2”

我正在尝试使用 KNN 将 wav 文件正确分类为两组组 0 和组 1 我提取了数据创建了模型拟合了模型但是当我尝试使用 predict 方法时出现以下错误 Traceback most recent call last File
MAMP 与 Laravel Unix Socket

我正在我的 laravel 应用程序的本地开发服务器上使用 MAMP 我试图弄清楚如何安全地设置我的服务器这样我就不必在数据库连接 mysql 数组中使用以下内容因为那应该只当我在我的开发服务器上时使用当我将行添加到 mysql 数组
git merge 在cherry-pick之后如何工作？

让我们想象一下我们有一个master branch 然后我们创建一个newbranch git checkout b newbranch 并做出两个新的承诺newbranch commit1 and commit2 然后我们切换到maste
GCC 中 -O0 和 -O1 的区别

在编译一些代码时我注意到 O0 和 O1 之间创建的汇编器存在很大差异我想运行启用禁用优化直到找出导致汇编器发生某种变化的原因如果我使用 fverbose asm 准确找出 O1 与 O0 相比启用了哪些标志然后手动禁用它们为
如何删除输入日期的 x 和向上/向下箭头元素？

我唯一需要在框中显示的是橙色三角形并且我不确定是否需要 CSS 或其他内容来删除三角形左侧的两个元素有办法这样做吗我只是使用输入类型date Fiddle http jsfiddle net 5M2PD 1 http jsfiddle
队列性能明智哪个是更好的实现 - 数组或链表

当我必须插入很少的元素时哪种方式可以更快地入队和出队数组比链表更好吗我需要插入一些元素并且必须从队列中删除并读取该删除的元素如果它是数组每次删除元素时我可能都必须修改索引插入和删除也可能同时发生从下面的案例来看哪一个更好呢
有什么理由避免 return 语句

有时我会看到大段的 Scala 代码其中包含多个嵌套级别的条件和匹配使用显式 return 退出函数会更加清晰避免那些显式的 return 语句有什么好处吗 A return may be通过抛出异常来实现所以它may have与声
我需要帮助设置 .NET HttpWebRequest 超时

我的目标是在最短的时间内从多达 6000 个 URL 中获得答案它运行得非常好 5200 个 LAN 地址需要 12 秒直到开始出现一些延迟我的代码最多同时使用 20 个 HttpWebRequest BeginGetResponse
如何使用 R 找到最适合的圆/椭圆？

我一直在阅读一些将圆适合数据的方法例如this http www cs bsu edu homepages kerryj kjones circles pdf 我想看看这些方法如何在真实数据上发挥作用并考虑使用 R 来实现这一点我尝试
为什么我的文本文件不断覆盖其中的数据？

我试图从产品的 Facebook 页面中提取一些数据并将其全部转储到文本文件中但我发现该文件不断用数据覆盖自身我不确定这是分页问题还是我必须制作多个文件这是我的代码 Modules import requests import fac
不同图像方向和纵横比的 CollectionView 布局？

我想知道我们如何使用 CollectionView 来显示不同尺寸长宽比和方向的图像有没有办法在这些图像中找到匹配看一下 DeviantArt iOS 应用程序的屏幕截图您可能已经注意到具有相同高度并且可以安装在屏幕中的图像位于
如何获取给定月份的每个星期一？

如何获取给定月份的每个星期一一个例子输入 2017 年 7 月 11 日 11 07 2017 输出 3 10 17 24 31 2017年7月3日星期一2017年7月10日星期一2017年7月17日星期一2017年7月24日
读取无符号整数时如何将负数检测为解析错误？

我想从 C iostream 中读取以 10 为基数十进制表示的无符号整数并至少进行基本的错误检测在我看来在这种情况下减号显然是一个错误因为无符号整数没有符号然而 gcc却有不同的看法 include
避免节流 dynamoDB

我是云计算的新手但有一个问题我将要描述的机制是否存在或可以创建 Dynamodb 已配置吞吐量例如 100 次写入秒当然在现实世界的应用程序中实际吞吐量是非常动态的几乎永远不会是您配置的 100 次写入秒我在想 dyna
将 MS-Access 数据库转换为 SQL 脚本的工具

我们的软件包使用MS Access数据库这个数据库已经修改了很多次所以光看文件有点复杂表之间的关系很小无论如何有没有一种方法或程序可以将此 mdb 文件转换为 SQL 脚本目前任何类型的 SQL 脚本都可以执行此操作 Than
找不到适用于 GeoJsonPoint 类型的构造函数

很难弄清楚我做错了什么遗憾的是我曾经让它工作过但无法确定我改变了什么破坏了它据我了解现在应该完全支持有问题的对象 Document public class Place public final static String URI
C代码模块化有哪些方法？

随着项目规模的扩大您知道哪些方法实践和约定可以模块化 C 代码创建仅包含使用模块所需内容的头文件在相应的 c 文件中将任何不应该在外部可见的内容例如辅助函数设为静态对外部可见的所有内容的名称使用前缀有助于避免命名空间冲突如
训练CNN时如何去除重复项？

我正在使用 CNN 解决图像分类问题我有一个包含重复图像的图像数据集当我用这些数据训练 CNN 时它出现了过拟合因此我需要删除那些重复项我们粗略地称为重复的东西对于算法来说可能很难辨别您的重复项可以是精确重复近乎精确的重复

训练CNN时如何去除重复项？

训练CNN时如何去除重复项？ 的相关文章

随机推荐

热门标签

训练CNN时如何去除重复项？的相关文章