如何使用 tf.keras.utils.image_dataset_from_directory 应用 kfold 交叉验证

2024-03-09

我的目标是应用 k 折交叉验证来训练 VGG19 模型。为此，我使用以下代码从目录中读取图像：

DIR = "/Images"
data_dir = pathlib.Path(os.getcwd() + '\\Images')

train_ds = tf.keras.utils.image_dataset_from_directory(
  data_dir,
  validation_split=0.2,
  subset="training",
  seed=123,
  image_size=(224, 224),
  batch_size=32)

val_ds = tf.keras.utils.image_dataset_from_directory(
  data_dir,
  validation_split=0.2,
  subset="validation",
  seed=123,
  image_size=(224, 224),
  batch_size=32)

并且在不使用 kfold 交叉验证的情况下它也能正常工作。但是当我想使用 K 折交叉验证时，我必须有标签和图像train_ds单独地，我找不到解决方案，除了我需要使用另一种方法读取图像。因此，我决定使用读取图像ImageDataGenerator and flow_from_directory。但据我了解，为了使用加载图像flow_from_directory，我必须有两个独立的子集traning and test在图像中，虽然我没有traning and test以我为例。这两种方法有什么解决方案吗？

此外，使用第一种方法，即tf.keras.utils.image_dataset_from_directory，将找到的图像数量不同于flow_from_directory。这是第一个方法的输出：

找到属于 4 个类别的 1060 个文件。使用848个文件进行训练。

这是第二种方法的输出：

img_gen = tf.keras.preprocessing.image.ImageDataGenerator(
    rescale=1.0 / 255,
    rotation_range=20,
    width_shift_range=0.2,
    height_shift_range=0.2,
    vertical_flip=True)
Wheat_data = img_gen.flow_from_directory(data_dir,
                                         subset="training",
                                         seed=123)

找到属于 4 个类别的 849 张图像。

您可以将数据集转换为numpy数组，它应该像往常一样工作：

import tensorflow as tf
import pathlib
import numpy as np
from sklearn.model_selection import KFold

dataset_url = "https://storage.googleapis.com/download.tensorflow.org/example_images/flower_photos.tgz"
data_dir = tf.keras.utils.get_file('flower_photos', origin=dataset_url, untar=True)
data_dir = pathlib.Path(data_dir)

batch_size = 32

train_ds = tf.keras.utils.image_dataset_from_directory(
  data_dir,
  validation_split=0.2,
  subset="training",
  seed=123,
  image_size=(180, 180),
  batch_size=batch_size)

val_ds = tf.keras.utils.image_dataset_from_directory(
  data_dir,
  validation_split=0.2,
  subset="validation",
  seed=123,
  image_size=(180, 180),
  batch_size=batch_size)

train_images = np.concatenate(list(train_ds.map(lambda x, y:x)))
train_labels = np.concatenate(list(train_ds.map(lambda x, y:y)))

val_images = np.concatenate(list(val_ds.map(lambda x, y:x)))
val_labels = np.concatenate(list(val_ds.map(lambda x, y:y)))

inputs = np.concatenate((train_images, val_images), axis=0)
targets = np.concatenate((train_labels, val_labels), axis=0)

kfold = KFold(n_splits=5, shuffle=True)

for train, test in kfold.split(inputs, targets):
  
  model = tf.keras.Sequential([
  tf.keras.layers.Rescaling(1./255, input_shape=(180, 180, 3)),
  tf.keras.layers.Conv2D(16, 3, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(),
  tf.keras.layers.Conv2D(32, 3, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(),
  tf.keras.layers.Conv2D(64, 3, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(),
  tf.keras.layers.Flatten(),
  tf.keras.layers.Dense(128, activation='relu'),
  tf.keras.layers.Dense(5)])

  model.compile(optimizer='adam',
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
              metrics=['accuracy'])
  history = model.fit(inputs[train], targets[train],
              batch_size=batch_size,
              epochs=2)
  scores = model.evaluate(inputs[test], targets[test], verbose=0)

或者你可以使用tf.keras.utils.image_dataset_from_directory批量大小为 1 且shuffle=False但它不是那么有效：

import tensorflow as tf
import pathlib
import numpy as np
from sklearn.model_selection import KFold

dataset_url = "https://storage.googleapis.com/download.tensorflow.org/example_images/flower_photos.tgz"
data_dir = tf.keras.utils.get_file('flower_photos', origin=dataset_url, untar=True)
data_dir = pathlib.Path(data_dir)

batch_size = 1

train_ds = tf.keras.utils.image_dataset_from_directory(
  data_dir,
  validation_split=0.2,
  subset="training",
  seed=123,
  image_size=(180, 180),
  batch_size=batch_size,
  shuffle = False)

val_ds = tf.keras.utils.image_dataset_from_directory(
  data_dir,
  validation_split=0.2,
  subset="validation",
  seed=123,
  image_size=(180, 180),
  batch_size=batch_size,
  shuffle = False)

ds = train_ds.concatenate(val_ds)

kfold = KFold(n_splits=5, shuffle=True)

for train, test in kfold.split(np.arange(len(ds))):
  train = [x+1 for x in train]
  test = [x+1 for x in test]
  train_ds = tf.data.Dataset.from_tensor_slices([ds.skip(t-1).take(t) for t in train]).flat_map(lambda x: x).map(lambda x, y: (x[0, ...], y[0, ...]))
  test_ds = tf.data.Dataset.from_tensor_slices([ds.skip(t-1).take(t) for t in test]).flat_map(lambda x: x).map(lambda x, y: (x[0, ...], y[0, ...]))
  train_ds = train_ds.take(len(train)).batch(64, drop_remainder=True)
  test_ds = test_ds.take(len(test)).batch(64, drop_remainder=True)
  
  model = tf.keras.Sequential([
  tf.keras.layers.Rescaling(1./255, input_shape=(180, 180, 3)),
  tf.keras.layers.Conv2D(16, 3, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(),
  tf.keras.layers.Conv2D(32, 3, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(),
  tf.keras.layers.Conv2D(64, 3, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(),
  tf.keras.layers.Flatten(),
  tf.keras.layers.Dense(128, activation='relu'),
  tf.keras.layers.Dense(5)])

  model.compile(optimizer='adam',loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
              metrics=['accuracy'])
  history = model.fit(train_ds,
              epochs=2)
  scores = model.evaluate(test_ds, verbose=0)

另一种选择是使用字典来存储索引和张量：

#...
ds = train_ds.concatenate(val_ds)

lookup_images = {}
lookup_labels = {}
for i, (x, y) in enumerate(ds):
  lookup_images[i] = x
  lookup_labels[i] = y

kfold = KFold(n_splits=5, shuffle=True)

for train, test in kfold.split(np.arange(len(ds))):

  images_train = np.concatenate(list(map(lookup_images.get, train)))
  labels_train = np.concatenate(list(map(lookup_labels.get, train)))

  images_test = np.concatenate(list(map(lookup_images.get, test)))
  labels_test = np.concatenate(list(map(lookup_labels.get, test)))

  model = tf.keras.Sequential([
  tf.keras.layers.Rescaling(1./255, input_shape=(180, 180, 3)),
  tf.keras.layers.Conv2D(16, 3, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(),
  tf.keras.layers.Conv2D(32, 3, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(),
  tf.keras.layers.Conv2D(64, 3, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(),
  tf.keras.layers.Flatten(),
  tf.keras.layers.Dense(128, activation='relu'),
  tf.keras.layers.Dense(5)])

  model.compile(optimizer='adam',
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
              metrics=['accuracy'])
  history = model.fit(images_train, labels_train, epochs=2)
  scores = model.evaluate(images_test, labels_test, verbose=0)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 tf.keras.utils.image_dataset_from_directory 应用 kfold 交叉验证的相关文章

使用 JPype - 如何访问 JDBC 元数据函数

我在用着杰德贝API https launchpad net jaydebeapi它使用 JPype 加载 FileMaker 的 JDBC 驱动程序并提取数据但我也希望能够获取所有表的列表在数据库中 In the JDBC 文档 ht
Firefox 中的文件下载对话框

我正在使用firefox进行selenium python编程自动开始下载并保存文件我已经完成了所有操作但无法下载csv文件我的python版本是2 6 6 我的selenium版本是最新版本我也尝试使用以下链接即 fp web
从 Excel 获取输入并在 python 脚本中使用这些输入

如何从 excel 获取输入并在 python 中使用这些输入看一眼xlrd http pypi python org pypi xlrd 这是我发现的学习如何使用它的最佳参考 http www dev explorer com arti
Python：如果满足条件，则循环遍历一个字典并在新字典中创建键/值对

我想将一个字典的值与第二个字典的值进行比较如果值满足特定条件我想创建第三个字典其中的键和值对将根据匹配情况而变化这是一个显示我的问题的人为示例编辑对所有返回感到抱歉但堆栈溢出无法识别单个返回并且在一行上运行 3 4 行使代
c++11 正则表达式比 python 慢

嗨我想了解为什么以下代码使用正则表达式进行分割字符串分割 include
绘制对数轴

我想使用 matplotlib 绘制一张带有一个对数轴的图我一直在阅读文档但无法弄清楚语法我知道这可能很简单 scale linear 在情节争论中但我似乎无法正确理解示例程序 import pylab import matplo
pandas groupby 并转换为 json 列表

我有一个如下所示的 pandas 数据框 idx f1 f2 f3 1 a a b 2 b a c 3 a b c 87 e e e 我需要将其他列转换为基于索引列的字典列表所以最终结果应该是 idx features 1 f1 a f
无法使用 wxPython 打开在 folium 中生成的本地 HTML 文件

我目前正在尝试将 GPS 坐标绘制为地图上的标记并在 wxPython 中显示结果我使用 folium 绘制坐标标记并生成 HTML 文件 import folium fmap folium Map 43 5321 172 6362 z
NumPy 根据另一个数组中的值对第三个数组中的每个匹配元素求和一个数组

我有两个 numpy 数组一个包含值另一个包含每个值类别 values np array 1 2 3 4 5 6 7 8 9 10 valcats np array 101 301 201 201 102 302 302 202 102
如何在 FastAPI Swagger API 中按方法类型对方法进行排序？

如何在 FastAPI Swagger 自动文档中设置 API 方法的排序顺序我希望所有方法按类型分组 GET POST PUT DELETE 这个答案 https stackoverflow com questions 24951268
Python：两个列表之间的成对比较：列表 a >= 列表 b？

如果我想检查列表中的所有元素 a 1 2 3 6 大于或等于另一个列表中对应的元素 b 0 2 3 5 如果 a i gt b i 对于所有i的则返回 true 否则返回 false 这有逻辑功能吗比如a gt b 谢谢你可以这样做
如果任何单元测试失败，如何使 Python 的覆盖率工具失败？

我想使用 shell 脚本来确保我的单元测试通过and我的代码有足够的测试覆盖率我只想运行我的测试代码once 我希望我可以通过coverage https coverage readthedocs io 工具和单次运行的工具如果一项或
在解析器/子解析器的开头使用 argparse.REMAINDER

我想实现一个 arg 解析器它允许我将单元测试作为子命令之一运行盲目地将参数传递给 unittest main 例如 foo py unittest args to pass to unittest main 以及其他子命令 foo p
如何在 Python 中连接两个列表？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动如何在 Python 中连接两个列表 Example listone 1 2 3 lis
Python-使用元组作为列表索引[重复]

这个问题在这里已经有答案了我有一个元组列表 tuples list 1 0 2 3 3 2 2 0 我想访问二维数组的元素a例如使用其中一些元组 for i in range 3 print a tuples list i 应该输出的值
启动客户端时，代码要求提供电话/机器人令牌

使用 Telethon 库运行我的第一个代码时它要求提供机器人令牌这是实际的代码 from telethon import TelegramClient events sync api id 1234567 api hash xxxxx
如何通过异常值检测方法在周期性或基于序列的数据上生成脉冲作为异常值以进行实验？

我想对一些时间序列数据进行一些实验KM https scikit learn org stable auto examples cluster plot cluster iris html sphx glr auto examples cl
Python struct.pack() 'struct.error: bad char in struct format' 尝试保存字节顺序时

我正在尝试打包一个字符串和字符串的长度 fmt
在不同进程之间共享列表？

我有以下问题我编写了一个函数它将列表作为输入并为列表中的每个元素创建一个字典然后我想将这本字典附加到一个新列表中这样我就得到了一个字典列表我正在尝试为此生成多个进程我的问题是我希望不同的进程访问由其他进程更新的字典列表例如
收到 Python 错误“来自：无法读取 /var/mail/Bio”

我正在运行一个 bio python 脚本这会导致以下错误 from can t read var mail Bio 由于我的脚本与邮件没有任何关系我不明白为什么我的脚本在 var mail 中查找这里似乎有什么问题我怀疑这会有帮助

随机推荐

缩放图像保持纵横比，然后在流体高度和宽度 DIV 内垂直和水平居中

好吧这有点拗口而且非常具体我会尽力解释目标是在缩放图像时保持纵横比并使其在仅由百分比定义的 DIV 内保持垂直和水平居中图像需要保持最佳拟合因此如果需要最大宽度则使用它反之亦然 Use Firefox 版本 33 或一些
如何在 R 中编写 .bin 文件并在 Fortran 中打开它

我有一个 Fortran 模型我想强制使用来自 R 开发的模型的数据但我在两个环境之间传输数据时遇到问题我正在考虑使用 bin 文件我在 R 中所做的是使用writeBin将多维数组存储在 bin 文件中 a seq 1 150 1
hibernate @Entity 仅在内部类上（顶级类不是 @Entity）

我想将内部类保留到数据库中但这不起作用有可能这样做吗或者我应该将该内部类放入新的普通文件中现在我收到错误 IllegalArgumentException Unknown entity models foo bar 我的班级文件 p
在android语音识别中，如何增加考虑输入完成的时间？

在android语音识别中任何人都可以知道如何增加我们停止听到语音后考虑输入可能完成所需的时间我需要防止端点在语音识别时在非常短的语音中间停顿期间中断如果有人知道解决办法请回复任何回应将不胜感激提前致谢你好我也遇到这个问题
jQueryUI 自动完成 - 当没有返回结果时

我想知道当使用时从服务器返回空结果时如何捕获并添加自定义处理程序jQueryUI 自动完成 http jqueryui com demos autocomplete 在这一点上似乎有一些与各种 jQuery 插件相关的问题例如当结果为空时
从作为 Azure Web App 托管的 ASP.NET 5 应用程序进行日志记录

我有一个 ASP NET 5 Web API 作为 Web 应用程序托管在 Azure 中我想使用 Azure 诊断记录我的代码中的消息有多篇文章包括Azure 文档 https azure microsoft com en us do
Azure Web 角色进程未加载 web.config？

我正在 Windows Azure 模拟器中运行一个 Web 项目但未加载 web config 我正在作为完整的 IIS 应用程序运行在 dev Fabric 启动后我可以转到在 IIS 中运行的应用程序浏览到文件位置并验证文件
不要在 git grep 输出中显示 ^M（回车符）

为了隐藏可怕的事情 M字符来自git diff 必须配置 core whitespace cr at eol 但它们仍然显示在git grep输出怎么解决呢编辑我正在运行的 grep 是 git grep i line number
XAML 的延迟加载

我正在处理的一个项目有一些相当复杂的 XAML 它明显影响了视觉性能相当多的控件在初始状态下是折叠的然而由于它们的 XAML 已被解析并构建了可视化逻辑树因此显示几乎空白对象的速度非常慢看起来并且需要在此确认使用初始状态为
menuitem 上的 actionlayout 不执行任何操作

我正在菜单项上设置 actionLayout 并设置背景颜色和图像但它不受尊重在我的活动中我有 getMenuInflater inflate R menu submit action menu 我的提交操作是 menu menu
为什么私有成员变量不允许使用 decltype？

假设我有一个这样的类 class Foo std vector
Pyside：使用 cython 编译应用程序时，addToJavaScriptWindowObject 无法正常工作

我构建了一个运行几千行代码的应用程序我试图通过将 python 代码编译为 c 代码然后编译为目标文件来隐藏代码该应用程序在 pyside 中运行良好我转换了这个 python 文件 py to a c文件并将 c 编译为目标文件
通过 Facebook 为物品投票，比如？

我有一个朋友想举办每周一次的竞赛用户可以对他们最喜欢的图片进行投票他希望用户喜欢一张照片才能投票这是该行动的合理机制吗这行得通吗有没有合理的方法可以从 Facebook 获取投票数 Facebook表示 https devel
为什么我的 Drupal 8 CORS 设置不起作用？

从 Drupal 8 2 开始 cors 设置位于核心位置在我的services yml and default services yml 我有以下设置 cors config enabled true Specify allowed h
Wi-Fi Direct 无法连接 WinRT 上的设备

我尝试通过 Wi Fi Direct 连接两个设备但这些设备未连接我在我的应用程序和邻近样本 http code msdn microsoft com windowsapps Proximity Sample 88129731 出现同样
将数据插入领域数据库有进度吗？

下载 json 字符串后我的请求数据约为 7MB 这意味着 json 字符串约为 7MB 下载后我想将数据保存到领域模型对象表中进度如下 1 7390 至 7390 7390 gt 已插入数据待插入数据总数我在我的应用程序中使
Xamarin.Forms 在文件系统中保存文件

我尝试从网络下载文件并将其保存到任何 Environment SpecialFolder 位置无论我尝试什么方法我总是得到System UnauthorizedAccessException 访问路径我尝试的任何可能路径甚至超出En
将 autoconf 配置为具有 --with 选项来自定义构建

我对 autoconf 和 automake 的工作原理有一个非常基本的了解这是从各种教程中收集的但是由于我希望我的库在构建过程中保持灵活性因此他们需要 with FEATURE and without FEATURE其他程序中常见
XMLHttpRequest 无法加载，请求的资源上不存在“Access-Control-Allow-Origin”标头[重复]

这个问题在这里已经有答案了 XMLHttpRequest 无法加载请求的资源上不存在 Access Control Allow Origin 标头因此不允许访问来源 null JavaScript 代码如下 function dist
如何使用 tf.keras.utils.image_dataset_from_directory 应用 kfold 交叉验证

我的目标是应用 k 折交叉验证来训练 VGG19 模型为此我使用以下代码从目录中读取图像 DIR Images data dir pathlib Path os getcwd Images train ds tf keras utils

如何使用 tf.keras.utils.image_dataset_from_directory 应用 kfold 交叉验证

如何使用 tf.keras.utils.image_dataset_from_directory 应用 kfold 交叉验证 的相关文章

随机推荐

热门标签

如何使用 tf.keras.utils.image_dataset_from_directory 应用 kfold 交叉验证的相关文章