keras/scikit-learn：使用 fit_generator() 进行交叉验证

2023-12-02

是否可以使用Keras 的 scikit-learn API和...一起fit_generator()方法？或者使用另一种方式来产生批次进行训练？我正在使用 SciPy 的稀疏矩阵，在输入 Keras 之前必须将其转换为 NumPy 数组，但由于内存消耗较高，我无法同时转换它们。这是我的批量生成函数：

def batch_generator(X, y, batch_size):
    n_splits = len(X) // (batch_size - 1)
    X = np.array_split(X, n_splits)
    y = np.array_split(y, n_splits)

    while True:
        for i in range(len(X)):
            X_batch = []
            y_batch = []
            for ii in range(len(X[i])):
                X_batch.append(X[i][ii].toarray().astype(np.int8)) # conversion sparse matrix -> np.array
                y_batch.append(y[i][ii])
            yield (np.array(X_batch), np.array(y_batch))

和交叉验证的示例代码：

from sklearn.model_selection import StratifiedKFold, GridSearchCV
from sklearn import datasets

from keras.models import Sequential
from keras.layers import Activation, Dense
from keras.wrappers.scikit_learn import KerasClassifier

import numpy as np


def build_model(n_hidden=32):
    model = Sequential([
        Dense(n_hidden, input_dim=4),
        Activation("relu"),
        Dense(n_hidden),
        Activation("relu"),
        Dense(3),
        Activation("sigmoid")
    ])
    model.compile(loss="categorical_crossentropy", optimizer="adam", metrics=["accuracy"])
    return model


iris = datasets.load_iris()
X = iris["data"]
y = iris["target"].flatten()

param_grid = {
    "n_hidden": np.array([4, 8, 16]),
    "nb_epoch": np.array(range(50, 61, 5))
}

model = KerasClassifier(build_fn=build_model, verbose=0)
skf = StratifiedKFold(n_splits=5).split(X, y) # this yields (train_indices, test_indices)

grid = GridSearchCV(model, param_grid, cv=skf, verbose=2, n_jobs=4)
grid.fit(X, y)

print(grid.best_score_)
print(grid.cv_results_["params"][grid.best_index_])

为了更多地解释它，它使用了所有可能的超参数组合param_grid建立一个模型。然后，每个模型都会在训练-测试数据分割上一一进行训练和测试（folds）由...提供StratifiedKFold。那么给定模型的最终得分是所有折叠的平均得分。

那么是否可以在实际拟合之前在上面的代码中插入一些预处理子步骤来转换数据（稀疏矩阵）？

我知道我可以编写自己的交叉验证生成器，但它必须产生索引，而不是真实数据！

实际上，您可以使用稀疏矩阵作为带有生成器的 Keras 的输入。这是我在之前的项目中使用的版本：

> class KerasClassifier(KerasClassifier):
>     """ adds sparse matrix handling using batch generator
>     """
>     
>     def fit(self, x, y, **kwargs):
>         """ adds sparse matrix handling """
>         if not issparse(x):
>             return super().fit(x, y, **kwargs)
>         
>         ############ adapted from KerasClassifier.fit   ######################   
>         if self.build_fn is None:
>             self.model = self.__call__(**self.filter_sk_params(self.__call__))
>         elif not isinstance(self.build_fn, types.FunctionType):
>             self.model = self.build_fn(
>                 **self.filter_sk_params(self.build_fn.__call__))
>         else:
>             self.model = self.build_fn(**self.filter_sk_params(self.build_fn))
> 
>         loss_name = self.model.loss
>         if hasattr(loss_name, '__name__'):
>             loss_name = loss_name.__name__
>         if loss_name == 'categorical_crossentropy' and len(y.shape) != 2:
>             y = to_categorical(y)
>         ### fit => fit_generator
>         fit_args = copy.deepcopy(self.filter_sk_params(Sequential.fit_generator))
>         fit_args.update(kwargs)
>         ############################################################
>         self.model.fit_generator(
>                     self.get_batch(x, y, self.sk_params["batch_size"]),
>                                         samples_per_epoch=x.shape[0],
>                                         **fit_args)                      
>         return self                               
> 
>     def get_batch(self, x, y=None, batch_size=32):
>         """ batch generator to enable sparse input """
>         index = np.arange(x.shape[0])
>         start = 0
>         while True:
>             if start == 0 and y is not None:
>                 np.random.shuffle(index)
>             batch = index[start:start+batch_size]
>             if y is not None:
>                 yield x[batch].toarray(), y[batch]
>             else:
>                 yield x[batch].toarray()
>             start += batch_size
>             if start >= x.shape[0]:
>                 start = 0
>   
>     def predict_proba(self, x):
>         """ adds sparse matrix handling """
>         if not issparse(x):
>             return super().predict_proba(x)
>             
>         preds = self.model.predict_generator(
>                     self.get_batch(x, None, self.sk_params["batch_size"]), 
>                                                val_samples=x.shape[0])
>         return preds

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

keras/scikit-learn：使用 fit_generator() 进行交叉验证的相关文章

在 gtk.main() 执行时与 gtk.container 交互？

目前在 Python 中使用电池监视器图标进行实验pygtk and egg trayicon创建一个图标来显示电池图标工具提示我似乎能够添加图标和工具提示文本但是当它到达gtk main 阶段我需要一种方法来修改这些以便它可以显示
Urllib 的 urlopen 在某些网站上被破坏（例如 StackApps api）：返回垃圾结果

我在用着urllib2 s urlopen函数尝试从 StackOverflow api 获取 JSON 结果我正在使用的代码 gt gt gt import urllib2 gt gt gt conn urllib2 urlopen h
如何在 django 中获取复选框值？

tr td td tr
如何使用 Julia 查找矩阵中的连通分量

假设我有以下矩阵此处用 Julia 语言定义 mat 1 1 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 1 1 将一组值为 1 的相邻元素视为一个分量如何识别该矩阵有 2 个分量以及每个分量由哪些顶点组成对于矩
在python中合并两个json对象

我正在 python 中合并两个 json 我正在做 import json json obj json dumps a 1 2 json obj1 json dumps a 3 4 json obj json obj1 print jso
将 3d NumPy 数组重塑为 2d NumPy 数组时遇到问题

我正在研究图像处理问题我的数据以 3 维 NumPy 数组的形式呈现其中 x y z 条目是图像 z 的 x y 像素数值强度值有 100000 张图像每张图像为 25x25 因此数据矩阵的大小为 25x25x10000 我试图
SparkSession 初始化需要很长时间

SparkSession 初始化需要很长时间才能成功这是我的代码 import findspark findspark init import pyspark from pyspark sql import SparkSession sp
来自 Pandas DataFrame 的用户定义的 Json 格式

我有一个 pandas dataFrame 打印 pandas DataFrame 后结果如下所示 country branch no of employee total salary count DOB count email x a
SQLAlchemy 在 MySQL 上使用什么列类型作为“文本”？

我的总体用例是试图确定我是否可以编写一个与数据库无关的至少支持 Postgres 和 MySQL 存储一些大数据作为原始文本认为 500MB 作为粗略的理论上限基于这个答案 https stackoverflow com a 2557
如何更改 Python 函数的表示形式？

gt gt gt def hehe return spam gt gt gt repr hehe
在 Tkinter 中调整另一个小部件内的一个小部件的大小

我正在开发穆斯堡尔光谱化学的模拟软件但在设计 UI 时我在使用父窗口小部件调整子窗口小部件的大小时遇到了问题当窗口最大化时父框架会填充额外的空间但子窗口小部件不会更改其大小 from Tkinter import impor
将函数应用于 3D numpy 数组

我有一个来自 Image PIL Pillow 对象的 numpy 3D 数组 178 214 235 180 215 236 180 215 235 146 173 194 145 172 193 146 173 194 126 171
在 pandas eval 中调用 round()、ceiling()、floor()、min()、max()

正如标题所说有没有办法在 pandas eval 中支持 round ceiling min max floor 函数数据框 import pandas as pd import numexpr as ne op d ID 1 2 3
SQLAlchemy 是否会从同一连接重置 SQLAlchemy 会话之间的数据库会话？

SQLAlchemy 利用连接池这意味着相同的连接可以在不同的 SQLAlchemy 会话之间重复使用但是单个 SQLAlchemy 会话包含在其自身内并在关闭后被丢弃然而连接保持活动状态我想使用 set config 将一
Django populate() 不可重入

当我尝试在生产环境中加载 Django 应用程序时我不断收到此消息我尝试了所有的 stackoverflow 答案但没有任何解决办法任何其他想法我使用的是 Django 1 5 2 和 Apache Traceback most
在IPython笔记本中自动播放声音

我经常在 IPython 笔记本中运行长时间运行的单元我希望笔记本在单元完成执行时自动发出蜂鸣声或播放声音有没有办法在 iPython 笔记本中执行此操作或者我可以在单元格末尾放置一些命令来自动播放声音我正在使用 Chrome 如果
连接 Flask Socket.IO Server 和 Flutter

基本上我有一个套接字 io 烧瓶代码 import cv2 import numpy as np from flask import Flask render template from flask socketio import Soc
确定 pyInstaller 生成的 Python EXE 中的应用程序路径

我有一个驻留在单个 py 文件中的应用程序我已经能够让 pyInstaller 将其成功捆绑到 Windows 的 EXE 中问题是应用程序需要一个 cfg 文件该文件始终直接位于应用程序旁边的同一目录中通常我使用以下代码构建路
无法使用 Python 3 编写的 gzip.open() 将压缩文件上传到云存储

当我尝试在 Cloud Shell 实例上使用 python 脚本将压缩的 gzip 文件上传到云存储时它总是上传一个空文件这是重现错误的代码 import gzip from google cloud import storage s
使用 python pyad 访问对象 [] 时出现问题

我在尝试使用 pyad 访问活动目录用户属性时遇到问题这是我的代码 user pyad aduser ADUser from cn tuser print user get attribute lastLogonTimestamp 这些是

随机推荐

“表达式中的声明和声明”是 GNU C 特有的吗？

Are 表达式中的声明和声明特定于 GNU C 或者这个功能也包含在C99标准中它是 GCC 扩展参见海湾合作委员会文档例如这里是 gcc 4 3 3 查看 GCC 扩展的完整列表和C99 规范可在此处获取如果您使用 pedant
Phantomjs抓取网页功能不起作用

我正在使用 phantomjs 学习如何抓取网页到目前为止我已经开发了以下代码我知道我能够连接到该网站但我根本无法从表中获取数据 am我走在正确的轨道上吗我的目标是从表中抓取数据this地点我还知道我需要使用 includeJs
在 javascript “创建阶段”中，函数是否在变量之前设置？

我正在学习 Udemy 课程Javascript 理解奇怪的部分现在我刚刚了解了解释器解释 JS 时发生的创建阶段和执行阶段我有一个问题但我首先会向您展示我正在使用的代码 http codepen io rsf pen bEgpNY
何时使用 `<>` 和 `!=` 运算符？

找不到太多这方面的信息尝试比较两个值但它们不能相等就我而言它们可以并且经常是大于或小于我应该使用 if a lt gt b dostuff or if a b dostuff 这一页说它们相似这意味着它们至少有一些不同之处
Java 文档：“从接口 X 继承的方法”的含义是什么

我一定缺少一些基本的 Java 术语类可以扩展因此它们的方法可以是遗传由他们的子类接口可以是实施的实现类必须实现接口的所有方法接口本身不实现任何内容仅进行声明那么为什么当我查看 HashSet 的文档时 https docs
并排反应传单

我想并排显示两个图块层就像并排的传单插件一样 https github com digidem leaflet side by side 但是我不确定如何通过反应来做到这一点有没有办法在react中使用上述插件您对如何实现此功能还有
如何从 angular.dart 组件内部调用 jquery 插件？

我正在通过尝试制作一个可以访问现有 jquery 插件的组件来学习 angular dart 组件我正在尝试类似以下的事情 library mylib import dart html querySelector import packa
使用 JavaScript 动态加载 JavaScript

经过一个多小时的尝试让它工作后我认为这是因为跨域策略但我真的认为这会起作用我也找不到很多相关信息但是这是我的问题我有一个网站叫http mysite com然后我包括一个第三方脚本我写的及其地址http supercools
SASS 语法未在 css 中生成 &:hover

我一直在四处寻找在 stackoverwflow 和其他资源上发现了一些类似的问题但其中大多数是关于语法错误的有人可以告诉我这段代码有什么问题以及为什么 SASS 没有在生成的 css 中生成 hover 吗这是我的 SASS 代码
如何使用鼠标拖动事件在java小程序上绘制矩形并使其保持不变

我有可以绘制矩形的程序我有两个问题无法解决当我绘制矩形后它不会留下来我拥有的唯一清除画布的代码重绘仅在鼠标拖动时调用为什么当我释放鼠标或移动鼠标时我的画布会变清晰第二件事并不是什么大问题但我无法弄清楚当我的矩形的高度或宽
Google Apps 脚本 V8 运行时使用哪个版本的 ECMAScript？

当您创建新的 Google Apps 脚本时它似乎默认支持 v8 运行时这文档 states Apps 脚本支持两种 JavaScript 运行时现代的 V8 运行时和由 Mozilla 的 Rhino JavaScript 解释器提
当查询 SSRS 数据集之间没有数据时，向报告添加值

这基本上与我在这个线程中提出的问题相同当查询 SSRS 中没有数据时向报告添加值现在唯一的区别是我想将相同的功能扩展到不同的数据集想象一下我有两个数据集 Dataset1 Dataset2 两者具有相同的主键在本例中销售代表类
Python 多处理存储数据，直到在每个进程中进一步调用

我有一个无法在进程之间共享的类型的大对象它有方法来实例化它并处理它的数据我当前的做法是首先在主父进程中实例化该对象然后在发生某些事件时将其传递给子进程问题是每当子进程运行时它们每次都会将对象复制到内存中这需要一段时间我想将它
是否可以在React中使用CSS自定义FullCalendar？

我刚刚从 FullCalendar 开始我在一个react项目现在一切都很好但我想定制实际的日历我希望它尊重我的客户需求我的问题是否可以添加班级名称像这样的 FullCalendar 组件我尝试过但无法到达 css 文件中的
Retrofit：如何解析组合了数组和对象的JSON数组？

我正在开发一个 Android 应用程序它使用 Retrofit OkHttp 连接到 REST API 并使用 JSON 数据我对 Retrofit 还很陌生所以我仍在学习它是如何工作的但到目前为止一切都非常顺利然而我遇到了
不要与 SVN 进行 diff 合并

我想了解我在功能分支上所做的所有更改的差异目前我使用 svn log stop on copy awk r NAME print 1 xargs l svn diff c gt code diff 不幸的是这包括主干合并到我的分支中并使
如何读取android设备上beacon的UDID、Major、Minor？

我正在尝试为 Android 开发 BLE 应用程序有什么方法可以检测和读取 Android 设备上信标的 UDID 主要次要吗我已阅读 RadiusNetworks android ibeacon service 但我不明白为什么
使用 Unity（而不是温莎城堡）可以实现这一点吗？

This 博客文章展示了一种使用 Castle Windsor 和 NSubstitute 实现自动模拟的方法我不知道也不使用 Castle Windsor 但我确实使用 Unity 和 NSubstitute 有没有办法使用 Unity
如何在一个命令行操作中解压文件并重命名文件夹？

我想下载一个文件解压它并重命名该文件夹我可以下载该文件并将其解压 curl https s3 amazonaws com sampletest sample tar gz tar xz 如何在同一命令中重命名文件夹 curl https
keras/scikit-learn：使用 fit_generator() 进行交叉验证

是否可以使用Keras 的 scikit learn API和一起fit generator 方法或者使用另一种方式来产生批次进行训练我正在使用 SciPy 的稀疏矩阵在输入 Keras 之前必须将其转换为 NumPy 数组但由于

keras/scikit-learn：使用 fit_generator() 进行交叉验证

keras/scikit-learn：使用 fit_generator() 进行交叉验证 的相关文章

随机推荐

热门标签

keras/scikit-learn：使用 fit_generator() 进行交叉验证的相关文章