为什么神经网络根据自己的训练数据预测错误？

2023-12-22

我制作了一个带有监督学习的 LSTM (RNN) 神经网络，用于数据库存预测。问题是为什么它在自己的训练数据上预测错误？（笔记：可重现的例子 below)

我创建了简单的模型来预测未来 5 天的股价：

model = Sequential()
model.add(LSTM(32, activation='sigmoid', input_shape=(x_train.shape[1], x_train.shape[2])))
model.add(Dense(y_train.shape[1]))
model.compile(optimizer='adam', loss='mse')

es = EarlyStopping(monitor='val_loss', patience=3, restore_best_weights=True)
model.fit(x_train, y_train, batch_size=64, epochs=25, validation_data=(x_test, y_test), callbacks=[es])

正确的结果在y_test（5 个值），因此模型训练，回顾前 90 天，然后从最佳状态恢复权重（val_loss=0.0030) 结果为patience=3:

Train on 396 samples, validate on 1 samples
Epoch 1/25
396/396 [==============================] - 1s 2ms/step - loss: 0.1322 - val_loss: 0.0299
Epoch 2/25
396/396 [==============================] - 0s 402us/step - loss: 0.0478 - val_loss: 0.0129
Epoch 3/25
396/396 [==============================] - 0s 397us/step - loss: 0.0385 - val_loss: 0.0178
Epoch 4/25
396/396 [==============================] - 0s 399us/step - loss: 0.0398 - val_loss: 0.0078
Epoch 5/25
396/396 [==============================] - 0s 391us/step - loss: 0.0343 - val_loss: 0.0030
Epoch 6/25
396/396 [==============================] - 0s 391us/step - loss: 0.0318 - val_loss: 0.0047
Epoch 7/25
396/396 [==============================] - 0s 389us/step - loss: 0.0308 - val_loss: 0.0043
Epoch 8/25
396/396 [==============================] - 0s 393us/step - loss: 0.0292 - val_loss: 0.0056

预测结果非常棒，不是吗？

这是因为算法恢复了 #5 时期的最佳权重。好的，现在让我们将此模型保存到.h5文件，向后移动 -10 天并预测最后 5 天（在第一个示例中，我们在 4 月 17 日至 23 日（包括周末休息日）进行模型和验证，现在让我们在 4 月 2 日至 8 日进行测试）。结果：

它显示了绝对错误的方向。正如我们所看到的，这是因为模型经过训练，并在 4 月 17 日至 23 日设置了第 5 轮最佳验证集，但在 4 月 2 日至 8 日则不然。如果我尝试进行更多训练，选择哪个纪元，无论我做什么，过去总会有很多时间间隔出现错误的预测。

为什么模型在自己训练的数据上显示错误的结果？我训练了数据，它一定记得如何预测这组数据上的数据，但是预测错了。我也尝试过：

使用包含 50k+ 行、20 年股票价格的大型数据集，添加更多或更少的功能
创建不同类型的模型，例如添加更多隐藏层、不同的batch_size、不同的层激活、dropout、batchnormalization
创建自定义 EarlyStopping 回调，从许多验证数据集中获取平均 val_loss 并选择最佳的

也许我错过了什么？我可以改进什么？

这里非常简单并且可重现的例子。yfinance下载 S&P 500 股票数据。

"""python 3.7.7
tensorflow 2.1.0
keras 2.3.1"""


import numpy as np
import pandas as pd
from keras.callbacks import EarlyStopping, Callback
from keras.models import Model, Sequential, load_model
from keras.layers import Dense, Dropout, LSTM, BatchNormalization
from sklearn.preprocessing import MinMaxScaler
import plotly.graph_objects as go
import yfinance as yf
np.random.seed(4)


num_prediction = 5
look_back = 90
new_s_h5 = True # change it to False when you created model and want test on other past dates


df = yf.download(tickers="^GSPC", start='2018-05-06', end='2020-04-24', interval="1d")
data = df.filter(['Close', 'High', 'Low', 'Volume'])

# drop last N days to validate saved model on past
df.drop(df.tail(0).index, inplace=True)
print(df)


class EarlyStoppingCust(Callback):
    def __init__(self, patience=0, verbose=0, validation_sets=None, restore_best_weights=False):
        super(EarlyStoppingCust, self).__init__()
        self.patience = patience
        self.verbose = verbose
        self.wait = 0
        self.stopped_epoch = 0
        self.restore_best_weights = restore_best_weights
        self.best_weights = None
        self.validation_sets = validation_sets

    def on_train_begin(self, logs=None):
        self.wait = 0
        self.stopped_epoch = 0
        self.best_avg_loss = (np.Inf, 0)

    def on_epoch_end(self, epoch, logs=None):
        loss_ = 0
        for i, validation_set in enumerate(self.validation_sets):
            predicted = self.model.predict(validation_set[0])
            loss = self.model.evaluate(validation_set[0], validation_set[1], verbose = 0)
            loss_ += loss
            if self.verbose > 0:
                print('val' + str(i + 1) + '_loss: %.5f' % loss)

        avg_loss = loss_ / len(self.validation_sets)
        print('avg_loss: %.5f' % avg_loss)

        if self.best_avg_loss[0] > avg_loss:
            self.best_avg_loss = (avg_loss, epoch + 1)
            self.wait = 0
            if self.restore_best_weights:
                print('new best epoch = %d' % (epoch + 1))
                self.best_weights = self.model.get_weights()
        else:
            self.wait += 1
            if self.wait >= self.patience or self.params['epochs'] == epoch + 1:
                self.stopped_epoch = epoch
                self.model.stop_training = True
                if self.restore_best_weights:
                    if self.verbose > 0:
                        print('Restoring model weights from the end of the best epoch')
                    self.model.set_weights(self.best_weights)

    def on_train_end(self, logs=None):
        print('best_avg_loss: %.5f (#%d)' % (self.best_avg_loss[0], self.best_avg_loss[1]))


def multivariate_data(dataset, target, start_index, end_index, history_size, target_size, step, single_step=False):
    data = []
    labels = []
    start_index = start_index + history_size
    if end_index is None:
        end_index = len(dataset) - target_size
    for i in range(start_index, end_index):
        indices = range(i-history_size, i, step)
        data.append(dataset[indices])
        if single_step:
            labels.append(target[i+target_size])
        else:
            labels.append(target[i:i+target_size])
    return np.array(data), np.array(labels)


def transform_predicted(pr):
    pr = pr.reshape(pr.shape[1], -1)
    z = np.zeros((pr.shape[0], x_train.shape[2] - 1), dtype=pr.dtype)
    pr = np.append(pr, z, axis=1)
    pr = scaler.inverse_transform(pr)
    pr = pr[:, 0]
    return pr


step = 1

# creating datasets with look back
scaler = MinMaxScaler()
df_normalized = scaler.fit_transform(df.values)
dataset = df_normalized[:-num_prediction]
x_train, y_train = multivariate_data(dataset, dataset[:, 0], 0,len(dataset) - num_prediction + 1, look_back, num_prediction, step)
indices = range(len(dataset)-look_back, len(dataset), step)
x_test = np.array(dataset[indices])
x_test = np.expand_dims(x_test, axis=0)
y_test = np.expand_dims(df_normalized[-num_prediction:, 0], axis=0)

# creating past datasets to validate with EarlyStoppingCust
number_validates = 50
step_past = 5
validation_sets = [(x_test, y_test)]
for i in range(1, number_validates * step_past + 1, step_past):
    indices = range(len(dataset)-look_back-i, len(dataset)-i, step)
    x_t = np.array(dataset[indices])
    x_t = np.expand_dims(x_t, axis=0)
    y_t = np.expand_dims(df_normalized[-num_prediction-i:len(df_normalized)-i, 0], axis=0)
    validation_sets.append((x_t, y_t))


if new_s_h5:
    model = Sequential()
    model.add(LSTM(32, return_sequences=False, activation = 'sigmoid', input_shape=(x_train.shape[1], x_train.shape[2])))
    # model.add(Dropout(0.2))
    # model.add(BatchNormalization())
    # model.add(LSTM(units = 16))
    model.add(Dense(y_train.shape[1]))
    model.compile(optimizer = 'adam', loss = 'mse')

    # EarlyStoppingCust is custom callback to validate each validation_sets and get average
    # it takes epoch with best "best_avg" value
    # es = EarlyStoppingCust(patience = 3, restore_best_weights = True, validation_sets = validation_sets, verbose = 1)

    # or there is keras extension with built-in EarlyStopping, but it validates only 1 set that you pass through fit()
    es = EarlyStopping(monitor = 'val_loss', patience = 3, restore_best_weights = True)

    model.fit(x_train, y_train, batch_size = 64, epochs = 25, shuffle = True, validation_data = (x_test, y_test), callbacks = [es])
    model.save('s.h5')
else:
    model = load_model('s.h5')



predicted = model.predict(x_test)
predicted = transform_predicted(predicted)
print('predicted', predicted)
print('real', df.iloc[-num_prediction:, 0].values)
print('val_loss: %.5f' % (model.evaluate(x_test, y_test, verbose=0)))


fig = go.Figure()
fig.add_trace(go.Scatter(
    x = df.index[-60:],
    y = df.iloc[-60:,0],
    mode='lines+markers',
    name='real',
    line=dict(color='#ff9800', width=1)
))
fig.add_trace(go.Scatter(
    x = df.index[-num_prediction:],
    y = predicted,
    mode='lines+markers',
    name='predict',
    line=dict(color='#2196f3', width=1)
))
fig.update_layout(template='plotly_dark', hovermode='x', spikedistance=-1, hoverlabel=dict(font_size=16))
fig.update_xaxes(showspikes=True)
fig.update_yaxes(showspikes=True)
fig.show()

OP 提出了一个有趣的发现。让我将原来的问题简化如下。

如果模型是在特定时间序列上进行训练的，为什么模型不能重建已经训练过的先前时间序列数据？

嗯，答案就蕴藏在训练进度本身中。自从EarlyStopping这里使用的是为了避免过拟合，最好的模型保存在epoch=5, where val_loss=0.0030正如OP所提到的。在这种情况下，训练损失等于0.0343，即训练的 RMSE 为0.185。由于数据集是使用缩放的MinMaxScalar，我们需要取消 RMSE 的缩放来了解发生了什么。

发现时间序列的最小值和最大值为2290 and 3380。因此，有0.185因为训练的 RMSE 意味着，即使对于训练集，预测值也可能与真实值相差大约0.185*(3380-2290)，那是~200平均单位。

这解释了为什么在前一个时间步预测训练数据本身时存在很大差异。

我应该怎么做才能完美模拟训练数据？

这个问题是我从我自己身上问出来的。简单的答案是，让训练损失接近0，即模型过拟合。

经过一些训练，我意识到只有 1 个 LSTM 层的模型具有32细胞不够复杂，无法重建训练数据。因此，我添加了另一个 LSTM 层，如下所示。

model = Sequential()
model.add(LSTM(32, return_sequences=True, activation = 'sigmoid', input_shape=(x_train.shape[1], x_train.shape[2])))
# model.add(Dropout(0.2))
# model.add(BatchNormalization())
model.add(LSTM(units = 64, return_sequences=False,))
model.add(Dense(y_train.shape[1]))
model.compile(optimizer = 'adam', loss = 'mse')

该模型经过训练1000不考虑时代EarlyStopping.

model.fit(x_train, y_train, batch_size = 64, epochs = 1000, shuffle = True, validation_data = (x_test, y_test))

在......的最后1000我们的训练损失为0.00047这比你的情况下的训练损失要低得多。因此我们期望模型能够更好地重建训练数据。以下是 4 月 2 日至 8 日的预测图。

最后注意事项：

对特定数据库的训练并不一定意味着模型应该能够完美地重建训练数据。特别是，当引入提前停止、正则化和dropout等方法来避免过拟合时，模型往往比记忆训练数据更具有泛化性。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么神经网络根据自己的训练数据预测错误？的相关文章

在 Python 中使用 XPath 和 LXML

我有一个 python 脚本用于解析 XML 并将某些感兴趣的元素导出到 csv 文件中我现在尝试更改脚本以允许根据条件过滤 XML 文件等效的 XPath 查询将是 DC Events Confirmation contains T
Python 中的六边形自组织映射

我在寻找六边形自组织映射 http en wikipedia org wiki Self organizing map在Python上准备好模块如果存在的话绘制六边形单元格的方法将六边形单元作为数组或其他方式使用的算法 About
使用 Django 的 post_save() 信号

我有两张桌子 class Advertisement models Model created at models DateTimeField auto now add True author email models EmailField
用 Python 编写一个无操作或虚拟类

假设我有这样的代码 foo fooFactory create 由于种种原因 fooFactory create 可能无法创建实例Foo 如果可以的话我想要fooFactory create 返回一个虚拟无操作对象这个对象应该是完全惰性
如何用 python 和 sympy 解决多元不等式？

我对使用 python 和 Sympy 还很陌生并且遇到了使用 sympy 解决多元不等式的问题假设我的文件中有很多函数如下所示 cst sqrt x 2 cst exp sqrt cst x 1 4 log log sqrt cst
获取单个方程的脚本

在文本文件中输入 a 2 8 b 3 9 c 4 8 d 5 9 e a b f c d g 0 6 h 1 7 i e g j f h output i j 期望的输出输出 2 8 3 9 0 6 4 8 5 9 1 7 如果输入文件名
Python 中 genfromtxt() 的可变列数？

我有一个 txt具有不同长度的行的文件每一行都是代表一条轨迹的一系列点由于每条轨迹都有自己的长度因此各行的长度都不同也就是说列数从一行到另一行不同据我所知 genfromtxt Python 中的模块要求列数相同 gt gt g
Sorted(key=lambda: ...) 背后的语法[重复]

这个问题在这里已经有答案了我不太明白背后的语法sorted 争论 key lambda variable variable 0 Isn t lambda随意的为什么是variable在看起来像的内容中陈述了两次dict 我认为这里的所有
唯一的图像哈希值即使 EXIF 信息更新也不会改变

我正在寻找一种方法来为 python 和 php 中的图像创建唯一的哈希值我考虑过对原始文件使用 md5 和因为它们可以快速生成但是当我更新 EXIF 信息有时时区关闭时它会更改总和并且哈希也会更改有没有其他方法可以为这些文
如何在 Windows 上使用 Python 3.6 来安装 Python 2.7

我想问一下如何使用pip install对于 Python 2 7 当我之前安装并使用 Python 3 6 时我现在必须使用 Windows 上的 Python 版本 pip install 继续安装 Python 3 6 我需要使用以
行为：如何从另一个文件导入步骤？

我刚刚开始使用behave http pythonhosted org behave 一个Pythonic BDD框架使用小黄瓜语法 http docs behat org guides 1 gherkin html 行为需要一个特征例
使用Python将图像转换为十六进制格式

我的下面有一个jpg文件tmp folder upload path tmp resized test jpg 我一直在使用下面的代码 Method 1 with open upload path rb as image file enco
Python While 循环，and (&) 运算符不起作用

我正在努力寻找最大公因数我写了一个糟糕的运算密集型算法它将较低的值减一使用检查它是否均匀地划分了分子和分母如果是则退出程序但是我的 while 循环没有使用 and 运算符因此一旦分子可整除它就会停止即使它不是正确
在 Mac 上安装 Pygame 到 Enthought 构建中

关于在 Mac 上安装 Pygame 有许多未解答的问题但我将在这里提出我的具体问题并希望得到答案我在 Mac 上安装 Pygame 时遇到了难以置信的困难我使用 Enthought 版本 EPD 7 3 2 32 位它是我的默认框
是否可以写一个负的python类型注释

这可能听起来不合理但现在我需要否定类型注释我的意思是这样的 an int Not Iterable a string Iterable 这是因为我为一个函数编写了一个重载而 mypy 不理解我我的功能看起来像这样 overload
Plotly：如何避免巨大的 html 文件大小

我有一个 3D 装箱模型它使用绘图来绘制输出图我注意到绘制了 600 个项目生成 html 文件需要很长时间文件大小为 89M 这太疯狂了我怀疑可能存在一些巨大的重复或者是由单个项目的 add trace 方法引起的阴谋为
Scrapy 蜘蛛无法工作

由于到目前为止没有任何效果我开始了一个新项目 python scrapy ctl py startproject Nu 我完全按照教程操作创建了文件夹和一个新的蜘蛛 from scrapy contrib spiders import
asyncio - 多次等待协程（周期性任务）

我正在尝试为异步事件循环创建定期任务如下所示但是我收到 RuntimeError 无法重用已等待的协程异常显然 asyncio 不允许等待相同的可等待函数如中讨论的这个错误线程 https bugs python org issu
从时间序列生成日期特征

我有一个数据框其中包含如下列 Date temp data holiday day 01 01 2000 10000 0 1 02 01 2000 0 1 2 03 01 2000 2000 0 3 30 01 2000 200 0 30
使用 numpy 加速 for 循环

下一个 for 循环如何使用 numpy 获得加速我想这里可以使用一些奇特的索引技巧但我不知道是哪一个这里可以使用 einsum 吗 a 0 for i in range len b a numpy mean C d e f b i

随机推荐

QueryDSL 排序不适用于 Spring Data

我目前正在使用JpaSort使用 Spring Data commons 1 9 1 和 Spring JPA 1 7 1 我需要使用 QueryDSL 因为JPA 不允许定义空值的排序 https stackoverflow com qu
如何用新内容替换面板内容？

我有一个regionContent我添加到视口的面板如何用新内容替换其内容 var regionContent new Ext Panel id contentArea region center padding 10 autoScrol
如何使用包含彩色图像的按钮自定义 UIToolbar？

我有两个关于 UIToolbar 的问题 1 我已经阅读了许多关于如何在 UIToolbar 中使用带有自定义图像彩色的按钮的 Stackoverflow 答案我尝试在 UIToolbar 顶部放置一个视图 hack 并将带有图像的按
解密使用 OpenSSL 生成的“der”文件时出现异常：使用填充密码解密时，输入长度必须是 8 的倍数

首先我使用 OpenSSL 生成一个私有 RSA 密钥文件然后将其转换为加密的 der 文件 openssl pkcs8 topk8 inform PEM outform DER in private key pem out priva
有什么方法可以直接将跨度设置为可跨度文本吗？

这可能是一个错误但我需要知道我正在开发一个android应用程序在我想在一个文本视图中显示两种字体并发现这个非常有用扩展字体跨度的自定义字体跨度 https stackoverflow com questions 9618835 a
比较 R 中的两个向量

我有两个向量 a c 1 2 3 b c 1 2 3 我想测试一下是否a完全一样b 我知道结果可以通过sum a b length a 但是有什么优雅的方法吗我们可以用identical identical a b 1 TRUE 或者如
使用 UCanAccess 读取 .mdb 文件会返回全部大写的列名

我正从 JDBC ODBC 桥驱动程序迁移到 UCanAccess 驱动程序在执行此操作时我面临以下问题 UCanAccess 驱动程序以大写形式返回所有列名但我需要它们采用驼峰命名法有任何想法吗 Thx With UCanAcce
如何给 barbuttonitem 动作？

当单击 UIToolBar 上的完成按钮时我想调出 TableViewController 的 nib 但下面不允许单击打开新视图我该如何纠正这个问题请告诉我哪里出了问题应该更换什么以及原因 Here s the selector
有没有办法在 Swift Playground 中使用 Common Crypto？

我正在 Xcode 游乐场中玩弄 REST API 我需要使用 SHA1 进行哈希处理我发现的所有解决方案都依赖于 Common Crypto 而这似乎不能直接在 Swift Playground 中使用有没有办法在 Swift 游乐场
如何对 ConcurrentDictionary 实现 TryRemove 条件？ [复制]

这个问题在这里已经有答案了最近我有一个需要 https stackoverflow com questions 1764809 filesystemwatcher changed event is raised twice 5807932
在 JavaScript 中克隆对象[重复]

这个问题在这里已经有答案了您好我使用以下代码来创建对象 var parent parent Task name Task x parent Start time 01 03 2013 parent End time 01 08 2013
如何改善 OpenMP 在 Android 上的较差性能？

我为Android编写了一个图像处理应用程序 https play google com store apps details id cv cvExperiments https play google com store apps det
Linux 文档 /usr/share/doc 和 localhost/doc/ 的 apache .gz gzip 内容处理程序

如何为 apache gz gzip 内容创建一个简单的内容处理程序我想要它解压缩说http localhost doc FAQ Linux FAQ gz http localhost doc FAQ Linux FAQ gz并将其以纯文
如何使用 matplotlib blitting 将 matplot.patches 添加到 wxPython 中的 matplotlib 图？

我正在使用 matplotlib 库制作一个绘图并在我的 wxPython GUI 中显示它我正在绘制来自激光雷达仪器的大量数据点问题是我想在该图中绘制矩形来指示有趣的区域但是当我在与绘图相同的轴上绘制一个矩形时整个绘图将被重新
找到 Pandas DataFrame 中的第一个和最后一个非 NaN 值

我有一只熊猫DataFrame按日期索引有许多列但许多列仅填充时间序列的一部分我想找到第一个和最后一个值非的位置NaN值的定位以便我可以提取日期并查看特定列的时间序列有多长有人可以为我指出正确的方向让我知道如何去做这样的事情吗 b
difftime 和 '-' 之间有什么区别？

我有 2 个 time t 类型的变量 varEnd 和 varStart 现在为了看看它们之间的区别要么我可以做 varEnd varStart or difftime varEnd varStart 两者都返回秒数请告诉我它们有什
如何禁用 RepositoryRestHandlerMapping 和 EndpointHandlerMapping？

我目前正在使用 Spring Boot Hibernate 和 Spring HATEOAS 构建一个具有 REST 接口的应用程序我的数据模型被定义为 bean Entity注释我正在使用 Spring 的功能来自动设置 Hibern
在 WebRTC 中，如何标记本地 MediaStream 以便远程对等方可以识别它？

我正在构建一个 WebRTC 应用程序用户可以在其中共享他们的相机和屏幕当客户端接收到流轨道时它需要知道它是摄像头流还是屏幕录制流这种区别在发送端很明显但当轨迹到达接收方时这种区别就消失了这是我的应用程序中的一些示例代码 N
如何使用意图将包含可绘制对象的对象从一个 Android 活动发送到另一个活动？

我经历过这个如何使用 Intents 将对象从一个 Android Activity 发送到另一个 Android Activity https stackoverflow com questions 2139134 how to sen
为什么神经网络根据自己的训练数据预测错误？

我制作了一个带有监督学习的 LSTM RNN 神经网络用于数据库存预测问题是为什么它在自己的训练数据上预测错误笔记可重现的例子 below 我创建了简单的模型来预测未来 5 天的股价 model Sequential model a

为什么神经网络根据自己的训练数据预测错误？

为什么神经网络根据自己的训练数据预测错误？ 的相关文章

随机推荐

热门标签

为什么神经网络根据自己的训练数据预测错误？的相关文章