Keras 模型未能减少损失

2024-02-28

我提出一个例子，其中tf.keras模型无法从非常简单的数据中学习。我在用着tensorflow-gpu==2.0.0, keras==2.3.0和Python 3.7。在文章的最后，我给出了重现我观察到的问题的 Python 代码。

Data

样本是形状为 (6, 16, 16, 16, 3) 的 Numpy 数组。为了让事情变得非常简单，我只考虑充满 1 和 0 的数组。带有 1 的数组被赋予标签 1，带有 0 的数组被赋予标签 0。我可以生成一些样本（在下面，n_samples = 240）与此代码：

def generate_fake_data():
    for j in range(1, 240 + 1):
        if j < 120:
            yield np.ones((6, 16, 16, 16, 3)), np.array([0., 1.])
        else:
            yield np.zeros((6, 16, 16, 16, 3)), np.array([1., 0.])

为了将这些数据输入到tf.keras模型，我创建一个实例tf.data.Dataset使用下面的代码。这本质上会创建洗牌批次BATCH_SIZE = 12样品。

def make_tfdataset(for_training=True):
    dataset = tf.data.Dataset.from_generator(generator=lambda: generate_fake_data(),
                                             output_types=(tf.float32,
                                                           tf.float32),
                                             output_shapes=(tf.TensorShape([6, 16, 16, 16, 3]),
                                                            tf.TensorShape([2])))
    dataset = dataset.repeat()
    if for_training:
        dataset = dataset.shuffle(buffer_size=1000)
    dataset = dataset.batch(BATCH_SIZE)
    dataset = dataset.prefetch(tf.data.experimental.AUTOTUNE)
    return dataset

Model

我提出以下模型来对我的样本进行分类：

def create_model(in_shape=(6, 16, 16, 16, 3)):

    input_layer = Input(shape=in_shape)

    reshaped_input = Lambda(lambda x: K.reshape(x, (-1, *in_shape[1:])))(input_layer)

    conv3d_layer = Conv3D(filters=64, kernel_size=8, strides=(2, 2, 2), padding='same')(reshaped_input)

    relu_layer_1 = ReLU()(conv3d_layer)

    pooling_layer = GlobalAveragePooling3D()(relu_layer_1)

    reshape_layer_1 = Lambda(lambda x: K.reshape(x, (-1, in_shape[0] * 64)))(pooling_layer)

    expand_dims_layer = Lambda(lambda x: K.expand_dims(x, 1))(reshape_layer_1)

    conv1d_layer = Conv1D(filters=1, kernel_size=1)(expand_dims_layer)

    relu_layer_2 = ReLU()(conv1d_layer)

    reshape_layer_2 = Lambda(lambda x: K.squeeze(x, 1))(relu_layer_2)

    out = Dense(units=2, activation='softmax')(reshape_layer_2)

    return Model(inputs=[input_layer], outputs=[out])

该模型使用 Adam（使用默认参数）和binary_crossentropy loss:

clf_model = create_model()
clf_model.compile(optimizer=Adam(),
                  loss='categorical_crossentropy',
                  metrics=['accuracy', 'categorical_crossentropy'])

的输出clf_model.summary() is:

Model: "model"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
input_1 (InputLayer)         [(None, 6, 16, 16, 16, 3) 0         
_________________________________________________________________
lambda (Lambda)              (None, 16, 16, 16, 3)     0         
_________________________________________________________________
conv3d (Conv3D)              (None, 8, 8, 8, 64)       98368     
_________________________________________________________________
re_lu (ReLU)                 (None, 8, 8, 8, 64)       0         
_________________________________________________________________
global_average_pooling3d (Gl (None, 64)                0         
_________________________________________________________________
lambda_1 (Lambda)            (None, 384)               0         
_________________________________________________________________
lambda_2 (Lambda)            (None, 1, 384)            0         
_________________________________________________________________
conv1d (Conv1D)              (None, 1, 1)              385       
_________________________________________________________________
re_lu_1 (ReLU)               (None, 1, 1)              0         
_________________________________________________________________
lambda_3 (Lambda)            (None, 1)                 0         
_________________________________________________________________
dense (Dense)                (None, 2)                 4         
=================================================================
Total params: 98,757
Trainable params: 98,757
Non-trainable params: 0

Training

该模型训练了 500 个 epoch，如下所示：

train_ds = make_tfdataset(for_training=True)

history = clf_model.fit(train_ds,
                        epochs=500,
                        steps_per_epoch=ceil(240 / BATCH_SIZE),
                        verbose=1)

问题！

在 500 个 epoch 中，模型损失保持在 0.69 左右，并且从未低于 0.69。如果我将学习率设置为1e-2代替1e-3。数据非常简单（只有 0 和 1）。天真地，我希望模型的准确率比 0.6 更好。事实上，我希望它能很快达到 100% 的准确率。我做错了什么？

完整的代码...

import numpy as np
import tensorflow as tf
import tensorflow.keras.backend as K
from math import ceil
from tensorflow.keras.layers import Input, Dense, Lambda, Conv1D, GlobalAveragePooling3D, Conv3D, ReLU
from tensorflow.keras.models import Model
from tensorflow.keras.optimizers import Adam

BATCH_SIZE = 12


def generate_fake_data():
    for j in range(1, 240 + 1):
        if j < 120:
            yield np.ones((6, 16, 16, 16, 3)), np.array([0., 1.])
        else:
            yield np.zeros((6, 16, 16, 16, 3)), np.array([1., 0.])


def make_tfdataset(for_training=True):
    dataset = tf.data.Dataset.from_generator(generator=lambda: generate_fake_data(),
                                             output_types=(tf.float32,
                                                           tf.float32),
                                             output_shapes=(tf.TensorShape([6, 16, 16, 16, 3]),
                                                            tf.TensorShape([2])))
    dataset = dataset.repeat()
    if for_training:
        dataset = dataset.shuffle(buffer_size=1000)
    dataset = dataset.batch(BATCH_SIZE)
    dataset = dataset.prefetch(tf.data.experimental.AUTOTUNE)
    return dataset


def create_model(in_shape=(6, 16, 16, 16, 3)):

    input_layer = Input(shape=in_shape)

    reshaped_input = Lambda(lambda x: K.reshape(x, (-1, *in_shape[1:])))(input_layer)

    conv3d_layer = Conv3D(filters=64, kernel_size=8, strides=(2, 2, 2), padding='same')(reshaped_input)

    relu_layer_1 = ReLU()(conv3d_layer)

    pooling_layer = GlobalAveragePooling3D()(relu_layer_1)

    reshape_layer_1 = Lambda(lambda x: K.reshape(x, (-1, in_shape[0] * 64)))(pooling_layer)

    expand_dims_layer = Lambda(lambda x: K.expand_dims(x, 1))(reshape_layer_1)

    conv1d_layer = Conv1D(filters=1, kernel_size=1)(expand_dims_layer)

    relu_layer_2 = ReLU()(conv1d_layer)

    reshape_layer_2 = Lambda(lambda x: K.squeeze(x, 1))(relu_layer_2)

    out = Dense(units=2, activation='softmax')(reshape_layer_2)

    return Model(inputs=[input_layer], outputs=[out])


train_ds = make_tfdataset(for_training=True)
clf_model = create_model(in_shape=(6, 16, 16, 16, 3))
clf_model.summary()
clf_model.compile(optimizer=Adam(lr=1e-3),
                  loss='categorical_crossentropy',
                  metrics=['accuracy', 'categorical_crossentropy'])

history = clf_model.fit(train_ds,
                        epochs=500,
                        steps_per_epoch=ceil(240 / BATCH_SIZE),
                        verbose=1)

您的代码有一个严重问题：维度改组。你应该的一维never触摸是批量尺寸- 根据定义，它成立独立样本您的数据。在第一次重塑中，您将特征尺寸与批量尺寸混合：

Tensor("input_1:0", shape=(12, 6, 16, 16, 16, 3), dtype=float32)
Tensor("lambda/Reshape:0", shape=(72, 16, 16, 16, 3), dtype=float32)

这就像输入 72 个独立的形状样本(16,16,16,3)。其他层也面临类似的问题。

SOLUTION:

而不是重塑每一步（为此你应该使用Reshape），塑造现有的卷积层和池化层，使一切直接顺利进行。
除了输入和输出层之外，最好为每个层命名一些简短的内容 - 不会丢失清晰度，因为每行都由层名称明确定义
GlobalAveragePooling旨在成为final层，因为它折叠特征尺寸- 在你的情况下，像这样：(12,16,16,16,3) --> (12,3);之后的转换没有多大作用
根据上面，我更换了Conv1D with Conv3D
除非您使用可变批量大小，否则始终选择batch_shape= vs. shape=，因为您可以完整检查图层尺寸（非常有帮助）
你的真实batch_size这是6，从你的评论回复中推断出来
kernel_size=1和（特别是）filters=1是一个非常弱的卷积，我相应地替换了它 - 如果你愿意，你可以恢复
如果您的预期应用程序中只有 2 个类，我建议使用Dense(1, 'sigmoid') with binary_crossentropy loss

最后一点：你可以把上面所有的东西都扔掉except对于维度洗牌建议，并且仍然获得完美的训练集性能；这是问题的根源。

def create_model(batch_size, input_shape):

    ipt = Input(batch_shape=(batch_size, *input_shape))
    x   = Conv3D(filters=64, kernel_size=8, strides=(2, 2, 2),
                             activation='relu', padding='same')(ipt)
    x   = Conv3D(filters=8,  kernel_size=4, strides=(2, 2, 2),
                             activation='relu', padding='same')(x)
    x   = GlobalAveragePooling3D()(x)
    out = Dense(units=2, activation='softmax')(x)

    return Model(inputs=ipt, outputs=out)

BATCH_SIZE = 6
INPUT_SHAPE = (16, 16, 16, 3)
BATCH_SHAPE = (BATCH_SIZE, *INPUT_SHAPE)

def generate_fake_data():
    for j in range(1, 240 + 1):
        if j < 120:
            yield np.ones(INPUT_SHAPE), np.array([0., 1.])
        else:
            yield np.zeros(INPUT_SHAPE), np.array([1., 0.])


def make_tfdataset(for_training=True):
    dataset = tf.data.Dataset.from_generator(generator=lambda: generate_fake_data(),
                                 output_types=(tf.float32,
                                               tf.float32),
                                 output_shapes=(tf.TensorShape(INPUT_SHAPE),
                                                tf.TensorShape([2])))
    dataset = dataset.repeat()
    if for_training:
        dataset = dataset.shuffle(buffer_size=1000)
    dataset = dataset.batch(BATCH_SIZE)
    dataset = dataset.prefetch(tf.data.experimental.AUTOTUNE)
    return dataset

RESULTS:

Epoch 28/500
40/40 [==============================] - 0s 3ms/step - loss: 0.0808 - acc: 1.0000

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Keras 模型未能减少损失的相关文章

用枢轴点拟合曲线 Python

我有下面的图我想用 2 条线来拟合它使用 python 我设法适应上半部分 def func x a b x np array x return a x b popt pcov curve fit func up x up y 我想用另
需要在python中找到print或printf的源代码[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在做一些我不能完全谈论的事情我
使用 Python 从文本中删除非英语单词

我正在 python 上进行数据清理练习我正在清理的文本包含我想删除的意大利语单词我一直在网上搜索是否可以使用像 nltk 这样的工具包在 Python 上执行此操作例如给出一些文本 Io andiamo to the beach w
张量流服务错误：参数无效：JSON 对象：没有命名输入

我正在尝试使用 Amazon Sagemaker 训练模型并且希望使用 Tensorflow 服务来为其提供服务为了实现这一目标我将模型下载到 Tensorflow 服务 docker 并尝试从那里提供服务 Sagemaker 的训练
立体太阳图 matplotlib 极坐标图 python

我正在尝试创建一个与以下类似的简单的立体太阳路径图 http wiki naturalfrequent com wiki Sun Path Diagram http wiki naturalfrequency com wiki Sun Pa
从Python中的字典列表中查找特定值

我的字典列表中有以下数据 data I versicolor 0 Sepal Length 7 9 I setosa 0 I virginica 1 I versicolor 0 I setosa 1 I virginica 0 Sepal
“隐藏”内置类对象、函数、代码等的名称和性质[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我很好奇模块中存在的类builtins无法直接访问的例如 type lambda 0 name function of module
如何通过 TLS 1.2 运行 django runserver

我正在本地 Mac OS X 机器上测试 Stripe 订单我正在实现这段代码 stripe api key settings STRIPE SECRET order stripe Order create currency usd em
如何通过索引列表从 dask 数据框中选择数据？

我想根据索引列表从 dask 数据框中选择行我怎样才能做到这一点 Example 假设我有以下 dask 数据框 dict A 1 2 3 4 5 6 7 B 2 3 4 5 6 7 8 index x1 a2 x3 c4 x5 y6 x
Numpy - 根据表示一维的坐标向量的条件替换数组中的值

我有一个data多维数组最后一个是距离另一方面我有距离向量r 例如 Data np ones 20 30 100 r np linspace 10 50 100 最后我还有一个临界距离值列表称为r0 使得 r0 shape Dat
加快网络抓取速度

我正在使用一个非常简单的网络抓取工具抓取 23770 个网页scrapy 我对 scrapy 甚至 python 都很陌生但设法编写了一个可以完成这项工作的蜘蛛然而它确实很慢爬行 23770 个页面大约需要 28 小时我看过scr
javascript 是否有等效的 __repr__ ？

我最接近Python的东西repr这是 function User name password this name name this password password User prototype toString function r
Jupyter Notebook 找不到 Python 模块

不知道发生了什么但每当我使用 ipython 氢原子或 jupyter 笔记本时都找不到任何已安装的模块我知道我安装了 pandas 但笔记本说找不到我应该补充一点当我正常运行脚本时 python script py 它确实导入
将 Python 中的日期与日期时间进行比较

所以我有一个日期列表 datetime date 2013 7 9 datetime date 2013 7 12 datetime date 2013 7 15 datetime date 2013 7 18 datetime date
模拟pytest中的异常终止

我的多线程应用程序遇到了一个错误主线程的任何异常终止例如未捕获的异常或某些信号都会导致其他线程之一死锁并阻止进程干净退出我解决了这个问题但我想添加一个测试来防止回归但是我不知道如何在 pytest 中模拟异常终止如果我只
Keras：多类 NLP 任务中 model.evaluate 与 model.predict 的准确性差异

我正在使用以下代码在 keras 中为 NLP 任务训练一个简单模型训练集测试集和验证集的变量名称是不言自明的该数据集有 19 个类因此网络的最后一层有 19 个输出标签也是 one hot 编码的 nb classes 19 m
在 JavaScript 函数的 Django 模板中转义字符串参数

我有一个 JavaScript 函数它返回一组对象 return Func id name 例如我在传递包含引号的字符串时遇到问题 Dr Seuss ABC BOOk 是无效语法 I tried name safe 但无济于事有什么解
使用 z = f(x, y) 形式的 B 样条方法来拟合 z = f(x)

作为一个潜在的解决方案这个问题 https stackoverflow com questions 76476327 how to avoid creating many binary switching variables in gekk
Kivy - 单击按钮时编辑标签

我希望 Button1 在单击时编辑标签 etykietka 但我不知道如何操作你有什么想法吗 class Zastepstwa App def build self lista WebOps getList layout BoxLayo
使用随机放置的 NaN 创建示例 numpy 数组

出于测试目的我想创建一个M by Nnumpy 数组与c随机放置的 NaN import numpy as np M 10 N 5 c 15 A np random randn M N A mask np nan 我在创建时遇到问题mas

随机推荐

指针数组的大小

我对 sizeof 运算符有疑问 Code 1 int main int p 10 printf d sizeof p output 40 return 0 Code 2 int main int p 10 printf d sizeof
在 APK 文件中嵌入登录详细信息，每个用户都不同（或其他选项？）

我们被要求为一家拥有现有网站和现有用户的公司创建一个 Android 瘦 Web 客户端他们想要向用户发送彩信为每个用户提供自己的下载 URL 该 URL 将指向专门为该用户创建的 Android apk 文件它将包含该用户的网站登录
jQuery DataTables：控制表宽度

我在使用 jQuery DataTables 插件控制表格宽度时遇到问题该表应该是容器宽度的 100 但最终是任意宽度而不是小于容器宽度感谢建议表声明看起来像这样 table class display cellspacing 0
使用 texelFetch() 进行纹理化

当我将非最大值传递到纹理缓冲区时在渲染时它会绘制具有最大值颜色的几何图形我在使用 glTexBuffer API 时发现了这个问题例如假设我的纹理数据是GLubyte 当我传递任何小于255的值时那么颜色与用255绘制的颜色相同
只更新更改的字段还是全部字段？

我想知道在更新记录以检索现有记录循环遍历字段检查更改并仅将更改的字段放入更新查询中是否值得花费服务器时间我正在使用 MySQL 和 PHP 这样做的主要原因是为了减少更改日志的更新查询的大小通常查询可能有 15 个字段但实际上只有
Heroku - '@heroku/buildpack-registry 无法从 @heroku-cli/plugin-buildpacks 访问'

我尝试通过 Heroku 启动我的 Nuxt SSR Universal 应用程序因为 Netlify 不再满足我的需求我需要后端功能按照教程进行操作here https nuxtjs org faq heroku deploymen
创建任务板模板

基本想法是我希望能够制作一个新的承包商任务板主模板我将有一个称为承包商集成的迭代路径里面有一个主模板其中有 4 个故事每个故事有 10 个任务我希望能够通过更改分配给它的名称来为每个新来的人使用此模板因此每次我招募新人时都
组件属性不支持复杂内容（混合 C# 和标记）

我正在尝试使用 Razor 参数并将其传递到 Blazor 中进行进一步处理但在我尝试构建的 onclick 事件上收到此错误消息组件属性不支持复杂内容混合 C 和标记 img 标签如下 tr for int j 0 j lt Can
宝石安装 ffi -v '1.1.5' osx 10.8

我一直在尝试通过以下方式在 OSX 10 8 上安装 ffi gem install ffi v 1 1 5 结果 ERROR Error installing ffi ERROR Failed to build gem native ex
Pytest 不选取类内的测试方法

一直使用Pythonunittest2 并且刚刚开始迁移到pytest 当然我试图进行比较但我无法弄清楚的一件事是 Question为什么 Pytest 不选择测试类中定义的测试方法什么对我有用 login test py imp
可以更少地引用扩展属性吗？

是否有可能以更少的时间扩展扩展财产我在一个分布式文件中有定义需要添加 important在我的特殊情况下现有财产例如我有一个定义此类的 less 文件 pfx grey light bg background color e5
从命令行将文件包含在项目中

有没有办法在 vs2012 中从命令行将文件包含在项目中我之所以问这个问题是因为每当我使用其他 IDE 如 ST3 或从 Photoshop 等保存文件时将添加到项目文件夹中的任何新文件包含在内是非常令人沮丧的我正在使用 Grunt
Android：暂停/恢复计时器或线程

我已经检查了有关如何暂停恢复计时器的所有答案但找不到解决方案我创建了一个计时器任务它计算员工的工作时间并将其放入 TextView 中进行显示代码如下 Timer T new Timer T scheduleAtFixedRate
如何获取 solr 术语频率？

我有一个问题如何才能像我们通过以下方法在 lucene 中获得术语频率一样 DocFreq new Term 字段值使用 solr solrnet Try 调试查询打开 http wiki apache org solr SolrR
如何在没有“onLocationChange”方法的情况下知道 GPS 位置

我想通过单击一个按钮来发送短信并且在短信中我想发送位置信息我试过 location locationManager getLastKnownLocation LocationManager NETWORK PROVIDER 但第一次显示
使用 gson 反序列化时将默认值设置为变量

我正在尝试转换JSON http www json org 到 Java 对象当一对的某个值是null 应该设置一些默认值这是我的POJO https en wikipedia org wiki Plain Old Java Objec
在后台下载多个文件（仅限 iOS 7）

我目前正在开发一个播客应用程序该应用程序只能在 iOS 7 上运行并且它具有允许在后台模式下同步和下载最近剧集的功能所以很清楚同步我实现了application performFetchWithCompletionHandler方法
WCF服务部署-工具

有一个 WCF 服务正在 IIS 下运行该服务访问其文件夹中的文件访问 SQL Server 数据库并将消息写入事件日志某数据中心部署平台为Windows Server 2008 我开发了这项服务但我仍然是一个初学者部署将导致创建
Laravel 5.2 类 App\Http\Controllers\AuthController 不存在

我的整个应用程序是在 Laravel 5 2 中制作的工作得很好但是当我尝试通过以下命令获取路由列表时 php artisan 路线列表它向我显示以下错误 ReflectionException 类 App Http Control
Keras 模型未能减少损失

我提出一个例子其中tf keras模型无法从非常简单的数据中学习我在用着tensorflow gpu 2 0 0 keras 2 3 0和Python 3 7 在文章的最后我给出了重现我观察到的问题的 Python 代码 Data 样

Keras 模型未能减少损失

Keras 模型未能减少损失 的相关文章

随机推荐

热门标签

Keras 模型未能减少损失的相关文章