Tensorflow Eager Execution 不适用于学习率衰减

2024-06-19

在这里尝试让一个热切的执行模型与 LR 衰减一起工作，但没有成功。这似乎是一个错误，因为学习率衰减张量似乎没有更新。如果我遗漏了什么，你可以帮我一下吗？谢谢。

下面的代码正在学习一些词嵌入。但是，那学习率衰减部分根本不起作用。

class Word2Vec(tf.keras.Model):
    def __init__(self, vocab_size, embed_size, num_sampled=NUM_SAMPLED):
        self.vocab_size = vocab_size
        self.num_sampled = num_sampled
        self.embed_matrix = tfe.Variable(tf.random_uniform(
            [vocab_size, embed_size]), name="embedding_matrix")
        self.nce_weight = tfe.Variable(tf.truncated_normal(
            [vocab_size, embed_size],
            stddev=1.0 / (embed_size ** 0.5)), name="weights")
        self.nce_bias = tfe.Variable(tf.zeros([vocab_size]), name="biases")

    def compute_loss(self, center_words, target_words):
        """Computes the forward pass of word2vec with the NCE loss."""
        embed = tf.nn.embedding_lookup(self.embed_matrix, center_words)
        loss = tf.reduce_mean(tf.nn.nce_loss(weights=self.nce_weight,
                                             biases=self.nce_bias,
                                             labels=target_words,
                                             inputs=embed,
                                             num_sampled=self.num_sampled,
                                             num_classes=self.vocab_size))
        return loss


def gen():
    yield from word2vec_utils.batch_gen(DOWNLOAD_URL, EXPECTED_BYTES,
                                        VOCAB_SIZE, BATCH_SIZE, SKIP_WINDOW,
                                        VISUAL_FLD)


def main():
    dataset = tf.data.Dataset.from_generator(gen, (tf.int32, tf.int32),
                                             (tf.TensorShape([BATCH_SIZE]),
                                              tf.TensorShape([BATCH_SIZE, 1])))

    global_step = tf.train.get_or_create_global_step()
    starter_learning_rate = 1.0
    end_learning_rate = 0.01
    decay_steps = 1000
    learning_rate = tf.train.polynomial_decay(starter_learning_rate, global_step.numpy(),
                                              decay_steps, end_learning_rate,
                                              power=0.5)

    train_writer = tf.contrib.summary.create_file_writer('./checkpoints')
    train_writer.set_as_default()

    optimizer = tf.train.MomentumOptimizer(learning_rate, momentum=0.95)
    model = Word2Vec(vocab_size=VOCAB_SIZE, embed_size=EMBED_SIZE)
    grad_fn = tfe.implicit_value_and_gradients(model.compute_loss)
    total_loss = 0.0  # for average loss in the last SKIP_STEP steps

    checkpoint_dir = "./checkpoints/"
    checkpoint_prefix = os.path.join(checkpoint_dir, "ckpt")
    root = tfe.Checkpoint(optimizer=optimizer,
                          model=model,
                          optimizer_step=tf.train.get_or_create_global_step())

    while global_step < NUM_TRAIN_STEPS:

        for center_words, target_words in tfe.Iterator(dataset):

            with tf.contrib.summary.record_summaries_every_n_global_steps(100):

                if global_step >= NUM_TRAIN_STEPS:
                    break

                loss_batch, grads = grad_fn(center_words, target_words)
                tf.contrib.summary.scalar('loss', loss_batch)
                tf.contrib.summary.scalar('learning_rate', learning_rate)

                # print(grads)
                # print(len(grads))
                total_loss += loss_batch
                optimizer.apply_gradients(grads, global_step)
                if (global_step.numpy() + 1) % SKIP_STEP == 0:
                    print('Average loss at step {}: {:5.1f}'.format(
                        global_step.numpy(), total_loss / SKIP_STEP))
                    total_loss = 0.0

        root.save(file_prefix=checkpoint_prefix)

if __name__ == '__main__':
    main()

请注意，当启用急切执行时，tf.Tensor物体代表具体的价值观 https://www.tensorflow.org/programmers_guide/eager#setup_and_basic_usage（与将发生的计算的符号句柄相反Session.run()来电）。

因此，在上面的代码片段中，该行：

learning_rate = tf.train.polynomial_decay(starter_learning_rate, global_step.numpy(),
                                          decay_steps, end_learning_rate,
                                          power=0.5)

正在计算衰减值一次，使用global_step在调用它时以及使用以下命令创建优化器时：

optimizer = tf.train.MomentumOptimizer(learning_rate, momentum=0.95)

它被赋予固定的学习率。

为了降低学习率，你需要调用tf.train.polynomial_decay重复（更新值global_step）。做到这一点的一种方法是复制在RNN 示例 https://github.com/tensorflow/tensorflow/blob/8753e2ebde6c58b56675cc19ab7ff83072824a62/tensorflow/contrib/eager/python/examples/rnn_ptb/rnn_ptb.py#L319，使用这样的东西：

starter_learning_rate = 1.0
learning_rate = tfe.Variable(starter_learning_rate)
optimizer = tf.train.MomentumOptimizer(learning_rate, momentum=0.95)
while global_step < NUM_TRAIN_STEPS:
   # ....
   learning_rate.assign(tf.train.polynomial_decay(starter_learning_rate, global_step, decay_steps, end_learning_rate, power=0.5))

这样你就捕获了learning_rate在可以更新的变量中。此外，包含当前的内容也很简单learning_rate也在检查点中（通过在创建时包含它）Checkpoint目的）。

希望有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

Tensorflow Eager Execution 不适用于学习率衰减的相关文章

Tensorflow：为什么 tf.case 给我错误的结果？

我正在尝试使用tf case https www tensorflow org api docs python tf case https www tensorflow org api docs python tf case 有条件地更新张
用于测试张量流安装的速度基准

我怀疑我的 GPU 机器上是否正确配置了张量流因为在我精美的 GPU 机器上训练一个简单的线性回归模型批量大小 32 1500 个输入特征 150 个输出变量的每次迭代速度比在笔记本电脑上慢 100 倍我使用的是 Titan X 配
Tensorflow中的Tensor和Variable有什么区别

有什么区别Tensor and Variable在张量流中我注意到在这个 stackoverflow 答案 https stackoverflow com questions 38556078 in tensorflow what is
Tensorflow：尽管数据中没有字符串，但使用 tflearn 时不支持将字符串转换为浮点数错误

我似乎无法在我的代码中找到错误其中有任何字符串被错误地转换为浮点数但它却给了我这个错误 W tensorflow core framework op kernel cc 958 Unimplemented Cast string to
无需安装 Tensorflow 即可服务 Tensorflow 模型

我有一个经过训练的模型想在 python 应用程序中使用但我看不到任何在不安装 TensorFlow 或创建 gRPC 服务的情况下部署到生产环境的示例有可能吗在这种情况下正确的做法是什么如果不使用 TensorFlow 本身或
Tensorboard——High-level节点的计算时间与其子节点计算时间的总和不同

继tutorial https www tensorflow org programmers guide graph viz在 TensorFlow 上我试图使用张量板来理解运行时统计数据我发现代表名称范围的高级节点的计算时间不等于其子
如何解释tf.map_fn的结果？

看代码 import tensorflow as tf import numpy as np elems tf ones 1 2 3 dtype tf int64 alternates tf map fn lambda x x x x el
Tensorflow 导入错误：没有名为“tensorflow”的模块

我在 Windows Python 3 5 Anaconda 环境中安装了 TensorFlow 验证成功有警告 tensorflow C gt python Python 3 5 3 英特尔公司默认 2017 年 4 月 27 日 1
如何使用 Python 多处理避免在分叉进程中加载父模块

当您创建一个Pool使用Python的进程multiprocessing 这些进程将分叉父进程中的全局变量将显示在子进程中如下面的问题所述如何限制多处理进程的范围 https stackoverflow com questions 2
Tensorflow 检查点模型被删除

我使用以下代码每 10 个时期后使用张量流检查点 checkpoint dir os path abspath os path join out dir checkpoints checkpoint prefix os path join
在 TensorFlow 中调试 python 测试

我们想要在 TensorFlow 中调试 Python 测试例如稀疏分割操作测试 and string to hash bucket op test 我们可以使用 gdb 调试其他 C 测试但是我们找不到调试 python 测试的方法
如何在 Tensorflow 中使用“transform_graph”

我想优化我的冻结训练 Tensorflow 模型然而我发现optimize for inference图书馆不再可用 import tensorflow as tf from tensorflow python tools import
使用 WALS 方法在 Tensorflow 2.0 中进行矩阵分解

我使用 WALS 方法来执行矩阵分解最初在tensorflow 1 13中我可以使用导入factorization ops from tensorflow contrib factorization python ops import f
“Flatten”在 Keras 中的作用是什么？

我试图理解的角色FlattenKeras 中的函数下面是我的代码这是一个简单的两层网络它接收形状为 3 2 的二维数据并输出形状为 1 4 的一维数据 model Sequential model add Dense 16 inpu
模型返回错误 - ValueError：logits 和标签必须具有相同的形状 ((None, 18) vs (None, 1))

我正在使用基于 keras 的多标签分类器我创建了一个加载训练和测试数据的函数然后在函数本身内处理拆分 X Y 我在运行模型时遇到错误但不太确定其含义这是我的代码 def KerasClassifer df train df te
在 Tensorflow 中实现对比损失和三元组损失

我两天前开始玩 TensorFlow 我想知道是否有三元组和对比损失的实现我一直在看文档 https www tensorflow org versions r0 9 api docs python nn html losses 但我还没
张量流范围名称有哪些限制？

我正在运行张量流模型并收到以下错误 ValueError Cement component 1 kg in a m 3 mixture is not a valid scope name 我知道张量流可能不喜欢其范围名称中的特殊字符和空格
Tensorflow ValueError：形状 (?, 1) 和 (?,) 不兼容

当我用 3 个 lstm 层运行代码时我遇到了这个错误不知道如何修复它任何人都可以帮忙这里 MAX SEQUENCE LENGTH 250 运行成本函数后我收到错误 ValueError 形状 1 和不兼容 Generate a
Tensor(..., shape=(), dtype=int64) 必须与 Tensor(..., shape=(), dtype=resource) Keras 来自同一个图

我正在尝试使用 Keras 运行 Conv2D 网络来读取一组包含手势图像的文件夹200亿小丑 https 20bn com products datasets我知道 Conv2D 可能行不通但我想在更改太多代码之前获得我之前使用过的东西
ValueError：张量必须与张量来自同一个图

我正在尝试在张量流中构建图表但遇到以下错误 ValueError 张量 transformation 0 输出输出 0 形状 dtype float32 必须来自同一个图表张量变量总输出 0 形状 dtype float32 re

随机推荐

在何处将 CFLAG（例如 -std=gnu99）添加到 (Eclipse CDT) 自动工具项目中

我有一个简单的 Autotools C 项目不是 C 其框架是由 Eclipse CDT Juno 为我创建的 CFLAG 通过检查似乎是 g O2 我希望所有生成的 make 文件也具有 std gnu99附加到 CFLAG 因为我使
想要定制django Rest框架Browsable API页面

问题我想自定义 django Rest Framework Browsable API 页面使其具有与我的 Web 应用程序的其余部分相同的外观和感觉安装的软件 Python 3 6 Django 1 10 6 Django 休息框架
检查php中位字段是否打开的正确方法是什么

检查位字段是否打开的正确方法是什么在 php 中我想检查来自 db mysql 的位字段是否打开这是正确的方法吗 if bit 1 还有其他方法吗我看到有人使用代码ord http jameslow com 2008 08 12 m
通过 cmake 链接作为外部项目包含的 opencv 库[重复]

这个问题在这里已经有答案了我对 cmake 比较陌生经过几天的努力无法弄清楚以下事情我有一个依赖于 opencv 的项目它本身就是一个 cmake 项目我想静态链接 opencv 库我正在做的是我的项目中有一份 opencv 源
CSS：缩放字体大小以适应父块元素的高度

我发现的几乎每个问题和答案都谈到了视口大小这确实不是我的问题拿着这支笔 https codepen io njt1982 pen pZjZNM https codepen io njt1982 pen pZjZNM 我有一个非常基本的
如何在Windows上正确使用node.js child_process.spawn()重定向？

我有一个干净的 Windows 8 1 盒子安装了最新的 node js v0 10 29 我在两个文件中有以下测试代码 a js var sub require child process spawn node b js silent
如何检测用户是否禁用 GPS（Android - Play 服务）

我使用 gms location LocationListener Google Play 服务来获取用户的位置它工作正常但我想检测用户何时禁用或启用他她的 GPS 就像这张照片一样当我打开关闭位置时不会调用任何方法当我切换
如何处理两个 gradle 插件的任务冲突？

我使用 gradle 和两个插件com jfrog artifactory and io swagger core v3 swagger gradle plugin 现在我想按照此处所述进行配置https github com swagge
创建带有部分的选项卡式侧边栏 WPF

我正在尝试创建一个带有部分的选项卡式侧边栏如 WPF 中的以下内容我考虑过几种方法但是有没有更简单更优雅的方法呢方法一列表框 Using a ListBox并将 SelectedItem 绑定到右侧内容控件所绑定的值为了区分标
openssl_pkey_get_details($res) 不返回公共指数

我在用着这个例子 https stackoverflow com a 12575951 2016196使用 php 生成的密钥进行 javascript 加密openssl图书馆但是 details openssl pkey get de
使用 python 将 CSV 文件上传到 Microsoft Azure 存储帐户

我正在尝试上传一个 csv使用 python 将文件写入 Microsoft Azure 存储帐户我已经发现C sharp https blogs msdn microsoft com jmstall 2012 08 03 convert
我找不到 IntelliJ 快捷方式

我使用 vim 一段时间我知道有一个 intellij vim 插件我很好奇内置的 IntelliJ 文本导航存在什么如何打开实时模板来创建模板如何查看以 tr 开头的现有模板列表如何进行全局搜索并在当前文档中进行搜索然后转到下
NodeJS：如何获取服务器的端口？

您经常会看到 Node 的示例 hello world 代码它创建一个 Http Server 开始侦听端口然后执行以下操作 console log Server is listening on port 8000 但理想情况下你会想要
将文本从文本文件添加到 PDF 文件[重复]

这个问题在这里已经有答案了这是我的代码 using FileStream msReport new FileStream pdfPath FileMode Create step 1 using Document pdfDoc new D
使用剪贴板 SetText 换行

如何使用 SetText 方法添加换行符 I tried Clipboard SetText eee n xxxx 但当我将剪贴板数据粘贴到记事本中时它没有给我预期的结果预期结果 eee xxxx 我怎样才能做到这一点 Windows
如何使用NetLogo发送参数？

我对 NetLogo 还很陌生这就是我被困在这里几周的原因我想做的是让特工分成 2 队 4 人一组我的计划是让一个函数保存 4 个海龟 ID to assign groupmates a1 a2 a3 a4 并将他们分配到团队 1 a
Libgdx 和 Google 应用内购买结果

我遵循了这些指示 https github com libgdx libgdx wiki Interfacing with platform specific code使用 ActionResolver 接口集成 Libgdx 和原生 An
添加两个 ActiveRecord::Relation 对象[重复]

这个问题在这里已经有答案了如何将两个关系添加在一起当我尝试运算符时它返回一个数组但我需要它来返回关系谢谢麦克风 Try new relation relation merge another relation
如何从函数返回矩阵（二维数组）？（C）

我创建了一个生成宾果板的函数我想返回宾果板正如我没想到的那样它不起作用这是函数 int generateBoard int board N M i j fillNum Boolean exists True initilize se
Tensorflow Eager Execution 不适用于学习率衰减

在这里尝试让一个热切的执行模型与 LR 衰减一起工作但没有成功这似乎是一个错误因为学习率衰减张量似乎没有更新如果我遗漏了什么你可以帮我一下吗谢谢下面的代码正在学习一些词嵌入但是那学习率衰减部分根本不起作用 class Wo

Tensorflow Eager Execution 不适用于学习率衰减

Tensorflow Eager Execution 不适用于学习率衰减 的相关文章

随机推荐

热门标签

Tensorflow Eager Execution 不适用于学习率衰减的相关文章