在tensorflow keras中采样softmax

2024-02-17

我想在 tf keras 中进行采样的 softmax 损失。我通过子类化 keras 模型来定义自己的模型。在 init 中，我指定了所需的层，包括最后一个密集投影层。但是这个密集层不应该在训练中调用，因为我想做采样的softmax并且只使用它的权重和偏差。然后我这样定义损失函数：

class SampledSoftmax:
    def init( self,
              num_sampled,
              num_classes,
              projection,
              bias,
              hidden_size):
        self.weights = tf.transpose(projection)
        self.bias = bias
        self.num_classes = num_classes
        self.num_sampled = num_sampled
        self.hidden_size = hidden_size

    def call(self, y_true, input):
        """ reshaping of y_true and input to make them fit each other """
        input = tf.reshape(input, (-1,self.hidden_size))
        y_true = tf.reshape(y_true, (-1,1))

        return tf.nn.sampled_softmax_loss(
                   weights=self.weights,
                   biases=self.bias,
                   labels=y_true,
                   inputs=input,
                   num_sampled=self.num_sampled,
                   num_classes=self.num_classes,
                   partition_strategy='div')

它接受必要的参数进行初始化，并且类调用将是所需的采样 softmax 损失函数。问题是，为了在模型编译中添加损失，我需要最后一个 Dense 的权重等。但是 1）在训练中 Dense 不包含在模型中，2）即使包含在模型中，Dense 层也只会与输入连接，从而在调用我的自定义模型时获取其输入尺寸等。简而言之，权重等在编译模型之前是不可用的。谁能提供一些帮助来指出我正确的方向？

现在是导致它失败的代码。我首先对模型进行子类化，如下所示：

class LanguageModel(tf.keras.Model):
    def __init__(self, 
                 vocal_size=15003, 
                 embedding_size=512
                 input_len=64)
       self.embedding = Embedding(vocal_size, embedding_size, 
                                  input_length=input_len)
       self.lstm = LSTM(hidden_size, return_sequences=True)
       self.dense = Dense(vocal_size, activation='softmax')

   def call(self, inputs, training=False):
       emb_out = self.embedding(inputs)
       lstm_out = self.lstm(embrace_out)
       res = self.dense(lstm_out)
       if (training)
           ''' shouldn't use the last dense as we want to do sampling'''
           return lstm_out
       return res

然后训练模型的部分如下

sampled_loss = SampledSoftmax(num_sampled, vocal_size, 
                   model.dense.kernel, model.dense.bias,
                   hidden_size)

model.compile(optimizer=tf.train.RMSPropOptimizer(lr),
              loss=sampled_loss)

然而我使用它会失败，因为 model.dense.kernel 无法访问，因为在编译模型时，密集层尚未在调用方法中初始化。错误信息如下：

Traceback (most recent call last):
  File "/usr/lib/python3.5/runpy.py", line 184, in _run_module_as_main
    "__main__", mod_spec)
  File "/usr/lib/python3.5/runpy.py", line 85, in _run_code
    exec(code, run_globals)
  File "/home/wuxinyu/workspace/nlu/lm/main.py", line 72, in <module>
    train_main()
  File "/home/wuxinyu/workspace/nlu/lm/main.py", line 64, in train_main
    train_model.build_lm_model()
  File "/home/wuxinyu/workspace/nlu/lm/main.py", line 26, in build_lm_model
self.model.dense.kernel,
AttributeError: 'Dense' object has no attribute 'kernel'

顺便说一句，上面定义的损失将适用于如下所示的小型测试用例。

x = Input(shape=(10,), name='input_x')
emb_out = Embedding(10000,200,input_length=10)(x)
lstm_out = LSTM(200, return_sequences=True)(emb_out)

dense = Dense(10000, activation='sigmoid')
output = dense(lstm_out)

sl = SampledSoftmax(10, 10000, dense.kernel, dense.bias)

model = Model(inputs=x, outputs=lstm_out)
model.compile(optimizer='adam', loss=sl)
model.summary()
model.fit(dataset, epochs=20, steps_per_epoch=5)

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在tensorflow keras中采样softmax 的相关文章

从 Python 中的 message_from_string() 获取发件人地址

有人可以告诉我如何在Python中从email message from string 获取发件人地址吗谢谢我试过 message email message from string email text from message Fr
setColumnStretch 和 setRowStretch 如何工作

我有一个使用构建的应用程序PySide2它使用setColumnStretch用于柱拉伸和setRowStretch用于行拉伸它工作得很好但我无法理解它是如何工作的我参考了 qt 文档但它对我没有帮助我被困在括号内的两个值上例如
Django 营业时间

我想添加诊所的营业时间我已经对此进行了调查在 Django 中实现开放时间的任何现有解决方案 https stackoverflow com questions 8128143 any existing solution to imp
如何测试该变量不等于多个事物？

这是我的一段代码 choice while choice 1 and choice 2 and choice 3 choice raw input pick 1 2 or 3 if choice 1 print 1 it is elif c
TemplateSyntaxError：“settings_tags”不是有效的标签库

当我尝试运行此测试用例时出现此错误这是在我的 django 应用程序的tests py 中编写的 def test accounts register self self url http royalflag com pk accoun
如何使用 Pycharm 运行 fast-api 服务器？

我有一个简单的 API 函数如下所示 from fastapi import FastAPI app FastAPI app get async def read root return Hello World 我正在使用启动服务器uvi
让 python 脚本打印到终端而不作为标准输出的一部分返回

我正在尝试编写一个返回值的 python 脚本然后我可以将其传递给 bash 脚本问题是我想要在 bash 中返回一个单一值但我想要一些东西一路打印到终端这是一个示例脚本我们称之为 return5 py usr bin env p
如何进行重定向并保留查询字符串？

我想进行重定向并保留查询字符串就像是self redirect加上发送的查询参数那可能吗 newurl my new route urllib urlencode self request params self redirect ne
Python MySQLdb：connection.close() VS。光标.close()

如果我使用MySQLdb通过Python连接到MySQL Server 我创建一个connection and a cursor像这样 connection MySQLdb connect cursor connection cursor
Python 模块 BeautifulSoup 提取锚点 href

我正在使用 BeautifulSoup 模块通过以下方式从 html 选择所有 href def extract links html soup BeautifulSoup html anchors soup findAll a print
私有属性，但却是一个神秘的领域

我想将属性设为私有但带有 pydantic 字段 from pydantic import BaseModel Field PrivateAttr validator class A BaseModel a str I want a py
在 Python 中引发异常的正确方法是什么？ [复制]

这个问题在这里已经有答案了这是简单的代码 import sys class EmptyArgs StandardError pass if name main The first way to raise an exception if
使用 Popen 打开进程并获取 PID

我正在开发一个漂亮的小功能 def startProcess name path Starts a process in the background and writes a PID file returns integer pid Ch
Python：如何“杀死”类实例/对象？

我希望 Roach 类在达到一定量的饥饿时死亡但我不知道如何删除该实例我的术语可能有误但我的意思是窗户上有大量蟑螂我希望特定的蟑螂完全消失我会向您展示代码但它很长我将蟑螂类添加到策划者类蟑螂种群列表中一般来说每个
如何读取多个文件并将它们合并到一个 pandas 数据框中？

我想读取位于同一目录中的多个文件然后将它们合并到一个 pandas 数据框中如果我这样做的话它会起作用 import pandas as pd df1 pd read csv data 12015 csv df2 pd read csv
从 SUDS 中的 SOAP 响应中提取 Cookie

我必须使用具有多种服务的 API 所有这些都需要来自下面的身份验证的 JSESSION cookie 然而当我调用下一个服务时它不会保留 cookie 因此会拒绝它们 from suds client import Client url
阻止 BeautifulSoup 将我的 XML 标签转换为小写

我正在使用 BeautifulStoneSoup 来解析 XML 文档并更改一些属性我注意到它会自动将所有 XML 标签转换为小写例如我的源文件有
如何从 Anaconda 更新 Pandas 以及最后是否可以使用 eclipse

我已经使用以下文档通过 Anaconda 安装了 Python http www kevinsheppard com images 0 09 Python introduction pdf http www kevinsheppard co
Python 子进程：无法转义引号

我知道以前曾问过类似的问题但它们似乎都是通过重新设计参数的传递方式即使用列表等来解决的但是我这里有一个问题因为我没有这个选项有一个特定的命令行程序我使用的是 Bash shell 我必须向其传递带引号的字符串它不能不被引用
nltk 标记化和缩写

我用 nltk 对文本进行标记只是将句子输入到 wordpunct tokenizer 中这会拆分缩写例如 don t 到 don t 但我想将它们保留为一个单词我正在改进我的方法以实现更精确的文本标记化因此我需要更深入地研究

随机推荐

如何移除后退堆栈片段的焦点？

我在我的应用程序中使用片段我有一个片段包含EditText还有一些Dialogfragment 当我单击一个特定的小部件时它将移动到下一个片段我需要后台堆栈中的第一个片段因此我还添加了 addToBackStack 方法第二个片段
以图形方式显示 IntelliJ 中 git log --follow 的等效项

IntelliJ 14 有没有办法显示特定文件的完整日志我的意思是执行一种git log follow以图形方式查看旧版本在这些文件可能被重命名之前目前当我这样做时Git gt 显示历史记录在文件上它仅显示相当于git log
不带任何操作的 asp.net 路由语法

我正在尝试建立一条没有任何操作而只有一个参数的路线 domain com 不带任何参数应转到一个控制器 however 域名 com somestring 域名 com anotherstring 域名 com anythingreall
将 uint16_t 转换为 char[2] 以通过套接字发送（unix）

我知道大致上有关于这方面的事情但是我的大脑受伤了我找不到任何东西可以让这项工作发挥作用我正在尝试通过 unix 套接字发送一个 16 位无符号整数为此我需要将 uint16 t 转换为两个字符然后我需要在连接的另一端读入它们并将
系统设置意图后无法返回活动

在我的应用程序中我需要进入手机的设置活动来激活 GPS 并希望使用以下代码返回我的应用程序 Intent intent new Intent Settings ACTION LOCATION SOURCE SETTINGS startAc
仅包含标准库的 Golang 中间件

我的第一个 stackoverflow 问题所以请不要介意我对 stackoverflow 的天真和所问的问题 golang 的初学者我想知道这两个调用之间的区别以及简单的理解Handle Handler HandleFunc Hand
将列名添加到 dplyr 函数内的 vars()

我有一个函数可用于根据一些用户定义的组来汇总变量利用dplyr library tidyverse get var summary lt function data target var group vars vars target v
ggplot2 分类x轴的不同面宽度[重复]

这个问题在这里已经有答案了我正在绘制分类数据的不同方面 df lt as data frame as factor c A B C D E F names df lt Xvar df Yvar lt c 2 1 4 5 3 7 df fa
我可以使用什么方法来代替 python 中的 __file__ ？

我通过 cython 将 python 代码转换为 c 然后编译 c 文件并在我的项目中使用 so 我的问题我用 file 在我的 python 代码和 gcc 编译时它不会出现错误但是当我运行程序并在其他 python 文件中导入
将 R闪亮应用程序部署为独立应用程序[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我开发了一个 RShiny 应用程序我想与我的同事在内部共享现阶段无法在服务器上托管该应用程序我正
Webkit 伪元素文档

我实际上完成了我想做的事情当我想打印页面时隐藏一些 webkit 伪元素代码如下所示问题是我没有从我的研究中学到任何东西来做到这一点而且我找不到任何关于它的文档而且我看到的关于这个主题的每个答案都只显示了代码没有任何进一步的解释
优雅关闭失败

我有一个带有 server shutdown graceful 的 spring boot 2 3 应用程序当关闭时会抛出 2020 11 30 11 07 35 485 WARN 3038 SpringContextShutdownHo
SQL 存储过程 - 请帮我写这个！（第2部分）

我有下表其中值为 501 CREATE TABLE Numbers Number numeric 20 0 NOT NULL PRIMARY KEY INSERT INTO Numbers VALUES 501 我如何在此上编写一个存储过
在 Java/Swing 的全屏程序中停止使用 Tab/Alt-F4

我需要一种方法来阻止人们在我的 Java 程序运行时使用其他程序即阻止人们切换选项卡并按 Alt F4 使程序全屏使用 window setExtendedState Frame MAXIMIZED BOTH maximise windo
C# ASCII 或 Unicode

您好我是编程和网络开发的初学者我有一个关于 ASCII 和 Unicode 编码的问题在 msdn 和其他 Web 示例中执行以下操作 byte byteData Encoding ASCII GetBytes data 这是因为这些
如何将 Google Cloud AI Platform Jupyter Lab 升级到 Python 3.7+

Google Cloud Platform的AI Platform可以方便地部署Jupyter Lab 但仅适用于Python 2和Python 3 5 3 如何升级我的实例才能运行 Python 3 7 或更高版本笔记本该解决方案是基
在 Visual Studio 2012 的新 C++ 项目中自动创建的 stdafx.cpp 文件是什么

据我了解 stdafx h 是一个预编译头文件用于使 Visual Studio 中的编译时间更快当我在 Visual Studio 2012 中创建 C 项目时还有一个 stdafx cpp 有人可以解释 stdafx h 和 st
将配置文件共享给多个 docker 容器

假设我的 Docker 主机上有以下配置文件并且我希望多个 Docker 容器能够访问该文件 opt shared config file yml 在典型的非 Docker 环境中我可以使用符号链接例如 opt app1 config
检测舞台何时再次聚焦并加载场景

我有一个父舞台可以在其顶部显示弹出窗口这是代码 private static Stage chooseBreedStage static chooseBreedStage new Stage chooseBreedStage setTi
在tensorflow keras中采样softmax

我想在 tf keras 中进行采样的 softmax 损失我通过子类化 keras 模型来定义自己的模型在 init 中我指定了所需的层包括最后一个密集投影层但是这个密集层不应该在训练中调用因为我想做采样的softmax并且只

在tensorflow keras中采样softmax

在tensorflow keras中采样softmax 的相关文章

随机推荐

热门标签