无法在 keras 中的 BERT 之上添加 CRF 层以进行 NER

2024-01-25

我在训练 NER 的 BERT-CRF 模型时遇到了一个未知问题。我使用 keras.contrib 作为 CRF 模型。

这是导入的库。

!pip install transformers
!pip install git+https://www.github.com/keras-team/keras-contrib.git
import pandas as pd
import numpy as np
from transformers import TFBertModel, BertTokenizer, BertConfig
import tensorflow as tf
from tensorflow import keras
from keras_contrib.layers import CRF
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from tqdm import tqdm

模型创建的代码。

input_ids = keras.layers.Input(shape=(MAX_LEN,), dtype=tf.int32)
token_type_ids = keras.layers.Input(shape=(MAX_LEN,), dtype=tf.int32)
attention_mask = keras.layers.Input(shape=(MAX_LEN,), dtype=tf.int32)
bert_output = bert(
       [input_ids,
       attention_mask,
       token_type_ids]
   )[0]    
bert_output = keras.layers.Dropout(0.3)(bert_output)
dense_layer_output = keras.layers.Dense(num_classes+1, activation='softmax', name='output')(bert_output)
crf = CRF(num_classes)
outputs = crf(dense_layer_output)
model = keras.Model(
       inputs=[input_ids, token_type_ids, attention_mask],
       outputs=[outputs],
   )
model.compile(
   loss=crf.loss_function,
   metrics=[crf.accuracy],
   optimizer=keras.optimizers.Adam(5e-5)
   )

model.fit(
    x_train,
    y_train,
    epochs=1,
    verbose=1,
    batch_size=32,
    validation_data=(x_test, y_test)
)

在尝试训练模型时，我收到此错误。我无法理解它的起源和原因。

WARNING:tensorflow:The parameters `output_attentions`, `output_hidden_states` and `use_cache` cannot be updated when calling a model.They have to be set to True/False in the config object (i.e.: `config=XConfig.from_pretrained('name', output_attentions=True)`).
WARNING:tensorflow:The parameter `return_dict` cannot be set in graph mode and will always be set to `True`.
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-18-f369b38eb91d> in <module>()
      5     verbose=1,
      6     batch_size=32,
----> 7     validation_data=(x_test, y_test)
      8 )

9 frames
/usr/local/lib/python3.7/dist-packages/tensorflow/python/framework/func_graph.py in wrapper(*args, **kwargs)
    975           except Exception as e:  # pylint:disable=broad-except
    976             if hasattr(e, "ag_error_metadata"):
--> 977               raise e.ag_error_metadata.to_exception(e)
    978             else:
    979               raise

AttributeError: in user code:

    /usr/local/lib/python3.7/dist-packages/tensorflow/python/keras/engine/training.py:805 train_function  *
        return step_function(self, iterator)
    /usr/local/lib/python3.7/dist-packages/keras_contrib/losses/crf_losses.py:54 crf_loss  *
        crf, idx = y_pred._keras_history[:2]

    AttributeError: 'Tensor' object has no attribute '_keras_history'

我在互联网上读到 keras.contrib 已被废弃，但我不知道如何在 BERT 之上使用 CRF 层。如果在 keras 中有更好的方法，请建议我。

我不知道这个问题是否有意义，但任何帮助将不胜感激。提前致谢！

最简单的方法是使用 TensorFlow 插件的 CRF 层。然后利用其输出来计算损失。

import tensorflow_addons as tfa
crf = tfa.layers.CRF(len(num_labels)+1)

此外，您也可以通过创建自己的模型类来利用它来创建模型。

from tensorflow_addons.text.crf import crf_log_likelihood

def unpack_data(data):
    if len(data) == 2:
        return data[0], data[1], None
    elif len(data) == 3:
        return data
    else:
        raise TypeError("Expected data to be a tuple of size 2 or 3.")


class ModelWithCRFLoss(tf.keras.Model):
    """Wrapper around the base model for custom training logic."""

    def __init__(self, base_model):
        super().__init__()
        self.base_model = base_model

    def call(self, inputs):
        return self.base_model(inputs)

    def compute_loss(self, x, y, sample_weight, training=False):
        y_pred = self(x, training=training)
        _, potentials, sequence_length, chain_kernel = y_pred

        # we now add the CRF loss:
        crf_loss = -crf_log_likelihood(potentials, y, sequence_length, chain_kernel)[0]

        if sample_weight is not None:
            crf_loss = crf_loss * sample_weight

        return tf.reduce_mean(crf_loss), sum(self.losses)

    def train_step(self, data):
        x, y, sample_weight = unpack_data(data)

        with tf.GradientTape() as tape:
            crf_loss, internal_losses = self.compute_loss(
                x, y, sample_weight, training=True
            )
            total_loss = crf_loss + internal_losses

        gradients = tape.gradient(total_loss, self.trainable_variables)
        self.optimizer.apply_gradients(zip(gradients, self.trainable_variables))

        return {"crf_loss": crf_loss, "internal_losses": internal_losses}

    def test_step(self, data):
        x, y, sample_weight = unpack_data(data)
        crf_loss, internal_losses = self.compute_loss(x, y, sample_weight)
        return {"crf_loss_val": crf_loss, "internal_losses_val": internal_losses}

你可以沿着这些代码行编写

decoded_sequence, potentials, sequence_length, chain_kernel = crf(dense_layer_output, mask=attention_mask)

base_model = tf.keras.Model(
       inputs=[input_ids, attention_mask],
       outputs=crf_layer_outputs,
   )

model = ModelWithCRFLoss(base_model)
model.compile(
      optimizer=tf.keras.optimizers.Adam(learning_rate=5e-3, epsilon=1e-08),
    metrics=tf.metrics.SparseCategoricalAccuracy(),
)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Keras

bertlanguagemodel

namedentityrecognition

CRF

无法在 keras 中的 BERT 之上添加 CRF 层以进行 NER 的相关文章

围绕 readline 构建的 python 批处理的触发器选项卡完成

背景我有一个 python 程序它导入并使用 readline 模块来构建自制的命令行界面我有第二个 python 程序围绕 Bottle 一个 Web 微框架构建充当该 CLI 的前端第二个 python 程序向第一个程序打开
Python中Decimal类型的澄清

每个人都知道或者至少每个程序员都应该知道 http docs oracle com cd E19957 01 806 3568 ncg goldberg html 即使用float类型可能会导致精度错误然而在某些情况下精确的解决方
django_openid_auth TypeError openid.yadis.manager.YadisServiceManager 对象不是 JSON 可序列化

I used django openid auth在我的项目上一段时间以来它运行得很好但今天我测试了该应用程序并遇到了这个异常 Environment Request Method GET Request URL http local
Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
python 中的代表

我实现了这个简短的示例来尝试演示一个简单的委托模式我的问题是这看起来我已经理解了委托吗 class Handler def init self parent None self parent parent def Handle self
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
mac osx 10.8 上的初学者 python

我正在学习编程并且一直在使用 Ruby 和 ROR 但我觉得我更喜欢 Python 语言来学习编程虽然我看到了 Ruby 和 Rails 的优点但我觉得我需要一种更容易学习编程概念的语言因此是 Python 但是我似乎找不到适用于
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f

随机推荐

如何在邮递员中传递客户端凭据？

这个卷发效果很好 curl acme acmesecret localhost 9999 uaa oauth token d password password username user grant type password H Acc
CMake - Code::Blocks - hello world - 基本示例

在哪里可以找到生成要在 CMake 中加载的简单 CMake Hello World 项目的指南平台联想32位Linux Kubuntu 1 我将使用 git 存储库 git CMakeLists txt git code CMakeL
删除托管（非外部）表时，hdfs 上的 Hive 文件不会被删除

当我从 Hive 交互式命令行删除托管表时在 hdfs 上创建的基础文件位于 user hive warehouse
是否可以在 Angular 2 上创建组件抽象？

我想创建一个具有初始行为的 AbstractComponent 同时能够在需要时在子组件上覆盖它这可能吗这是一个好的做法吗应该看起来或多或少像这样 export abstract class AbstractComponent imp
如何计算出移动物体的未来位置？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我正在创建一个小游戏我有一个光子鱼雷它从一艘船上向目标发射现在由于鱼雷的速度很慢如果目标正在移动船将永远不会击中任何目标我想解决这个问题
如何在没有用户和登录的情况下使用JWT？

我正在 Node js 中制作一个简单的文件转换器 API 并且希望避免请求中的滥用所以我正在寻找一种无需 userModel 登录等即可使用 JWT 的方法但我不能在网上做事谢谢我们不需要用户或登录来创建 JWT 我们可以使用任何
Mercurial 删除历史记录

Mercurial 有没有办法从数据库中删除旧的变更集我有一个 60GB 的存储库这使得克隆变得非常痛苦我想在某个日期之前删除所有内容并将庞大的数据库收起来以收集灰尘没有简单推荐的方法可以直接对现有存储库执行此操作但是您可以
为什么 PDO 异常错误没有被捕获？

我有一个 PHP 脚本在 SQL 查询语句中存在两个故意的拼写错误 try stmt dbh gt prepare SELECT COUNT FROM Product WHERE non existent column stmt gt b
如何使用javascript的reduce函数来计算满足特定条件的项目的平均值？

因此假设我有以下对象数组 var arr name John score 8 8 name John score 8 6 name John score 9 0 name John score 8 3 name Tom score 7 9
如何用纯css凹出一条直线

diamond width 40px height 40px transform rotate 45deg background red div div 我正在尝试用 css 创建一个菱形然而我想要创建的菱形不是由直线组成的而是由四条
如何读取 .docx 文件？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个 docx 文件它包含许多我想要批量发送邮件的电子邮件地址如何通过c 读取docx文件最简单的方法可能是使用 Get 举
Delphi 编程中的枚举、常量、类常量

我在 ClientDataSet 中有一个整数字段我需要与一些值进行比较如下所示我可以使用常量 const mvValue1 1 mvValue2 2 if ClientDataSet Field AsInteger mvValue1
为什么空行中的缩进不好？

我知道的每个自由开源项目都有针对代码中尾随空格的规则但我认为在下一行继续当前的缩进是很自然的 int main int a 42 return a 但 git 无论如何都会抛出警告所以我的问题是为什么这些选项卡inside目前的缩进不
GACUtil“程序集已成功添加到缓存”但“项目数 = 0”

为什么当我跑步时 gacutil i myAssembly dll 我得到 Assembly successfully added to the cache 但当我跑步时 gacutil l myAssembly dll I get Nu
Google 地图 KML：8 位十六进制代码

我是 Google 地图和 KML 的新手我的 KML 文件在地图上渲染多边形但我想更改多边形上的填充颜色和多边形的线条颜色问题是我无法以 8 位十六进制创建颜色每当我认为我的颜色正确时它的渲染效果就不像我想象的那样我似乎无法在
如何在 SQL 中取消透视？ (SAP HANA)（列到行）

我需要取消透视 SAP HANA 中的一些数据我设置了一个示例表来尝试一下但我仍然一无所获实际的表包含 1000 个 ID 和大约 50 个列但我想对许多表执行此操作因此虽然我可以指定 FieldNames 原始列但如果有一个自
Office.js 选择文本并将其替换为 ContentControl

我使用 Office js 有以下用例搜索一些文本body search 找到文本后可以多次出现迭代它们并将它们替换为具有不同内容的 ContentControl 搜索部分很简单但我不确定第二部分将 ContentControl
在scala中将两个元组组合成一个新的更大元组的干净方法？

假设我有以下元组 scala gt val t1 Tuple2 abcd efg t1 java lang String java lang String abcd efg scala gt val t2 Tuple2 1234 lmnop
ios - 资源文件大小超过 2GB 的企业应用程序

我正在开发一个用于企业分发的 ipad 应用程序仅由我公司人员使用它有很多视频文件图像 pdf等制作应用程序后 ipa的大小约为2 2 GB 我想知道该应用程序是否可以在所有 iPad 上有效运行或者这样做会很麻烦吗期待一些不会
无法在 keras 中的 BERT 之上添加 CRF 层以进行 NER

我在训练 NER 的 BERT CRF 模型时遇到了一个未知问题我使用 keras contrib 作为 CRF 模型这是导入的库 pip install transformers pip install git https www g

无法在 keras 中的 BERT 之上添加 CRF 层以进行 NER

无法在 keras 中的 BERT 之上添加 CRF 层以进行 NER 的相关文章

随机推荐

热门标签