UnparsedFlagAccessError：在解析标志之前尝试访问标志 --preserve_unused_tokens。伯特

2024-01-13

我想使用 Bert 语言模型来训练多类文本分类任务。之前我使用 LSTM 进行训练，没有任何错误，但 Bert 给了我这个错误。我收到以下错误，我真的不知道如何解决它，有人可以帮助我吗？

不幸的是，keras 库中使用 BERT 的文档很少。

!wget --quiet https://raw.githubusercontent.com/tensorflow/models/master/official/nlp/bert/tokenization.py

import tensorflow_hub as hub
from bert import tokenization
module_url = 'https://tfhub.dev/tensorflow/bert_en_uncased_L-12_H-768_A-12/2'
bert_layer = hub.KerasLayer(module_url, trainable=True)





vocab_file = bert_layer.resolved_object.vocab_file.asset_path.numpy()
do_lower_case = bert_layer.resolved_object.do_lower_case.numpy()
tokenizer = tokenization.FullTokenizer(vocab_file, do_lower_case)

def bert_encode(texts, tokenizer, max_len=512):
    all_tokens = []
    all_masks = []
    all_segments = []
    
    for text in texts:
        text = tokenizer.tokenize(text)
            
        text = text[:max_len-2]
        input_sequence = ["[CLS]"] + text + ["[SEP]"]
        pad_len = max_len - len(input_sequence)
        
        tokens = tokenizer.convert_tokens_to_ids(input_sequence) + [0] * pad_len
        pad_masks = [1] * len(input_sequence) + [0] * pad_len
        segment_ids = [0] * max_len
        
        all_tokens.append(tokens)
        all_masks.append(pad_masks)
        all_segments.append(segment_ids)
    
    return np.array(all_tokens), np.array(all_masks), np.array(all_segments)



def build_model(bert_layer, max_len=512):
    input_word_ids = tf.keras.Input(shape=(max_len,), dtype=tf.int32, name="input_word_ids")
    input_mask = tf.keras.Input(shape=(max_len,), dtype=tf.int32, name="input_mask")
    segment_ids = tf.keras.Input(shape=(max_len,), dtype=tf.int32, name="segment_ids")

    pooled_output, sequence_output = bert_layer([input_word_ids, input_mask, segment_ids])
    clf_output = sequence_output[:, 0, :]
    net = tf.keras.layers.Dense(64, activation='softmax')(clf_output)
    net = tf.keras.layers.Dropout(0.2)(net)
    net = tf.keras.layers.Dense(32, activation='softmax')(net)
    net = tf.keras.layers.Dropout(0.2)(net)
    out = tf.keras.layers.Dense(3, activation='softmax')(net)
    
    model = tf.keras.models.Model(inputs=[input_word_ids, input_mask, segment_ids], outputs=out)
    model.compile(tf.keras.optimizers.Adam(lr=1e-5), loss='categorical_crossentropy', metrics=['accuracy'])
    
    return model



max_len = 150
train_input = bert_encode(data.text_cleaned, tokenizer, max_len=max_len)

错误如下：


UnparsedFlagAccessError                   Traceback (most recent call last)
<ipython-input-175-fd64df42591d> in <module>()
      1 import sys
      2 max_len = 150
----> 3 train_input = bert_encode(o.text_cleaned, tokenizer, max_len=max_len)

4 frames
/usr/local/lib/python3.7/dist-packages/absl/flags/_flagvalues.py in __getattr__(self, name)
    496         # get too much noise.
    497         logging.error(error_message)
--> 498       raise _exceptions.UnparsedFlagAccessError(error_message)
    499 
    500   def __setattr__(self, name, value):

UnparsedFlagAccessError: Trying to access flag --preserve_unused_tokens before flags were parsed.

基于此issue https://github.com/google-research/bert/issues/1133你必须将 bert-tensorflow 降级到 1.0.1。查看这个答案 https://github.com/google-research/bert/issues/1133#issuecomment-703818257找到解决方案。如果您正在关注本教程 https://www.analyticsvidhya.com/blog/2020/10/simple-text-multi-classification-task-using-keras-bert/降级 bert-tensorflow 并使用!wget --quiet https://raw.githubusercontent.com/tensorflow/models/master/official/nlp/bert/tokenization.py正如建议的那样，因为在 python 代码中作者已经进行了更改tf.gfile.GFile(vocab_file, "r") to tf.io.gfile.Gfile(vocab_file, "r")。之后代码编译成功。如果你还想要什么，请告诉我。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

UnparsedFlagAccessError：在解析标志之前尝试访问标志 --preserve_unused_tokens。伯特的相关文章

上传时的 Google Drive API——这些额外的空行从何而来？

总结一下该程序我从我的 Google 云端硬盘下载一个文件然后在本地计算机中打开并读取一个文件 file a txt 然后在我的计算机中打开另一个文件 file b txt 处于附加模式并且在使用这个新的 file b 更新我的 Go
检测到通过 ChromeDriver 启动的 Chrome 浏览器

我正在尝试在 python 中使用 selenium chromedriver 来访问 www mouser co uk 网站然而从第一次拍摄开始它就被检测为机器人有人对此有解释吗此后我使用的代码 options Options
如何在 Jupyter Notebook 中运行 Python 异步代码？

我有一些 asyncio 代码在 Python 解释器 CPython 3 6 2 中运行良好我现在想在具有 IPython 内核的 Jupyter 笔记本中运行它我可以运行它 import asyncio asyncio get ev
TensorFlow：带有轴选项的 bincount

在 TensorFlow 中我可以使用 tf bincount 获取数组中每个元素的计数 x tf placeholder tf int32 None freq tf bincount x tf Session run freq feed
从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
字符串中的注释和注释中的字符串

我正在尝试使用 Python 和 Regex 计算 C 代码中包含的注释中的字符数但没有成功我可以先删除字符串以删除字符串中的注释但这也会删除注释中的字符串结果会很糟糕是否有机会通过使用正则表达式来询问不匹配注释中的字符串反之亦
“一旦获取切片就无法更新查询”。最佳实践？

由于我的项目的性质我发现自己不断地从查询集中取出切片如下所示 Thread objects filter board requested board id order by updatedate 10 但这给我带来了实际对我选择的元素进
将二维数组放入 Pandas 系列中

我有一个 2D Numpy 数组我想将其放入 pandas 系列而不是 DataFrame 中 gt gt gt import pandas as pd gt gt gt import numpy as np gt gt gt a np
Python tkinter.filedialog Askfolder 干扰 clr

我主要在 Spyder 中工作构建需要弹出文件夹或文件浏览窗口的脚本下面的代码在spyder中完美运行在 Pycharm 中 askopenfilename工作良好同时askdirectory什么都不做卡住了但是如果在调试模式
将 numpy 代码点数组与字符串相互转换

我有一个很长的 unicode 字符串 alphabet range 0x0FFF mystr join chr random choice alphabet for in range 100 mystr re sub W mystr 我想
设置 verify_certs=False 但 elasticsearch.Elasticsearch 因证书验证失败而引发 SSL 错误

self host KibanaProxy 自我端口 443 self user 测试 self password 测试我需要禁止证书验证使用选项时它与curl一起使用 k在命令行上但是在使用 Elasticsearch pytho
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
Werkzeug 中的线程和本地代理。用法

首先我想确保我正确理解了功能的分配分配本地代理功能以通过线程内的模块包共享变量对象我对吗其次用法对我来说仍然不清楚也许是因为我误解了作业我用烧瓶如果我有两个或更多模块 A B 我想将对象C从模块A导入到模块B 但我
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
falcon，AttributeError：“API”对象没有属性“create”

我正在尝试测试我的猎鹰路线但测试总是失败而且看起来我把所有事情都做对了 my app py import falcon from resources static import StaticResource api falcon API
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
导入错误：无法导入名称“时间戳”

我使用以下代码在 python 3 6 3 中成功安装了 ggplot conda install c conda forge ggplot 但是当我使用下面的代码将其导入笔记本时出现错误 from ggplot import Impor
操作错误：(sqlite3.OperationalError) SQL 变量太多，同时将 SQL 与数据帧一起使用

我有一个熊猫数据框如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4

随机推荐

根据列值连接不同的表

我有一个表R 其中包含表P的外键在表P中有一列告诉我表P中的记录是什么类型与 P type 列中的可能值相关根据表存在因此如果 P type 中的值为 C 则表示名为 C 的表如果值为 D 则表示名为 D 的表现在我想要一个
文件的 listFiles() 不适用于符号链接？

我有以下文件对象通过符号链接指向目录 File directory new File path symlink foo bar String files directory listFiles listFiles 返回 null 这是因为符
如何循环加载所有用户的注册表配置单元

使用管理员权限我需要枚举 Windows 7 系统上的所有用户甚至是已注销的用户然后我需要为每个用户加载注册表配置单元并设置一个密钥 NetUserEnum 给我 SID 我猜 LsaEnumerateLogonSessions 也会
在 Windows 上我应该将 Eclipse 安装到哪个文件夹？

我运行的是 Windows 7启用UAC 我一直觉得很奇怪Eclipse http www eclipse org 不使用安装程序也不使用 AppData 文件夹在 Windows 中存储其数据但最近我不得不重新安装几次硬盘驱动器问题
Python tkinter 文本修改回调

在 python 2 7 中每次 Tkinter Text 小部件中发生更改时我都尝试获取回调该程序使用基于此处找到的代码的多个框架在 tkinter 中的两个框架之间切换 https stackoverflow com quest
wpf：获取组合框值

我有一个名为 cbFileSize 的 WPF 组合框我尝试获取所选值如下所示 string tmp cbFileSize SelectedValue ToString MessageBox Show tmp 但 tmp 设置为 Sys
无法加载数据源的类：com.databricks.spark.csv

My build sbt文件有这个 scalaVersion 2 10 3 libraryDependencies com databricks spark csv 2 10 1 1 0 我正在独立集群模式下运行 Spark 我的 Spar
有条件地应用 Angular 4 中的点击事件

是否可以在模板中定义一个附加点击处理程序的条件例如我能得到的最接近的是评估单击方法入口处的条件 a class user a 如果标志有的话有没有一种方法可以避免完全绑定到单击事件isOverflown是假的吗另外我不想使用ng
使用 Maven 打包并运行 Scala Spark 项目

我正在 Scala 中编写一个应用程序它使用Spark http spark apache org 我正在使用 Maven 打包应用程序并在构建应用程序时遇到问题 uber 或 fat 罐子 https stackoverflow co
在后台处理ViewExpiredException并恢复表单值

是否有一个无数据库 primefaces 和 keep session alive 的解决方案来防止或在恢复表单输入时在后台静默处理 ViewExpiredException 例如具有保持登录 cookie 的用户不希望被重定向到某种错
在 R 中执行时间序列的 fft

我想使用 FFT 将波拟合到时间序列目标是绘制具有不同谐波的图并用它来预测 n 个数据点我正在使用的代码基于此answer https stackoverflow com questions 41435777 perform four
非本机长度的有符号和无符号整数的性能差异

有这样一段话 CppCon 2016 钱德勒卡鲁斯 Chandler Carruth 垃圾进垃圾出争论未定义的行为 https youtu be yG1OZ69H o t 39m16s 其中 Carruth 先生展示了 bzip 代码
Angular UI 路由器无法使用 Internet Explorer 9 进行解析

我有一个 Angular v1 3 应用程序它使用 Angular ui router v0 2 13 进行所有路由该网站在所有浏览器上都能正常运行包括 IE 10 和 IE 11 但不能在 IE 9 上运行我们决定不再使用 IE8
带箭头顶部和边框的框

我只是要在上面创建一个盒子边缘有一个箭头我经常尝试但不幸的是相关的解决方案我自然而然地在网上和网站上查询但遗憾的是没有成功所以它应该照顾箭头应具有与框相同的边框和相同的背景颜色所以现在看起来 arrow up width 10
Xcode 4 对当前版本的 MonoTouch 有影响吗？

安装 Xcode 4 安全吗今天发布的 MonoTouch 将允许您安装 XCode 4 并继续使用 MonoTouch 构建应用程序但如果您使用安装 XCode 4 您将无法编辑 XIB 文件我们建议开发人员安装新的 XCode 3
具有类继承的数据类字典

我有以下课程 dataclass json dataclass class Input sources List Sources None Transformations List str None 也 dataclass json dat
如何使用mutationobserver代替突变事件？

我正在尝试使用 D3 js 创建我的第一个流图我从一个工作示例开始其中包含在线发布的代码中的工具提示 http bl ocks org WillTurman 4631136 http bl ocks org WillTurman 463
设置电子邮件和浏览器的 tr 和 td 宽度和高度

我正在制作 HTML 电子邮件我想在发送之前在浏览器中预览它们因此我希望它们在浏览器和电子邮件客户端中看起来相似我尝试了多种方法来设置行和单元格的宽度和高度 table height 500 width 200 tr td heigh
Fabric.js：如何填充徒手路径来绘制形状？

在fabric js中我们可以徒手绘制路径例如http fabricjs com freedrawing http fabricjs com freedrawing 但是在 HTML canvas 2d context ctx 中我
UnparsedFlagAccessError：在解析标志之前尝试访问标志 --preserve_unused_tokens。伯特

我想使用 Bert 语言模型来训练多类文本分类任务之前我使用 LSTM 进行训练没有任何错误但 Bert 给了我这个错误我收到以下错误我真的不知道如何解决它有人可以帮助我吗不幸的是 keras 库中使用 BERT 的文档很少

UnparsedFlagAccessError：在解析标志之前尝试访问标志 --preserve_unused_tokens。伯特

UnparsedFlagAccessError：在解析标志之前尝试访问标志 --preserve_unused_tokens。伯特 的相关文章

随机推荐

热门标签

UnparsedFlagAccessError：在解析标志之前尝试访问标志 --preserve_unused_tokens。伯特的相关文章