BERT 分词器和模型下载

2024-02-17

我是初学者..我正在和伯特一起工作。但出于公司网络的安全考虑,下面的代码并没有直接接收bert模型。

tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased', do_lower_case=False)
model = BertForSequenceClassification.from_pretrained("bert-base-multilingual-cased", num_labels=2) 

所以我想我必须下载这些文件并手动输入位置。 但我对此很陌生,我想知道从 github 下载像 .py 这样的格式并将其放在某个位置是否简单。

我目前使用的是huggingface的pytorch实现的bert模型,我找到的源文件地址是:

https://github.com/huggingface/transformers https://github.com/huggingface/transformers

请告诉我我认为的方法是否正确,如果正确,需要获取什么文件。

预先感谢您的评论。


如上所述here https://github.com/huggingface/transformers/issues/856,你需要做的是下载pre_train and configs,然后将它们放在同一个文件夹中。每个模型都有一对链接,您可能想看一下 lib 代码。

例如

import torch
from transformers import *
model = BertModel.from_pretrained('/Users/yourname/workplace/berts/')

with /Users/yourname/workplace/berts/参考你的文件夹

以下是我发现的

at src/transformers/configuration_bert.py有一个模型配置列表

BERT_PRETRAINED_CONFIG_ARCHIVE_MAP = {
    "bert-base-uncased": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-uncased-config.json",
    "bert-large-uncased": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-uncased-config.json",
    "bert-base-cased": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-cased-config.json",
    "bert-large-cased": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-cased-config.json",
    "bert-base-multilingual-uncased": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-multilingual-uncased-config.json",
    "bert-base-multilingual-cased": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-multilingual-cased-config.json",
    "bert-base-chinese": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-chinese-config.json",
    "bert-base-german-cased": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-german-cased-config.json",
    "bert-large-uncased-whole-word-masking": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-uncased-whole-word-masking-config.json",
    "bert-large-cased-whole-word-masking": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-cased-whole-word-masking-config.json",
    "bert-large-uncased-whole-word-masking-finetuned-squad": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-uncased-whole-word-masking-finetuned-squad-config.json",
    "bert-large-cased-whole-word-masking-finetuned-squad": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-cased-whole-word-masking-finetuned-squad-config.json",
    "bert-base-cased-finetuned-mrpc": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-cased-finetuned-mrpc-config.json",
    "bert-base-german-dbmdz-cased": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-german-dbmdz-cased-config.json",
    "bert-base-german-dbmdz-uncased": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-german-dbmdz-uncased-config.json",
    "bert-base-japanese": "https://s3.amazonaws.com/models.huggingface.co/bert/cl-tohoku/bert-base-japanese-config.json",
    "bert-base-japanese-whole-word-masking": "https://s3.amazonaws.com/models.huggingface.co/bert/cl-tohoku/bert-base-japanese-whole-word-masking-config.json",
    "bert-base-japanese-char": "https://s3.amazonaws.com/models.huggingface.co/bert/cl-tohoku/bert-base-japanese-char-config.json",
    "bert-base-japanese-char-whole-word-masking": "https://s3.amazonaws.com/models.huggingface.co/bert/cl-tohoku/bert-base-japanese-char-whole-word-masking-config.json",
    "bert-base-finnish-cased-v1": "https://s3.amazonaws.com/models.huggingface.co/bert/TurkuNLP/bert-base-finnish-cased-v1/config.json",
    "bert-base-finnish-uncased-v1": "https://s3.amazonaws.com/models.huggingface.co/bert/TurkuNLP/bert-base-finnish-uncased-v1/config.json",
}

and at src/transformers/modeling_bert.py有 pre_trains 的链接

BERT_PRETRAINED_MODEL_ARCHIVE_MAP = {
    "bert-base-uncased": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-uncased-pytorch_model.bin",
    "bert-large-uncased": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-uncased-pytorch_model.bin",
    "bert-base-cased": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-cased-pytorch_model.bin",
    "bert-large-cased": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-cased-pytorch_model.bin",
    "bert-base-multilingual-uncased": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-multilingual-uncased-pytorch_model.bin",
    "bert-base-multilingual-cased": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-multilingual-cased-pytorch_model.bin",
    "bert-base-chinese": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-chinese-pytorch_model.bin",
    "bert-base-german-cased": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-german-cased-pytorch_model.bin",
    "bert-large-uncased-whole-word-masking": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-uncased-whole-word-masking-pytorch_model.bin",
    "bert-large-cased-whole-word-masking": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-cased-whole-word-masking-pytorch_model.bin",
    "bert-large-uncased-whole-word-masking-finetuned-squad": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-uncased-whole-word-masking-finetuned-squad-pytorch_model.bin",
    "bert-large-cased-whole-word-masking-finetuned-squad": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-large-cased-whole-word-masking-finetuned-squad-pytorch_model.bin",
    "bert-base-cased-finetuned-mrpc": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-cased-finetuned-mrpc-pytorch_model.bin",
    "bert-base-german-dbmdz-cased": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-german-dbmdz-cased-pytorch_model.bin",
    "bert-base-german-dbmdz-uncased": "https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-german-dbmdz-uncased-pytorch_model.bin",
    "bert-base-japanese": "https://s3.amazonaws.com/models.huggingface.co/bert/cl-tohoku/bert-base-japanese-pytorch_model.bin",
    "bert-base-japanese-whole-word-masking": "https://s3.amazonaws.com/models.huggingface.co/bert/cl-tohoku/bert-base-japanese-whole-word-masking-pytorch_model.bin",
    "bert-base-japanese-char": "https://s3.amazonaws.com/models.huggingface.co/bert/cl-tohoku/bert-base-japanese-char-pytorch_model.bin",
    "bert-base-japanese-char-whole-word-masking": "https://s3.amazonaws.com/models.huggingface.co/bert/cl-tohoku/bert-base-japanese-char-whole-word-masking-pytorch_model.bin",
    "bert-base-finnish-cased-v1": "https://s3.amazonaws.com/models.huggingface.co/bert/TurkuNLP/bert-base-finnish-cased-v1/pytorch_model.bin",
    "bert-base-finnish-uncased-v1": "https://s3.amazonaws.com/models.huggingface.co/bert/TurkuNLP/bert-base-finnish-uncased-v1/pytorch_model.bin",
}
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

BERT 分词器和模型下载 的相关文章

随机推荐

  • UserManager.AddToRole 不起作用 - 外键错误

    在我的 ASP NET MVC 应用程序中 我有一些代码应该相当简单 UserManager AddToRole user id Admin 我刚刚收到这个错误 INSERT 语句与 FOREIGN KEY 约束冲突 FK dbo AspN
  • python 从堆中创建所有内容?

    在 C C 中 当您在函数内创建局部变量时 堆栈中会有变量 http effbot org zone call by object htm http effbot org zone call by object htm CLU 对象独立于过
  • 提交联系表 7 后创建 Woocommerce 产品

    我有 联系表 7 表格 并且在附近的范围内有一个 btQuoteTotalCalc 类的号码 提交此联系表单后 我使用 JavaScript 捕获号码 然后使用该号码作为价格创建 woocommerce 产品 并将用户重定向到结账页面 我正
  • 如何在 Highcharts / Highstock 中获取系列的 id

    如何获取系列的 id 在里面API http api highcharts com highstock Series只有名称和数据等 但没有 ID 我怎样才能从系列中获取id 我使用以下方法循环图表中的所有系列 chart series e
  • 查找过去 30 天内分配给 X 的工作项

    我正在尝试查找过去 30 天内分配给人员 X 的所有工作项 我遇到的大问题是 过去 30 天 部分 我考虑过使用 ever 或 asof 关键字 但还找不到一个好的答案 类似WHERE Assigned To X AND Assigned
  • WHERE 子句中的 CASE WHEN 因缺少关键字错误而失败

    在oracle中 我尝试使用日期作为where子句中的条件 我正在寻找的是 如果员工是在 2020 年 5 月 7 日之后创建的 则不要使用条件 XML VAL NOT LIKE 但如果他们是在 2020 年 5 月 7 日之前创建的 则无
  • 如何处理 NSCollectionView 中的按钮单击

    我有一个NSCollectionView OS X 不是 iOS 绑定到我的模型 每个集合视图项目都有一个按钮和一个标签 我正在处理点击操作 并且我有sender and event争论 但我无法区分一个按钮和其他按钮 大多数不涉及集合视图
  • wpf VisualState 与 wpfToolkit 冲突?

    我正在 VS2010 中构建一个应用程序 使用 wpfToolkit 3 5 作为引用程序集 我尝试从 Expression Blend 4 添加一些 VisualStates 但在尝试构建项目时收到以下错误 类型 System Windo
  • 如何在 Flink 中引用外部 Jar

    每个人 我尝试在所有任务管理器中以将其复制到 FLINK lib 的方式在 Flink 中引用我的公司 jar 但失败了 而且我不想打包一个胖罐子 太重而且浪费时间 我认为第一种方法也不是一个好主意 因为我必须管理整个集群中的jar 有谁知
  • 将(垂直)UIPageViewController 嵌套在另一个(水平)UIPageViewcontroller 中

    我的问题很大UIPageViewController 我想使用部分和子部分在我的应用程序中呈现内容 所以 我创建了 two 的实例UIPageViewController 水平 红色 和垂直 蓝色 早些时候我说过我创建了 两个 实例 这并不
  • 哪种方法更好地从数据库检索数据

    我对选择两种方法感到困惑 Scenario有两张桌子Table 1 and Table 2分别 Table 1包含用户的数据 例如名字 姓氏等 Table 2包含每个用户拥有的汽车及其描述 IEColor Registration No e
  • 将数据子集到 R 中第一次出现的位置

    我正在尝试对数据进行子集化 以便它只保留变量的第一次出现 我正在查看追踪工人职业生涯的面板数据 并尝试对数据进行子集化 以便它只显示直到每个人成为老板 id year name job job2 1 1990 Bon Manager 0 1
  • sql server 2008 用户“NT AUTHORITY\NETWORK SERVICE”登录失败

    我正在尝试使用 net Framework 4 将我的网站连接到 Windows Server 2003 上的 sql server 2008 r2 这是连接字符串
  • AngularJS如何使用浏览器语言检测?

    您好 我使用 http get 从数据库获取文本 如何通过浏览器检测获取文本 如何使用if子句 我不想使用translate toogle var mainCtrl function scope http sce location time
  • 广播从矩阵创建的子张量(Theano)

    我想从矩阵创建两个子张量 使用索引选择相应的行 一个子张量有几行 另一行只有一行 应该广播这些行以允许按元素添加 我的问题是 如何表明我想要允许在给定索引的子张量中的特定维度上进行广播 subtensorRight在下面的例子中 这是显示我
  • 预配对蓝牙设备

    我希望能够预先配对蓝牙设备 以避免用户在使用应用程序时感到困惑的步骤 我发现有一项专利用于预配对蓝牙设备的系统 方法和装置 http www google com patents US20070123166 我正在考虑将一组 Android
  • fork() 时文件描述符是否共享?

    假设我打开一个文件open 然后我fork 我的程序 父亲和孩子现在会共享文件描述符的相同偏移量吗 我的意思是 如果我在父亲中写入 孩子中的偏移量也会改变吗 或者偏移量在之后将是独立的fork From fork 2 The child i
  • 我的 PHP 文档中的 `$page -= 1` 是什么意思? [复制]

    这个问题在这里已经有答案了 我在正在使用的 PHP 文档中定义了以下变量 但我不确定它的含义 The PHP page 1 我不确定的部分是 这是节省打字的简写 其效果等同于 page page 1
  • CSS 网格自动流如何工作?

    我面临的问题是我不明白隐式网格是如何工作的 我阅读了文档 MDN 和更多资源 但还有一个悬而未决的问题 grid display grid grid template repeat 2 100px repeat 6 1fr grid gap
  • BERT 分词器和模型下载

    我是初学者 我正在和伯特一起工作 但出于公司网络的安全考虑 下面的代码并没有直接接收bert模型 tokenizer BertTokenizer from pretrained bert base multilingual cased do