BertTokenizer.from_pretrained 错误并显示“连接错误”

2024-03-25

我正在尝试从 Huggingface 下载 BERT 的分词器。

我正在执行：

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

Error:

<Path>\tokenization_utils_base.py in from_pretrained(cls, pretrained_model_name_or_path, *init_inputs, **kwargs)
   1663                         resume_download=resume_download,
   1664                         local_files_only=local_files_only,
-> 1665                         use_auth_token=use_auth_token,
   1666                     )
   1667 

<Path>\file_utils.py in cached_path(url_or_filename, cache_dir, force_download, proxies, resume_download, user_agent, extract_compressed_file, force_extract, use_auth_token, local_files_only)
   1140             user_agent=user_agent,
   1141             use_auth_token=use_auth_token,
-> 1142             local_files_only=local_files_only,
   1143         )
   1144     elif os.path.exists(url_or_filename):

<Path>\file_utils.py in get_from_cache(url, cache_dir, force_download, proxies, etag_timeout, resume_download, user_agent, use_auth_token, local_files_only)
   1347                 else:
   1348                     raise ValueError(
-> 1349                         "Connection error, and we cannot find the requested files in the cached path."
   1350                         " Please try again or make sure your Internet connection is on."
   1351                     )

ValueError: Connection error, and we cannot find the requested files in the cached path. Please try again or make sure your Internet connection is on.

基于类似的讨论Huggingface 仓库中的 github https://github.com/huggingface/transformers/issues/8690，我推测上述调用想要下载的文件是：https://huggingface.co/bert-base-uncased/resolve/main/config.json https://huggingface.co/bert-base-uncased/resolve/main/config.json

虽然我可以在浏览器上很好地访问该 json 文件，但无法通过请求下载它。我得到的错误是：

>> import requests as r
>> r.get('https://huggingface.co/bert-base-uncased/resolve/main/config.json')
...
requests.exceptions.SSLError: HTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded with url: /bert-base-uncased/resolve/main/config.json (Caused by SSLError(SSLError("bad handshake: Error([('SSL routines', 'tls_process_server_certificate', 'certificate verify failed')])")))

在检查页面的证书时 -https://huggingface.co/bert-base-uncased/resolve/main/config.json https://huggingface.co/bert-base-uncased/resolve/main/config.json，我看到它是由我的 IT 部门签署的，而不是我期望找到的标准 CA 根。基于讨论here https://stackoverflow.com/questions/5846652/can-proxy-change-ssl-certificate，看起来 SSL 代理做这样的事情是合理的。

我的 IT 部门的证书位于受信任的机构列表中。但请求似乎没有考虑信任证书的列表。

从中得到暗示关于如何让请求信任自签名证书的堆栈溢出讨论 https://stackoverflow.com/questions/30405867/how-to-get-python-requests-to-trust-a-self-signed-ssl-certificate我还尝试附加 cacert.pem （curl-config --ca 指向的文件）以及为 Huggingface 显示的根证书，并将该 pem 的路径添加到 REQUESTS_CA_BUNDLE

export REQUESTS_CA_BUNDLE=/mnt/<path>/wsl-anaconda/ssl/cacert.pem

但这根本没有帮助。

您知道如何让请求知道可以信任我的 IT 部门的证书吗？

P.S：如果重要的话，我正在 Windows 上工作，并且在 WSL 中也面临着这个问题。

我最终可以让一切正常工作 - 在这里分享相同的内容，以防将来对其他人有用。

解决方案非常简单，我最初尝试过，但在尝试时犯了一个小错误。无论如何，解决方案如下：

从浏览器访问 URL（在我的例子中为huggingface.co URL）并访问该网站附带的证书。
A。在大多数浏览器（chrome/firefox/edge）中，您可以通过单击地址栏中的“锁定”图标来访问它。
保存所有证书 - 一直到根证书。
A。我认为，从技术上讲，您可以只保存根证书，它仍然可以工作，但我还没有尝试过。如果我有时间尝试一下，我可能会更新这个。如果您碰巧在我之前尝试过，请发表评论。
按照中提到的步骤进行操作这个堆栈溢出答案 https://stackoverflow.com/questions/39356413/how-to-add-a-custom-ca-root-certificate-to-the-ca-store-used-by-pip-in-windows/52961564#52961564获取 CA 捆绑包并在编辑器中将其打开，以将上一步中下载的证书附加到文件中。
A。原始 CA 捆绑文件在每个证书之前都有标题行，提及该证书属于哪个 CA 根。我们想要添加的证书不需要这样做。我已经这样做了，我猜想额外的空格、回车符等可能导致它之前对我不起作用。
在我的 python 程序中，我更新了环境变量以指向更新的 CA 根包

os.environ['REQUESTS_CA_BUNDLE'] = '路径/cacert.crt'

人们可能会认为，因为大多数 python 包使用“requests”来进行此类 GET 调用，而“requests”使用“certifi”包指向的证书。那么，为什么不找到 certifi 指向的证书的位置并更新它。它的问题是 - 每当您使用 conda 更新软件包时， certifi 也可能会更新，从而导致您的更改被冲走。因此，我发现动态更新环境变量是一个更好的选择。

Cheers

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

BertTokenizer.from_pretrained 错误并显示“连接错误” 的相关文章

如何覆盖 Django 的默认管理模板和布局

我正在尝试覆盖 Django 的默认模板现在只有base site html 我正在尝试更改 django 管理文本我做了以下事情我在我的应用程序目录中创建了一个文件夹 opt mydjangoapp templates admin
使用 Python 创建 MIDI

本质上我正在尝试从头开始创建 MIDI 并将它们放到网上我对不同的语言持开放态度但更喜欢使用Python 两种语言之一如果这有什么区别的话并且想知道我应该使用哪个库提前致谢看起来这就是您正在寻找的适用于 Python 的简单
如何使用 colorchecker 在 opencv 中进行颜色校准？

我有数码相机获取的色彩检查器图像我如何使用它来使用 opencv 校准图像按照以下颜色检查器图像操作您是想问如何进行颜色校准或如何使用 OpenCV 进行校准为了进行颜色校准您可以使用校准板的最后一行灰色调以下是您应该逐步进行
numpy python 中的“AttributeError：'matrix'对象没有属性'strftime'”错误

我有一个维度为 72000 1 的矩阵该矩阵涉及时间戳我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
在 python 3 中使用子进程

我使用 subprocess 模块在 python 3 中运行 shell 命令这是我的代码 import subprocess filename somename py in practical i m using a real fil
从 Python 下载/安装 Windows 更新

我正在编写一个脚本来自动安装 Windows 更新我可以将其部署在多台计算机上这样我就不必担心手动更新它们我想用 Python 编写这个但找不到任何关于如何完成此操作的信息我需要知道如何搜索更新下载更新并从 python 脚本安
无故运行测试时 PyCharm 抛出“AttributeError: 'module' object has no attribute”

因此我有一个 Django REST Framework 项目有一天它无法在 PyCharm 中运行测试从命令行我可以使用它们来运行它们paver or the manage py直接地曾经有一段时间当我们没有在文件顶部导入类的超
Python 是解释型的还是编译型的，或者两者兼而有之？

据我了解 An 解释的语言是由解释器将高级语言转换为机器代码然后执行的程序实时运行和执行的高级语言它一次处理一点程序 A compiled语言是一种高级语言其代码首先由编译器将高级语言转换为机器代码的程序转换为机器代码然后由执
ImportError：运行 jupyter Notebook 时没有名为 IPython.paths 的模块？

我通过以下方式安装了 jupyter usr local opt python bin python2 7 m pip install jupyter 这将安装 ipython 版本 4 1 2 但是当我运行 jupyter Notebo
将 numpy 代码点数组与字符串相互转换

我有一个很长的 unicode 字符串 alphabet range 0x0FFF mystr join chr random choice alphabet for in range 100 mystr re sub W mystr 我想
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
CNTK 抱怨 LSTM 中的动态轴

我正在尝试在 CNTK 中实现 LSTM 使用 Python 来对序列进行分类 Input 特征是固定长度的数字序列时间序列标签是 one hot 值的向量 Network input input variable input dim
如何在 Azure 数据工厂 - Databricks 中使用 continuation_token 获取 ADF Pipeline 运行详细信息的下一页？

我在用 adf client pipeline runs query by factory resourceGroupName 工厂名称过滤器参数的方法azure mgmt datafactory DataFactoryManageme
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
OSX 上的 locale.getlocale() 问题

我需要获取系统区域设置来执行许多操作最终我想使用 gettext 翻译我的应用程序我打算在 Linux 和 OSX 上分发它但我在 OSX Snow Leopard 上遇到了问题 python Python 2 5 2 r252 60
python 日志记录会刷新每个日志吗？

当我使用标准模块将日志写入文件时logging 每个日志会分别刷新到磁盘吗例如下面的代码会将日志刷新 10 次吗 logging basicConfig level logging DEBUG filename debug log fo
使用 Python 将对象列表转为 JSON

我在转换时遇到问题Object实例到 JSON ob Object list name scaping myObj base url u number page for ob in list name json string json du
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这

随机推荐

Android 模拟器 - 无效的命令行参数：

当我尝试启动我的Android 虚拟设备 http developer android com guide developing devices index html 我收到以下错误文件 Android android sdk windo
接收我的应用程序的意图“android.settings.APPLICATION_DETAILS_SETTINGS”

我想要得到包裹名字 and 班级名称收到的intent 但我无法得到它我想让我的应用程序安全因此它在卸载之前会要求输入密码只有安装该应用程序的用户知道密码因此只有他她才能卸载该应用程序我的接收器代码 public class P
Python在if语句中使用正则表达式匹配对象，然后像Perl一样访问捕获组

是否可以在 Python 中执行类似以下 Perl 代码的操作据我所知答案是否定的但我想我应该仔细检查一下我想在 Python 中复制 Perl 代码 usr bin perl my line hello1234world if l
Node.js并发连接限制[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我写了一个琐碎的node js客户端服务器对来测试并发连接的本地限制它们之间不发送任何数据 10 000 个客户端连接并等待
Makefile 生成器创建两个文件

我有一个生成器程序可以创建两个版本文件例如ver h and ver cpp 我的最终构建目标取决于这两个文件构建这两个文件的规则就是一个程序如果我这样做 build ver h ver cpp ver h ver cpp gen
Javascript通过数据属性中的函数名称回调

我试图为 ajax 调用提供回调函数其中函数名称保存在表单的 data apply 属性下 jQuery function form data async on submit function event var form this va
MS Access：如果空白则忽略查询条件

我在 Access 中有一个表单我在其中基于多个文本框运行查询我对从文本框中提取的几个查询字段应用条件但希望查询在文本框为空时忽略这些条件例如如果 Machine TextBox 为空则不要将条件应用于 Events Machi
元素在故事板文件中出现和消失

这不是一个大问题但很烦人每次我在 Interface Builder 中编辑故事板并且想要将其签入修订控制系统时都会生成或删除一个元素如果存在则将其删除反之亦然它给我的签到增加了不必要的噪音有人知道发生了什么以及如何解决它吗
获取点击的div的id

我想选择id当我在 jQuery 中单击当前 div 时例如假设我有这样的 HTML div class item hello world div div class item 10 hello people div 当我点击第一个 d
如何从IDEA+Gradle调试AppEngine本地服务器？

我正在学习 Udacity App Engine 课程但作为修补者我正在使用 Gradle 和 IDEA 开源版本我已经使用以下 build gradle 文件成功设置了项目 buildscript repositories mave
IntelliJ Idea 和 JNI：确保 DLL 位于需要执行的位置

我正在项目中使用第三方库它包括两个 dll 文件和一个 jar 文件以提供 JNI 包装器可以使用以下命令调用第三方供应商包含在 jar文件中的测试项目 java cp product jar com company samples p
Firebase google-services.json 具有多个项目？

对于我们的应用程序我使用两个不同的 firebase 项目 Live 包含实时 iOS 和 Android 应用程序测试包含我们所有的 iOS 和 Android 测试应用程序据我所知 google services json An
如何使用 Papa Parse 读取本地文件？

如何使用 Papa Parse 读取本地文件我本地有一个文件名为challanges csv 但经过多次尝试后我无法用 Papa Parse 解析它 var data Papa parse challanges csv header tr
Mapbox-gl 键入不允许 accessToken 分配

我正在使用带有 TypeScript 的 mapbox gl 库并且我已经安装了其社区来源的类型定义 types mapbox gl 当我尝试导入并设置 accessToken 以使用该库时我的 TypeScript 编译器抛出此错误
如何在 R Shiny 中添加“返回页面顶部”按钮？

这是其他 Web 应用程序中非常常见的功能但在 R Shiny 中如何添加一个按钮让用户在单击时返回页面顶部除此之外是否可以设置用户视图向上或向下移动的距离非常感谢我搜索了一段时间但找不到任何关于此的帖子使用 gotop
如何设置 Atom 的“styles.less”文件来突出显示 Python 中的函数和方法调用？

我想让它像 Sublime Text 中那样突出显示我按照建议尝试了here https discuss atom io t how to change the color of python function calls 22660 3
为什么 TypeScript 在实现泛型接口时无法推断函数参数的类型？

我正在 Visual Studio 2015 中编写 TypeScript 安装了 2 3 3 0 版本的语言服务扩展我有noImplicitAny参数设置为true在我的项目中tsconfig json 给出这个简单的示例代码 inte
在 AJAX 调用中使用 success() 或complete()

我想理解下面的 AJAX 调用complete method 当我更换时complete with success 我得到一个空的响应文本就像 AJAX 一样error method 另一方面当我离开complete 方法就在那里一切都
配置 AWS Elastic Beanstalk 时区以进行 Auto Scaling

我部署了一个单实例服务器AWS 弹性豆茎需要时区配置我将时区更改为使用ssh登录EC2环境并使用下面列出的linux命令更新它 sudo rm etc localtime sudo ln sf usr share zoneinfo Eu
BertTokenizer.from_pretrained 错误并显示“连接错误”

我正在尝试从 Huggingface 下载 BERT 的分词器我正在执行 tokenizer BertTokenizer from pretrained bert base uncased Error

BertTokenizer.from_pretrained 错误并显示“连接错误”

BertTokenizer.from_pretrained 错误并显示“连接错误” 的相关文章

随机推荐

热门标签