python使用pycrawlers批量下载huggingface上的模型与数据文件

2023-11-06

文章目录

前言
一、git下载的例子
二、pycrawlers的使用
总结

前言

现在从下载huggingface的文件一般使用git，下载单个小型模型的文件使用git也还是可以的，那么想一次下载多个文件呢？
现介绍pycrawlers这个python包，使用这个包可以轻松实现批量下载，以及进度显示，断点续传。

一、git下载的例子

在这里插入图片描述

上面的例子使用git下载了bert-base-chinese，可以从图片上看到只有下载的大概情况，并没有每个文件的详细下载情况。

当模型文件较大的时候，会卡在 Unpacking objects: 100% (52/52), done. ，
等模型全部下载完成才会显示 Filtering content: 100% (4/4), 1.59 GiB | 9.47 MiB/s, done.
这会导致我们无法知道下载的进度，进而不知道多久才能下完，是否要选择后台下载。

二、pycrawlers的使用

1. 安装

pip install pycrawlers

2. 批量下载

代码如下（示例）：

from pycrawlers import huggingface
# 实例化类
hg = huggingface()

urls = ['https://huggingface.co/albert-base-v2/tree/main',
        'https://huggingface.co/dmis-lab/biosyn-sapbert-bc5cdr-disease/tree/main']
            
# 批量下载
# 默认保存位置在当前脚本所在文件夹 ./
hg.get_batch_data(urls)

# 自定义下载位置
# paths = ['./model_1/albert-base-v2', './model_2/']
# hg.get_batch_data(urls, paths)

3. 单个下载

代码如下（示例）：

from pycrawlers import huggingface
# 实例化类
hg = huggingface()

url = 'https://huggingface.co/albert-base-v2/tree/main'

# 单个下载
# 默认保存位置在当前脚本所在文件夹 ./
hg.get_data(url)

# 自定义下载位置
# path = './model_1/albert-base-v2'
# hg.get_data(url, path)

4. 示例

以下载 https://huggingface.co/albert-base-v2/tree/main 为例

在这里插入图片描述

5. 后台下载

可以使用nohup 执行python文件实现后台下载，当下载大的文件的时候非常方便。
例：
nohup python3 -u download_models.py > dm.log 2>&1 &

使用下面命令同步查看日志：
tail -f dm.log

6. 断点续传

版本1.0.0以上支持断点续传，无需配置

总结

以上就是使用pycrawlers批量下载huggingface上的模型与数据文件的全部内容了，欢迎交流。
pycrawlers以后还会拓展其他下载功能，敬请期待。
特别说明：
目前还不支持登陆huggingface账号，有需下载登陆才能下载的模型文件，可以参考手动下载或参考官方下载函数。
官方下载函数链接：https://huggingface.co/docs/huggingface_hub/v0.10.1/en/package_reference/file_download#huggingface_hub.hf_hub_download
本文仅供学习交流，未经同意严禁转载

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

git

python使用pycrawlers批量下载huggingface上的模型与数据文件的相关文章

我怎样才能更多地了解Python的内部原理？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我使用Python编程已经有半年多了我对Python内部更感兴趣而不是使用Python开发应用程序
python 中的代表

我实现了这个简短的示例来尝试演示一个简单的委托模式我的问题是这看起来我已经理解了委托吗 class Handler def init self parent None self parent parent def Handle self
在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
将数据帧行转换为字典

我有像下面的示例数据这样的数据帧我正在尝试将数据帧中的一行转换为类似于下面所需输出的字典但是当我使用 to dict 时我得到了索引和列值有谁知道如何将行转换为像所需输出那样的字典任何提示都非常感激 Sample data pri
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
从 python 发起 SSH 隧道时出现问题

目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道我已经在我的服务器之间设置了公钥身份验证因此它们只需直接登录而无需密码提示怎么办我试过帕拉米科它看起来不错但仅仅建立一个基本的隧道就变得相当复杂尽管代码示例将受
Git 的企业采用率？

最近一些同事之间进行了一场讨论在当今的软件行业中如何存在两个不同的世界面向自由软件公司的 Question Git 在企业环境中的使用情况如何您在企业环境中使用 Git 的体验如何无论如何我们在工作场所使用 git 每个人都对
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
无法在 osx-arm64 上安装 Python 3.7

我正在尝试使用 Conda 创建一个带有 Python 3 7 的新环境例如 conda create n qnn python 3 7 我收到以下错误 Collecting package metadata current repoda
python Soap zeep模块获取结果

我从 SOAP API 得到如下结果 client zeep Client wsdl self wsdl transport transport auth header lb E authenticate self login res cl
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
git merge 冲突的不同场景

我试图了解 git 合并后可能发生 git 冲突的情况以及如何避免它们我创建了一个 git 存储库并向其中添加了一个文本文件我已将 1 添加到文本文件中并将其提交给 master 我已经从 master 创建了一个新分支分支 2 并将
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M

随机推荐

物联网技术

作者阏男秀链接 https www zhihu com question 50125636 answer 124938067 来源知乎著作权归作者所有商业转载请联系作者获得授权非商业转载请注明出处物联网技术之四无线自组网无
springboot（一）：构建最简单的springboot项目

springboot应该是在spring体系基础上发展起来的使用springboot 可以快速构建开发项目并快速集成相关组件很多开源的组件都有springboot的实现了有人说它的设计理念为约定大于配置就是好比说在springbo
为什么Centos装上以后，执行apt-get命令提示没有该命令

CentOS的软件安装工具不是apt get 是yum yum y install 你要安装的文件
java最大堆空间会自动扩增吗_最大化Java堆空间

我试图在 Java中使用非常大的方阵 n 1e6或更大的数量级矩阵不是稀疏的所以我没有看到很多方法将它们表示为2D数组这需要n 2 sizeof int 位的内存显然我正在获得堆溢出错误即使添加编译器标志来使用我的机器将允许的大
二十九.刷题.19

输入两点坐标 X1 Y1 X2 Y2 0 lt x1 x2 y1 y2 lt 1000 计算并输出两点间的距离 include
centos7.3 32位安装ssh实现远程登陆

centos7 3 32位安装ssh实现远程登陆安装ssh sudo yum install openssh 关闭防火墙永久禁用 sudo systemctl disable firewalld 重启ssh sudo systemct
流动的数据——使用 RxJS 构造复杂单页应用的数据逻辑

感谢作者徐飞的授权发布作者徐飞网名民工精髓V 曾任Teambition前端架构师苏宁云计算中心前端架构师有十年以上大型企业应用前端架构及开发经验熟悉AngularJS等框架对Web组件化有一些思考博客地址 https git
微软server2012服务器端客户端,windows server 2012 datacenter配置iSCSI目标服务器和客户端配置...

您好 1 在添加角色时添加文件和存储服务文件和iSCSI服务 iSCSI目标存储提供程序 VDS和VSS硬件提供程序这项主要的作用是什么在配置iSCSI目标服务器时有没有必要安装这个应该是让 iscsi 卷支持 VSS
gitee配置SSH公钥

第一步找个地方打开 git bash 然后输入生成ssh公钥的命令 ssh keygen t rsa C your email 然后敲四次回车生成公钥第二步输入查看公钥的命令 cat ssh id rsa pub 结果如下第三步将
如何在微信小程序中优雅地发送异步请求

一微信小程序运行环境微信小程序的 javascript 运行环境和浏览器不同页面的脚本逻辑是在JsCore中运行 JsCore是一个没有窗口对象的环境所以不能在脚本中使用window 也无法在脚本中操作组件 JsCore中也没有 X
ProtoBuf（Google Protocol Buffers）—— C++开发具体教程

ProtoBuf C 开发教程 C 开发教程 1 定义你的 protocol 格式 1 1 protocol 字段格式 1 2 指定字段规则 1 3 proto文件 2 编译你的 Protocol Buffers 3 The Proto
【华为OJ】【在字符串中找出连续最长的数字串】

题目描述请一个在字符串中找出连续最长的数字串并把这个串的长度返回如果存在长度相同的连续数字串返回最后一个连续数字串注意数字串只需要是数字组成的就可以并不要求顺序比如数字串 1234 的长度就小于数字串 1359055 如果没
模板类的特化和类型萃取

模板类的特化有时为了需要针对特定的类型需要对模板进行特化也就是所谓的特殊处理全特化对传入的数据类型都做了限制偏特化半特化偏特化并不仅仅是指特殊部分参数而是针对模板参数更进一步的条件限制所设计出来的一个特化版本模板的全特
Linux vim的常见基本操作

目录 vim是一款多模式的编辑器命令模式下用小写英文字母 h j k l 分别控制光标左下上右移一格 gg 定位到代码第一行 n shift g 定位到任意一行最后一行移动到光标所在行的结尾移动到光标所在行的开头 w 以单词
Linux之 Shell分析日志文件

文章目录前言 1 查看有多少个IP访问及某一个页面被访问的次数 2 查看每一个IP访问了多少个页面及个IP访问的页面数进行从小到大排序 3 查看某一个IP访问了哪些页面及去掉搜索引擎统计的页面 4 查看2015年8月16日14时这一个小时
React Hook的用法： Ref + useMemo + 自定义Hook(三)

React Hook的用法 Ref Hook 这个Hook的作用是可以通过他来获取到Dom元素节点使用起来非常方便关键代码如下 const xxxEle useRef initialValue 1 useRef返回一个ref变量并接受
U盘怎么重装系统到电脑上

当今社会电脑可以说是融入了我们的生活每个工作职能都需要使用到电脑来录入信息电脑既然这么重要但还是偶然出现些小故障我们都可以通过u盘来重装系统拯救电脑更多系统教程尽在小白系统重装官网 1 注准备好一个8g以上u盘一台能上网的电
Blender里的三种绑定：（一）主从绑定

文章目录 Blender里的三种绑定主从绑定进行物体绑定进行顶点绑定解除绑定保持变换无反向进行晶格绑定 Blender里的三种绑定 1 Blender中一共有三种绑定模式分别是主从绑定约束骨骼主从绑定 1 主从绑定即
python下载安装过程——超详细！

Python 下载安装文末附python全套学习资料安装python分三个步骤 1 下载python 2 安装python 3 检查是否安装成功 1 下载Python 1 python下载地址https www python org d
python使用pycrawlers批量下载huggingface上的模型与数据文件

文章目录前言一 git下载的例子二 pycrawlers的使用 1 安装 2 批量下载 3 单个下载 4 示例 5 后台下载 6 断点续传总结前言现在从下载huggingface的文件一般使用git 下载单个小型模型的文件使用g

热门标签