【深度学习】从huggingface上加载数据集到本地并保存为csv文件

2024-01-04

场景

想从huggingface上下载yelp数据集,并以csv格式保存到本地。

方法

1. git clone

首先通过git在线下载数据集的相关配置文件,git代理配置参考 链接

终端上执行如下命令:

(1) git clone https://huggingface.co/datasets/yelp_review_full

#后面在windows上报错了,可以尝试如下命令应该就能安装成功
(2) git clone git@hf.co:datasets/yelp_review_full

执行完以上命令行,当前目录会出现如下文件:
在这里插入图片描述

2. 加载数据集到本地

from datasets import load_dataset
import datasets
dataset = load_dataset('yelp_review_full',trust_remote_code=True)
dataset.save_to_disk('./yelp') # 将数据集报错到./yelp路径下
dataset=datasets.load_from_disk("./yelp") #加载数据集

运行完以上代码,数据集加载到yelp路径下,以arrow文件格式呈现,具体目录如下
在这里插入图片描述

3.保存到csv文件中

因为不是很清楚huggingface相关函数的使用,也没找到合适的方法,因此我以一种比较呆板的方法,就是读取数据集再保存到csv文件中。代码如下

from datasets import load_dataset,load_from_disk
# 下载的数据集名称,
model_name = 'yelp_review_full'
# 数据集保存的路径
train_path = 'dataset/yelp/train'
test_path = 'dataset/yelp/test'

train_data = load_from_disk(train_path)
test_data = load_from_disk(test_path)
train_df = pd.DataFrame(train_data)
test_df = pd.DataFrame(test_data)

# 保存为CSV文件
train_df.to_csv("dataset/yelp/train.csv", index=False)
test_df.to_csv("dataset/yelp/test.csv", index=False)

如果有其他好的加载方式欢迎留言在评论中!

参考文章:
博文1
博文2
博文3

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【深度学习】从huggingface上加载数据集到本地并保存为csv文件 的相关文章

随机推荐

  • 信息: 没有运行的任务匹配指定标准。

    文章 前言 错误场景 问题分析 解决方案 后言 前言 他们是天生勇敢的开发者 我们创造bug 传播bug 毫不留情地消灭bug 在这个过程中我们创造了很多bug以供娱乐 前端bug 这里是博主总结的一些前端的bug以及解决方案 感兴趣可以看
  • Centos8破解Root密码

    注 Centos7同理 1 重启Centos8系统后 在启动页面中选中第一行 按 e 键进入界面 2 找到linux开头所在行的找到 ro 改为上 rw init sysroot bin bash 同时按下 Ctrl X 跳转到紧急模式 3
  • 前端push.js桌面通知库

    push js 官网 https pushjs org 安装 1 npm 安装方式 npm install push js save 2 script引入方式 使用 1 获取用户许可 用户需要先授予权限才能发送通知 Push Permiss
  • [大厂实践] 零配置服务网格与按需集群发现

    本文介绍了Netflix通过扩展Envoy支持按需集群发现机制帮助团队无缝迁移服务网格的实践 原文 Zero Configuration Service Mesh with On Demand Cluster Discovery 在这篇文章
  • 使用vue实现一个网页的贴边组件。

    使用vue实现一个网页的贴边组件 先来看效果 2024 01 04 10 46 22 https www haolu com share V00O6HWYR8 36207fc21c35b2a8e09bf22787a81527 下面是具体代码
  • Golang拼接字符串性能对比

    g o l a n g golang g o l an g
  • 【每日一题】2397. 被列覆盖的最多行数-2024.1.4

    题目 2397 被列覆盖的最多行数 给你一个下标从 0 开始 大小为 m x n 的二进制矩阵 matrix 另给你一个整数 numSelect 表示你必须从 matrix 中选择的 不同 列的数量 如果一行中所有的 1 都被你选中的列所覆
  • 1.69寸SPI接口240*280TFT液晶显示模块使用中碰到的问题

    1 69寸SPI接口240 280TFT液晶显示模块使用中碰到的问题说明并记录一下 在网上买了1 69寸液晶显示模块 使用spi接口 分辨率240 280 给的参考程序是GPIO模拟的SPI接口 打算先移植到FreeRtos测试 再慢慢使用
  • 2024肥晨赠书活动第一期:《实战AI大模型》

    文章目录 编辑推荐 关于 实战AI大模型 作者简介 目录 前言 序言 本书内容安排如下 实战AI大模型 全书速览 结束语 编辑推荐 人工智能领域资深专家尤洋老师倾力打造 获得了李开
  • mysql忘记密码的三种解决方案

    1 修改密码的三种方式 mysql用户分为root用户 超级管理员 拥有所有权限 和普通用户 mysql服务器通过权限表来控制用户对数据库的访问 这些权限表存于root用户下的mysql数据库中 在使用mysql数据库过程中 往往需要修改密
  • Shell - 遍历目录的函数封装

    bin bash traverse directory local dir 1 for file in dir do if d file then traverse directory file else echo file fi done
  • flutter对sqflite插件的简单使用增删改查

    首先用到的插件在pubspec yaml 里面的版本号 sqflite 2 3 0 path 1 8 3 然后我们封装一个数据库的增删改查的类 需要使用的话直接把下面代码移植 可直接使用 仅需要修改创建表的内容和自己插入的数据 sqflit
  • javascript 常见工具函数(六)

    51 格式化数字 格式化数字 param number num static formatNumber num if isNaN num return 0 if num gt 1000000 num 1000000 if num gt 10
  • 面试官:元素水平垂直居中的方法有哪些?如果元素不定宽高呢?

    面试官 元素水平垂直居中的方法有哪些 如果元素不定宽高呢 一 背景 在开发中经常遇到这个问题 即让某个元素的内容在水平和垂直方向上都居中 内容不仅限于文字 可能是图片或其他元素 居中是一个非常基础但又是非常重要的应用场景 实现居中的方法存在
  • gird布局隔行格列修改样式

    使用 nth child 选择器和公式 an b 两列隔行
  • 二分查找(二)

    点名 点名 某班级 n 位同学的学号为 0 n 1 点名结果记录于升序数组 records 假定仅有一位同学缺席 请返回他的学号 二分法思路 判断数组的值和对应的下标是否相等 将数组分为两个区间 不相等区间的最左端 就是第缺席的同学的学号
  • [rk3399 android11]系统通知声音默认关闭

    a build make target product full base mk b build make target product full base mk 45 7 45 7 PRODUCT PACKAGES Additional
  • Mybatis Plus 条件构造器的简单介绍 以及IService 的简单使用

    文章目录 Mybatis Plus 条件构造器 LambdaWrapper 自定义SQL Service接口 Mybatis Plus 条件构造器 简单案例演示 特殊案例更新
  • 如何查找iPhone中所有的应用程序

    Apple 的 App Store 共有约 200 万个适用于 iPhone 和 iPad 的应用程序 如果您像我们一样 您的 iOS 或 iPadOS 设备上可能有数十个应用程序 但没有机会将它们全部整理好 您很容易忘记主屏幕上应用程序图
  • 【深度学习】从huggingface上加载数据集到本地并保存为csv文件

    场景 想从huggingface上下载yelp数据集 并以csv格式保存到本地 方法 1 git clone 首先通过git在线下载数据集的相关配置文件 git代理配置参考 链接 终端上执行如下命令 1 git clone https hu