使用jupyter快速下载kaggle中的数据集

2023-11-04

问题介绍:

我们在kaggle中下载数据集非常慢,响应都要响应半天,笔者也是深受其扰,通过查阅外网大佬的方法,成功解决了这一问题,现在将解决方法详细说明如下,分享给遇到同样困扰的小伙伴。
这个方法主要是通过jupyter来快速将kaggle的数据集下载到本地,这里假设大家都已经安装好了jupyter了


1.生成Kaggle Token

首先需要安装两个包:

pip install opendatasets
pip install pandas

安装完成后,进入kaggle网站,点击头像然后点击 setting
在这里插入图片描述

然后进入setting界面,在API下面点击 Creat new token
在这里插入图片描述
点击完毕后将会自动下载一个 json文件,里面有你后面要用的用户名和密码

在这里插入图片描述

2. 在Jupyter中下载kaggle数据集

然后就可以愉快的在jupyter中下载kaggle数据集了。导入刚才下载的包,然后将数据集的url复制到 download函数中:

import opendatasets as od
od.download('https://www.kaggle.com/datasets/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews?select=IMDB+Dataset.csv')

关于下载的数据集url,可以直接复制网页地址,也可以鼠标右键->复制链接地址
在这里插入图片描述
然后执行jupyter中的代码,这时候需要输入刚才下载的json文件中的用户名和密码:
在这里插入图片描述
等进度条跑完,数据集就成功下载到跟jupyter文件的同目录下了!
20+M的数据集大概下载了不到一分钟,速度又很大提升~~


创作不易,如果对你有帮助,还请点赞鼓励一下笔者哦~ 谢谢大噶!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用jupyter快速下载kaggle中的数据集 的相关文章

  • 分配列表的多个值

    我很想知道是否有一种 Pythonic 方式将列表中的值分配给元素 为了更清楚 我要求这样的事情 myList 3 5 7 2 a b c d something myList So that a 3 b 5 c 7 d 2 我正在寻找比手
  • 如何在 QTableView 标题中单击鼠标右键单击上下文菜单?

    下面的示例代码 很大程度上受到here http www saltycrane com blog 2007 12 pyqt 43 qtableview qabstracttablemodel 有一个右键单击上下文菜单 当用户单击表中的单元格
  • 区分大小写的实体识别

    我的关键字全部以小写形式存储 例如 折扣耐克鞋 我正在尝试对其执行实体提取 我遇到的问题是 spaCy 在 NER 方面似乎区分大小写 请注意 我不认为这是 spaCy 特有的 当我跑步时 doc nlp u i love nike sho
  • 如何使用我自己的自定义表单覆盖 django-rest-auth 中的表单?

    我正在使用 django rest auth 并尝试通过覆盖表单的方法之一来修复密码重置视图中的错误 尽管我已经使用不同的 django rest auth 表单成功完成了类似的操作 但我无法让它在这个表单上工作 无论我做什么 都会使用旧的
  • 如何在动态执行的代码字符串中使用inspect.getsource?

    如果我在文件中有这段代码 import inspect def sample p1 print p1 return 1 print inspect getsource sample 当我运行脚本时 它按预期工作 在最后一行 源代码sampl
  • 如何仅注释堆积条形图的一个类别

    我有一个数据框示例 如下所示 data Date 2021 07 18 2021 07 19 2021 07 20 2021 07 21 2021 07 22 2021 07 23 Invalid NaN 1 1 NaN NaN NaN N
  • Bokeh 中单独的节点和边缘悬停工具?

    我正在尝试为 Bokeh 中的节点和边缘获取单独的悬停工具提示 但未能使其正常工作 有人可以指出我做错了什么吗 我相信代码应该如下所示 from bokeh io import show output notebook from bokeh
  • Jupyter笔记本突然变得很慢

    我以前在anaconda环境下运行jupyter运行得很好 显示警告后 IOPub data rate exceeded The notebook server will temporarily stop sending output to
  • 在 pygame 中,我如何创建一个数据结构来跟踪调整大小事件和对象的坐标?

    我希望在调整屏幕大小后使鼠标事件与对象保持同步 有人告诉我需要创建一个数据结构来跟踪 调整事件大小 新坐标以匹配调整大小 如何使用简单的代数方程来完成此操作并将其集成到调整大小事件中以进行准确更新 反过来做 创建一个虚拟游戏地图 在绘制场景
  • 将 Python Selenium 输出写入 Excel

    我编写了一个脚本来从在线网站上抓取产品信息 目标是将这些信息写入 Excel 文件 由于我的Python知识有限 我只知道如何在Powershell中使用Out file导出 但结果是每个产品的信息都打印在不同的行上 我希望每种产品都有一条
  • 更新 matplotlib 中颜色条的范围

    我想更新一个contourf在函数内绘制 效果很好 然而 数据的范围发生了变化 因此我还必须更新颜色条 这就是我未能做到的地方 请参阅以下最小工作示例 import matplotlib pyplot as plt import numpy
  • 如何在 Python 中跟踪日志文件?

    我想在 Python 中提供 tail F 或类似内容的输出 而无需阻塞或锁定 我找到了一些非常旧的代码来做到这一点here http code activestate com recipes 436477 filetailpy 但我认为现
  • 异步异常处理程序:在事件循环线程停止之前不会被调用

    我正在我的异步事件循环上设置异常处理程序 但是 在事件循环线程停止之前 它似乎不会被调用 例如 考虑以下代码 def exception handler loop context print Exception handler called
  • 在 for 循环中访问 itertools 产品的元素

    我有一个列表列表 是附加 itertools 产品的一些其他结果的结果 我想要的是能够使用 for 循环访问列表列表中列表的每个元素 但我无法访问所有元素 我只能访问最后一个列表的元素 结果是一个非常巨大的列表列表 例如 1 2 4 3 6
  • 如何使用logging.conf文件使用RotatingFileHandler将所有内容记录到文件中?

    我正在尝试使用RotatingHandler用于 Python 中的日志记录目的 我将备份文件保留为 500 个 这意味着我猜它将创建最多 500 个文件 并且我设置的大小是 2000 字节 不确定建议的大小限制是多少 如果我运行下面的代码
  • 在不同的 GPU 上同时训练多个 keras/tensorflow 模型

    我想在 Jupyter Notebook 中同时在多个 GPU 上训练多个模型 我正在使用 4GPU 的节点上工作 我想将一个 GPU 分配给一个模型并同时训练 4 个不同的模型 现在 我通过 例如 为一台笔记本选择 GPU import
  • 在 python 中使用高精度时间戳

    嘿 我正在使用 python 处理日期时间 我想知道解析这个时间戳的最佳方法是什么 时间戳是ISO标准 这里是一个例子 2010 06 19T08 17 14 078685237Z 现在到目前为止我已经使用过 time datetime d
  • 如何在 Qt 中以编程方式制作一条水平线

    我想弄清楚如何在 Qt 中制作一条水平线 这很容易在设计器中创建 但我想以编程方式创建一个 我已经做了一些谷歌搜索并查看了 ui 文件中的 xml 但无法弄清楚任何内容 ui 文件中的 xml 如下所示
  • 正则表达式 - 匹配不包含字符串的模式

    我对正则表达式很陌生 并且一直在寻找方法来做到这一点 但没有成功 给定一个字符串 我想删除以 abc 开头 以 abc 结尾且中间不包含 abc 的任何模式 如果我做 abc abc abc 它将匹配以 b 开头 以 abc 结尾并且中间包
  • 用 Beautiful Soup 进行抓取:为什么 get_text 方法不返回该元素的文本?

    最近我一直在用 python 开发一个项目 其中涉及抓取一些网站的一些代理 我遇到的问题是 当我尝试抓取某个知名代理站点时 当我要求 Beautiful Soup 查找 IP 在代理表中的位置时 它并没有按照我的预期执行操作 我将尝试查找每

随机推荐

  • STM32 F103C8T6学习笔记4:时钟树、滴答计时器、定时器定时中断

    今日理解一下STM32F103 C8T6的时钟与时钟系统 滴答计时器 定时器计时中断的配置 文章提供原理 代码 测试工程下载 目录 时钟树与时钟系统 滴答计时器 定时器计时中断 测试结果 测试工程下载 时钟树与时钟系统 该系统介绍在 STM
  • “思维导图”常用的快捷键总结

    还记得老师上课说过 你们把那些贴来的东西放在自己的博客上就以为是自己的了吗 其实不然 我们有些时候过于追求是否做了 而没有考虑到做这个的意义何在 正如贾琳同学所说 不要为了做去做 而要将自己做过的东西变成自己所能够吸收的 变成自己前进的 汽
  • 面向组件编程之Unity 5.normalized不改变原向量,Normalize改变原向量

    using System Collections using System Collections Generic using UnityEngine public class TransformFeng2 MonoBehaviour Us
  • Android AlarmManager实现定时任务(也就是闹钟) 附Demo源码

    原文链接https www shanya world archives a7b639d4 html 创建定时任务 Android中的定时任务一般有两种实现方式 一种是使用 Java API 里提供的 Timer 类 一种是使用 Androi
  • 防恶意解析,禁止用IP访问网站的Apache设置+如何阻止网站被恶意反向代理访问

    一般来说 网站可以用域名和IP来访问 你的网站可以通过IP直接访问 本来这没什么问题 但是会有些隐患 由于搜索引擎也会收录你的IP地址的页面 所以同一个页面搜索引擎会重复收录 造成页面的权重不如单个收录高 域名恶意指向的可能 还记得去年还是
  • keepalived + mysql 双主

    在node2 node3上安装mysql并配置主主复制 初始化mysql root node2 mysqlkeepalived mysqld defaults file home mysqlkeepalived my cnf basedir
  • 使用python,dlib,OpenCV提取眼睛,鼻子,嘴唇及下颌

    使用python dlib OpenCV提取眼睛 鼻子 嘴唇及下颌 1 效果图 2 原理 3 源码 参考 上一篇博客中 我们了解了什么是面部标志 以及如何使用dlib OpenCV和Python检测它们 利用dlib的HOG SVM的形状预
  • vuecli启动的服务器位置,VUE启动流程vue-cli

    先后顺序 package json gt webpack dev conf js gt config js gt config index js gt index html gt App vue的export外的js代码 gt main j
  • C和C++安全编码笔记:文件I/O

    C和C 程序通常会对文件进行读写 并将此作为它们正常操作的一部分 不计其数的漏洞正是由这些程序与文件系统 其操作由底层操作系统定义 交互方式的不规则性而产生的 这些漏洞最常由文件的识别问题 特权管理不善 以及竞争条件导致 8 1 文件I O
  • 60行代码就能构建GPT!网友:比之前的教程都要清晰|附代码

    Pine 发自 凹非寺量子位 公众号 QbitAI 现在只用60行代码 就能从0构建GPT了 想当初 前特斯拉前AI总监的minGPT和nanoGPT也都还要300行代码 这个60行代码的GPT也有名字 博主将它命名为PicoGPT 不过和
  • Linux网络编程:Socket套接字编程(Server服务器 Client客户端)

    文章目录 一 定义和流程分析 1 定义 2 流程分析 3 网络字节序 二 相关函数 IP地址转换函数inet pton inet ntop 本地字节序 网络字节序 socket函数 创建一个套接字 bind函数 给socket绑定一个服务器
  • 【原创】Java+solrJ实现对solr索引的增删改查

    1 项目准备 jdk1 8 eclipse solr solrJ 6 6 0 jar 2 项目具体内容 solrJ操作步骤 建立solrserver连接 创建Document文档列表docs 创建document文档对象doc 获取需要建立
  • 809协议解读遇到的一些小问题

    1 标识头 尾和转义方式 它和808不同 它的头和尾标识不一样 头是5b 尾是5d 转义方式 5b gt 5a 01 5a gt 5a 02 5d gt 5e 01 5e gt 5e 02 2 校验码 CRC16 CCITT 协议上面写校验
  • JAVA-Word转PDF各种版本实现方式--亲测有效。。。持续更新中

    JAVA Word转PDF各种版本实现方式 当下做一个项目 就是各种操作office 客户的需求总是各种不按常理 来需求就得搞啊 对JAVA操作office这方面真是头大 弟弟是真滴不懂不会啊 无奈只好试啊试的 网上一大堆好使的 一大堆不好
  • Animator 状态机切换打断机制

    State Machine Transition interruptions 查看原文 状态机切换打断机制 在默认的动画系统中 切换不能被打断 一旦开始从一个状态切换到另一个状态 就不能中途退出 就像飞越大西洋的航班 一旦开始 只能到目的地
  • DDL和DML

    DML语言 修改表中数据 insert update delete DDL语言 改变表结构 create table create index alter table alter index drop index 对于oracle来说 DD
  • 基于nodejs面向图书共享系统

    末尾获取源码 开发语言 nodejs 框架 Express 数据库 MySQL5 7 数据库工具 Navicat 11 开发软件 Hbuilder VS code 浏览器 edge 谷歌 目录 一 项目简介 二 系统功能 三 系统项目截图
  • 对象比较工具

    RSSYSCOMP程序可以比较两个系统之间的对象差异 在项目进行系统切换后 可以使用该工具 检查开发对象是否都已传输到生产系统
  • 详解Linux命令行下常用svn命令

    1 Linux命令行下将文件checkout到本地目录 svn checkout path path是服务器上的目录 例如 svn checkout svn 192 168 1 1 pro domain 简写 svn co 2 Linux命
  • 使用jupyter快速下载kaggle中的数据集

    问题介绍 我们在kaggle中下载数据集非常慢 响应都要响应半天 笔者也是深受其扰 通过查阅外网大佬的方法 成功解决了这一问题 现在将解决方法详细说明如下 分享给遇到同样困扰的小伙伴 这个方法主要是通过jupyter来快速将kaggle的数