将 Kaggle csv 从下载网址导入到 pandas DataFrame

2024-01-12

我一直在尝试不同的方法来导入 SpaceX 任务csv file https://www.kaggle.com/spacex/spacex-missions/downloads/database.csv on Kaggle https://www.kaggle.com/spacex/spacex-missions直接进入 pandas DataFrame，没有任何成功。

我需要发送登录请求。这是我到目前为止所拥有的：

import requests
import pandas as pd
from io import StringIO

# Link to the Kaggle data set & name of zip file
login_url = 'http://www.kaggle.com/account/login?ReturnUrl=/spacex/spacex-missions/downloads/database.csv'

# Kaggle Username and Password
kaggle_info = {'UserName': "user", 'Password': "pwd"}

# Login to Kaggle and retrieve the data.
r = requests.post(login_url, data=kaggle_info, stream=True)
df = pd.read_csv(StringIO(r.text))

r 正在返回页面的 html 内容。df = pd.read_csv(url)给出 CParser 错误：CParserError: Error tokenizing data. C error: Expected 1 fields in line 13, saw 6

我一直在寻找解决方案，但到目前为止我尝试过的都没有效果。

您正在创建一个流并将其直接传递给 pandas。我认为你需要将一个类似文件的对象传递给 pandas。看一眼这个答案 https://stackoverflow.com/a/32400969/900271寻找可能的解决方案（使用 post 而不是进入请求）。

另外，我认为您使用的带有重定向的登录网址无法正常工作。我知道我在这里建议了 http://ramhiser.com/2012/11/23/how-to-download-kaggle-data-with-python-and-requests-dot-py/。但我最终没有使用 is 因为发布请求调用没有处理重定向（我怀疑）。

我最终在项目中使用的代码是这样的：

def from_kaggle(data_sets, competition):
    """Fetches data from Kaggle

    Parameters
    ----------
    data_sets : (array)
        list of dataset filenames on kaggle. (e.g. train.csv.zip)

    competition : (string)
        name of kaggle competition as it appears in url
        (e.g. 'rossmann-store-sales')

    """
    kaggle_dataset_url = "https://www.kaggle.com/c/{}/download/".format(competition)

    KAGGLE_INFO = {'UserName': config.kaggle_username,
                   'Password': config.kaggle_password}

    for data_set in data_sets:
        data_url = path.join(kaggle_dataset_url, data_set)
        data_output = path.join(config.raw_data_dir, data_set)
        # Attempts to download the CSV file. Gets rejected because we are not logged in.
        r = requests.get(data_url)
        # Login to Kaggle and retrieve the data.
        r = requests.post(r.url, data=KAGGLE_INFO, stream=True)
        # Writes the data to a local file one chunk at a time.
        with open(data_output, 'wb') as f:
            # Reads 512KB at a time into memory
            for chunk in r.iter_content(chunk_size=(512 * 1024)):
                if chunk: # filter out keep-alive new chunks
                    f.write(chunk)

使用示例：

sets = ['train.csv.zip',
        'test.csv.zip',
        'store.csv.zip',
        'sample_submission.csv.zip',]
from_kaggle(sets, 'rossmann-store-sales')

您可能需要解压缩文件。

def _unzip_folder(destination):
    """Unzip without regards to the folder structure.

    Parameters
    ----------
    destination : (str)
        Local path and filename where file is should be stored.
    """
    with zipfile.ZipFile(destination, "r") as z:
        z.extractall(config.raw_data_dir)

所以我从来没有真正将其直接加载到 DataFrame 中，而是先将其存储到磁盘中。但是您可以修改它以使用临时目录，并在读取文件后删除它们。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 Kaggle csv 从下载网址导入到 pandas DataFrame 的相关文章

如何使用 Airtable API 使用偏移量获取超过 100 行？

我对 Airtable API 非常陌生由于某种原因以这种方式连接 API 不起作用 at airtable Airtable Base Key Airtable Key 但我是这样工作的 get url https api airta
在循环中动态添加方法时的范围问题

我有一个 API 用于分析我的锻炼数据我抓取的数据跑卫 http runkeeper com 的网站我的主类是一个子类pandas DataFrame 它基本上是表格数据的容器它支持按列名索引返回列值的数组我想根据数据中存在的
Err_Response_Headers_Multiple_Content_Disposition

我需要导出 2csv单击一个按钮即可打开文件下面是我生成2的代码csv files using System Data using System Data SqlClient using System Text using System
熊猫：SettingWithCopyWarning：[重复]

这个问题在这里已经有答案了我尝试使用以下代码将列转换为日期 df DATE pd to datetime df DATE or df DATE pd to datetime df DATE 但我收到以下错误 Users xyz anac
如何识别嵌套 json 文件并将其分解为数据框的列？

我再次重新组织我的问题以便更清楚我的数据看起来像这样 Research xmlns http www xml org 2013 2 XML language eng createDateTime 2022 03 25T10 12 39Z
如何将整个列表分配给 pandas 数据帧的每一行

我有一个数据框和一个列表 df pd DataFrame A 1 2 3 B 4 5 6 mylist 10 20 30 40 50 我希望有一个列表作为数据帧的每一行中的元素如果我喜欢的话here https stackoverflow
Pandas：自定义类作为具有多索引的列标题

我正在尝试使用对象作为多索引中的列标题 dataframe 但我似乎无法让它工作 eq hash and str 仅适用于简单的数据框这是一个小例子 class Signal def init self name self name na
组内条件计数

我想在之后进行条件计数groupby 例如按列的值分组A 然后计算每组中值出现的频率5出现在列中B 如果我整个过程都这样做DataFrame 只是len df df B 5 所以我希望我能做到df groupby A df B 5 siz
从 mvc web api httpresponse 生成 csv 并通过 angularjs 接收以供下载

我正在尝试从我的 Web api 生成一个 CSV 文件并通过 angularjs 接收该文件我有一个如下所示的 API 控制器 HttpPost public HttpResponseMessage GenerateCSV FieldP
df.style.apply 在显示中居中显示多索引值

当我跑步时 import pandas as pd from IPython display import display df pd DataFrame a index pd MultiIndex from product 0 1 3 c
DataFrame 对象没有属性“sort_values”

dataset pd read csv dataset csv fillna 100 dataset Id 0 dataset i 0 dataset j 0 entries dataset dataset Id 0 print type
熊猫 fillna 方法无法就地工作

我有一个数据框 Problem data 它在某些单元格中具有 NaN 值我运行了以下代码 problem data problem data level type 5 0 结果是这样的 problem id level type poi
从 Pandas 数据框中删除值仅出现一次的行

我有一个包含不同 ID 的每月记录的数据框我只需要对具有多个月记录的 ID 进行一些分析 ID Month Metric1 Metric2 1 2018 01 01 4 3 1 2018 02 01 3 2 2 2018 02 01 1
根据开始列和结束列扩展数据框（速度）

我有一个pandas DataFrame含有start and end列加上几个附加列我想将此数据框扩展为一个时间序列从start值并结束于end值但复制我的其他专栏到目前为止我想出了以下内容 import pandas as
Python Pandas 根据另一列的总计从另一个数据帧中选择值

我下面有一个 DataFrame 但我需要根据取消和订单列从每个代码中选择行假设代码 xxx 的阶数为 6 1 5 1 阶数为 11 我需要一种算法可以选择满足总共 11 行的行阶数为 6 5 如果没有行匹配则选择最接近的 id 并
使用 matplotlib.animation 从 CSV 文件实时绘图 - 数据绘制到第一个输入错误

我正在尝试绘制来自不断写入 CSV 文件的传感器的数据虽然成功创建实时绘图但每个新数据条目都会创建一条延伸到第一个数据条目的附加线见下文 Python 3 4 脚本 import matplotlib pyplot as plt im
Pandas 和 Matplotlib - 需要按国家/地区划分的疫苗接种百分比以及使用下拉菜单的特定国家/地区首选疫苗的条形图

这是数据集 location date vaccine total vaccinations 0 Austria 2021 01 08 Johnson Johnson 0 1 Austria 2021 01 08 Moderna 0 2 A
如何在不更改列的情况下将数据框中所有行的值连接成一行？

我有一个数据框输入如下所示 col1 col2 col3 0 3 1 NaN 1 NaN 7 8 如何塌陷all行同时将行中的数据与所需的数据帧输出 col1 col2 col3 0 3 1 7 8 输入代码示例 import pan
如何从 Anaconda 更新 Pandas 以及最后是否可以使用 eclipse

我已经使用以下文档通过 Anaconda 安装了 Python http www kevinsheppard com images 0 09 Python introduction pdf http www kevinsheppard co
如何从 Pandas 数据框函数调用中回顾之前的行？

我正在研究回测交易系统我有一个包含 OHLC 数据的 Pandas 数据框并添加了几个计算列 https stackoverflow com questions 12376863 adding calculated columns t

随机推荐

从整数创建 LocalDate 对象

如果我已经有一个日期的月份日期和年份作为整数那么使用它们创建一个日期的最佳方法是什么 LocalDate目的我找到了这个帖子字符串到本地日期 https stackoverflow com questions 8746084 stri
在 Android 上访问高 fps 相机

有些手机官方支持高 fps 录制例如 Galaxy S5 和 S6 我尝试了两者两者都可以使用默认相机应用程序录制高 fps 视频 60 甚至 120 fps 或者在 S6 上使用 Gear VR 的直通相机功能但是当您通过标准
防止 PyQt 消除槽中发生的异常

据我所知如果 PyQt 下的插槽中发生异常异常会打印到屏幕上但不会冒泡这在我的测试策略中产生了一个问题因为如果某个槽中发生异常我将不会看到测试失败这是一个例子 import sys from PyQt4 import QtGu
使用背景图像作为项目符号对齐中心列表项

我已经尝试解决这个问题一个小时了但找不到解决方案我想要的是一个居中列表背景图像为刻度我要这个正常工作除了点与列表左侧对齐之外ul 1140px 宽而不是列表项的左侧li这是居中的你可以使用CSS before伪类 ul l
获取给定 DN 的 NT 样式域\用户

我有 Active Directory 中用户的 DN 我想从中获取 NT 样式域用户 sAMAccountname AD 属性为我提供了用户部分但是域呢 Thanks 您可以通过获取用户 DN 的最后部分 DC domain DC
如何设置每 10 次触发 LLDB 断点？

要调试高频计时器或传感器的值配置一个仅每 x 次触发的断点会很有用实现这一目标的最佳方法是什么我在 Xcode 中尝试了停止前忽略 x 次选项但这仅适用于第一次我可以使用 LLDB 命令重置此计数器吗您可以随时使用以下命令重
子窗体定位如 StatusBar

我有一个带有菜单栏和状态栏的 MDIForm 当我创建一个子窗体并将其定位为 Align alBottom 时该窗体会离开屏幕区域并且主窗体滚动条被激活如何将子窗体定位在状态栏上方对于没有父级负责显示它的控件对齐和锚点并不能真正按
Swift - 在面部识别运行后，使用 Apple 登录始终会导致“注册未完成”

我首先按照本教程使用 Firebase 设置使用 Apple 登录 https medium com swift products sign in with apple with firebase authentication xcode
针对动态变量的 If 语句[重复]

这个问题在这里已经有答案了我正在尝试做类似以下的事情 New Variable Name state name Value True if state name eq True Write Host Pass else Write Hos
css和xhtml中的每个元素和属性、属性是否有必要使用小写？

4 2 元素和属性名称必须小写 XHTML 文档的所有 HTML 元素和属性名称必须使用小写这种差异是必要的因为 XML 区分大小写例如和是不同的标签来源 http www w3 org TR 2002 REC xhtml1 2
多个 selectInput 值会产生意外的 dplyr (postgres) 行为

我有一个可爱的闪亮应用程序它接受 selectInput 值查询 postgres 数据库并输出一个图表这是一个简单的界面但由于 dplyr 数据库连接很难在这里重现今天我将第一个 selectInput 值更改为 multi
Laravel 表单请求数组验证自定义规则

我想创建一个表单请求验证但不知道如何操作我有一个表格
如何使用excel vba获取href属性

我想检索的 href 属性 h3 html页面的标签我能够获取innerText 但我不知道如何访问href属性有几个 h3 文档中的标签但目前我只需要第一个剩下的我稍后再处理这是我到目前为止得到的代码 Sub Scrap Dim
尝试在java中执行命令时出错[重复]

这个问题在这里已经有答案了我正在尝试使用终端但从 java 运行 java 文件意思是我将使用 java 运行该命令我正在尝试执行命令 cd Users apple Documents Documents workspace Use
Kivy外规则继承2

作为后续问题 Kivy 外部规则固有 https stackoverflow com questions 31618565 kivy outside rule inherence Kivy 规则继承与 add widget https st
我们如何配置闪亮的开源服务器来支持并发用户

我有一个 R Shiny 应用程序我想使用开源解决方案托管该应用程序以支持大约 50 个并发用户我遇到了 RStudio 的闪亮服务器它可以用来将闪亮的应用程序部署到网络上我想使用shinyserver的开源版本文档说我们可以使用
权限拒绝：编写 com.sec.android.provider.badge.BadgeProvider

我最近在使用 Android Nougat 的三星手机上运行我的应用程序时发生崩溃我没有授予 com sec android provider badge BadgeProvider 的运行时权限这导致了崩溃我不知道如何授予此徽章提供
Printf - 读取位置访问冲突 - C++

0xC0000005 读取位置 0xcccccccc 时发生访问冲突 printf 抛出此异常我不知道为什么会发生这种情况这些字符串变量中有值我使用 printf 错误吗帮助请参阅开关盒 string header string
使用 Tortoise-Hg 克隆在中间中止[命令返回代码 255]

我在用乌龟汞 http tortoisehg bitbucket io download for 克隆一个叉子 from CodePlex http nearforums codeplex com SourceControl changes
将 Kaggle csv 从下载网址导入到 pandas DataFrame

我一直在尝试不同的方法来导入 SpaceX 任务csv file https www kaggle com spacex spacex missions downloads database csv on Kaggle https www

将 Kaggle csv 从下载网址导入到 pandas DataFrame

将 Kaggle csv 从下载网址导入到 pandas DataFrame 的相关文章

随机推荐

热门标签