使用 pyarrow 在 Amazon S3 上打开 parquet 文件时出错

2024-01-10

我有这段代码，它应该从存储在 S3 上的 parquet 文件中读取单列数据：fs = s3fs.S3FileSystem() data_set = pq.ParquetDataset(f"s3://{bucket}/{key}", filesystem=fs) column_data = data_set.read(columns=[col_name])

我得到这个例外：验证模式 self.schema = self.pieces[0].get_metadata(open_file).schema IndexError：列表索引超出范围

我升级到最新版本的 pyarrow 但没有帮助

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

amazons3

parquet

pyarrow

使用 pyarrow 在 Amazon S3 上打开 parquet 文件时出错的相关文章

Python 2.7 将比特币私钥转换为 WIF 私钥

作为一名编码新手我刚刚完成了教程教程是这样的 https www youtube com watch v tX XokHf nI https www youtube com watch v tX XokHf nI 我想用 1 个易于阅读
boto3 资源（例如 DynamoDB.Table）的类型注释

The boto3库提供了几种返回资源的工厂方法例如 dynamo boto3 resource dynamodb Table os environ DYNAMODB TABLE 我想注释这些资源以便我可以获得更好的类型检查和完成但我
希伯来语中的稀疏句子标记化错误

尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000
更新 Sqlalchemy 中的多个列

我有一个在 Flask 上运行的应用程序并使用 sqlalchemy 与数据库交互我想用用户指定的值更新表的列我正在使用的查询是 def update table value1 value2 value3 query update T
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
与 while 循环一样，如何跳过 for 循环中的步骤？

我尝试像 while 循环一样跳过 for 循环中的几个步骤在 while 循环中步骤根据特定条件进行调整如下面的代码所示 i 0 while i lt 10 if i 3 i 5 else print i i i 1 result
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
乘以行并按单元格值附加到数据框

考虑以下数据框 df pd DataFrame X a b c d Y a b d e Z a b c d 1 2 1 3 df 我想在列中附加数字大于 1 的行并在该行中的数字减 1 df 最好应该然后看起来像这样或者它可能看起来
Python 惰性迭代器

我试图了解迭代器表达式如何以及何时被求值以下似乎是一个懒惰的表达 g i for i in range 1000 if i 3 i 2 然而这个在构造上失败了 g line strip for line in open xxx r if
使用 numpy 在 python 中执行最大方差旋转

我正在研究矩阵的主成分分析我已经找到了如下所示的组件矩阵 A np array 0 73465832 0 24819766 0 32045055 0 3728976 0 58628043 0 63433607 0 72617152 0 5
Pandas style.bar 颜色基于条件？

如何渲染其中一列的 Pandas dfstyle bar color属性是根据某些条件计算的 Example df style bar subset before after color ff781c vmin 0 0 vmax 1 0 而
由于 json 字符串化 dict 键导致数据丢失

考虑下面的例子 gt gt gt import json gt gt gt d 0 potato 0 spud gt gt gt json dumps d 0 potato 0 spud gt gt gt json loads json d
是否可以将 pd.Series 分配给无序 pd.DataFrame 中的列而不映射到索引（即不重新排序值）？

在 Pandas 中创建或分配新列时我发现了一些意外的行为当我对 pd DataFrame 进行过滤或排序从而混合索引然后从 pd Series 创建新列时 Pandas 会重新排序该系列以映射到 DataFrame 索引例如 d
处理大文件的最快方法？

我有多个 3 GB 制表符分隔文件每个文件中有 2000 万行所有行都必须独立处理任何两行之间没有关系我的问题是什么会更快逐行阅读 with open as infile for line in infile 将文件分块读入内存
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
更改 Python Cmd 模块处理自动完成的方式

我有一个 Cmd 控制台设置为自动完成 Magic the Gathering 收藏管理系统的卡牌名称它使用文本参数在数据库中查询卡片并使用结果自动完成建议卡片然而这些卡片名称有多个单词 Cmd 会从last到行尾的空间例如
Python 通过从现有 csv 文件中过滤选定的行来写入新的 csv 文件

只是一个问题我试图将 csv 文件中的选定行写入新的 csv 文件但出现错误我试图读取的 test csv 文件是这样的两列 2013 9 1 2013 10 2 2013 11 3 2013 12 4 2014 1 5 2014
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name

随机推荐

边距顶部不适用于
和标记？

我一直在尝试为链接按钮实现 margin top 但它根本不起作用我还尝试过 p 和 a 标签的内联样式有 3 个 li 元素我没有在这里发布完整的代码因为它与第一个 li 元素相同 HTML div ul li img src i
找不到请求的值“VS2015”。 - Azure powershell

我正在尝试通过 azure powershell 获取我的插槽信息检索我使用的信息 Get AzureWebsite Name mywebsite Slot staging 但 azure powershell 抛出以下错误 Get Az
如何在画布中按比例调整视频大小？

在画布上渲染视频元素时我无法按比例缩放视频帧我尝试过的我阅读了所选答案如何按比例调整画布中图像的大小 https stackoverflow com questions 14087483 how to proportionally r
如何在查询的 Coldfusion 查询中测试 null/空字符串？

我一直在网上寻找解决方案但没有找到我在 Coldfusion 查询中有一个列 date hired 如果我对查询进行 cfdump 如果是日期则显示为日期如果不是则显示为空字符串查询有8条记录有些有 date hired 日
如何水平居中反应跨多行的原生 Flexbox 文本

在 React Native 中使用 Flexbox 我的文本
如何覆盖 selenium 中默认的 chrome 命令行开关集

默认情况下 chrome 将使用以下命令行运行 C Program Files x86 Google Chrome Application chrome exe disable hang monitor disable prompt on
Laravel Pusher 异常：“Illuminate\Broadcasting\BroadcastException”

尝试广播事件时我收到 Illuminate Broadcasting BroadcastException 我检查了我的 env 文件它设置正确我在本地主机上所以我将加密设置为 false BroadcastServicePro
在 EOF 之前停止解密会引发异常：填充无效且无法删除

这是我们遇到的情况我们有巨大的加密文件大约有千兆字节如果我们读到最后我们就可以正确解密它们当我们正在读取并检测到文件中的某些标志时就会出现问题然后我们停止读取并调用 reader Close 会发生 Cryptographic
使用 HttpURLConnection 的 Android POST 请求

我正在尝试使用 HttpURLConnection 执行发布请求但不知道如何正确执行我可以成功执行请求AndroidAsyncHttp https github com loopj android async http客户端使用以下代码
在 Azure 中，如何允许非订阅管理员创建新资源

我在 Azure 中有一个资源组 RG 我是订阅管理员在 RG 中我的角色是所有者我还有另外两个用户分配给该 RG 他们的角色也是所有者我可以毫无问题地在 RG 中创建任何资源其他 2 个用户不能例如当他们尝试添加 SQL Se
如何查看 Google Drive 中的 C# .cs 文件？

我的 google 驱动器中有一些 cs c 源代码文件我希望能够直接查看而无需下载它们我怎样才能做到这一点一般来说当有一个文本文件的文件扩展名不受支持时我如何将其视为来自谷歌驱动器的文本不幸的是许多代码文件类型尚不受支持支
在 Joomla 3 中添加快捷图标

有人知道如何在 Joomla 3 1 中添加快捷图标甚至编辑当前的快捷图标列表吗更具体地说这将是登录 Joomla 管理中心后立即出现在屏幕右侧的一系列链接我在 stackoverflow 上搜索并没有找到这个问题 QuickIco
Jackson SerializationFeature 可以按字段或类重写吗？

是否可以针对每个对象或每个字段启用禁用反序列化功能我想不出一个简单的方法具体来说我已经启用了WRITE SINGLE ELEM ARRAYS UNWRAPPED用于很少扩展超过 1 项的数据字段的可读性然而对于一些顶级结构
当任何一组变量发生变化时，Svelte 执行函数

In Svelte RealWord 应用程序 https github com sveltejs realworld blob master src routes components ArticleList index svelte有这
未处理的异常：查找已停用小部件的祖先是不安全的。怎么解决这个问题？

我正在尝试将条纹支付集成到 flutter 移动应用程序中付款完成后我希望应用程序执行Navigator pop context 但是我收到错误消息未处理的异常查找已停用小部件的祖先是不安全的 E flutter 2773 此时
支持 CORS 的服务器？

我想知道有很多服务器支持CORS吗要使您的 Web 服务器支持 CORS 只需让它返回另一个标头即可例如在 Apache2 中只需将此行添加到适用的 conf 文件中 Header set Access Control Allow
Spring Boot 2.1.0管理服务器端口在不同端口

在我的 Spring Boot 2 0 应用程序中我的主应用程序侦听端口 1234 我希望管理服务器在 1235 上运行所以在我的配置文件中我设置 management server port 1235 我的服务器无法启动出现以下错
使用节点属性过滤器查找 2 个节点之间的最短路径

我有一个由节点公交车站组成的图形数据库其属性名为 is in operation 如果公交车站可运行则该属性设置为 true 否则它被设置为假如果公共汽车在两个车站之间行驶则两个节点之间就会创建一种关系我想找到两个节点之间停
将嵌套 tibble 的所有列取消嵌套到 tibbles 列表

我正在将模型拟合到数据集中的每个组我通过分组变量嵌套数据然后使用映射将模型拟合到每个组然后我将整理后的模型信息存储为嵌套小标题中的列我想将每一列保存为自己的文件本示例将它们保存为 Excel 工作簿中的工作表有没有办法不将每一
使用 pyarrow 在 Amazon S3 上打开 parquet 文件时出错

我有这段代码它应该从存储在 S3 上的 parquet 文件中读取单列数据 fs s3fs S3FileSystem data set pq ParquetDataset f s3 bucket key filesystem fs col

使用 pyarrow 在 Amazon S3 上打开 parquet 文件时出错

使用 pyarrow 在 Amazon S3 上打开 parquet 文件时出错 的相关文章

随机推荐

热门标签

使用 pyarrow 在 Amazon S3 上打开 parquet 文件时出错的相关文章