Polars 扫描 s3 多部分镶木地板文件

2024-01-05

我在 s3 上有一个多部分分区的镶木地板。每个分区包含多个 parquet 文件。下面的代码缩小了单个分区的范围，该分区可能包含大约 30 个 parquet 文件。当我使用scan_parquet在 s3 地址上，包括*.parquet通配符，它只查看分区中的第一个文件。我通过客户数量验证了这一点。它仅包含分区中第一个文件的计数。有没有一种方法可以跨文件扫描？

import polars as pl

s3_loc = "s3://some_bucket/some_parquet/some_partion=123/*.parquet"
df = pl.scan_parquet(s3_loc)
cus_count = df.select(pl.count('customers')).collect()

如果我离开*.parquet从 s3 地址，然后我收到以下错误。

exceptions.ArrowErrorException: ExternalFormat("File out of specification: A parquet file must containt a header and footer with at least 12 bytes")

看起来像是从用户指南 https://pola-rs.github.io/polars-book/user-guide/multiple_files/intro.html在多个文件上，这样做需要一个循环创建许多惰性 dfs，然后将它们组合在一起。

另一种方法是使用scan_ds函数接受 pyarrow 数据集对象。

import polars as pl
import s3fs
import pyarrow.dataset as ds
fs = s3fs.S3FileSystem()
# you can also make a file system with anything fsspec supports
# S3FileSystem is just a wrapper for fsspec
s3_loc = "s3://some_bucket/some_parquet/some_partion=123"
myds = ds.dataset(s3_loc, filesystem=fs)
lazy_df = pl.scan_pyarrow_dataset(myds)
cus_count = lazy_df.select(pl.count('customers')).collect()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pythonpolars

Polars 扫描 s3 多部分镶木地板文件的相关文章

在PyGI中获取窗口句柄

在我的程序中我使用 PyGObject PyGI 和 GStreamer 在 GUI 中显示视频该视频显示在Gtk DrawingArea因此我需要获取它的窗口句柄realize 信号处理程序在 Linux 上我使用以下方法获取该句
Tkinter：消息小部件中锚点选项的正确值是多少？

我一直在学习 tkinterTkinter 中的消息小部件 https python course eu tkinter message widget in tkinter php at Python 课程和教程 https python
尝试从网页Python和BeautifulSoup获取编码

我试图从网页检索字符集这会一直改变目前我使用 beautifulSoup 来解析页面然后从标题中提取字符集这工作正常直到我遇到一个网站到目前为止我的代码以及与其他页面一起使用的代码是 def get encoding soup
如何使用 Python boto3 获取 redshift 中的列名称

我想使用 python boto3 获取 redshift 中的列名称创建Redshift集群将数据插入其中配置的机密管理器配置 SageMaker 笔记本打开Jupyter Notebook写入以下代码 import boto3
将 C++ 指针作为参数传递给 Cython 函数

cdef extern from Foo h cdef cppclass Bar pass cdef class PyClass cdef Bar bar def cinit self Bar b bar b 这总是会给我类似的东西 Can
检查 python 中命令行参数的数量

我是蟒蛇新手还是把脚弄湿了我正在尝试做这样的事情 import sys if len sys argv lt 3 or lt len sys argv gt 3 print This script will compare two fi
为什么第二个 request.session cookies 返回空？

我想使用 requests Session post 登录网站但是当我已经登录主页然后进入帐户页面时看来cookies还没有保存因为cookies是空的而且我无法进入正确的帐户页面 import requests from bs4
如何获取numpy.random.choice的索引？ - Python

是否可以修改 numpy random choice 函数以使其返回所选元素的索引基本上我想创建一个列表并随机选择元素而不进行替换 import numpy as np gt gt gt a 1 4 1 3 3 2 1 4 gt gt
使用 Pytest 的参数化添加测试功能的描述

当其中一个测试失败时可以在测试正在测试的内容的参数化中添加描述快速了解测试失败的原因有时您不知道测试失败的原因您必须查看代码通过每个测试的描述您就可以知道例如 pytest mark parametrize num1 num2
是否有一个包可以维护所有带有符号的货币列表？

是否有一个 python 包提供所有或相当完整货币的列表与符号如美元的有优秀的pycountry 贪财的 https github com limist py moneyed and ccy http code google com
python celery -A 的无效值无法加载应用程序

我有一个以下项目目录 azima init py main py tasks py task py from main import app app task def add x y return x y app task def mul
如何在 Python 中的函数入口、内部和退出处进行日志记录

我希望能够使用 Python 日志记录工具在我的代码中进行简单且一致的日志记录我能够执行以下操作我希望所有现有未来的模块和函数都有输入和完成日志消息我不想添加相同的代码片段来定义日志记录参数如下所示don t want t
App Engine 实体到字典

将 google app engine 实体在 python 中复制到字典对象的好方法是什么我正在使用 db Expando 对象所有属性均为扩展属性 Thanks 有一个名为foo尝试 foo dict
将字符串中的随机字符转换为大写

我尝试随机附加文本字符串这样就不只是有像这样的输出 gt gt gt david 我最终会得到类似的东西 gt gt gt DaViD gt gt gt dAviD 我现在的代码是这样的 import random import stri
使用 suds SOAP 库进行 HTTP 身份验证的奇怪行为

我有一个正在运行的 python 程序它使用 suds 通过 SOAP 获取大量数据 Web服务是通过分页功能实现的这样我就可以抓取nnn每个 fetch 调用的行并获取下一个nnn与后续的电话如果我使用如下代码向 HTTP 服务器进
确定分割形状几何体的“左”侧和“右”侧

我的问题是我怎样才能确定哪一个Aside and Bside的侧面已经分割的旋转矩形几何体 http nbviewer jupyter org urls dl dropbox com s ll3mchnx0jwzjnf determine
根据多个阈值将 SciPy 分层树状图切割成簇

我想将 SciPy 的树状图切割成多个具有多个阈值的簇我尝试过使用 fcluster 但它只能削减一个阈值例如这是我从另一个问题中摘取的一段代码 import pandas data pandas DataFrame total ru
在 numpy 中连接维度

我有x 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 2 3 I want 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 6 也就是说我想连接中间维度的所有项目在这种特殊情况下我可以得到这
PyQt5：如何使QThread返回数据到主线程

I am a PyQt 5 4 1 1初学者我的Python是3 4 3 这是我尝试遵循的many https mayaposch wordpress com 2011 11 01 how to really truly use qthr
Python 中的 Unix cat 函数 (cat * > merged.txt)？ [复制]

这个问题在这里已经有答案了一旦建立了目录有没有办法在Python中使用Unix中的cat函数或类似的函数我想将 files 1 3 合并到 merged txt 我通常会在 Unix 中找到该目录然后运行 cat gt merged

随机推荐

在Rails中，我应该启用serve_static_assets吗？

我目前正在使用 Apache 代理到 Thin 使用这个article http articles slicehost com 2008 5 6 ubuntu hardy apache rails and thin 我的静态资源都不起作用
解决 android studio 中的 gradle 依赖问题？

我正在尝试添加一个样式化的进度条https android arsenal com details 1 1375 https android arsenal com details 1 1375 那里说将特定存储库添加到您的构建文件中 r
iOS 9 和 Swift 2 升级后，Facebook SDK 登录时出现“以“null”打开此页面”模式

我正在将项目更新到 Swift 2 和 iOS 9 我正在做的项目之一严重依赖 Facebook 的 SDK 我用它来登录获取用户信息等在更新之前一旦您登录 Safari 就会将您直接重定向到该应用程序现在我得到一个有趣的小模态显
静态分析警告是否会使 CI 构建失败？

我们的团队正在研究项目中静态分析的各种选项并且对于我们是否希望我们的持续集成构建因静态分析的警告而失败有不同的意见反对构建失败的论点是规则中经常存在例外情况而试图绕过这些例外只是为了使构建成功会降低生产力更好的方法是在构建时生成报
如何使文本输入不可编辑？

所以我有一个文本输入
使用 Guava 进行缓存

哪些 Guava 类适合线程安全缓存我使用组合键它是动态构建的所以 softKeys 没有意义对吧我在某处看到 ConcurentLinkedHashMap 这是要走的路吗它已经在最近的版本中了吗抱歉提问方式很混乱 Upda
如何在 CodeIgniter 表单验证中使用 Bootstrap 错误样式？

我的代码有一点问题我正在研究 bootstrap CSS 我对这个框架感到非常惊讶这就是为什么我决定研究这个我对 CSS 的了解确实不够但我明白一点我正在创建一个表单如果用户名或密码错误我希望收到一条验证消息我需要进行验证
如何在我的应用程序中使用 UIKit 本地化字符串

我们正在构建一款 iOS 游戏我们公司需要取消按钮UIAlertView应始终根据用户的设备语言进行本地化看起来UIKit框架中有这样一个字符串我如何在我自己的应用程序中访问它或者还有其他方法可以创建带有本地化取消按钮的 UIAl
SQL 手机号码验证

我有我的 SQL 数据库我想在其中过滤掉所有有效的手机号码我目前使用如下 WHERE pn PhoneNumber LIKE 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 OR pn Phone
如何仅为测试源添加 Scala 编译器插件

是否可以仅在编译测试源时添加Scala编译器插件当通过调用 SBT 添加编译器插件时addCompilerPlugin然后添加库依赖项相关方法有 Transforms dependency to be in the auto compi
jQuery Offset 返回负值

我有一个像下面这样的场景在我的用户界面中我将有一个文本框如果我在文本框中输入了数字我需要向下滚动到相应的页码 In Dom 我将有一些带有各自 id 的 div 如果用户输入页码为 5 我将检查 dom 中的第 5 个 div 偏移
在浏览器中流式传输 Pdf 时如何设置文件名？

不确定如何确切地表达这个问题所以欢迎编辑无论如何就这样吧我目前使用 Crystal Reports 生成 Pdfs 并将输出流式传输给用户我的代码如下所示 System IO MemoryStream stream new Sys
Cmake 无法找到 Python 库

出现此错误 sudo unable to resolve host coderw ll Could NOT find PythonLibs missing PYTHON LIBRARIES PYTHON INCLUDE DIRS CMake
升级到 R 2.15.2 无法加载 stats 包

运行 Ubuntu 12 04 今天终于从 2 12 升级到 2 15 2 当我启动 R 时出现此错误 Error in dyn load file DLLpath DLLpath unable to load shared object
在Python中使用Hadoop处理大型csv文件

我有一个巨大的 CSV 文件想在 Amazon EMR python 上使用 Hadoop MapReduce 进行处理该文件有 7 个字段但是我只查看date and quantity field date receiptId pr
如何在PHP中备份MySQL数据库？

我对如何通过 PHP 备份 MySQL 数据库没有基本的了解我遵循了一篇教程但它并没有帮助我理解有人可以解释如何从 PHP 创建 MySQL 备份吗虽然您可以从 PHP 执行备份命令但它们实际上与 PHP 没有任何关系这都是关于
pandas 将两列分组并乘以另外两列

我有一个像这样分组的数据框 price quantity vat date brand 20 Jun 13 Reebok 7 0 8 2 2 Adidas 12 0 3 3 8 Campus 2 5 38 4 2 Woodlands 23
无法加载文件或程序集“System.Data.SQLite，版本=1.0.109.0 - 当我引用 1.0.109.1 时，为什么它会搜索版本 1.0.109.0

我已经创建了新的ASP NET Core Web Application并使用ASP NET Core 2 1跨平台框架接下来我添加了System Data SQLite Core using Nuget manager 它是适用于 x
使用 jQuery 在 div 之间转换

我有三个divs 我有一个主 div 为用户提供了选择查看其他两个 div 的选项如果我只使用文本并且不隐藏原始 div 它就可以工作但我想使用图像映射并隐藏主 div 然后如果用户选择他们可以单击后退按钮并让 div 重新出现并且
Polars 扫描 s3 多部分镶木地板文件

我在 s3 上有一个多部分分区的镶木地板每个分区包含多个 parquet 文件下面的代码缩小了单个分区的范围该分区可能包含大约 30 个 parquet 文件当我使用scan parquet在 s3 地址上包括 parquet通配

Polars 扫描 s3 多部分镶木地板文件

Polars 扫描 s3 多部分镶木地板文件 的相关文章

随机推荐

热门标签

Polars 扫描 s3 多部分镶木地板文件的相关文章