PyArrow 表：过滤行

2024-03-21

我有一个RecordBatch从 Plasma DataStore 中，我可以将其读入pyarrow.RecordBatch or a pyarrow.Table。我现在尝试在将其转换为 pandas 之前过滤掉行（to_pandas).

有没有办法使用filter来自新 Dataset API 的方法（您可以在 ParquetDataset 上使用）pyarrow.Table？这将使我能够使用这样的过滤器：

[[('date', '=', '2020-01-01')]]

两者都看源码pyarrow.Table and pyarrow.RecordBatch貌似有过滤功能但至少RecordBatch需要布尔掩码。

这可能吗？原因是数据集包含大量非零拷贝的字符串（和/或类别），因此运行to_pandas实际上引入了显着的延迟，而我每次只寻找大约 20% 的数据集。

Regards,
Niklas

现在这是可能的：

import pyarrow as pa

my_table = pa.Table.from_arrays(
    [pa.array(['foo', 'bar', 'foo'], pa.string())],
    names=['col1']
)

# Using the high level API with expressions:
filtered_table = my_table.filter(pa.compute.field("col1") == "FOO")

# Using a lower level API:
filtered_table = my_table.filter(pa.compute.equal(my_table['col1'], 'foo'))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

pyarrow

PyArrow 表：过滤行的相关文章

Python 2.7 将比特币私钥转换为 WIF 私钥

作为一名编码新手我刚刚完成了教程教程是这样的 https www youtube com watch v tX XokHf nI https www youtube com watch v tX XokHf nI 我想用 1 个易于阅读
希伯来语中的稀疏句子标记化错误

尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
为什么我的代码不能根据字典解码加密字符串？

我有一本字典其中包含代表字母的键和值例如一个简单的 DICT CODE b g n a p o x d t y 我收到了一个加密代码并将该字符串转换为一个列表其中每个项目都是一个单词我需要根据字典中的项目来解决它代码示例是 wo
了解 Python 中的酸洗

我最近接到一项作业需要以腌制形式放置一本字典其中每个键引用一个列表唯一的问题是我不知道腌制形式是什么谁能给我指出一些好的资源的正确方向来帮助我学习这个概念 pickle 模块实现了一个基本但强大的算法用于序列化和反序列化 Pyth
如何在 Python 3 中循环遍历集合，同时从集合中删除项目

这是我的情况我有一个list set 哪个并不重要 movieplayer我想调用的对象 preload 功能开启该预加载函数可以立即返回但希望将来返回一点我想存储这个电影播放器集合表明它们尚未预加载然后循环它们调用prel
使用 scipy curve_fit 拟合噪声指数的建议？

我正在尝试拟合通常按以下方式建模的数据 def fit eq x a b c d e return a 1 np exp x b c np exp x d e x np arange 0 100 0 001 y fit eq x 1 1 1
PySide6.1 与 matplotlib 3.4 不兼容

当我只安装PySide6时 GUI程序运行良好但是一旦我安装了matplotlib及其依赖包包括pyqt5 则GUI程序将无法运行并输出以下错误消息 This application failed to start because no
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
django-admin.py makemessages 不起作用

我正在尝试翻译一个字符串 load i18n trans Well Hello there how are you to Hola amigo que tal 我的 settings py 文件有这样的内容 LOCALE PATHS os
如何使用 paramiko 查看（日志）文件传输进度？

我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件我希望我的脚本打印文件传输进度类似于使用 scp 看到的输出 scp my file user host user host password my file 1
使用 numpy 在 python 中执行最大方差旋转

我正在研究矩阵的主成分分析我已经找到了如下所示的组件矩阵 A np array 0 73465832 0 24819766 0 32045055 0 3728976 0 58628043 0 63433607 0 72617152 0 5
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
无法在 python 3.8 上将带有 webapp 的 python 部署到 azure

我正在尝试使用部署一个测试项目Flask使用以下方法将框架迁移到 Azure 云中Azure CLI https learn microsoft com en us azure app service containers quicksta
对数据帧的每 2 小时数据进行 Groupby

我有一个数据框 Time T201FN1ST2010 T201FN1VT2010 1791 2017 12 26 00 00 00 854 69 0 87 1792 2017 12 26 00 20 00 855 76 0 87 1793
处理大文件的最快方法？

我有多个 3 GB 制表符分隔文件每个文件中有 2000 万行所有行都必须独立处理任何两行之间没有关系我的问题是什么会更快逐行阅读 with open as infile for line in infile 将文件分块读入内存
如何在 robobrowser-python 中发出 POST 请求

http robobrowser readthedocs org en latest api html http robobrowser readthedocs org en latest api html 我正在尝试使用 APIbrows
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
python sklearn中的fit方法

我问自己关于 sklearn 中拟合方法的各种问题问题1 当我这样做时 from sklearn decomposition import TruncatedSVD model TruncatedSVD svd 1 model fit X
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro
长/宽数据到宽/长

我有一个数据框如下所示 import pandas as pd d decil 1 decil 1 decil 2 decil 2 decil 3 decil 3 decil kommune AA BB AA BB AA BB 2010

随机推荐

Spark ml 和 PMML 导出

我知道可以将模型导出为PMML with Spark MLlib 但是关于Spark ML 是否可以转换LinearRegressionModel from org apache spark ml regression to a Linea
PoseWarping：如何矢量化此 for 循环（z 缓冲区）

我正在尝试使用地面真实深度图姿势信息和相机矩阵将帧从视图 1 扭曲到视图 2 我已经能够删除大部分 for 循环并将其矢量化除了一个 for 循环扭曲时由于遮挡视图 1 中的多个像素可能会映射到视图 2 中的单个位置在这种情况下
将列的元素分配到基于另一列的矩阵中

我需要帮助编写执行以下操作的脚本 data 1 1 2 2 1 3 3 3 4 3 3 5 4 3 6 该脚本需要检查第二列中的数字是否重复下面的草图解释了我想要完成的任务对于第二列中的每个重复值我希望第三列中共享第二列中每个重复值的
尝试使用 POSIX 消息队列创建消息队列时权限被拒绝

我正在使用以下代码片段创建一个消息队列Linux 编程接口 http man7 org tlpi if mq open my message queue O CREAT O RDWR NULL 1 perror mq creation fa
自定义软键盘按键预览

I am 使用软键盘工作我已经完成了所有功能但现在我只需要更改关键预览的视图当关键是按下目前显示了我的按键预览默认示例键盘按键预览如下图所示正如我们所看到的当按下按键时会弹出字符 d 但现在我需要定制它作为目前主要预览背
从 pyarrow.Table 转换为 pandas 时处理大时间戳

我有一个时间戳9999 12 31 23 59 59以 int96 形式存储在 parquet 文件中我使用 pyarrow dataset 读取此镶木地板文件并将结果表转换为 pandas 数据框使用 pyarrow Table t
@material-ui/core 和 @types/material-ui 是什么关系？

这里我看到一个使用material ui 的示例项目我看到 package json 文件中有以下包 dependencies material ui core 1 4 1 devDependencies types material u
基本页或基本母版页或嵌套母版页？

我有一个包含两个母版页的网站一个用于一列布局一个用于两列布局它们嵌套在提供通用页眉和页脚的母版页中我希望每个内容页面都具有功能我是不是该创建一个页面基类并在我的内容页面中继承它或者创建一个母版页基类并在我的嵌套母版页级别之一
编写依赖于其他键的更复杂的 json 模式

我一直在编写简单的 JSON 模式但遇到了一个稍微复杂一点的 API 输入调用我有一条宁静的最终路线可以采用 3 种截然不同类型的 JSON 本地主机 foo 可以采取类型冰淇淋锥体华夫饼 or 类型热狗小圆面包小麦如
Onclick 图像按钮 - 逻辑没有意义[重复]

这个问题在这里已经有答案了我对 Javascript html 中这个非常简单的 onClick 函数感到非常困惑我知道对此有很多问题但鉴于我的脚本的作用或者在本例中没有无法完全找到答案它应该很简单但由于某种原因逻辑也没有像
使用 @PersistenceContext 为空 EntityManager

我正在尝试使用 Spring Boot 的简单编码在实体管理器中使用 PersistenceContext 在 MySQL 中创建一个对象但我发现我的实体管理器对象为空不知道为什么因为使用的方法实体管理器有 transaction注
在 ASP.NET 应用程序中是否强制注入 DbContext .InPerRequestScope？

我一直在我的 ASP NET MVC3 门户中使用 Ninject IoC 容器每当我注入实体框架时DbContext in PerThread范围我的数据不一致在对实体进行更改后一段时间内不会显示更改等在我切换 IoC 配置以解析
在 PHPStorm 中复制并粘贴字符串（波斯语、阿拉伯语）是错误的

在 PHPStorm 中复制并粘贴字符串波斯语阿拉伯语是错误的我的字符串是巴巴尼巴尼巴巴描述如图如何解决这个问题呢在安装目录下的文件中bin idea properties add one以下的 editor new re
如何在Jboss AS 7.0中启用Quartz调度？

Quartz 似乎没有包含在 Jboss AS 7 0 Final 完整版的默认安装中当尝试加载消息驱动 Bean MDB FareMonitorBean 时我的 EAR 部署似乎失败该MDB 是quartz 调度执行的内容错误信
当方法尝试使用可以为空的字段时抛出哪个异常？ [复制]

这个问题在这里已经有答案了我实际上正在从事框架开发这意味着需要非常强大的编码方法我面临一个问题我不知道需要抛出哪个 System Exception 派生类基本上情况是我有一个类其中的字段可以由构造函数选择性地初始化并且具有
如何在 Android 中找到附近的应用程序用户？

我正在制作一个应用程序需要能够找到附近的人他们是我的应用程序的用户我看了很多类似问题的答案似乎我别无选择只能不断将用户的当前位置上传到服务器并在必要时获取附近的用户列表那么我的问题是 1 要获取附近的列表应该有一些计算距离的
Zuul 调用的基本身份验证服务

我是 Zuul 作为边缘服务器所以所有请求都经过此边缘服务器我有一个微服务A A的所有Web服务都受到基本身份验证的保护我们如何通过Zuul代理来调用A b 的服务呢我应该为消息添加标头吗这是我的 Zuul 过滤器 public
FullScreenChange 事件不起作用

我尝试绑定 FullScreenChange 事件但它不起作用也许我做错了什么 document bind webkitfullscreenchange mozfullscreenchange fullscreenchange func
_1 是 C++0x 的一部分吗？

我见过two https stackoverflow com questions 4008369 recent answers https stackoverflow com questions 4009530 using 1作为纯 C 0
PyArrow 表：过滤行

我有一个RecordBatch从 Plasma DataStore 中我可以将其读入pyarrow RecordBatch or a pyarrow Table 我现在尝试在将其转换为 pandas 之前过滤掉行 to pandas 有没

PyArrow 表：过滤行

PyArrow 表：过滤行 的相关文章

随机推荐

热门标签

PyArrow 表：过滤行的相关文章