屏蔽 Polars 数据帧以进行复杂操作

2024-01-02

如果我有一个极坐标数据框并想要执行屏蔽操作，我目前看到两个选项：

# create data
df = pl.DataFrame([[1, 2, 3, 4], [5, 6, 7, 8]], schema = ['a', 'b']).lazy()
# create a second dataframe for added fun
df2 = pl.DataFrame([[8, 6, 7, 5], [15, 16, 17, 18]], schema=["b", "d"]).lazy()

# define mask
mask = pl.col('a').is_between(2, 3)

选项 1：创建过滤后的数据帧，执行操作并连接回原始数据帧

masked_df = df.filter(mask)
masked_df = masked_df.with_columns(  # calculate some columns
    [
        pl.col("a").sin().alias("new_1"),
        pl.col("a").cos().alias("new_2"),
        (pl.col("a") / pl.col("b")).alias("new_3"),
    ]
).join(  # throw a join into the mix
    df2, on="b", how="left"
)
res = df.join(masked_df, how="left", on=["a", "b"])
print(res.collect())

选项 2：单独屏蔽每个操作

res = df.with_columns(  # calculate some columns - we have to add `pl.when(mask).then()` to each column now
    [
        pl.when(mask).then(pl.col("a").sin()).alias("new_1"),
        pl.when(mask).then(pl.col("a").cos()).alias("new_2"),
        pl.when(mask).then(pl.col("a") / pl.col("b")).alias("new_3"),
    ]
).join(  # we have to construct a convoluted back-and-forth join to apply the mask to the join
    df2.join(df.filter(mask), on="b", how="semi"), on="b", how="left"
)

print(res.collect())

Output:

shape: (4, 6)
┌─────┬─────┬──────────┬───────────┬──────────┬──────┐
│ a   ┆ b   ┆ new_1    ┆ new_2     ┆ new_3    ┆ d    │
│ --- ┆ --- ┆ ---      ┆ ---       ┆ ---      ┆ ---  │
│ i64 ┆ i64 ┆ f64      ┆ f64       ┆ f64      ┆ i64  │
╞═════╪═════╪══════════╪═══════════╪══════════╪══════╡
│ 1   ┆ 5   ┆ null     ┆ null      ┆ null     ┆ null │
│ 2   ┆ 6   ┆ 0.909297 ┆ -0.416147 ┆ 0.333333 ┆ 16   │
│ 3   ┆ 7   ┆ 0.14112  ┆ -0.989992 ┆ 0.428571 ┆ 17   │
│ 4   ┆ 8   ┆ null     ┆ null      ┆ null     ┆ null │
└─────┴─────┴──────────┴───────────┴──────────┴──────┘

大多数时候，选项 2 会更快，但它变得相当冗长，并且当涉及任何复杂性时通常比选项 1 更难阅读。

有没有办法更通用地应用掩码来覆盖多个后续操作？

您可以通过在辅助函数中将掩码应用到操作中来避免样板代码。


def with_mask(operations: list[pl.Expr], mask) -> list[pl.Expr]:
    return [
        pl.when(mask).then(operation)
        for operation in operations
    ]

res = df.with_columns(
    with_mask(
        [
            pl.col("a").sin().alias("new_1"),
            pl.col("a").cos().alias("new_2"),
            pl.col("a") / pl.col("b").alias("new_3"),
        ],
        mask,
    )
)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

DataFrame

pythonpolars

屏蔽 Polars 数据帧以进行复杂操作的相关文章

如何读取通过追加行不断更新的文件？

在我的终端中我正在运行 curl user dhelm 12345 https stream twitter com 1 1 statuses sample json gt raw data txt curl 的输出是实时流式 Twitte
如何让Python的socket服务器永远运行

我有这段代码创建了一个简单的Python套接字服务器但是每次客户端断开连接时它都会关闭如何让它永远运行 import socket HOST PORT 8000 s socket socket socket AF INET socket
sphinx 中的分组方法文档字符串

是否可以使用 sphinx 的 autodoc 功能将多个方法文档字符串分组以便将它们列在一起 class Test object def a self A method of group foo def b self A method
使用 Python 的 optparse 模块时如何遵守 PEP 257 文档字符串？

根据PEP 257 http www python org dev peps pep 0257 multi line docstrings命令行脚本的文档字符串应该是它的使用消息脚本的文档字符串 a 独立程序应该可用作为其使用消息
SQLAlchemy：检查给定值是否在列表中

问题在 PostgreSQL 中检查某个字段是否在给定列表中是使用IN操作员 SELECT FROM stars WHERE star type IN Nova Planet SQLAlchemy 的等价物是什么INSQL查询我尝试过
Python 列表理解不适用于 itertools.groupby 解码

我正在尝试解码结果itertools groupby到一个值列表中我的来源是 x 1 2 2 1 6 3 6 5 1 3 最初的方法是使用 for 语句来实现如下所示 keyfunc itemgetter 0 groups unique
导入错误：没有名为“wordcloud”的模块

我正在努力将 wordcloud 安装到我的环境中这是我正在运行的代码 import os import matplotlib pyplot as plt from wordcloud import WordCloud 我收到以下错误 I
比较两个文本文件并计算差异

我一直在尝试在Python中比较两个文本文件本质上我想打开它们并一次比较一个字符如果字符不同则向计数器添加1 然后显示该值这是我到目前为止所拥有的 usr bin env python diff 0 import random im
来自数据框 groupby 的条形图

import pandas as pd import numpy as np import matplotlib pyplot as plt df pd read csv arrests csv df df replace np nan 0
获取 HTML 代码的结构

我正在使用 BeautifulSoup4 我很好奇是否有一个函数可以返回 HTML 代码的结构有序标签这是一个例子 h1 Simple example h1 p This is a simple example of html page
向数据框添加新列的问题 - Spark/scala

我是 Spark scala 的新手我正在尝试将一些数据从配置单元表读取到 Spark 数据帧然后根据某些条件添加一列这是我的代码 val DF hiveContext sql select from select from test
如何将 pip 指向 Mercurial 分支？

我正在尝试通过 pip 将我的应用程序安装到 virtualenv 进行测试安装时效果很好default or tip像这样 pip install e hg https email protected cdn cgi l email p
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
如何在 Python 中将 EXR 文件的 float16 转换为 uint8

我正在使用 OpenEXR 读取 Python 中的 EXR 文件我有带有半数据 float16 的 R G 和 B 通道我尝试使用 Numpy 将数据从 float16 转换为 uint8 0 255 颜色但没有成功 rCh get
使用 .map() 在 pandas DataFrame 中高效创建附加列

我正在分析形状与以下示例类似的数据集我有两种不同类型的数据 abc数据和xyz data abc1 abc2 abc3 xyz1 xyz2 xyz3 0 1 2 2 2 1 2 1 2 1 1 2 1 1 2 2 2 1 2 2 2 3
Python `concurrent.futures`：根据完成顺序迭代 future

我想要类似的东西executor map 除了当我迭代结果时我想根据完成的顺序迭代它们例如首先完成的工作项应该首先出现在迭代中等等这样当且仅当序列中的每个工作项尚未完成时迭代就会阻塞我知道如何使用队列自己实现这一点但我想知道
如何使用 Selenium Webdriver (Python) 在上下文菜单中选择“将图像另存为...”来保存图像

我正在尝试使用 selenium webdriver 将特定图像保存到目录中我希望通过模拟右键单击 img 元素并选择将图像另存为来实现此目的使用以下代码我可以打开上下文菜单但无法选择正确的选项 browser WebDriver
Docker Build 找不到 pip

尝试关注一些 1 https aws amazon com blogs aws run docker apps locally using the elastic beanstalk eb cli 2 http docs aws amazo
用户的完整 UNIX 用户名

想知道您是否知道是否有一种巧妙的方法可以从 shell 获取完整的用户名示例如果我的 UNIX 用户名是 froyo 那么我想获取我的全名在本例中如系统中注册的那样 froyo Abhishek Pratap Finger 命令可以
Django 迁移错误 'TypeError: 序列项 1: 需要一个类似字节的对象，在 mysql-connector-pythoncursor_cent.py 文件上找到 str'

我正在 Django 项目中使用 mysql connector 来处理 mysql 请求问题是我正在使用 django admin startproject project 设置一个简单的项目当我尝试进行简单的管理 py 迁移时这是

随机推荐

如何将 Excel 配色方案从一个工作簿复制到另一个工作簿

有时当我从一个工作簿复制并粘贴到另一个工作簿时目标配色方案看起来很奇怪如何将配色方案从一个工作簿复制到另一个工作簿打开 VBA 并键入以下内容根据需要更改工作簿的名称 workbooks DestinationWorkbook x
获取手机中安装的所有社交媒体应用程序的列表？

我正在开发一个应用程序其中列出了用户移动设备中安装的所有应用程序我检索了所有应用程序并将其列出在回收视图现在我想将社交媒体应用程序从该列表中分离出来以用于其他目的有什么办法可以分离社交媒体应用程序吗我使用下面的代码从手机检索所有应
何时使用代替
？

正如问题所示如果我想在 HTML 中添加一些文本那么我应该何时使用 p 我什么时候应该使用 span 您应该记住 HTML 旨在描述它包含的内容所以如果你想传达一段话那就这么做吧不过您的比较并不完全正确更直接的比较是何时使
有没有办法用带参数的sql脚本运行impala shell？

有没有办法使用带参数的 SQL 脚本运行 impala shell 例如 impala shell f home john sql load sql dir1 dir2 dir3 data file 我收到错误错误无法解析参数 f ho
流浪者警告：连接被拒绝。重试

测试默认示例 vagrant init hashicorp precise32 vagrant up 我的盒子视窗8 1 虚拟盒 5 0 2 流浪者1 7 4 Intel i7 4700MQ CPU 似乎具有 Intel 虚拟化技术 VT
无法分配给引用或变量中的 Angular 产品构建错误

我无法构建我的角度应用程序的产品版本 IDE 控制台中只有此消息错误无法分配给引用或变量所以我只有添加这些选项才能构建 aot false buildOptimizer false 但是即使使用这些选项应用程序在部署后也会失败并在
如何直接使用适配器从 AutoCompleteTextView 中删除数据

I have AutoCompleteTextView which uses to search the value from database On Click of filtered value it s set to the Auto
Angular2 中 valueChanges 的空订阅

我有一个奇怪的情况如果留空订阅永远不会触发这不起作用 this formGroup get unitCount valueChanges do value gt console log value subscribe 当这工作正常时
如何调用无状态小部件的重建？

Context 我有两个无状态小部件页面 HomePage and DetailsPage 显然应用程序启动并启动HomePage 用户可以按下一个按钮来导航到DetailsPage with a Navigator pop 按钮导航回到
在 QGraphicsScene 中移动 QGraphicItems 的有效方法

我正在使用 pyqt5 开发视频播放器我在场景中使用 QGraphicsVideoItem 在此视频项目之上我还需要一些在每个新帧上围绕场景移动的多边形他们跟踪视频中的内容理想情况下我不想让它们以 30 fps 的速度移动我进行了
如何将 hibernate-validator 4.3.0.Final 升级到 Glassfish 3.1.2？

目前 Hibernate Validator 已发布最新版本为 4 3 0 Finalhere http bit ly KPJvw9 我尝试按照以下步骤将其升级到 Glassfish 3 1 2 1 Remove the GLASSFISH
如何在 Bootstrap 3.3.7 中强制使用汉堡菜单，即使是桌面版？

我的代码看起来与此页面相同 https getbootstrap com docs 3 3 examples navbar https getbootstrap com docs 3 3 examples navbar 当我在手机上打开页面
如何使用IAM角色通过临时凭证访问资源？

我使用的 AWS IAM 角色允许实例使用临时 API 凭证访问密钥密钥和安全令牌访问某些资源当我使用此 ruby 脚本测试临时凭据时它运行没有任何问题 require rubygems require aws sdk AWS c
在Python中使用正则表达式捕获所有连续的全大写单词？

我正在尝试使用Python中的正则表达式来匹配所有连续的大写单词短语鉴于以下情况 text The following words are ALL CAPS The following word is in CAPS 代码将返回 ALL
iPad Safari 不触发模糊事件

我的应用程序中有一个带有 jQ uery 模糊事件处理程序的 html 输入文本元素 textBox blur function console log blur 当我单击文本框外的页面区域时桌面浏览器会触发此事件但 iPad Safa
正则表达式删除正文标签属性 (C#)

任何人都有一个可以从 body 标记中删除属性的正则表达式例如回来看到一个仅删除特定属性的示例也会很有趣例如回来您无法使用正则表达式解析 XHTML https stackoverflow com questions 17323
如何以角度方式制作嵌套表结构？

SolutionsDetail SolutionId 658 name dk id 1568377327000 groups GroupId 1 requestDetails ReqId 2331
setTimeout 但对于给定的时间

JavaScript 中是否有任何现成的东西即不通过插件可以让我做类似的事情setTimeout 但我不是说应该在多少毫秒内发生某事而是给它一个日期对象告诉它何时做某事 setToHappen function alert Wak
从 VBA 调用 Python 脚本 - 不起作用

我参考了这里给出的答案如何在Excel VBA上调用Python脚本 https stackoverflow com questions 18135551 how to call python script on excel vba但这对
屏蔽 Polars 数据帧以进行复杂操作

如果我有一个极坐标数据框并想要执行屏蔽操作我目前看到两个选项 create data df pl DataFrame 1 2 3 4 5 6 7 8 schema a b lazy create a second dataframe fo