使用另一个列表作为极坐标中的布尔掩码的过滤器列表

2023-12-26

我有一个包含两列的极坐标数据框，其中两列都是列表。

df = pl.DataFrame({
    'a': [[True, False], [False, True]],
    'b': [['name1', 'name2'], ['name3', 'name4']]
})
df
shape: (2, 2)
┌───────────────┬────────────────────┐
│ a             ┆ b                  │
│ ---           ┆ ---                │
│ list[bool]    ┆ list[str]          │
╞═══════════════╪════════════════════╡
│ [true, false] ┆ ["name1", "name2"] │
├╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌╌┤
│ [false, true] ┆ ["name3", "name4"] │
└───────────────┴────────────────────┘

我想过滤列b使用列a作为布尔掩码。列中每个列表的长度a始终与列中每个列表的长度相同b.

我可以考虑使用explode，然后过滤、聚合并执行join，但在某些情况下，连接列不可用，为了简单起见，我宁愿避免使用此方法。

是否有其他方法使用另一个列表作为布尔掩码来过滤列表？我尝试过使用.arr.eval，但它似乎不接受涉及其他列的操作。

任何帮助，将不胜感激！

这不是最理想的解决方案，因为我们整理数据，为每个分解为元素的列表创建一个组。然后我们再次按该组进行分组并应用过滤器。

df = pl.DataFrame({
    'a': [[True, False], [False, True]],
    'b': [['name1', 'name2'], ['name3', 'name4']]
})

(df.with_row_count()
   .explode(["a", "b"])
   .groupby("row_nr")
   .agg([
       pl.col("b").filter(pl.col("a"))
   ])
)


shape: (2, 2)
┌────────┬───────────┐
│ row_nr ┆ b         │
│ ---    ┆ ---       │
│ u32    ┆ list[str] │
╞════════╪═══════════╡
│ 1      ┆ ["name4"] │
├╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌┤
│ 0      ┆ ["name1"] │
└────────┴───────────┘

也许我们可以在极地想出更好的办法。如果arr.eval可以访问其他列。待定！

编辑 02-06-2022

In polars-0.13.41这不会像您想象的那么贵。北极星知道row_count已排序并在整个查询中保持排序。列表列的爆炸也是免费的。

当 Polars 知道 groupby 键已排序时，groupby 操作将快约 15 倍。

在上面的查询中，您只需支付：

行数爆炸式增长
对排序后的键进行分组（速度非常快）
遍历列表（无论如何，这是我们需要支付的费用）。

为了确保它运行速度快，您可以使用以下命令运行查询POLARS_VERBOSE=1。这会将以下文本写入 stderr：

could fast explode column a
could fast explode column b
keys/aggregates are not partitionable: running default HASH AGGREGATION
groupby keys are sorted; running sorted key fast path

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

DataFrame

pythonpolars

使用另一个列表作为极坐标中的布尔掩码的过滤器列表的相关文章

如何在 AWS CDK 创建的 Python Lambda 函数中安装外部模块？

我在 Cloud9 中使用 Python AWS CDK 并且我部署简单的 Lambda 函数那应该是发送 API 请求到 Atlassian 的 API当对象上传到 S3 存储桶时也是由 CDK 创建的这是我的 CDK 堆栈代码 fr
python future 和元组解包

实现像使用 future 进行元组解包这样的事情的优雅惯用的方法是什么我有这样的代码 a b c f x y g a b z h y c 我想将其转换为使用期货理想情况下我想写一些类似的东西 a b c ex submit f x y
python 中的代表

我实现了这个简短的示例来尝试演示一个简单的委托模式我的问题是这看起来我已经理解了委托吗 class Handler def init self parent None self parent parent def Handle self
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
从 ffmpeg 获取实时输出以在进度条中使用（PyQt4，stdout）

我已经查看了很多问题但仍然无法完全弄清楚我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出以便我可以创建进度条我看过这些问题 ffmpeg可以显示进度条吗 https stack
将数据帧行转换为字典

我有像下面的示例数据这样的数据帧我正在尝试将数据帧中的一行转换为类似于下面所需输出的字典但是当我使用 to dict 时我得到了索引和列值有谁知道如何将行转换为像所需输出那样的字典任何提示都非常感激 Sample data pri
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
使用鼻子获取设置中当前测试的名称

我目前正在使用鼻子编写一些功能测试我正在测试的库操作目录结构为了获得可重现的结果我存储了一个测试目录结构的模板并在执行测试之前创建该模板的副本我在测试中执行此操作 setup功能这确保了我在测试开始时始终具有明确定义的状态现在
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
R 中的数据框操作 - 将单元格向左移动并删除 NA

我有一个数据框其列由随机分布的值和 NA 组成如下所示 a lt c S E NA S NA b lt c A NA M G K c lt c I NA NA NA L meh lt dataframe a b c 1 2 3 4 5
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f
Scrapy Spider不存储状态（持久状态）

您好有一个基本的蜘蛛可以运行以获取给定域上的所有链接我想确保它保持其状态以便它可以从离开的位置恢复我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

随机推荐

由方向改变触发的方法

当 iOS 设备方向发生变化时是否有一种运行方法的方法我只想更改屏幕上的某些对象方向而不更改其他对象的方向我使用什么代表等等干杯新手取决于你什么时候想做出反应如果在旋转之前 override来自 UIViewControll
具有非主键值的 FindAsync

public class Foo public int Id get set public int UserId get set 这似乎是异步执行此操作的方法 DatabaseContext db new DatabaseContext F
Activity 中的 AppWidgetManager.getAppWidgetIds 返回空列表

我有一个应用程序小部件我正在尝试从活动中更新它为此我需要 appwidget id 我用过AppWidgetManager getAppWidgetIds但它总是返回一个空列表我也用过AppWidgetManager getInst
如何将pom中的依赖项加载到eclipse项目的类路径中？

我正在使用 eclipse helios 和 m2eclipse 插件对于从 CVS 签出的 Maven 项目我如何告诉 Eclipse 自动从 pom xml 中提到的依赖项中获取该项目所需的所有 jar 文件谢谢你的时间 m2ec
检查 QImage 是否有 Alpha 通道

我想知道是否QImage我加载包含一个 Alpha 通道我已经知道了QImage hasAlphaChannel 可以告诉我我正在使用的图像格式是否支持 Alpha 通道但是有没有办法知道它是否确实在加载的图像中使用这里有我的代码片段
Facebook Android SDK 3.5 中的自定义 Facebook 登录按钮图像

类似地这个问题 https stackoverflow com questions 16496738 is it possible to change facebook login button image in facebook andr
MySQL 在两个（或更多）给定值中选择最小值/最大值

是否有可能SELECT两个或多个值中的最小值或最大值我需要这样的东西 SELECT MAX VALUE A date0 B date0 AS date0 MIN VALUE A date1 B date1 AS date1 FROM A
如何在 PowerShell 中悄悄删除包含内容的目录

使用PowerShell 是否可以删除某些包含文件的目录而不提示确认操作 Remove Item LiteralPath foldertodelete Force Recurse 或者使用较短的版本 rm path r force
在 Visual Studio Code（Vim 扩展）中使用 CAPS 而不是 ESC

I use Debian and I switched from Vim to Visual Studio Code when I noticed that there is a Vim movement extension for VS
如何使用 GCC 生成 ELF 文件？

我正在 Linux 操作系统上编写 C 和 C 代码并且使用 GCC 完成我的代码后我想生成一个 ELF 文件我只能生成 a out 文件但我不需要它如何获取 ELF 文件 ELF 文件出现的原因是什么或者是否可以用这个程序生成
Java中this.variable和variable的区别[重复]

这个问题在这里已经有答案了我不明白这两个代码之间的真正区别尽管它们都有效如果我使用这个类 public class City private String name 我不明白这个方法之间的区别 public String getNam
Team City Git“主机密钥验证失败”

我想使用 TeamCity 从远程 Git 存储库中提取代码更新文件并暂存并提交到本地存储库然后将提交的文件推送回远程存储库拉取和更新很好如果我打开 git bash 并git push origin master然后提交由提交
如何从 Laravel 5 中的 HTTP 响应获取自定义标头？

我正在尝试从 Laravel 中的请求访问自定义标头标头名称是 accessing from 列出 Laravel 中的所有标头只给我标准标头但我设置的标头不存在于列表中检查浏览器网络选项卡我可以看到标头已发送所以我想知道如何
仅删除特定行的新行/换行符

我有以下输出 02 01 31 OFFLINE 02 02 31 ONLINE 我希望它成为 02 01 31 OFFLINE 02 02 31 ONLINE 我找到了一种删除所有换行符换行符的方法sed a N ba s n g 然而它
cscript - 在控制台的同一行上打印输出？

如果我有一个将行输出到屏幕的脚本如何避免每次打印后的换行 Example for a 1 to 10 WScript Print REM do something next 预期输出应该是 Not 过去我曾经打印向上箭头字符 ASCI
使用 matplotlib 在鼠标悬停时使用 x,y 坐标以外的其他标签来标记散点图上的点

我正在尝试使用 DataCursor 方法 https stackoverflow com a 4674445 1301710 https stackoverflow com a 4674445 1301710 使用 matplotlib
以编程方式覆盖文本文件

我正在尝试从 Android 应用程序覆盖文本文件我已经做了的是我在一项活动中使用以下方法创建了一个文本文件 FileOutputStream create file null OutputStreamWriter osw null c
对 DataTable.DataSource 的 LINQ 查询

我正在尝试对 DataTable 执行 LINQ 查询并在另一个 DataTable 中显示结果我的源数据表看起来像这样 DataTable myDataTable new DataTable myDataTable Columns Ad
如何使用PrepareStatement在Java中执行INSERT SELECT INTO

我正在尝试执行 INSERT INTO SELECT 通过从 2 个表中选择列中的特定数据来插入到 1 个表中问题是它也将涉及来自 JTextField 的用户输入我已经搜索了很多解决方案但仍然遇到错误我只是不知道还能做什么我使
使用另一个列表作为极坐标中的布尔掩码的过滤器列表

我有一个包含两列的极坐标数据框其中两列都是列表 df pl DataFrame a True False False True b name1 name2 name3 name4 df shape 2 2 a b list bool li

使用另一个列表作为极坐标中的布尔掩码的过滤器列表

编辑 02-06-2022

使用另一个列表作为极坐标中的布尔掩码的过滤器列表 的相关文章

随机推荐

热门标签

使用另一个列表作为极坐标中的布尔掩码的过滤器列表的相关文章