检查一个列表是否是 pandas Dataframe 中另一个列表的子集

2024-02-29

所以，我有这个包含近 3000 行的 Dataframe，看起来像这样：

        CITIES
0       ['A','B']
1       ['A','B','C','D']
2       ['A','B','C']
4       ['X']
5       ['X','Y','Z']
...     ...
2670    ['Y','Z']

我想从 DF 中删除“CITIES”列表包含在另一行中的所有行（顺序无关紧要），在上面的示例中，我想删除 0 和 2，因为两者都包含在 1 中，并且还删除了 4 和 2670，因为两者都包含在内，我尝试了一些东西，它有点工作，但它真的很愚蠢，花了将近 10 分钟来计算，就是这样：

indexesToRemove=[]
for index, row in entrada.iterrows():
    citiesListFixed=row['CITIES']
    for index2, row2 in entrada.iloc[index+1:].iterrows():
        citiesListCurrent=row2['CITIES']
        if set(citiesListFixed) <= set(citiesListCurrent):
            indexesToRemove.append(index)
            break

有没有更有效的方法来做到这一点？

首先创建虚拟数据帧，然后我们可以使用矩阵乘法来查看其中一行是否是另一行的完整子集，方法是检查与另一行的乘法总和是否等于该行中的元素数量。（这会是一个内存密集型）

import pandas as pd
import numpy as np

df = pd.DataFrame({'Cities': [['A','B'], ['A','B','C','D'], ['A','B','C'],
                              ['X'], ['X','Y','Z'], ['Y','Z']]})

arr = pd.get_dummies(df['Cities'].explode()).max(level=0).to_numpy()
#[[1 1 0 0 0 0 0]
# [1 1 1 1 0 0 0]
# [1 1 1 0 0 0 0]
# [0 0 0 0 1 0 0]
# [0 0 0 0 1 1 1]
# [0 0 0 0 0 1 1]]

subsets = np.matmul(arr, arr.T)
np.fill_diagonal(subsets, 0)  # So same row doesn't exclude itself

mask = ~np.equal(subsets, np.sum(arr, 1)).any(0)

df[mask]
#         Cities
#1  [A, B, C, D]
#4     [X, Y, Z]

就目前情况而言，如果您有两行与最长子集相连（即两行['A','B','C','D']）两者都被丢弃。如果这不是你想要的，你可以先drop_duplicates on 'Cities'（需要转换为可散列类型，例如frozenset），然后应用上述内容。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

检查一个列表是否是 pandas Dataframe 中另一个列表的子集的相关文章

为什么 pandas 在简单的数学运算上比 numpy 更快？

最近我观察到 pandas 的乘法速度更快我在下面的例子中向您展示了这一点如此简单的操作怎么可能做到这一点这怎么可能呢 pandas 数据帧中的底层数据容器是 numpy 数组测量我使用形状为 10k 10k 的数组数据框 i
minAreaRect OpenCV 返回的裁剪矩形 [Python]

minAreaRectOpenCV 中返回一个旋转的矩形如何裁剪矩形内图像的这部分 boxPoints返回旋转矩形的角点的坐标以便可以通过循环框内的点来访问像素但是在 Python 中是否有更快的裁剪方法 EDIT See code在
Python设置1和True的解释

在 IPython 3 交互式 shell 中 In 53 set2 1 2 True hello In 54 len set2 Out 54 3 In 55 set2 Out 55 hello True 2 是因为 1 和 True 得到
如何检索分配给 Django 中的组的所有权限

我正在执行一项任务来检索分配给 Django 中的组的一组权限我可以使用以下代码获取创建的组但无法使用它来获取分配给它们的权限 from django contrib auth models import Group Permissio
绝对导入不起作用，但相对导入起作用

这是我的应用程序结构 foodo setup py foodo init py foodo py models py foodo foodo foodo py从导入类models py module from foodo models im
Django 查询：“datetime + delta”作为表达式

好吧我的问题如下假设我有下一个模型这是一个简单的情况 class Period models Model name CharField field specs here start date DateTimeField field s
计算熊猫数据帧几个月的总和

我有一个 pandas 数据框如下所示 ID Year R1 R1 f KAR1 20201001 1 5 KAR1 20201101 2 6 KAR1 20201201 3 7 KAR1 20210101 4 8 KAR1 202102
如何在动态执行的代码字符串中使用inspect.getsource？

如果我在文件中有这段代码 import inspect def sample p1 print p1 return 1 print inspect getsource sample 当我运行脚本时它按预期工作在最后一行源代码sampl
将多索引转换为行式多维 NumPy 数组。

假设我有一个类似于以下示例的 MultiIndex DataFrame多索引文档 http pandas pydata org pandas docs stable advanced html gt gt gt df 0 1 2 3 fir
从字典中绘制直方图

我创建了一个dictionary计算 a 中出现的次数list每个键的内容我现在想绘制其内容的直方图这是我想要绘制的字典的内容 1 27 34 1 3 72 4 62 5 33 6 36 7 20 8 12 9 9 10 6 11 5
dask apply：AttributeError：“DataFrame”对象没有属性“name”

我有一个参数数据框并对每一行应用一个函数该函数本质上是几个 sql queries 和对结果的简单计算我正在尝试利用 Dask 的多处理同时保持结构和界面下面的例子有效并且确实有显着的提升 def get metrics row
如何仅注释堆积条形图的一个类别

我有一个数据框示例如下所示 data Date 2021 07 18 2021 07 19 2021 07 20 2021 07 21 2021 07 22 2021 07 23 Invalid NaN 1 1 NaN NaN NaN N
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
如何让 Streamlit 每 5 秒重新加载一次？

我必须每 5 秒重新加载 Streamlit 图表以便在 XLSX 报告中可视化新数据如何实现这一目标 import streamlit as st import pandas as pd import os mainDir os pa
导入目录下的所有模块

有没有办法导入当前目录中的所有模块并返回它们的列表例如对于包含以下内容的目录 mod py mod2 py mod3 py 它会给你
错误：尝试使用 scrappy 登录时出现 raise ValueError("No element found in %s" % response)

问题描述我想从我大学的bbs上抓取一些信息这是地址 http bbs byr cn http bbs byr cn下面是我的蜘蛛的代码 from lxml import etree import scrapy try from scra
如何全局安装 Python（开发）依赖项，以便我不必在每个 venv 中重新安装它们？

我希望在为每个项目创建的每个 venv 虚拟环境中都可以使用一些 Python 依赖项例如 black flake8 和 pytest 这可能吗如果可以如何实现我想安装这三个once在我的主要 Python 安装下我必须在启动新
在 anaconda 环境下运行 qsub

我有一个程序通常在 Linux 的 conda 环境中运行因为我用它来管理我的库指令如下 source activate my environment python hello world py 我怎样才能跑你好世界 py在与 PBS
使用 Numpy 进行多维批量图像卷积

在图像处理和分类网络中一个常见的任务是输入图像与一些固定滤波器的卷积或互相关例如在卷积神经网络 CNN 中这是一种极其常见的操作我已将通用版本任务减少为 Given 一批 N 个图像 N H W D 和一组 K 个滤镜 K H W
如何在 Qt 中以编程方式制作一条水平线

我想弄清楚如何在 Qt 中制作一条水平线这很容易在设计器中创建但我想以编程方式创建一个我已经做了一些谷歌搜索并查看了 ui 文件中的 xml 但无法弄清楚任何内容 ui 文件中的 xml 如下所示

随机推荐

数据注释、IDataErrorInfo 和 MVVM

我正在尝试找到验证 MVVM 中数据的最佳方法目前我正在尝试使用 MVVM 模式将 IDataErrorInfo 与数据注释结合使用然而似乎没有任何作用我不确定我可能做错了什么我有这样的东西 Model public class
使用 numpy/scipy 的快速 B 样条算法

我需要在 python 中计算 bspline 曲线我研究了 scipy interpolate splprep 和其他一些 scipy 模块但找不到任何可以轻松满足我需要的东西所以我在下面编写了自己的模块代码运行良好但速度很慢
如何保护 web.config 中存储的密码的安全？

我在 web config 文件中添加了以下设置以启动对外部系统的 API 调用因此我存储 API URL 用户名密码如下所示
包含 MySQL 查询结果中未找到的值

我有以下 MySQL 表 tbl pet owners id name pet city date adopted 1 jane cat Boston 2017 07 11 2 jane dog Boston 2017 07 11 3 ja
cygwin中如何杀死进程？

您好我有以下无法杀死的进程我在 windows xp 32 位中运行 cygwin 我尝试发出以下命令 bin kill f 4760 bin kill 9 5000 kill 9 5000 kill 5000 当我写 bin kill
如何在 .net 中获取可用的 wifi AP 及其信号强度？

有没有办法使用 NET 访问所有 WiFi 接入点及其各自的 RSSI 值如果我可以在不使用非托管代码的情况下完成它那就太好了或者如果它可以在 Mono 和 NET 中工作那就更好了如果可能的话我将不胜感激代码示例谢谢以下是
使用隐藏代码的 nbextensions 时查找并转到文本

这是来自的重复this https stackoverflow com questions 530245473年前的问题目前还没有令人满意的解决方案问题是在使用 nbextensions 时在 Jupyter Notebook 的所有
虚拟机上奇怪的程序延迟行为

我编写了一个程序来读取 256KB 数组以获得 1 毫秒的延迟该程序非常简单并附带然而当我在Xen上的VM上运行它时我发现延迟不稳定它具有以下模式时间单位是ms totalCycle CyclePerLine totalms 2
使用 MySQLi 插入 NULL 而不是空值

我有一个带有一些可选字段的表单在数据库中这些字段设置为接受 NULL 如果某些字段为空下面的代码将引发错误您能帮忙看看避免这种情况的最佳方法是什么吗我想到的唯一解决方案是将变量设置为 if isempty query INSERT
从无符号整数中减去有符号整数[重复]

这个问题在这里已经有答案了 unsigned int value 1860 int data 1300 if data value gt 0 printf Why it is printing this 输出为什么打印这个我不明白为什么
linux gcc 链接器与 C 程序的问题

我正在尝试编译一个包含 c 文件标头的 C 程序但只有 1 个 c 文件真正使用了头文件中定义的变量这是一些会产生链接器问题的示例代码我试图让我的头文件包含 2 使用的全局变量不同的 c 文件任何类型的帮助将不胜感激谢谢 tmp
directX 创建交换链

在我的书中我编写了创建交换链的代码 IDXGIDevice dxgiDevice 0 mD3dDevice gt QueryInterface uuidof IDXGIDevice void dxgiDevice IDXGIAdapter
modelBuilder.IncludeMetadataInDatabase 在 EF CTP5 中的位置在哪里？

使用 CTP4 我曾经能够执行以下操作如由 ptrandem 建议 https stackoverflow com questions 3600672 entity framework ctp4 code first how to tur
Google Cloud Run 屏蔽授权标头中的承载令牌

Cloud Run 的 Google 文档指出您可以从授权标头中提取令牌文档在这里 https cloud google com run docs authenticating end users getting user profi
字符串数组中的随机元素[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我有一个字符串数组 String f
Heroku 上的 .Net Core 和 Docker

Context 我正在尝试部署一个ASPNET核心示例应用程序上Heroku https heroku com 与 docker 但不工作 repo https github com mykeels sample web api https
无法通过在 Apache Beam 中创建模板来按所需顺序运行多个管道

我有两个独立的管道分别为 P1 和 P2 根据我的要求我只需要在 P1 完全完成执行后才运行 P2 我需要通过一个模板完成整个操作基本上模板在找到 run 方式即 p1 run 时就被创建所以我可以看到我需要使用两个不同的模板
为什么信号处理程序中的 waitpid 需要循环？

我在一本电子书中读到 waitpid 1 status WNOHANG 应该放在 while 循环下这样如果多个子进程同时退出它们都会被收获我尝试了这个概念同时创建和终止 2 个子进程并通过 waitpid 不使用循环来获取它并
每个日期的 SQL 总金额

我有一个名为 rentals 的表其中存储如下数据 id rent id start date end date amount 1 54 12 10 2019 26 10 2019 100 2 54 13 10 2019 20 10 20
检查一个列表是否是 pandas Dataframe 中另一个列表的子集

所以我有这个包含近 3000 行的 Dataframe 看起来像这样 CITIES 0 A B 1 A B C D 2 A B C 4 X 5 X Y Z 2670 Y Z 我想从 DF 中删除 CITIES 列表包含在另一行中的所有行

检查一个列表是否是 pandas Dataframe 中另一个列表的子集

检查一个列表是否是 pandas Dataframe 中另一个列表的子集 的相关文章

随机推荐

热门标签

检查一个列表是否是 pandas Dataframe 中另一个列表的子集的相关文章