使用 pandas 查找列表列表中的所有匹配组

2023-12-28

我想找到 Pandas DataFrame 中所有 id 的所有情况。什么是有效的解决方案？我有大约 10k 条记录，它是在服务器端处理的。创建一个新的 DataFrame 是个好主意，还是可以使用更有效的数据结构？当 id 包含案例中的所有名称时，即满足案例。

输入（Pandas 数据框）

id | name |
-----------
1  | bla1 |
2  | bla2 |
2  | bla3 |
2  | bla4 |
3  | bla5 |
4  | bla9 |
5  | bla6 |
5  | bla7 |
6  | bla8 |

Cases

names [
  [bla2, bla3, bla4], #case 1
  [bla1, bla3, bla7], #case 2
  [bla3, bla1, bla6], #case 3
  [bla6, bla7] #case 4
]

需要的输出（除非有更有效的方法）

id | case1 | case2 | case3 | case4 |
------------------------------------
1  | 0     | 0     | 0     | 0     |
2  | 1     | 0     | 0     | 0     |
3  | 0     | 0     | 0     | 0     |
4  | 0     | 0     | 0     | 0     |
5  | 0     | 0     | 0     | 1     |
6  | 0     | 0     | 0     | 0     |

names = [
   ['bla2', 'bla3', 'bla4'], # case 1
   ['bla1', 'bla3', 'bla7'], # case 2
   ['bla3', 'bla1', 'bla6'], # case 3
   ['bla6', 'bla7']          # case 4
]

df = df.groupby('id').apply(lambda x: \
                pd.Series([int(pd.Series(y).isin(x['name']).all()) for y in names]))\
       .rename(columns=lambda x: 'case{}'.format(x + 1))

df
+------+---------+---------+---------+---------+
|   id |   case1 |   case2 |   case3 |   case4 |
|------+---------+---------+---------+---------|
|    1 |       0 |       0 |       0 |       0 |
|    2 |       1 |       0 |       0 |       0 |
|    3 |       0 |       0 |       0 |       0 |
|    5 |       0 |       0 |       0 |       1 |
|    6 |       0 |       0 |       0 |       0 |
+------+---------+---------+---------+---------+

First, groupby id，然后对每个组的每个案例依次应用检查。目的是检查组中的所有项目是否与给定案例匹配。这是由isin与列表理解结合起来。外层pd.Series将结果扩展到单独的列并且df.rename用于重命名列。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 pandas 查找列表列表中的所有匹配组的相关文章

Windows Defender 检测 Python EXE 为木马

我制作了一个 Python 脚本将 Windows 目录以 zip 形式邮寄给我我使用 sched 模块添加了一个调度程序每小时重复一次我试图制作一个简单的同步应用程序供个人使用在 Windows 启动时启动我使用将其转换为 e
OpenCV - 我需要将彩色图像插入黑白图像并且

我用以下代码将黑白图像插入彩色图像没问题 face grey cv cvtColor face cv COLOR RGB2GRAY for row in range 0 face grey shape 0 for column in ra
了解 asyncio 已经运行的永久循环和挂起的任务

我在理解如何将新任务挂起到已经运行的事件循环中时遇到问题这段代码 import asyncio import logging asyncio coroutine def blocking cmd while True logging in
python 脚本中 os.system 的 256 和 512 响应代码是什么

当我在 python 中使用 os system ping 服务器时我得到多个响应代码使用的命令 os system ping q c 30 s SERVERANME 0 在线 256 离线 512 512 是什么意思 Per the
如何为 C 分配的 numpy 数组注册析构函数？

我想在 C C 中为 numpy 数组分配数字并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
如何在Python中求和

我想知道如何在 python 中表示总和而不需要像这样的循环here http docs scipy org doc scipy reference tutorial optimize html 我们有 def rosen x The Ro
python-polars 通过分隔符将字符串列拆分为许多列

在 pandas 中以下代码会将 col1 中的字符串拆分为许多列有没有办法在极地做到这一点 d col1 a b c d a b c d df pd DataFrame data d df a b c d df col1 str sp
使用 python 只读取 Excel 中的可见行

我想只读取 python 中 Excel 工作表中的可见行输入 Excel表所以当我过滤时作为 python 中的输出在本例中我将仅获得可见数据 1 行这是我的代码 from openpyxl import load workbo
根据给定列表中的值替换列中的值[重复]

这个问题在这里已经有答案了我在数据框中有一列仅允许定义列表中存在的值例如给定列表 l1 1 2 5 6 如果列表中不存在列中的值我需要将每个值替换为 0 column Expected column 1 1 5 5 2 2 3 0
Python，多线程，获取网页，下载网页

我想在一个站点批量下载网页我的 urls txt 文件中有 5000000 个 url 链接大约有300M 如何让多线程链接这些网址并下载这些网页或者如何批量下载这些网页我的想法 with open urls txt r as f
使 np.loadtxt 使用多个可能的分隔符

我有一个程序可以读取数据文件用户可以选择他们想要使用的列我希望它对于输入文件更加通用有时列可能如下所示 10 34 24 58 8 284 6 121 有时它们可能看起来像这样 10 34 24 58 8 284 6 121 我希
使用 Python 脚本打开特定文件类型？

如何使 Python 脚本成为特定文件类型例如 foo 的默认应用程序例如当我双击 Finder Explorer 中的文件时我希望该文件在 Python 脚本中打开这可以在 Win 和或 OS X 中实现吗如果重要的话该应
Elasticsearch - EdgeNgram + 突出显示 + term_vector = 不好的突出显示

当我使用带有edgengram min 3 max 7 front term vector with positions offsets的分析器时文档包含文本 CouchDB 当我搜索 couc 时我的亮点是 cpu 而不是 couc
Qcut Pandas：ValueError：Bin 边缘必须是唯一的

我使用 Pandas 中的 Qcut 将数据离散化为大小相等的存储桶我想要有价格桶这是我的数据框 productId sell prix categ popularity 11997 16758760 0 28 75 50 524137
Scrapy的redirect_urls异常.KeyError

我是 Scrapy 和 Python 的新手最近推出了我的第一个蜘蛛有一个功能似乎以前有效但现在它只适用于我试图废弃的一些网站代码行是 item url direct response request meta redirect u
如何可视化多维数据上的 kmeans 聚类

我在 mnist 数据集上使用 kmeans 聚类算法并希望可视化聚类后的图到目前为止我做了这个 from mnist import MNIST mndata MNIST Datasets X train y train mndata
Flask 扩展未在 app.extensions 中注册

我想访问在我的 Flask 应用程序上注册的一些扩展我尝试使用app extensions 但我初始化的一些扩展不在字典中 from flask import current app current app extensions get
Matplotlib 中的 TwoSlopeNorm 未按预期工作

我正在尝试创建一个具有发散颜色图的绘图该颜色图在零附近不对称 In this https stackoverflow com a 20146989 6288682例如 DivergingNorm函数被使用并产生我想要的然而我使用的是更
VSCode无法切换matplotlib后端：ImportError：无法加载需要“qt5”交互框架的后端“Qt5Agg”

我只想通过在 VSCode 中运行 Python 来进行绘图但结果失败了我无法将后端从 agg 切换到 Qt5Agg 但是我可以在 VSCode 的终端中轻松执行此操作 VSCode集成终端中的问题如下所示我尝试了各种解决方案但失败
通过 ManyToManyField = Value 对 django 查询集进行排序

如果有一些模型例如 class Tag models Model name models CharField class Thing models Model title models CharField tags models Many

随机推荐

Backbone View 事件获得正确的目标

给出以下简单的 html div class someContainer h5 Some other information h5 div 以及以下主干视图 var view Backbone View extend events clic
我可以在 spring-data-rest 存储库中专门禁用 PATCH 吗？

我们 API 的客户端不使用补丁我想避免使用补丁以减少维护开销我不想禁用 POST 或 PUT 它可以通过扩展 WebSecurityConfigurerAdapter 可在弹簧安全配置 https mvnrepository com
“template 结构重载 : Ts... { using Ts::operator()...; };” 是什么意思？意思是，它如何与 std::visit 一起使用？

这段代码摘自https en cppreference com w cpp utility variant visit https en cppreference com w cpp utility variant visit using
使用运行时库的 Delphi 64 位调试有错误的堆栈帧处于活动状态

我遇到了 Win64 调试问题看起来我们缺少调试信息所以我做了一些research https stackoverflow com questions 8793683 delphi app has no debug info whe
NSLocalizedString 不默认为基本语言

我在一个小型 iOS 7 项目中测试本地化功能时遇到以下问题我有一个默认项目带有一个 VC 其中场景中间有一个按钮在我的 VC 中我的按钮有一个名为 myButton 的 IBOutlet 在 VC 的 viewDidLoad 方法
git 分支引用中的“..”是什么意思？

git log origin master git log origin master 与上面的具体区别是什么我试图了解到底是什么符号可以我认为这是一个范围但在这种情况下它做了不同的事情 With git log 以及所有其他采用类
Laravel Eloquent 模型的临时属性

我有一个 Laravel Eloquent 模型 User 其中有一个包含用户名和电子邮件列的表我需要在运行时为模型添加一个属性例如 user gt secure 该属性不需要进入数据库当我添加此属性并点击 user gt save
覆盖 App.xaml 中的标准主题

我正在使用标准 WPF 主题 Aero NormalColor xaml 而且效果很好然而对于整个申请我想将文本框的前景色覆盖为红色我的第一次尝试是
是否有比较 django、rails 和 PHP 框架各自内存使用情况的基准？

我必须在 RAM 有限 1 GB 无交换的嵌入式服务器上运行包含许多服务的 Web 服务器最多有 100 个用户我将提供论坛小游戏 javascript 或 flash 等服务我的团队非常了解 Ruby on Rails 但我有点
在 Swift 3 中单击处于终止/关闭状态的推送通知时，应用程序无法打开

如何打开一个Application当应用程序处于killed closed状态我收到通知但当我单击通知应用程序时未打开但当应用程序位于前台或后台时工作正常我尝试了下面的代码仍然无法解决问题所在请检查我尝试过的内容 func app
如何允许用户通过 PayPal 的 REST API 付款，但无需注册 PayPal 帐户？

这是我想要的用例我通过 PayPal 的 REST API 创建付款我向用户提供由 PayPal 发送给我的付款链接用户可以点击该链接用户选择是否通过 PayPal 帐户存储的信用卡付款或无需注册即可立即通过信用卡您可以使用新的
设置 WPF ListView 标题悬停颜色的样式

有人知道如何设置 WPF ListView 的标题悬停颜色样式吗 Thanks 你必须为GridView ColumnHeaderContainerStyle财产通过为样式设置一些触发器来添加悬停效果例如
使用 JavaScript 检查互联网连接

PROBLEM 我想在 WiFi 关闭时显示警报即没有网络连接在我的网页中我有许多按钮弹出窗口等用户可以在离线时单击任何内容但我想显示 API 调用是否失败我可以检查navigator onLine在每次点击中但我不想写函数
ios应用程序在后台运行时如何打开sqlite数据库

我的应用程序在后台捕获位置数据并保存在 sqlite 数据库中当设备未锁定时它运行良好但当设备锁定时我无法访问 sqlite 数据库它总是给我错误代码 SQLITE AUTH 错误代码 23 我尝试过以下选项禁用功能中的数据保护不
什么可能导致 numpy.nanstd() 返回 nan？

我有一个相对较大的一维数组 20000 个观测值当我计算描述性统计数据例如标准差平均值总和时我得到的是 nan 值但是当我从同一数组计算百分比时我得到了我期望的值我尝试了 numpy nanstd nanmean 等函数
Excel 公式返回具有特定名称和特定列的行的交集的单元格值？ [复制]

这个问题在这里已经有答案了是否有一个 Microsoft Excel 公式可以返回位于特定列中的最后一个单元格的单元格值同时与具有给定名称的行相交使用 Office 365 我们可以过滤范围并返回所有符合条件的数组然后使用 TAKE
Laravel - 如何在验证规则构造中自动注入？

我无法通过 Laravel 注入这些变量 class AllowedUsername implements Rule public function construct Router router Filesystem files Repo
Neo4J 约束中的非空属性

是否可以在 Neo4J 数据库中创建属性不为空的约束就像是 CREATE CONSTRAINT ON p Person ASSERT p name IS NOT NULL 它已计划并已在 Neo4j 2 3 中实现应该可在 2 3 RC
如何获取单选按钮的值？

我有一个包含单选按钮的组框例如 o Male o Female 我希望我的代码获取单选按钮的选定值并将其复制到字符串类型变量请使用简单的代码因为我不是很专业 thanks 对于Winforms 要从单选按钮中获取值假设您需要该值而
使用 pandas 查找列表列表中的所有匹配组

我想找到 Pandas DataFrame 中所有 id 的所有情况什么是有效的解决方案我有大约 10k 条记录它是在服务器端处理的创建一个新的 DataFrame 是个好主意还是可以使用更有效的数据结构当 id 包含案例中的所

使用 pandas 查找列表列表中的所有匹配组

使用 pandas 查找列表列表中的所有匹配组 的相关文章

随机推荐

热门标签

使用 pandas 查找列表列表中的所有匹配组的相关文章