根据条件替换并合并 pandas 中的行

2024-01-22

我有一个数据框：

   lft rel rgt num
0   t3  r3  z2  3
1   t1  r3  x1  9
2   x2  r3  t2  8
3   x4  r1  t2  4
4   t1  r1  z3  1
5   x1  r1  t2  2
6   x2  r2  t4  4
7   z3  r2  t4  5
8   t4  r3  x3  4
9   z1  r2  t3  4

以及参考词典：

replacement_dict = {
    'X1' : ['x1', 'x2', 'x3', 'x4'],
    'Y1' : ['y1', 'y2'],
    'Z1' : ['z1', 'z2', 'z3']
}

我的目标是替换所有出现的replacement_dict['X1']与“X1”，然后将行合并在一起。例如，“x1”、“x2”、“x3”或“x4”的任何实例都将替换为“X1”等。

我可以通过选择包含任何这些字符串的行并将其替换为“X1”来完成此操作：

keys = replacement_dict.keys()
for key in keys:
    DF.loc[DF['lft'].isin(replacement_dict[key]), 'lft'] = key
    DF.loc[DF['rgt'].isin(replacement_dict[key]), 'rgt'] = key

giving:

    lft rel rgt num
0   t3  r3  Z1  3
1   t1  r3  X1  9
2   X1  r3  t2  8
3   X1  r1  t2  4
4   t1  r1  Z1  1
5   X1  r1  t2  2
6   X1  r2  t4  4
7   Z1  r2  t4  5
8   t4  r3  X1  4
9   Z1  r2  t3  4

现在，如果我选择包含“X1”的所有行并将它们合并，我最终应该得到：

    lft rel rgt num
0   X1  r3  t2  8
1   X1  r1  t2  6
2   X1  r2  t4  4
3   t1  r3  X1  9
4   t4  r3  X1  4

因此，三列 ['lft', 'rel', 'rgt'] 是唯一的，而 'num' 列是为每一行添加的。上面的第 1 行：['X1' 'r1' 't2' 6] 是两行 ['X1' 'r1' 't2' 4] 和 ['X1' 'r1' 't2' 2] 的总和。

我可以轻松地对少量行执行此操作，但我正在使用包含 600 万行的数据框和包含 60,000 个键的替换字典。使用简单的逐行提取和替换会花费很长时间。

如何有效地扩展这一点（特别是最后一部分）？有人可以推荐熊猫技巧吗？

Reverse the replacement_dict mapping and map() this new mapping to each of lft and rgt columns to substitute certain values (e.g. x1->X1, y2->Y1 etc.). As some values in lft and rgt columns don't exist in the mapping (e.g. t1, t2 etc.), call fillna() to fill in these values.¹

您还可以stack()需要替换值的列（lft 和 rgt），调用 map+fillna 并unstack()返回，但因为只有 2 列，对于这种特殊情况可能不值得麻烦。

问题的第二部分可以通过按 lft、rel 和 rgt 列分组后对 num 值求和来回答；所以groupby().sum()应该可以解决问题。

# reverse replacement map
reverse_map = {v : k for k, li in replacement_dict.items() for v in li}

# substitute values in lft column using reverse_map
df['lft'] = df['lft'].map(reverse_map).fillna(df['lft'])
# substitute values in rgt column using reverse_map
df['rgt'] = df['rgt'].map(reverse_map).fillna(df['rgt'])

# sum values in num column by groups
result = df.groupby(['lft', 'rel', 'rgt'], as_index=False)['num'].sum()

¹: map() + fillna() may perform better for your use case than replace() because under the hood, map() implements a Cython optimized take_nd() method that performs particularly well if there are a lot of values to replace, while replace() implements replace_list() method which uses a Python loop. So if replacement_dict is particularly large (which it is in your case), the difference in performance will be huge, but if replacement_dict is small, replace() may outperform map().

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

根据条件替换并合并 pandas 中的行的相关文章

Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
奇怪的 MySQL Python mod_wsgi 无法连接到 'localhost' (49) 上的 MySQL 服务器问题

StackOverflow上也有类似的问题但我还没有发现完全相同的情况这是在使用 MySQL 的 OS X Leopard 机器上一些起始信息 MySQL Server version 5 1 30 Apache 2 2 13 Uni
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
Tkinter - 浮动窗口 - 调整大小

灵感来自this https stackoverflow com a 22424245 13629335问题我想为我的根窗口编写自己的调整大小函数但我刚刚注意到我的代码显示了一些性能问题如果你快速调整它的大小你会发现窗口没有像我希望
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
Python 无法使用套接字绑定我的外部/公共 IP 地址，给出错误但是当使用本地 IP 地址时，错误不会显示

这是出现主要错误的代码与我的本地 IP 的绑定将起作用 s bind 192 168 1 4 port 与我的公共 IP 的绑定失败并出现以下错误 s bind 99 99 99 99 port WinError 10049 请求的地址在
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1
Scrapy Spider不存储状态（持久状态）

您好有一个基本的蜘蛛可以运行以获取给定域上的所有链接我想确保它保持其状态以便它可以从离开的位置恢复我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

随机推荐

与多个字段和 mongodb 中的 where 条件不同

我想写一个相当于distinct and where in mongodb SQL查询是select DISTINCT key score from GPC where note test2 and notetwo meet2 id Obj
自定义 iOS Twitter 身份验证页面？

我正在制作一个移动应用程序用户可以将他们的 Twitter 帐户连接到该应用程序我只是有点好奇最好的方法是什么现在我希望能够制作自己的自定义页面无需使用 UIWebView 这可能吗如果怎样那么 Thanks 据我了解您不希
如何在 Node.js server.listen() 中使用可选的主机名参数

从我到目前为止在教程中读到的内容来看可选的hostname参数为server listen port hostname backlog callback 一直都是127 0 0 1 环回 0 0 0 0 监听每个可用的网络接口默认选项
Tomcat 中是否可以让一个 appBase 由多个上下文路径提供服务？

Tomcat 中是否可以让一个 appBase 由多个上下文路径提供服务我有一个应用程序库最近替换了第二个应用程序库我的问题是许多用户仍然访问旧的上下文我想从单个 appBase 提供现在常见的应用程序但可以通过任一上下文访问我
Jasmine：可观察到的单元测试 http 服务错误

我对如何模拟我的 http 服务捕获可观察到的错误感到非常困惑我已阅读角度文档但我不明白如何构建测试我想模拟我的服务中的错误然后检查它是否捕获了可观察到的错误我有另一个服务可以创建并抛出可观察到的错误我的其余服务只是在遇到错误时
我的 MVC 自定义 ControllerFactory 可以工作，但还能更好吗？

我研究过 Ninject StructureMap 和其他依赖注入和服务定位器框架但这个问题更多的是关于了解它是如何工作的以及什么可以做得更好更重要的是我无意于查看框架的依赖注入源代码而是了解它在实践代码中从头到尾是如何实现的下
如何让 Git 忽略符号链接？

我的项目文件夹中有符号链接以便当我在 Windows 10 计算机上的本地开发服务器中运行项目时可以访问大型视频和图像目录问题是 Git 不允许我执行 add 因为当存在符号链接时它会给我这个错误 error readlink Pro
您如何向没有 Javascript 之外的编程经验的人解释 Javascript 类型数组？

最近我经常使用 Canvas 开发一些关于网络游戏的想法因此我最近遇到了 Javascript 类型数组我已经读过一些书例如MDN https developer mozilla org en US docs Web JavaScr
错误：自构建预编译头以来系统文件已被修改

我刚刚下载了 xcode 6 的最终版本并编译了一个我正在使用测试版的项目现在显然生成了以下错误模拟器有人可以帮助我解决这个问题 fatal error file Applications Xcode app Contents Deve
如何在asp .net core web api中获取后台服务中的主机URL？

我有一个 Asp Net core Web api 它将运行后台服务来每天安排一些任务并发送一些邮件在邮件中我需要有 api 的 url 除了控制器之外还有什么方法可以在后台服务中获取主机 URL 后台服务在 Web 请求的范围之外运行
javax.xml.soap.MessageFactory的实例是线程安全的吗？

有人知道 javax xml soap MessageFactory 的实例是否是线程安全的吗我找不到任何与之相关的文档如果您没有看到任何关于某些东西是否是线程安全的文档您应该假设它不是如果你假设它是但事实并非如此这将避免很多头
postgresql 中 mmm yyyy 格式的日期

我有一个表其中有一列没有时区的时间戳类型我想选择该列mmm yyyy格式例如 2011 年 3 月怎么格式化成这样呢我试过 select cast now as date 但它给了我不正确的格式 SELECT TO CHAR NO
用 React 计算 SVG 边界框？

我正在编写一个使用 React 生成 SVG 的可视化应用程序我需要的部分之一是标签即文本由封闭框包围带有可变文本可能会旋转和设置样式所以我有一个组件NodeLabel 目前具有固定尺寸 render return
使用多列的参数化 IN 子句

我有一个沿着这些线的查询我试图通过比较元组来过滤结果集例如SQL IN 子句中的多列 https stackoverflow com questions 13027708 sql multiple columns in in claus
Xcode UI 测试无密码身份验证

我应该如何测试我的 iPhone 应用程序无密码认证 https medium com ninjudd passwords are obsolete 9ed56d483eb 要注册或登录 Xcode 中的 UI 测试 https devel
Solr 到应用程序洞察

如何配置 Solr 日志以发送到 Azure Application Insights 我看到可以使用 Log4J 附加程序 https learn microsoft com en us azure application insight
我必须在哪里以及为什么必须放置“template”和“typename”关键字？

在模板中我必须在哪里以及为什么要放置typename and template关于从属名称到底什么是从属名称我有以下代码 template
更改 FileStream 写入编码类型

这是我的代码 public static string DownloadFile string FtpUrl string FileNameToDownload string userName string password string
在将 json 对象转换为字符串或字节时，Json 对象包含转换为“\n”的换行符

包含换行符的 Json 对象被转换为 n 将 json 对象转换为字符串或字节时如果我选择以下任何一种方式它将新行字符转换为 n byte json objectMapper writeValueAsBytes jsonObject S
根据条件替换并合并 pandas 中的行

我有一个数据框 lft rel rgt num 0 t3 r3 z2 3 1 t1 r3 x1 9 2 x2 r3 t2 8 3 x4 r1 t2 4 4 t1 r1 z3 1 5 x1 r1 t2 2 6 x2 r2 t4 4 7 z3

根据条件替换并合并 pandas 中的行

根据条件替换并合并 pandas 中的行 的相关文章

随机推荐

热门标签

根据条件替换并合并 pandas 中的行的相关文章