我可以使用正则表达式和 pandas 在两个数据帧之间执行左连接/合并吗？

2023-12-21

我正在尝试使用 Python 中的正则表达式执行左合并，该正则表达式可以处理多对多关系。例子：

    df1 = pd.DataFrame(['a','b','c','d'], columns = ['col1'])
    df1['regex'] = '.*' + df1['col1'] + '.*'

    col1    regex
  0 a   .*a.*
  1 b   .*b.*
  2 c   .*c.*
  3 d   .*d.*

    df2 = pd.DataFrame(['ab','a','cd'], columns = ['col2'])

    col2
  0 ab
  1 a
  2 cd

    # Merge on regex column to col2

    out = pd.DataFrame([['a','ab'],['a','a'],['b','ab'],['c','cd'], 
    ['d','cd']],columns = ['col1','col2'])


    col1    col2
  0 a   ab
  1 a   a
  2 b   ab
  3 c   cd
  4 d   cd

您可以使用创建自定义函数来查找两个数据帧的所有匹配索引，然后提取这些索引并使用pd.concat https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html.

import re
def merge_regex(df1, df2):
    idx = [(i,j) for i,r in enumerate(df1.regex) for j,v in enumerate(df2.col2) if re.match(r,v)]
    df1_idx, df2_idx = zip(*idx)
    t = df1.iloc[list(df1_idx),0].reset_index(drop=True)
    t1 = df2.iloc[list(df2_idx),0].reset_index(drop=True)
    return pd.concat([t,t1],axis=1)

merge_regex(df1, df2)
  col1 col2
0    a   ab
1    a    a
2    b   ab
3    c   cd
4    d   cd

计时结果

# My solution
In [292]: %timeit merge_regex(df1,df2)
1.21 ms ± 22.2 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

#Chris's solution
In [293]: %%timeit
     ...: df1['matches'] = df1.apply(lambda r: [x for x in df2['col2'].values if re.findall(r['regex'], x)], axis=1)
     ...: 
     ...: df1.set_index('col1').explode('matches').reset_index().drop(columns=['regex'])
     ...:
     ...:
4.62 ms ± 25.2 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

pandas

我可以使用正则表达式和 pandas 在两个数据帧之间执行左连接/合并吗？的相关文章

静态文件配置不正确

我已经在 Heroku 上部署了简单的博客应用程序它运行在Django 1 8 4 我在静态文件方面遇到了一些问题当打开我的应用程序时我看到Application Error页面所以我尝试调试它并发现当我提交到 Heroku 时它无
Python 小数.InvalidOperation 错误

当我运行这样的东西时我总是收到此错误 from decimal import getcontext prec 30 b 2 3 Decimal b Error Traceback most recent call last File Te
我怎样才能在python cgi中找到上传的文件名

我制作了如下简单的网络服务器 import BaseHTTPServer os cgi import cgitb cgitb enable html
有条件填写 pandas 数据框

我有一个数据框df列中包含浮点值A 我想添加另一列B这样 B 0 A 0 for i gt 0 B i if np isnan A i then A i else Step3 B i if abs B i 1 A i B i 1 lt 0
使用opencv计算深度视差图

我无法使用 opencv 从视差图计算深度我知道两个立体图像中的距离是用以下公式计算的z baseline focal disparity p 但我不知道如何使用地图计算视差我使用的代码如下为我提供了两个图像的视差图 import n
绘制“plot”而不是“scatter”时，图例选择会中断

再会这个问题是后续问题为什么图例选取仅适用于 ax twinx 而不适用于 ax https stackoverflow com q 60167378 9282844 下面提供的最小代码分别绘制了两条曲线ax1 and ax2 ax1 t
电话号码的正则表达式，不允许全零

需要您的正则表达式帮助我当前的正则表达式是 d 8 最小长度为 8 不允许包含字母特殊字符和空格我还想禁止全零如 00000000 Thanks 该模式应该可以满足您的需求 0 d 8 The 0 部分是负前瞻将阻止仅输入零 Ex
使用 Python 的文本中的词频但忽略停用词

这给了我文本中单词的频率 fullWords re findall r w allText d defaultdict int for word in fullWords d word 1 finalFreq sorted d iterit
Selenium Webdriver - Python - leboncoin - pb 选择带重音的按钮

我正在尝试在以下网站上自动填写表格 https www leboncoin fr https www leboncoin fr 我用 Selenium IDE 录制了一个脚本我有一个通过单击 Se 连接器按钮并填写我的密码和用户名来自动
Pandas Pivot_Table ：非数字值的行计算百分比

这是我在数据框 df 中的数据 Document Name Time SPS2315511 A 1 HOUR SPS2315512 B 1 2 HOUR SPS2315513 C 2 3 HOUR SPS2315514 C 1 HOUR S
如何使用python读取最后一行的特定位置

我有一个太大的 txt 文件并且有几行类似的行如下所示字1 字2 字3 字4 553 75 我对位置 4 值感兴趣即最后一行 553 75 我的文件文本 word1 word2 word3 word4 553 20 word1 w
InvalidArgumentException：消息：无效参数：“using”必须是字符串

我对 python 很陌生试图创建可重用的代码当我尝试通过传递 Login 类下使用的所有参数来调用 test main py 中的 Login 类和函数 login user 时我收到错误 InvalidArgumentExcept
如何使用 jira-python 设置 fixVersions 字段

我正在尝试使用 jira python 模块 http jira python readthedocs org en latest 更新现有的 JIRA 具体来说我正在尝试设置问题的fixesVersion 列表我已经尝试了一段时间但没
如何在 Python 中执行相当于预处理器指令的操作？

有没有办法在 Python 中执行以下预处理器指令 if DEBUG lt do some code gt else lt do some other code gt endif There s debug 这是编译器预处理的特殊值 if
请求response.iter_content()获取不完整的文件（1024MB而不是1.5GB）？

您好我一直在使用此代码片段从网站下载文件到目前为止小于 1GB 的文件都很好但我注意到 1 5GB 文件不完整 s is requests session object r s get fileUrl headers headers
向量化 numpy bincount

我有一个 2d numpy 数组 A我要申请np bincount 到矩阵的每一列A生成另一个二维数组B由原始矩阵每列的 bincounts 组成A 我的问题是 np bincount 是一个采用一维数组的函数它不是像这样的数组方法B A
对数据框的行进行排序

我有以下数据框 adjusted RFC df Node Feature Indicator Scaled Class Direction True False 0 0 km lt 0 181 class 4 0 gt 1 NA 125 1
在 Tensorflow 2.0 中的简单 LSTM 层之上添加 Attention

我有一个由一个 LSTM 和两个 Dense 层组成的简单网络如下所示 model tf keras Sequential model add layers LSTM 20 input shape train X shape 1 trai
如何动态创建 Luigi 任务

我正在为 Luigi Tasks 构建一个包装器但遇到了一个障碍Register http luigi readthedocs io en stable modules luigi task register html Register该
在Python中从列表中获取n个项目组的惯用方法？ [复制]

这个问题在这里已经有答案了给定一个列表 A 1 2 3 4 5 6 是否有任何惯用的 Pythonic 方式来迭代它就好像它是 B 1 2 3 4 5 6 除了索引之外这感觉像是 C 的遗留物 for a1 a2 in A i A i

随机推荐

Java 用 '（撇号/单引号）和 \（反斜杠）一起替换问题

我好像遇到问题了我有一个查询字符串其中的值可以包含单引号这将破坏查询字符串所以我试图做一个替换来改变 to 这是示例代码 This is it replace 其输出仍然是 This is it 它认为我只是在为引用做一个转义字符所
未能找到目标 Vuzix Corporation:Vuzix M300 SDK:23

我正在尝试为 Vuzix M300 智能眼镜开发应用程序我已经通过 Android SDK Manager 安装了 Vuzix SDK 我已遵循 Vuzix 文档中提到的所有步骤我还将编译 SDK 版本设置为 Vuzix M300 SD
你调用的对象是空的

当我在 NUnit 中运行这个程序时出现错误你调用的对象是空的虽然这不是原始程序但我也遇到了类似的错误任何帮助表示赞赏异常发生于 driver Navigate GoToUrl http www yahoo com 程序 usi
逐行将 .txt 读取到批处理变量中

我有一个批处理脚本可以将 ping 发送到某些 PC 可用的 PC 被写入文本文件中因此每台 PC 都站在自己的行中另一个批处理脚本将一些文件复制到 PC 目前它尝试复制到所有 PC 现在我想修改脚本以便批处理读出文本文件并仅复制到
图结构中拥有的指针

在 Rust 社区的慷慨帮助下我成功地获得了使用托管指针组装的拓扑数据结构的基础这一切结合得相当好总的来说我对 Rust 非常兴奋然后我读了这个post http pcwalton github io blog 2013 06 02
reflog 过期并 gc prune 后推送到原点

我使用以下命令删除了本地存储库中的一些无法访问和悬空的提交 git fsck unreachable dangling no reflogs git reflog expire expire now all git gc prune now
如何使用react js在Fetch API中设置超时

我在 React js 中使用 fetch post 方法当向后端发送请求时需要 7 分钟才能提供响应然后前端会自动超时你能帮我解决一下如何在 fetch 方法中设置 10 分钟的时间让前端等待响应并且只有当后端花费超过 10
前缀/后缀增量运算符

我想确保我正确理解按值传递与按引用传递特别是我正在查看增量的前缀后缀版本对象的运算符假设我们有以下课程X class X private int i public X i 0 X operator i return this pr
单选按钮在 Chrome 中显示不需要的白色背景。火狐浏览器没问题

在 Google Chrome 中单选按钮会在圆圈周围显示不需要的白色背景这在 Firefox 中并未按预期显示 Please check these images 她是有问题的页面的直接链接在 Firefox 和 Chrome 中检
是否存在 setfable nthcdr 实现？

我正在使用 clisp 我想知道是否有任何带有可设置版本的 nthcdr 的库可供我使用你可以用以下方法解决它 let lst list 1 2 3 4 n 2 setf cdr nthcdr 1 n lst 5 6 7 l gt 1 2
改装 400 错误请求

这是我用于网络调用的函数 private void getSample Log d getSample OkHttpClient client new OkHttpClient HttpLoggingInterceptor intercep
如何从批处理脚本检查Java安装？

我需要编写一个批处理脚本来查找是否安装了Java 如果安装了那么在什么路径下我觉得它必须是类似这样的 for f j in java exe do set JAVA HOME 但我不明白附它必须与带有空格两个的路径一起使用就像ja
Haskell主要函数

module Main where qsort Ord a gt a gt a qsort qsort x xs qsort smaller x qsort larger where smaller a a lt xs a lt x lar
使用 Android SIP 堆栈进行点对点 SIP 呼叫？

我一直在寻找一种方法来设置 Android SIP 堆栈以便能够以临时方式在同一网络上的两个设备之间建立 SIP 呼叫即无需注册到 SIP 服务器我无法让它工作因为 SIP 演示包括服务器注册如果没有此步骤我无法让它拨打或接听电
python中的全局计数器线程安全吗？

import threading import time counter 0 def increase name global counter i 0 while i lt 30 this for loop is for consuming
具有固定参数值的路由的别名

我有这条路线 Route get MyModel id MyController show 方法show 接受一个名为id我想设置一个别名 MyModel 1所以可以从 MyCustomURL 我已经尝试了一些组合例如 Route get
获取 powershell 显示驱动器上可以找到某个文件的所有路径

我正在尝试构建一个函数该函数将显示某个文件名所在的所有路径该函数将采用一个参数即文件名结果要么是所有路径的列表要么是一条消息说系统上没有这样的文件我是 Powershell 新手目前还没有掌握语法我试过这个 Get Chil
键盘不适用于 uiactionsheet 中的文本字段

我在 uiactionsheet 中添加了 textfeld 作为 void showAction printf getting action ready n UIActionSheet asheet UIActionSheet alloc
Prolog - 递归地将数字附加到列表中

我刚刚开始学习 Prolog 并且在理解递归概念时遇到了麻烦现在仅出于练习目的我正在尝试编写一个程序将 10 个数字附加到列表中然后打印出该列表这个程序的自我强加的规则是列表必须在主谓词中声明我不确定这对于 Prolog 来
我可以使用正则表达式和 pandas 在两个数据帧之间执行左连接/合并吗？

我正在尝试使用 Python 中的正则表达式执行左合并该正则表达式可以处理多对多关系例子 df1 pd DataFrame a b c d columns col1 df1 regex df1 col1 col1 regex 0 a a

我可以使用正则表达式和 pandas 在两个数据帧之间执行左连接/合并吗？

我可以使用正则表达式和 pandas 在两个数据帧之间执行左连接/合并吗？ 的相关文章

随机推荐

热门标签

我可以使用正则表达式和 pandas 在两个数据帧之间执行左连接/合并吗？的相关文章