Pandas：如果数据框中的值包含另一个数据框中的字符串，则附加列

2024-01-07

假设我有两个数据帧 df1 和 df2。如果 df1 的特定列的值包含 df2 的特定列中的字符串，我想将 df2 的一些列附加到 df1，如果不是，则为 NaN。

一个小例子：

import pandas as pd
df1 = pd.DataFrame({'col': ['abc', 'def', 'abg', 'xyz']})
df2 = pd.DataFrame({'col1': ['ab', 'ef'], 'col2': ['match1', 'match2'], 'col3': [1, 2]})

df1:
   col
0  abc
1  def
2  abg
3  xyz

df2:

  col1    col2    col3
0   ab  match1       1
1   ef  match2       2

I want:

   col   col2_match   col3_match
0  abc       match1            1
1  def       match2            2
2  abg       match1            1
3  xyz          NaN          NaN

我设法以一种肮脏且低效的方式做到这一点，但就我而言， df1 包含大约 100K 行，并且需要很长时间......

提前致谢！

EDIT

有点脏，但工作完成得相对较快（不过我仍然认为存在一种最聪明的方法......）：

import pandas as pd
import numpy as np


df1 = pd.DataFrame({'col': ['abc', 'def', 'abg']})
df2 = pd.DataFrame({'col1': ['ab', 'ef'],
                    'col2': ['match1', 'match2'],
                    'col3': [1, 2]})


def return_nan(tup):
    return(np.nan if len(tup[0]) == 0 else tup[0][0])


def get_indexes_match(l1, l2):
    return([return_nan(np.where([x in e for x in l2])) for e in l1])


def merge(df1, df2, left_on, right_on):
    df1.loc[:, 'idx'] = get_indexes_match(df1[left_on].values,
                                          df2[right_on].values)
    df2.loc[:, 'idx'] = np.arange(len(df2))
    return(pd.merge(df1, df2, how='left', on='idx'))


merge(df1, df2, left_on='col', right_on='col1')

您可以使用 python difflib 模块进行模糊匹配，如下所示

import difflib 
difflib.get_close_matches
df1.col = df1.col.map(lambda x: difflib.get_close_matches(x, df2.col1)[0])

所以现在你的 df1 是

    col
0   ab
1   ef
2   ab

如果您希望保持 df1 不变，您可以将其称为 df3。

现在您可以合并

merged = df1.merge(df2, left_on = 'col', right_on = 'col1', how = 'outer').drop('col1', axis = 1)

合并的数据框看起来像

    col col2    col3
0   ab  match1  1
1   ab  match1  1
2   ef  match2  2

编辑：如果像给出的新示例那样不匹配，您只需在 lambda 中添加一个条件

df1.col = df1.col.map(lambda x: difflib.get_close_matches(x, df2.col1)[0] if difflib.get_close_matches(x, df2.col1) else x)

现在合并后你得到

    col col2    col3
0   ab  match1  1
1   ab  match1  1
2   ef  match2  2
3   xyz NaN     NaN

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Pandas：如果数据框中的值包含另一个数据框中的字符串，则附加列的相关文章

python - 是否可以扩展 xml-rpc 可以序列化的事物集？

我看到几个问题询问如何发送numpy ndarray通过 xml rpc 调用这不能开箱即用因为正如 xml rpc 中所述docs https docs python org 2 library xmlrpclib html 有一组固
从字符串到类型的词法转换

最近我尝试用Python存储和读取文件中的信息遇到了一个小问题我想从文本文件中读取类型信息从 string 到 int 或 float 的类型转换非常有效但从 string 到 type 的类型转换似乎是另一个问题当然我尝试了
Python 3 __getattribute__ 与点访问行为

我读了一些关于 python 的对象属性查找的内容这里 https blog ionelmc ro 2015 02 09 understanding python metaclasses object attribute lookup h
Python BeautifulSoup XML 解析

我编写了一个简单的脚本来使用 BeautifulSoup 模块解析 XML 聊天日志标准 soup prettify 工作正常只是聊天日志中有很多绒毛您可以在下面看到我正在使用的脚本代码和一些 XML 输入文件 Code import
优化 Keras 以使用所有可用的 CPU 资源

好吧我真的不知道我在说什么所以请耐心听我说我正在使用 Theano 后端运行 Keras 以在 MNIST 图像上运行基本的神经网络目前只是一个教程过去我一直使用我的旧 HP 笔记本电脑因为我有 Windows 和 Ubunt
Paramiko - 使用私钥连接 - 不是有效的 OPENSSH 私钥/公钥文件

我正在尝试找到解决方案但无法理解我做错了什么在我的 Linux 服务器上我运行了以下命令 ssh keygen t rsa 这产生了一个id rsa and id rsa pub file 然后我将它们复制到本地并尝试运行以下代码 s
Python - 用逗号分割，跳过括号内的内容

我需要用逗号分隔字符串但我对这种情况有一个问题 TEXT EXAMPLE THIS IS A EXAMPLE BUT NOT WORKS FOR ME SECOND THIRD 我想拆分并得到 var 0 TEXT EXAMPLE THI
定义函数后对其进行修饰？

I think答案是否定的但我似乎找不到明确的说法我有以下情况 def decorated function function functools wraps function def my function print Hello s
在径向（树）网络x图中查找末端节点（叶节点）

给定下图是否有一种方便的方法来仅获取末端节点我所说的端节点是指那些具有一个连接边的到节点我认为这些有时被称为叶节点 G nx DiGraph fromnodes 0 1 1 1 1 1 2 3 4 5 5 5 7 8 9 10 ton
如何在 Python 中将彩色输出打印到终端？

是否有与 Perl 等效的 Python 语言 print color red print
如何在python中检索aws批处理参数值？

流程 Dynamo DB gt Lambda gt 批处理如果将角色 arn 插入动态数据库它是从 lambda 事件中检索的然后使用submit job角色 arn 的 API 被传递为 parameters role arn ar
更改 pandas 中多个日期时间列的时区信息

有没有一种简单的方法可以将数据帧中的所有时间戳列转换为本地任何时区不是逐列进行吗您可以有选择地将转换应用于所有日期时间列首先选择它们select dtypes https pandas pydata org pandas docs
Python 中的 @staticmethod 与 @classmethod

方法和方法有什么区别装饰的 https peps python org pep 0318 with staticmethod http docs python org library functions html staticmethod和
如何在Python和Selenium中通过标签名称或id获取元素[重复]

这个问题在这里已经有答案了我正在尝试使用 Python 和 Selenium 获取输入但它向我显示错误我该如何解决这个错误 inputElement send keys getStock getStocklFunc 0 Error i
如何列出 python PDB 中的当前行？

在 perl 调试器中如果重复列出离开当前行的代码段可以通过输入命令返回到当前行点我无法使用 python PDB 模块找到任何类似的东西如果我list如果我自己离开当前行并想再次查看它似乎我必须记住当前正在执行的行号对我来说
在 MacO 和 Linux 上安装 win32com [重复]

这个问题在这里已经有答案了我的问题很简单我可以安装吗win32com蟒蛇API pywin32特别是在非 Windows 操作系统上我一直在Mac上尝试多个版本pip install pywin32 都失败了下面是一个例子如果你
Airflow Python 单元测试？

我想为我们的 DAG 添加一些单元测试但找不到任何单元测试有 DAG 单元测试框架吗有一个端到端的测试框架存在但我猜它已经死了 https issues apache org jira browse AIRFLOW 79 https
导入错误：没有名为 google.auth 的模块

当我尝试导入时firebase admin in python 2 7我收到错误导入错误没有名为 google auth 的模块这是Docker文件 https github com ammaratef45 Attendance bl
Python - 如何查询定义方法的类？

我的问题有点类似于this one https stackoverflow com questions 5520580 how do you get all classes defined in a module but not impor
Python 3.2 中 **kwargs 和 dict 有什么区别？

看起来Python的很多方面都只是功能的重复除了我在 Python 中的 kwargs 和 dict 中看到的冗余之外还有什么区别吗参数解包存在差异许多人使用kwargs 并通过dict作为论据之一使用参数解包 Prepare f

随机推荐

JVM 规范中 JSR/RET 的状态

JVM 规范的某些部分建议操作JSR 跳转子例程 http docs oracle com javase specs jvms se8 html jvms 6 html jvms 6 5 jsr JSR W 跳转子例程范围 http doc
正则表达式查找浮点数

我以前从未使用过正则表达式但这个 java 函数需要它如下所示如何设置 Edittext 视图仅允许两个数值和两个小数值如 https stackoverflow com questions 5736833 how to set e
Hibernate：从核心 API 切换到 JPA API，无需重写映射

是否可以使用 hbm xml Hibernate 配置以符合 JPA 2 0 的方式构建 EntityManagerFactory 和 EntityManager 该文档似乎表明这是不可能的前面的教程使用了 Hibernate 特定的 h
使用 Intellij 2016 创建 Jar - 无主要清单属性

我正进入状态no main manifest attribute运行 Intellij 创建的 jar 时我取出罐子并观察到有another清单文件而不是我在创建工件时指定的文件当我在 IDE 中打开清单时它会正确显示所有内容但
Javascript下划线数组到对象

有没有一种简单干净的方法使用下划线来改变这个 id medium votes 7 id low votes 9 id high votes 5 Into low 9 medium 7 high 5 您可能会考虑 indexBy var d
h2o 中的属性选择

我是 h2o 的初学者我想知道 h2o 框架中是否有任何属性选择功能可以应用于 h2oframes 中不 H2O 目前没有特征选择功能我的建议是使用套索回归 https en wikipedia org wiki Lasso stat
如何在JSF中保存上传的文件

我正在 JSF 中上传文件我用的是战斧
使用 python opengl (PyOpenGL) 创建几何着色器失败

我想使用 glCreateShader GL GEOMETRY SHADER 创建 Geometry shader 但出现错误 Traceback most recent call last File test py line 9 in
读取不断增长的文件

如果我遇到feof 进而stat显示文件已经增长有没有办法读取添加的数据而不执行fclose and fopen 是的您可以致电clearerr在文件上或执行任何查找操作例如fseek f 0 SEEK CUR
如何使用createTextNode插入HTML实体？

如果我想将 js 形式的 ascii 符号添加到某个节点尝试作为TextNode 但它没有将其解析为代码 var dropdownTriggerText document createTextNode blabla and 您无法使用 H
根据 R 中的标准计算平均值

我想通过引入特定标准来计算 R 中的样本平均值例如我有这张表我只想要 stage 1 或 2 的那些人的平均值 treatment session period stage wage accepted type 1 1 1 1 25
如何解决tensorflow.python.framework.errors_impl.InvalidArgumentError？

import tensorflow as tf import numpy as np from sklearn model selection import train test split np random seed 4213 data
不支持的 Gauge 版本：此 veuge Inrsion of Gatellij 插件仅适用于 Gauge 版本 >= 0.9.0，规范文件步骤显示为未实现

意外的仪表插件错误出现我对仪表完全陌生并要求创建一个示例仪表项目作为 POC 遵循官方文档但收到错误无法遇到我被困在这里步骤如下我的系统中已经配置了 JDK 1 8 并正确配置了环境系统变量安装了2019版本的jetbra
MVC - InvalidOperationException：未找到用户 ID

当我使用以下代码注册用户时 POST Account Register HttpPost AllowAnonymous ValidateAntiForgeryToken public async Task
使用 mmap 共享结构数组

我正在尝试创建一个在父进程和子进程之间共享的结构数组我在尝试访问数组数据时遇到分段错误我确信这个问题与我使用指针的方式有关因为这是我不太熟悉的领域请注意我删除了大部分看起来不相关的代码 structure of Registrat
ASP(VBScript)有类似PHP的ini_get的功能吗？

我正在将文件上传 PHP 脚本转换为 ASP PHP 脚本使用 ini get 从 php ini 获取 post max size 变量 POST MAX SIZE ini get post max size 首先 IIS 或 NET 是
如何正确使用Promise.all？

考虑以下代码 var result1 var result1Promise getSomeValueAsync then x gt result1 x var result2 var result2Promise getSomeValueA
jndi与jpa和eclipselink的数据库连接

我尝试在 Tomcat 5 5 上使用 JNDI 结合 eclipseLink JPA 在 java 中设置数据库连接我已经在 web xml 和 context xml 中配置了 JNDI 资源数据库连接使用 JNDI 无需使用 JP
如何在 RSMB 中配置 MQTT-SN 主题 ID

我的问题是关于通过 MQTT SN 网关使用 MQTT 主题名称和 MQTT SN 主题 ID 来配置 RSMB 使用 Really Small Message Broker 入门信息对于了解在将两个 Very Small Message
Pandas：如果数据框中的值包含另一个数据框中的字符串，则附加列

假设我有两个数据帧 df1 和 df2 如果 df1 的特定列的值包含 df2 的特定列中的字符串我想将 df2 的一些列附加到 df1 如果不是则为 NaN 一个小例子 import pandas as pd df1 pd DataF

Pandas：如果数据框中的值包含另一个数据框中的字符串，则附加列

Pandas：如果数据框中的值包含另一个数据框中的字符串，则附加列 的相关文章

随机推荐

热门标签

Pandas：如果数据框中的值包含另一个数据框中的字符串，则附加列的相关文章