根据条件合并两个 pandas 数据框

2024-04-07

目标是将两个df如果满足预定条件，则逐行。具体来说，如果列之间的差异小于或等于threshold，然后加入行df.

给定两个df：df1和df2，以下代码部分实现了目的。

import pandas as pd

df1 = pd.DataFrame ( {'time': [2, 3, 4, 24, 31]} )
df2 = pd.DataFrame (  {'time': [4.1, 24.7, 31.4, 5]} )
th = 0.9
all_comb=[]
for index, row in df1.iterrows ():
    for index2, row2 in df2.iterrows ():
        diff = abs ( row ['time'] - row2 ['time'] )
        if diff <= th:
            all_comb.append({'idx_1':index,'time_1':row ['time'], 'idx_2':index2,'time_2':row2 ['time']})
df_all = pd.DataFrame(all_comb)

输出的

       idx_1  time_1  idx_2  time_2
0      2       4      0     4.1
1      3      24      1    24.7
2      4      31      2    31.4

然而，上述方法忽略了某些信息，即来自df1，以及 5 的值df2.

预期的输出应该是这样的

idx_1  time_1  idx_2  time_2

0      2       NA    NA
1      3       NA    NA    
2       4      0     4.1
3      24      1    24.7
4      31      2    31.4
NA     NA      3     5

感谢任何提示或任何比上述建议更紧凑和更有效的方式。

您可以执行交叉合并，然后根据您的条件一次性对所有行进行子集化。然后我们concat，添加回两个 DataFrame 中不满足条件的任何行。

import pandas as pd

df1 = df1.reset_index().add_suffix('_1')
df2 = df2.reset_index().add_suffix('_2')

m = df1.merge(df2, how='cross')

# Subset to all matches: |time_diff| <= thresh
th = 0.9
m = m[(m['time_1'] - m['time_2']).abs().le(th)]

# Add back rows with no matches
res = pd.concat([df1[~df1.index_1.isin(m.index_1)],
                 m,
                 df2[~df2.index_2.isin(m.index_2)]], ignore_index=True)

print(res)
   index_1  time_1  index_2  time_2
0      0.0     2.0      NaN     NaN
1      1.0     3.0      NaN     NaN
2      2.0     4.0      0.0     4.1
3      3.0    24.0      1.0    24.7
4      4.0    31.0      2.0    31.4
5      NaN     NaN      3.0     5.0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

join

根据条件合并两个 pandas 数据框的相关文章

元组有什么用？

我现在正在学习 Python 课程我们刚刚介绍了元组作为数据类型之一我阅读了它的维基百科页面但是我无法弄清楚这种数据类型在实践中会有什么用处我可以提供一些需要一组不可变数字的示例吗也许是在 Python 中这与列表有何不同每
如何用python脚本控制TP LINK路由器

我想知道是否有一个工具可以让我连接到路由器并关闭它然后从 python 脚本重新启动它我知道如果我写 import os os system ssh l root 192 168 2 1 我可以通过 python 连接到我的路由器但是
Python getstatusoutput 替换不返回完整输出

我发现了这个很棒的替代品getstatusoutput Python 2 中的函数在 Unix 和 Windows 上同样有效不过我觉得这个方法有问题output被构建它只返回输出的最后一行但我不明白为什么任何帮助都是极好的 def
使用 Python 从文本中删除非英语单词

我正在 python 上进行数据清理练习我正在清理的文本包含我想删除的意大利语单词我一直在网上搜索是否可以使用像 nltk 这样的工具包在 Python 上执行此操作例如给出一些文本 Io andiamo to the beach w
删除flask中的一对一关系

我目前正在使用 Flask 开发一个应用程序并且在删除一对一关系中的项目时遇到了一个大问题我的模型中有以下结构 class User db Model tablename user user id db Column db String
将 python2.7 与 Emacs 24.3 和 python-mode.el 一起使用

我是 Emacs 新手我正在尝试设置我的 python 环境到目前为止我已经了解到在 python 缓冲区中使用 python mode el C c C c将当前缓冲区的内容加载到交互式 python shell 中显然使用了什么
使用Python请求登录Google帐户

在多个登录页面上需要谷歌登录才能继续我想用requestspython 中的库以便让我自己登录通常这很容易使用requests库但是我无法让它工作我不确定这是否是由于 Google 做出的一些限制也许我需要使用他们的 API 或
使用字典映射数据帧索引

为什么不df index map dict 工作就像df column name map dict 这是尝试使用index map的一个小例子 import pandas as pd df pd DataFrame one A 10 B 2
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
使用 xlrd 打开 BytesIO (xlsx)

我正在使用 Django 需要读取上传的 xlsx 文件的工作表和单元格使用 xlrd 应该可以但因为文件必须保留在内存中并且可能不会保存到我不知道如何继续的位置本例中的起点是一个带有上传输入和提交按钮的网页提交后文件被捕获req
在 Sphinx 文档中*仅*显示文档字符串？

Sphinx有一个功能叫做automethod从方法的文档字符串中提取文档并将其嵌入到文档中但它不仅嵌入了文档字符串还嵌入了方法签名名称参数我如何嵌入only文档字符串不包括方法签名 ref http www sphinx do
如何使用 pybrain 黑盒优化训练神经网络来处理监督数据集？

我玩了一下 pybrain 了解如何生成具有自定义架构的神经网络并使用反向传播算法将它们训练为监督数据集然而我对优化算法以及任务学习代理和环境的概念感到困惑例如我将如何实现一个神经网络例如 1 以使用 pybrain 遗传算法
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
Numpy - 根据表示一维的坐标向量的条件替换数组中的值

我有一个data多维数组最后一个是距离另一方面我有距离向量r 例如 Data np ones 20 30 100 r np linspace 10 50 100 最后我还有一个临界距离值列表称为r0 使得 r0 shape Dat
javascript 是否有等效的 __repr__ ？

我最接近Python的东西repr这是 function User name password this name name this password password User prototype toString function r
从 NumPy ndarray 中选择行

我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组例如此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
根据列 value_counts 过滤数据框（pandas）

我是第一次尝试熊猫我有一个包含两列的数据框 user id and string 每个 user id 可能有多个字符串因此会多次出现在数据帧中我想从中导出另一个数据框一个只有那些user ids列出至少有 2 个或更多string
为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍，而速度却没有任何提升？

我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议因此我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle
将 Python 中的日期与日期时间进行比较

所以我有一个日期列表 datetime date 2013 7 9 datetime date 2013 7 12 datetime date 2013 7 15 datetime date 2013 7 18 datetime date
如何应用一个函数 n 次？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案假设我有一个函数它接受一个参数并返回相同类型的结果 def increment x return x 1 如何制作高阶函数repeat可以

随机推荐

Python 中的帕塞瓦尔定理

我试图掌握 Python 的 fft 功能我偶然发现的奇怪的事情之一是帕塞瓦尔定理 http en wikipedia org wiki Parseval 27s theorem似乎不适用因为它现在给出的差异约为 50 而它应该是 0
Identity Server 4，EF Core，在 API 和 IS4 之间共享 DbContext

我正在使用 Identity Server 4 Asp Identity EF Core 和一个数据库我现在有3个项目身份服务器包含我的应用程序表的所有数据上下文和所有迁移 Api 没有上下文没有迁移但是我需要从这里以某种方式访问
在 firebase 上查询无法使用带有字符串子字段的 orderByChild/equalTo

我真的不明白这一点再一次我对处理火力基地接近绝望我有一个列表保存在特定位置 root Chats WPXEmqvX1BfQB9n3UQFjF3xi1so2 Chats Jc9dASQdabXiT0holYFDkeqCczK2 L18x
更改权限设置后从最近的任务重新打开时会调用 onCreate()

问题标题可能听起来很复杂但这是我的情况我在活动中有一个地图片段简单的打开存储权限以允许显示地图工作正常按主页按钮将应用程序置于后台然后关闭存储权限并从最近的任务中打开应用程序应用程序崩溃问题是不是调用主机 Activity
调用引用对象属性的方法会抛出 ReferenceError

在下面的代码中行obj sayhello 意思是sayhello在上下文范围内执行obj str未定义通过var 在里面sayhello method JS 将在范围内查找变量即在obj这显然有一个str财产为什么脚本会抛出一个R
ArrayList 相等 JUnit 测试

我想使用assertArrayEquals ArrayList
CakePHP：以数组作为参数调用另一个控制器的操作的最佳方法？

在控制器中调用另一个控制器的操作并传递数组作为参数的最合适方法是什么我知道您可以使用 requestAction 来调用其他控制器中的操作但是是否可以使用请求操作将数组作为参数传递不我不想将操作放入应用程序控制器中所以这对我来说
如何将 Swagger Codegen 与 .net core 结合使用

我可以使用 Swashbuckle 将 Swagge UI 集成到我的 Web api 中我还想探索 swagger codegen 功能有人可以帮忙我如何将 swagger codegen 集成到我的 Web api 项目中吗或者
长 Android TextView 将其他视图推离屏幕

我有两个并排的 TextView TextView1 的文本长度不同而 TextView2 始终显示然而当 TextView1 变长时它会将 TextView2 推离屏幕任何想法如何解决这一问题这是我的布局代码
如何每天中午以及每次启动时运行服务

在我的应用程序中我有一个 SQLite 数据库其中有一个表其中包含以毫秒为单位的日期行我希望每天显示一条通知IF自上次存储在我的数据库中的日期值以来已经过去了 30 天服务似乎是完成此检查的好方法我遇到了 Commonsware
将 Python 代码转换为 PEP8 兼容的工具

我知道有一些工具可以验证您的 Python 代码是否符合 PEP8 例如两者都有在线服务 http pep8online com and 一个Python模块 https github com jcrocholl pep8 但是我找不到可
将 C# 字符串 (UTF-16) 存储在 SQL Server nvarchar (UCS-2) 列中会产生什么后果？

SQL Server 似乎使用 UnicodeUCS 2 一个2字节的定长字符编码对于nchar nvarchar字段同时 C 使用 UnicodeUTF 16其字符串的编码注意有些人不认为 UCS 2 是 Unicode 但它在
如果Service在另一个进程中，如何绑定它？

显现
如何强制小数点后两位数

我有以下 TextView 它始终显示 0 00 除非在单击按钮并保存到此 TextView 后完成任何计算
如何从一个分支挑选到另一个分支

我有2个分行 master and dev I am on dev分支我想从中挑选 1 个提交master to dev 所以我做了 git cherry pick be530cec7748e037c665bd5a585e6d9ce11b
SoapUI项目文件可以拆分吗？

是否可以将 SoapUI 项目 XML 文件拆分为许多较小的文件我可以看到 XML 文件是代码版本控制中的一个争用点并导致许多合并冲突将项目分成许多较小的文件以便使更改更加隔离这会更有意义但最终我们可能会在它们之间复制共享配置
在 SQL 中使用其他表作为 WHERE 条件

我正在尝试搜索具有给定标签的问题如何解决以下问题 Tables questions tags question id tag title question id was sent at time My code SELECT questi
在模态底部颤动浮动ActionButton（无脚手架）

我遇到一种情况我希望在点击小部件时可以看到模态底部工作表此代码可以正常工作来自小部件它基本上是一张卡片 return Container color Colors white margin EdgeInsets symmetric
重载 VBScript 中的构造函数

我找到了一种在 VBScript 中扩展类的方法但是有什么方法可以传入参数或重载构造函数吗我当前正在使用 Init 函数来初始化属性但希望能够在创建对象时执行此操作这是我的示例类 Class Test Private strText
根据条件合并两个 pandas 数据框

目标是将两个df如果满足预定条件则逐行具体来说如果列之间的差异小于或等于threshold 然后加入行df 给定两个df df1和df2 以下代码部分实现了目的 import pandas as pd df1 pd DataFrame

根据条件合并两个 pandas 数据框

根据条件合并两个 pandas 数据框 的相关文章

随机推荐

热门标签

根据条件合并两个 pandas 数据框的相关文章