Pandas：一列上的近似连接，其他列上的精确匹配

2023-12-22

我有两个 pandas 数据框，我想在多个列（例如 3 列）上精确地加入/合并，并在一个（日期）列上近似地（即最近的邻居）加入/合并。我还想返回它们之间的差异（天数）。每个数据集大约有 50,000 行长。我对内部联接最感兴趣，但“剩余”也很有趣，如果不是太难掌握的话。大多数“完全匹配”观测值将在每个数据框中多次存在。

我一直在尝试使用difflib.get_close_matches将它们全部连接为字符串（我知道这很愚蠢！），但并不总是给出精确的匹配。我想我需要先循环精确的匹配，然后找到该组中最近的匹配，但我似乎无法做到正确......

数据框看起来像：

df1 = pd.DataFrame({'index': ['a1','a2','a3','a4'], 'col1': ['1232','432','432','123'], 'col2': ['asd','dsa12','dsa12','asd2'], 'col3': ['1','2','2','3'], 'date': ['2010-01-23','2016-05-20','2010-06-20','2008-10-21'],}).set_index('index')

df1
Out[430]: 
       col1   col2 col3        date
index                              
a1     1232    asd    1  2010-01-23
a2      432  dsa12    2  2016-05-20
a3      432  dsa12    2  2010-06-20
a4      123   asd2    3  2008-10-21

df2 = pd.DataFrame({'index': ['b1','b2','b3','b4'], 'col1': ['132','432','432','123'], 'col2': ['asd','dsa12','dsa12','sd2'], 'col3': ['1','2','2','3'], 'date': ['2010-01-23','2016-05-23','2010-06-10','2008-10-21'],}).set_index('index')

df2
Out[434]: 
      col1   col2 col3        date
index                             
b1     132    asd    1  2010-01-23
b2     432  dsa12    2  2016-05-23
b3     432  dsa12    2  2010-06-10
b4     123    sd2    3  2008-10-21

最后我想要这样的东西：

       col1   col2 col3        date diff match_index
index                              
a1     1232    asd    1  2010-01-23  nan         nan
a2      432  dsa12    2  2016-05-20   -3          b2
a3      432  dsa12    2  2010-06-20   10          b3
a4      123   asd2    3  2008-10-21  nan         nan
a5      123    sd2    3  2008-10-21  nan          b4

或者如果只使用内部连接会更容易，我想：

       col1   col2 col3        date diff match_index
index                                                     
a2      432  dsa12    2  2016-05-20   -3          b2
a3      432  dsa12    2  2010-06-20   10          b3

我不确定这是否适合。它或多或少实现了您想要的，但实际上并不执行合并。它遵循与此相同的想法question https://stackoverflow.com/questions/33421551/how-to-merge-two-data-frames-based-on-nearest-date?lq=1除了而不是子集化df1仅基于一列，这里我们使用groupby并在两个数据帧上执行此操作。如果您确实想明确包含merge命令并对内部联接感到满意，然后检查答案的最底部，它包含一个片段。

import pandas as pd
from sklearn.neighbors import NearestNeighbors

    def find_nearest(group, df2, groupname):
        try:
            match = df2.groupby(groupname).get_group(group.name)
            match['date'] = pd.to_datetime(match.date, unit = 'D')
            nbrs = NearestNeighbors(1).fit(match['date'].values[:, None])
            dist, ind = nbrs.kneighbors(group['date'].values[:, None])

            group['date1'] = group['date']
            group['date'] = match['date'].values[ind.ravel()]
            group['diff'] = (group['date1']-group['date'])
            group['match_index'] = match.index[ind.ravel()]
            return group
        except KeyError:
            return group

    #change dates from string to datetime
    df1['date'] = pd.to_datetime(df1.date, unit = 'D')
    df2['date'] = pd.to_datetime(df2.date, unit = 'D')

    #find closest dates and differences
    keys = ['col1', 'col2', 'col3']
    df1_mod = df1.groupby(keys).apply(find_nearest, df2, keys)

    #fill unmatched dates 
    df1_mod.date1.fillna(df1_mod.date, inplace=True)

    df2_mod = df2.groupby(keys).apply(find_nearest, df1, keys) 
    df2_mod.date1.fillna(df2_mod.date, inplace=True)

    #drop original column 
    df1_mod.drop('date', inplace=True, axis=1)
    df1_mod.rename(columns = {'date1':'date'}, inplace=True)

    df2_mod.drop('date', inplace=True, axis=1)
    df2_mod.rename(columns = {'date1':'date'}, inplace=True)
    df2_mod['diff'] = -df2_mod['diff']

    #drop redundant values
    df2_mod.drop(df2_mod[df2_mod.match_index.str.len()>0].index, inplace=True)

    #merge the two 
    df_final = pd.merge(df1_mod, df2_mod, how='outer')

这会产生以下结果：

In [349]: df_final
Out[349]:
   col1   col2 col3       date    diff match_index
0  1232    asd    1 2010-01-23     NaT         NaN
1   432  dsa12    2 2016-05-20 -3 days          b2
2   432  dsa12    2 2010-06-20 10 days          b3
3   123   asd2    3 2008-10-21     NaT         NaN
4   132    asd    1 2010-01-23     NaT         NaN
5   123    sd2    3 2008-10-21     NaT         NaN

使用合并命令：

In [208]: pd.merge(df1_mod, df2.drop('date', axis=1), on=['col1', 'col2', 'col3']).drop_duplicates()
Out[208]:
  col1   col2 col3       date    diff match_index
0  432  dsa12    2 2016-05-20 -3 days          b2
2  432  dsa12    2 2010-06-20 10 days          b3

评论中考虑的案例，即：

df1 = pd.DataFrame({'index': ['a1','a2','a3','a4'], 'col1': ['1232','1432','432','123'], 'col2': ['asd','dsa12','dsa12','asd2'], 'col3': ['1','2','2','3'], 'date': ['2010-01-23','2016-05-20','2010-06-20','2008-10-21'],}).set_index('index')

产生以下结果：

In [351]: df_final
Out[351]:
   col1   col2 col3       date    diff match_index
0  1232    asd    1 2010-01-23     NaT         NaN
1  1432  dsa12    2 2016-05-20     NaT         NaN
2   432  dsa12    2 2010-06-20 10 days          b3
3   123   asd2    3 2008-10-21     NaT         NaN
4   132    asd    1 2010-01-23     NaT         NaN
5   123    sd2    3 2008-10-21     NaT         NaN

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pandas：一列上的近似连接，其他列上的精确匹配的相关文章

如何使用 colorchecker 在 opencv 中进行颜色校准？

我有数码相机获取的色彩检查器图像我如何使用它来使用 opencv 校准图像按照以下颜色检查器图像操作您是想问如何进行颜色校准或如何使用 OpenCV 进行校准为了进行颜色校准您可以使用校准板的最后一行灰色调以下是您应该逐步进行
ctypes 错误：libdc1394 错误：无法初始化 libdc1394

我正在尝试将程序编译为共享库我可以使用 ctypes 在 Python 代码中使用该库使用以下命令该库可以正常编译 g shared Wl soname mylib O3 o mylib so fPIC files pkg config
从 Python 下载/安装 Windows 更新

我正在编写一个脚本来自动安装 Windows 更新我可以将其部署在多台计算机上这样我就不必担心手动更新它们我想用 Python 编写这个但找不到任何关于如何完成此操作的信息我需要知道如何搜索更新下载更新并从 python 脚本安
无故运行测试时 PyCharm 抛出“AttributeError: 'module' object has no attribute”

因此我有一个 Django REST Framework 项目有一天它无法在 PyCharm 中运行测试从命令行我可以使用它们来运行它们paver or the manage py直接地曾经有一段时间当我们没有在文件顶部导入类的超
Python 是解释型的还是编译型的，或者两者兼而有之？

据我了解 An 解释的语言是由解释器将高级语言转换为机器代码然后执行的程序实时运行和执行的高级语言它一次处理一点程序 A compiled语言是一种高级语言其代码首先由编译器将高级语言转换为机器代码的程序转换为机器代码然后由执
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
“一旦获取切片就无法更新查询”。最佳实践？

由于我的项目的性质我发现自己不断地从查询集中取出切片如下所示 Thread objects filter board requested board id order by updatedate 10 但这给我带来了实际对我选择的元素进
如何使用正则表达式在 pandas 数据框中选择一行以及包含特定子字符串的行后面的固定行数

Problem 我有一个 pandas 数据框我试图从中提取特定行我感兴趣的行是包含日期的行以及紧随日期行之后的行重要的是我想将信息从日期后面的行移动到包含日期的行中的新列通过这样做我将在同一行上获得一个人的信息需要明确
如何使用 javascript/jquery/AJAX 调用 Django REST API？

我想使用 Javascript jQuery AJAX 在前端调用 Django Rest API 请求方法是 POST 但当我看到 API 调用它的调用 OPTIONS 方法时所以我开始了解access control allow o
CNTK 抱怨 LSTM 中的动态轴

我正在尝试在 CNTK 中实现 LSTM 使用 Python 来对序列进行分类 Input 特征是固定长度的数字序列时间序列标签是 one hot 值的向量 Network input input variable input dim
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
Pandas：如何将数据框插入 Clickhouse

我正在尝试将 Pandas 数据框插入 Clickhouse 这是我的代码 import pandas import sqlalchemy as sa uri clickhouse default localhost default ch
如何使用 Bokeh 动态隐藏字形和图例项

我正在尝试在散景中实现复选框其中每个复选框应显示隐藏与其关联的行我知道可以通过图例来实现这一点但我希望这种效果同时在两个图中发生此外图例也应该更新在下面的示例中出现了复选框但不执行任何操作我显然不明白如何更新用作源的数据
如何从 JSON 响应重定向？

所以我尝试使用 Flask 和 Javascript 上传器 Dropzone 上传文件并在上传完成后重定向文件上传正常但在烧瓶中使用传统的重定向 return redirect http somesite com 不执行任何操作页面
如何在Python中按AaB而不是ABa顺序对字符串进行排序

我正在尝试对字符串进行排序为 punnetsquare 制作基因型我目前的实现是 unsorted genotype ABaB sorted genotype sorted list unsorted genotype sorted s
Python、subprocess、call()、check_call 和 returncode 来查找命令是否存在

我已经弄清楚如何使用 call 让我的 python 脚本运行命令 import subprocess mycommandline lumberjack sleep all night work all day subprocess cal
迭代列表的奇怪速度差异

我创建了两个重复两个不同值的长列表在第一个列表中值交替出现在第二个列表中一个值出现在另一个值之前 a1 object object 10 6 a2 a1 2 a1 1 2 然后我迭代它们不对它们执行任何操作 for in a1 p
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
在 Spyder 的变量资源管理器中查看局部变量

我是 python 新手正在使用 Spyder 的 IDE 我欣赏它的一项功能是它的变量资源管理器然而根据一些研究我发现它只显示全局变量我找到的解决方法是使用检查模块 import inspect local vars def m
使用 NLP 进行地址分割

我目前正在开发一个项目该项目应识别地址的每个部分例如来自 str Jack London 121 Corvallis ARAD ap 1603 973130 输出应如下所示 street name Jack London no 121

随机推荐

zlib：如何确定avail_out的尺寸

我想使用 zlib 缩小一小块内存 No此处的磁盘或数据库访问根据文档我应该打电话deflate 重复直到整个输入被放气在这之间我必须增加输出所在的内存块的大小然而这似乎不必要地复杂甚至可能效率低下据我所知输入的大小我不能
MATLAB 无法调用带有导入的 Python 模块

我已按照以下说明进行操作this https www mathworks com help matlab matlab external call user defined custom module html页面让 MATLAB 在 py
从序列化 ViewModel 恢复时 Combox SelectedItem 不适用

在恢复 ViewModel 使用 Json Net 序列化时使用 C WPF 和 MVVM 模式时我遇到一个奇怪的问题该软件的想法是当关闭窗口时将当前 Viewmodel 状态保存在 json 文件中下次启动时应用程序仅搜索
AngularJS：window.Angular 变量

我正在寻找 window Angular 变量的信息但没有发现任何期望的信息这个帖子 https stackoverflow com questions 30185773 why is window angular used like s
如何在使用 Windows 主机时挂载 Docker 卷？

在 Windows 主机下安装 Docker 卷对我来说是一个巨大的痛苦而且我无法让它工作目前我得到了以下简单的 Dockerfile FROM php 5 apache RUN apt get update 当我从中构建图像并启动容器
如何在quartz调度中设置数据源。 [错误] org.quartz.SchedulerException：无法初始化数据源：myDS

这是我的配置文件quartz properties org quartz scheduler instanceName LivingOrdering org quartz scheduler instanceId 99199 org qua
为什么寄存器 ax 中的内存整数之和正确，而寄存器 eax 中的内存整数之和不正确？

鉴于这个项目我正在帮助的一个学生项目 global start section text start mov ebx people mov eax ebx 2 add eax ebx 4 add eax ebx 6 add eax ebx
查找峰的半峰全宽

我一直试图找出蓝色峰的半峰全宽 FWHM 见图绿色峰和洋红色峰组合起来形成蓝色峰我一直在使用以下方程来查找绿色和洋红色峰的 FWHM fwhm 2 np sqrt 2 math log 2 sd其中 sd 标准差我创建了绿色和洋红色峰
在 UITextView 中快速将“返回”按钮功能更改为“完成”

我想在用户打字时摆脱键盘的返回功能这样就没有新行所以我希望返回键充当完成功能这样它就会隐藏键盘我正在使用可编辑的 UITextView 因此用户可以输入他们的帖子并将其发布到主时间线但由于我有固定的单元格我不希望用
使用 data.table 包的笛卡尔积

使用 R 中的 data table 包我尝试使用合并方法创建两个 data table 的笛卡尔积就像在基础 R 中所做的那样在基地进行以下工作 assume this order data orders lt data frame
angularjs 处理 $resource $promise 错误

如果连接到我的 API 时出现错误有人可以帮我弄清楚如何在 AngularJS 工厂中返回硬编码数据吗我的硬编码数据位于另一个名为 dataFactory 的工厂中感谢您的帮助 service factory ScheduleFact
JavaScript 与严格的页面对象模式兼容吗？

我使用 Java 的页面对象模式构建了各种测试自动化框架 https code google com p selenium wiki PageObjects https code google com p selenium wiki Pag
错误：意外请求：即使在 karma/jasmine 单元测试中使用 html2js 时，仍会获取嵌套指令的视图/部分/*

我正在使用 Karma 和 Jasmine 对我的 angularjs 应用程序进行单元测试我有一个指令例如指令 A 模板其中正在渲染另一个指令例如指令 B 尽管它在应用程序中工作正常但测试用例无法渲染指令 B 的模板以下是我收
过去两年中给定位置的所有 Facebook 活动的列表

我正在尝试做什么我正在尝试提取所有内容的列表public2012 年和 2013 年在特定城市发生的 facebook 事件此外对于每个事件我想提取以下内容活动名称事件描述 date location 参加可能拒绝的人数到
用于同时过滤和转换的列表理解中的中间变量[重复]

这个问题在这里已经有答案了我有一个想要标准化的向量列表在 Python 中同时删除最初具有较小范数的向量输入列表是例如 a 1 1 1 2 2 2 3 4 我需要输出是 x n y n with n x 2 y 2 0 5 例如
使用 R 添加谷歌图块

我正在使用leaflet与 R 一起打包来生成交互式地图我想使用 Google 地图层但是 Google 地图不能作为该函数的参数addProviderTiles 如何使用 R 添加这些谷歌图层非常感谢尝试这个leaflet gt
Gitlab 上的 SSH 密钥不断要求输入密码

我已经调试这个问题一两个小时了我目前使用 Gitlab 和 Mac OS X 10 9 2 今天我试图git pull origin master从我们的主分支这样我就可以获得最新版本进行开发我一直使用这些配置并且不记得更改过任何
在 ftplib storbinary 中创建丢失的目录

我正在使用 pycurl 在 python 中通过 ftp 传输文件我可以使用以下命令在远程服务器上自动创建丢失的目录 c setopt pycurl FTP CREATE MISSING DIRS 1 由于某些原因我必须切换到 ftp
使用 Apache FOP 将字母放在 XSL-FO 中带下划线的文本下

我有一个项目要求我在一段文本中的某些带下划线的文本下方放置一个 ID 字符串以下是使用带有灰色边框的内联 SVG 对象来显示布局的示例我可以使用带有基线偏移的内联元素来接近然后使用 SVG 来渲染文本然而这有一个缺点我认为我
Pandas：一列上的近似连接，其他列上的精确匹配

我有两个 pandas 数据框我想在多个列例如 3 列上精确地加入合并并在一个日期列上近似地即最近的邻居加入合并我还想返回它们之间的差异天数每个数据集大约有 50 000 行长我对内部联接最感兴趣但剩余也很

Pandas：一列上的近似连接，其他列上的精确匹配

Pandas：一列上的近似连接，其他列上的精确匹配 的相关文章

随机推荐

热门标签

Pandas：一列上的近似连接，其他列上的精确匹配的相关文章