合并最接近值的 Pandas

2024-03-04

我目前正在开发一个项目，在该项目中，我通过仪表指示（公里）匹配并合并两个 Excel 文档。这两个数据帧包含相同类型的数据，但略有不同。我对这个问题的解决方案是将每个数据帧除以 100，以便更轻松地匹配列。然而，正如我预测的那样，有时这不起作用，因此这是一个临时解决方案。

我有两个数据框：

Meter_indication      Fuel1
1180784               275
1181278               280
1181791               300
1182285               280
1182801               300
1183295               280
1183717               250

Meter_indication      Fuel2
1180785               278
1181282               282
1181800               310
1182401               282
1182824               320
1183310               215
1183727               250

正如您所看到的，这些数据帧包含相同类型的信息，但略有偏差。我之前用过merge的方法merged_df = df1filt2.merge(df2filt, on='Meter_indication')它只合并完全匹配的值。然而，在这种情况下，该方法是无关紧要的。

我想要的输出是：

Meter_indication      Fuel1      Fuel2
1180784               275        278
1181278               280        282
1181791               300        310
1182285               280        282
1182801               300        320
1183295               280        215
1183717               250        250

正如您所看到的，数据帧已在“Meter_induction”上合并，并通过查找与其自身最接近的值来合并。

我四处寻找有类似问题的其他人，并尝试了许多不同的建议，例如https://pandas.pydata.org/pandas-docs/version/0.25.0/reference/api/pandas.merge_asof.html https://pandas.pydata.org/pandas-docs/version/0.25.0/reference/api/pandas.merge_asof.html

根据最近值合并 pandas 数据框 https://stackoverflow.com/questions/43491342/merging-pandas-dataframes-based-on-nearest-values

但都没有取得成功。

我当前的代码（必要部分）是：

    filepathname1=input1.variable
    filepathname2=input2.variable
    filepathname3=output1.variable
    filepathname4=output2.variable

    #Creating filepaths for Automatic and Manual doc (1 = Automatic, 2 = Manual).
    print("You have chosen to mix", filepathname1, "and", filepathname2)

    #Changes the option of pd (max rows and columns).
    pd.set_option("display.max_rows", None, "display.max_columns", None)

    #READS PROVIDED DOCUMENTS.
    df1 = pd.read_excel(
        filepathname1, sheetname, na_values=["NA"], skiprows=1, usecols="A, B, C, D, E, F")
    df2 = pd.read_excel(
        filepathname2,
        na_values=["NA"],
        skiprows=2,
        usecols="D, AG, AH")

    # Drop NaN rows.
    df2.dropna(inplace=True)
    df1.dropna(inplace=True)

    print(df2)

    #df100 = pd.DataFrame()

    #df100['Bränslenivå (%)'] = df1['Bränslenivå (%)']

    #df100['Bränslenivå (%)'] = (df100['Bränslenivå (%)'] >= 99)


    #print(df100)
    #input()

    #Filters out rows with the keywords listed in 'blacklist'.
    df1.rename(columns={"Bränslenivå (%)": "Bränsle"}, inplace=True)
    df1 = df1[~df1.Bränsle.isin(blacklist)]
    df1.rename(columns={"Bränsle": "Bränslenivå (%)"}, inplace=True)

    df2.rename(columns={"Unnamed 32": "Actual refuel"}, inplace=True)
    df2.rename(columns={"Unnamed 33": "Mätarställning"}, inplace=True)

    #Creates new column for the difference in fuellevel column.
    df1["Difference (%)"] = df1["Bränslenivå (%)"]
    df1["Difference (%)"] = df1.loc[:, "Bränslenivå (%)"].diff()

    # Renames time-column so that they match.
    df2.rename(columns={"Datum": "Tid"}, inplace=True)



    # Drops rows where the difference is equal to 0.
    df1filt = df1[(df1["Difference (%)"] != 0)]

    # Converts time-column to only year, month and date.
    df1filt["Tid"] = pd.to_datetime(df1filt["Tid"]).dt.strftime("%Y%m%d").astype(str)

    df1filt.reset_index(level=0, inplace=True)

    #Renames the index column to "row" in order to later use the "row" column 
    df1filt.rename(columns={"index": "row"}, inplace=True)

    # Creates a new column for the difference in total driven kilometers (used for matching)
    df1filt["Match"] = df1filt["Vägmätare (km)"]
    df1filt["Match"] = df1filt.loc[:, "Vägmätare (km)"].diff()

    #Merges refuels that are previously seperated because of the timeintervals. For example when a refuel takes a lot of time and gets split into two different refuels.
    ROWRANGE = len(df1filt)+1
    thevalue = 0
    for currentrow in range(ROWRANGE-1):
        if df1filt.loc[currentrow, 'Difference (%)'] >= 0.0 and df1filt.loc[currentrow-1, 'Difference (%)'] <= 0:
            thevalue = 0
            thevalue += df1filt.loc[currentrow,'Difference (%)']
            df1filt.loc[currentrow,'Match'] = "SUMMED"
        if df1filt.loc[currentrow, 'Difference (%)'] >= 0.0 and df1filt.loc[currentrow-1, 'Difference (%)'] >= 0:
            thevalue += df1filt.loc[currentrow,'Difference (%)']
        if df1filt.loc[currentrow, 'Difference (%)'] <= 0.0 and df1filt.loc[currentrow-1, 'Difference (%)'] >= 0:
            df1filt.loc[currentrow-1,'Difference (%)'] = thevalue
            df1filt.loc[currentrow-1,'Match'] = "OFFICIAL"        
            thevalue = 0

    #Removes single "refuels" that are lower than 5
    df1filt = df1filt[(df1filt['Difference (%)'] > 5)]

    #Creates a new dataframe for the summed values 
    df1filt2 = df1filt[(df1filt['Match'] == "OFFICIAL")]

    #Creates a estimated refueled amount column for the automatic
    df1filt2["Apparent refuel"] = df1filt2["Difference (%)"]
    df1filt2["Apparent refuel"] = df1filt2.loc[:, "Difference (%)"]/100 *fuelcapacity

    #Renames total kilometer column so that the two documents can match
    df1filt2.rename(columns={"Vägmätare (km)": "Mätarställning"}, inplace=True)

    #Filters out rows where refuel and kilometer = NaN (Manual)

    df2.rename(columns={"x": "Actual refuel"}, inplace=True)
    df2.rename(columns={"x.1": "Mätarställning"}, inplace=True)
    df2.rename(columns={"Datum.1": "Tid"}, inplace=True)
    for col in df2.columns:
        print(col)
    input()
    df2filt = df2[(df2['Actual refuel'] != NaN) & (df2['Mätarställning'] != NaN)]


    #Drops first row
    df2filt.drop(df2filt.index[0], inplace=True)

    #Adds prefix for the time column so that they match (not used anymore because km is used to match)
    df2filt['Tid'] = '20' + df2filt['Tid'].astype(str) 

    #Rounds numeric columns
    decimals = 0
    
    df2filt['Mätarställning'] = pd.to_numeric(df2filt['Mätarställning'],errors='coerce')
    df2filt['Actual refuel'] = pd.to_numeric(df2filt['Actual refuel'],errors='coerce')
    df2filt['Mätarställning'] = df2filt['Mätarställning'].apply(lambda x: round(x, decimals))
    df2filt['Actual refuel'] = df2filt['Actual refuel'].apply(lambda x: round(x, decimals))
    

    #This is my temporary fix to the problem
    df2filt['Mätarställning'] //= 100
    df1filt2['Mätarställning'] //= 100

    merged_df = df1filt2.merge(df2filt, on='Mätarställning')

    merged_df.to_excel(filepathname3, index = False)

希望这是足够的信息。先感谢您！

~更新（结果/提问）~

感谢@Rob Raymond 解决了我的问题。然而，通过提供的解决方案，问题得到了解决，但同时又出现了新的问题。下面的解决方案部分解决了“合并”问题。

现在某些地方的输出似乎是重复的，并且行似乎合并在同一个 Meter_inspiration 上。我不确定是什么原因造成的，但它可能与“merge_asof”的工作原理有关。我有很多数据，这意味着某些数据会有不同数量的数字。我对“merge_asof”方法不太熟悉，但一种猜测是它会合并相似但不完全相同的数字。换句话说，如果是这种情况，“1234”将与“12345”合并，因为它们都包含“1234”。

以下是我使用数据创建的一些图表，以澄清和说明问题。

当前图形输出：

所需的图形输出：

数据（用于图表）有时看起来像这样：

merge_asof()确实有效。符合您的预期输出
没有对排序做出假设，所以sort_values()
为了透明度，包括权利仪表指示在输出中

df1 = pd.read_csv(io.StringIO("""Meter_indication      Fuel1
1180784               275
1181278               280
1181791               300
1182285               280
1182801               300
1183295               280
1183717               250"""), sep="\s+")

df2 = pd.read_csv(io.StringIO("""Meter_indication      Fuel2
1180785               278
1181282               282
1181800               310
1182401               282
1182824               320
1183310               215
1183727               250"""), sep="\s+")

pd.merge_asof(
    df1.sort_values("Meter_indication"),
    df2.sort_values("Meter_indication").assign(mi=lambda d: d["Meter_indication"]),
    on="Meter_indication",
    direction="nearest",
)

Meter_indication	Fuel1	Fuel2	mi
1180784	275	278	1180785
1181278	280	282	1181282
1181791	300	310	1181800
1182285	280	282	1182401
1182801	300	320	1182824
1183295	280	215	1183310
1183717	250	250	1183727

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

合并最接近值的 Pandas 的相关文章

如何让python优雅地失败？

我只是想知道如何让 python 在所有可能的错误中以用户定义的方式失败例如我正在编写一个处理大项目列表的程序并且某些项目可能不符合我定义的格式如果 python 检测到错误它目前只会输出一条丑陋的错误消息并停止整个过程但是
Python GTK + webkit - 在 gtk.main() 之后插入 JavaScript

我在终端中尝试了这个一切正常但是如果我在脚本内运行这个我无法在 gtk main 之后插入 JavaScript import gtk import webkit w gtk Window b webkit WebView w add
以矢量化方式在另一个 DataFrame 中查找包含值子集的行

如何匹配此 DataFrame 中的值source car id lat lon 0 100 10 0 15 0 1 100 12 0 10 0 2 100 09 0 08 0 3 110 23 0 12 0 4 110 18 0 32 0
Pandas 连接问题：列重叠但未指定后缀

我有以下数据框 print df a mukey DI PI 0 100000 35 14 1 1000005 44 14 2 1000006 44 14 3 1000007 43 13 4 1000008 43 13 print df b
Python 的 mysqldb 晦涩文档

Python 模块 mysqldb 中有许多转义函数我不理解它们的文档而且我努力查找它们也没有发现任何结果 gt gt gt print mysql escape doc escape obj dict escape any speci
Paramiko SSHException 通道已关闭

我一直在使用 Paramiko 在 Linux Windows 机器上发送命令它可以很好地在 Ubuntu 机器上远程执行测试但是它不适用于 Windows 7 主机以下是我收到的错误 def unit for event self
如何使用 i18n 切换器将“LANGUAGE_CODE”保存到数据库，以便在 Django 中的不同浏览器中语言不会更改？

有什么办法可以改变它的值LANGUAGE CODE单击按钮发送请求时 settings py 中的变量会动态变化吗我希望用户设置自己的默认语言他们的帐户现在用户可以使用下拉列表选择他们的首选语言并且网站会得到完美的翻译并且
在Python中以交互方式执行多行语句

我是 Python 世界的新手这是我用 Python 编写的第一个程序我来自 R 世界所以这对我来说有点不直观当我执行时 In 15 import math import random random random math sqrt
按多个键分组并对字典列表的值进行汇总/平均值

在Python中按多个键进行分组并对字典列表进行汇总平均值的最Pythonic方法是什么假设我有一个字典列表如下所示 input dept 001 sku foo transId uniqueId1 qty 100 dept 001
如何将类添加到 LinkML 中的 SchemaDefinition？

中的图表https linkml io linkml model docs SchemaDefinition https linkml io linkml model docs SchemaDefinition and https link
在谷歌云上训练神经网络时出现“无法获取路径的文件系统”错误

我正在使用 Google Cloud 在云上训练神经网络如下例所示 https cloud google com blog big data 2016 12 how to classify images with tensorflow u
如何使用 Celery 多工作人员启用自动缩放？

命令celery worker A proj autoscale 10 1 loglevel info启动具有自动缩放功能的工作人员当创建多个工人时 me mypc projects x celery multi start mywork
Selenium 不会在新选项卡中打开新 URL（Python 和 Chrome）

我想使用 Selenium WebDriver 和 Python 在不同的选项卡中打开相当多的 URL 我不确定出了什么问题 driver webdriver Chrome driver get url1 time sleep 5 driv
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
Django Rest Framework POST 更新（如果存在或创建）

我是 DRF 的新手我阅读了 API 文档也许这是显而易见的但我找不到一个方便的方法来做到这一点我有一个Answer与 a 具有一对一关系的对象Question 在前端我曾经使用 POST 方法来创建发送到的答案api answe
更换壳牌管道[重复]

这个问题在这里已经有答案了在 subprocess 模块的 Python 2 7 文档中我找到了以下片段 p1 Popen dmesg stdout PIPE p2 Popen grep hda stdin p1 stdout stdo
在Python中连续解析文件

我正在编写一个脚本该脚本使用 HTTP 流量行解析文件并取出域目前仅将它们打印到屏幕上我正在使用 httpry 将流量连续写入文件这是我用来删除域名的脚本 usr bin python import re input open r
如何使用 os.chdir 转到减去最后一步的路径？

例如一个方法传递了一个路径作为参数这个路径可能是 C a b c d 如果我想使用 os chdir 更改为 C a b 怎么办 c 没有最后一个文件夹 os chdir 可以接受命令吗 os chdir 可以采取作为论点是的然
Streamlabs API 405 响应代码

我正在尝试使用Streamlabs API https dev streamlabs com Streamlabs API 使用 Oauth2 来创建应用程序因此首先我将使用我的应用程序的用户发送到一个授权链接其中包含我的应用程序的客
如何从 nltk 下载器中删除数据/模型？

我在 python3 NLTK 中安装了一些 NLTK 包通过nltk download 尝试过它们但不需要它们现在想删除它们我怎样才能删除例如包large grammars来自我的 NLTK 安装我不想删除完整的 NLTK 安装

随机推荐

从 Gradle 调用 Ant 任务时如何拦截或提升日志消息

我从 gradle 脚本中调用 ant signjar 我怎样才能捕获它的输出我既没有轻松管理它以将 INFO 的输出提升到另一个级别也没有拦截或将错误警告的输出包装到 WARN 级别目前 signjar 回显证书即将过期但这并没有
在剑道网格中，我可以使用函数动态设置列属性吗？

我这里有一些代码我试图根据数据项的值设置单元格的背景颜色 http dojo telerik com solidus flux eHaMu http dojo telerik com solidus flux eHaMu
jQuery 验证插件：如何验证下拉列表

我正在尝试使用 jQuery Validate 插件来验证下拉列表它正确验证了我表单的其余部分但它不适用于下拉菜单这是我的 jQuery campaignForm validate rules campaign name requir
内容通过固定标头传递

在我的 html 页面中我用以下内容修复了标题 position fixed 当我向下滚动时页面的内容会越过标题我怎样才能解决这个问题假设您的 HTML 如下 div div div div 尝试以下 CSS
如何使用类型特征使数组到指针的转换明确？

我想区分静态数组和指针以下示例由于以下原因无法编译具有精确匹配的数组到指针转换使两者foo的可能候选人我能获得第二次超载吗foo使用类型特征明确选择 include
静态编译libmagic（c/c++文件类型检测）

感谢那些帮助我的人上一个问题 https stackoverflow com questions 2105816 trying to use include compile 3rd party library libmagic c c fi
在 REST API 调用之前 OPTIONS 调用元

我试图了解这个系统是如何在幕后工作的该系统是REST基于这是相当标准的我不明白客户做了什么OPTIONS在每次 API 调用之前调用并以该格式返回 XML 内容它使用 Jersey Java OPTIONS的回应DELETE met
System.Web.Mvc.HandleErrorInfo 模型类型错误

我创建了正确的模型类型但不明白它来自哪里有任何想法吗 System InvalidOperationException The model item passed into the dictionary is of type Syste
避免字符串替换中的 for 循环？

我有数据一个字符向量最终我会折叠它所以我不在乎它是否仍然是一个向量或是否被视为单个字符串一个模式向量和一个替换向量我希望数据中的每个模式都被其各自的替换所替换我用一个完成了stringr和一个 for 循环但是有没有更类似于
如何修复 org.hibernate.LazyInitializationException - 无法初始化代理 - 无会话

我得到以下异常 Exception in thread main org hibernate LazyInitializationException could not initialize proxy no Session at org
如何使用 python 处理 selenium 中的 javascript 警报

所以我想点击这个按钮如果这是你第一次点击它将出现一个 JavaScript 警报弹出窗口我一直在使用 firebug 只是找不到 javascript 所在的位置我已经尝试过 if EC alert is present drive
在Emacs的eshell中使用RVM

在emacs的eshell中使用RVM 我无法设置ruby版本为什么环境 Ubuntu 9 10 media Work rubyworkspace ruby v ruby 1 8 7 2009 06 12 patchlevel 174
如何使用 JavaScript 添加/删除
中的隐藏内容

如何添加和删除 hidden from p My Text p 我尝试删除该属性并将其设置为 false 但它们都不起作用 let p document getElementsByTagName p let myText for i 0 i
JavaScript array.length 的时间复杂度

调用的时间复杂度是多少array length在 JavaScript 中我认为它会保持不变因为似乎属性是在所有数组上自动设置的而您只是在查找它我认为它会是不变的因为似乎属性是在所有数组上自动设置的而您只是在查找它正确的它是
ASP.NET 日志记录 - log4net 或运行状况监控？

我正在查看 3 5 中的一个新的 asp net 站点它完全没有错误处理或日志记录记录和处理错误有哪些好的选择我在 1 1 框架上使用了 Log4Net 但听说 3 5 中可能有更好的选择一种选择是 ELMAH 我在这里问了一个关于
Eclipse Indigo 上的编译错误：javax.servlet.jsp.JspException，javax.servlet.jsp.PageContext 无法解析为类型

我在 eclipse indigo 的 jsp 中添加以下 EL 时遇到以下错误
华为推送套件：华为手机上的令牌返回空

我最近在华为手机上尝试了我的应用程序问题是 PushKit 不返回令牌并且getToken结果为空在日志中我得到GetTokenTask receive a empty token please check HmsMessageServ
带有子窗格的 ios13 设置捆绑包会使 Settings.app 在真实设备上崩溃

使用 iPad mini4 A1538 运行 iOS 13 beta 6 使用 XCode 11 beta 5 使用 XCode 11 中的 Single View App 模板创建一个新的 iOS 项目添加一个 Settings bun
将图像存储在本地以用于开发 s3 以用于生产 Rails Paperclip

我想将图像上传到本地计算机上进行开发但将它们存储在我的 Amazon S3 帐户上进行生产上传 rb if Rails env development has attached file photo styles gt thumb gt
合并最接近值的 Pandas

我目前正在开发一个项目在该项目中我通过仪表指示公里匹配并合并两个 Excel 文档这两个数据帧包含相同类型的数据但略有不同我对这个问题的解决方案是将每个数据帧除以 100 以便更轻松地匹配列然而正如我预测的那样有时这不起

合并最接近值的 Pandas

合并最接近值的 Pandas 的相关文章

随机推荐

热门标签