连接 Spark 数据帧时相当于 pandas merge_asof，具有合并最近和容差

2024-03-19

我正在尝试复制熊猫merge_asof https://pandas.pydata.org/pandas-docs/version/0.25.0/reference/api/pandas.merge_asof.html加入 Spark 数据帧时的行为。

假设我有两个数据框，df1 and df2:

import pandas as pd
df1 = pd.DataFrame([{"timestamp": 0.5 * i, "a": i * 2} for i in range(66)])
df2 = pd.DataFrame([{"timestamp": 0.33 * i, "b": i} for i in range(100)])

# use merge_asof to merge df1 and df2
merge_df = pd.merge_asof(df1, df2, on='timestamp', direction='nearest', tolerance=df.timestamp.diff().mean() - 1e-6)

结果merge_df将会：

timestamp	a	b
0.0	0	0
0.5	2	2
1.0	4	3
1.5	6	5
2.0	8	6
...	...	..
30.5	122	92
31.0	124	94
31.5	126	95
32.0	128	97
32.5	130	98

现在在 Spark 中给出类似的数据帧：

df1_spark = spark.createDataFrame([{"timestamp": 0.5 * i, "a": i * 2} for i in range(66)])
df2_spark = spark.createDataFrame([{"timestamp": 0.33 * i, "b": i} for i in range(100)])

如何连接两个 Spark 数据帧以产生与 pandas 类似的结果，并且可配置direction and tolerance?

[Edit]
根据类似帖子的建议，将功能应用于Window会产生类似的行为direction范围。但是，我仍然不知道如何应用函数来查找最近的行（比如如何nearest会表现）并且在一定范围内（tolerance).

下面提供了可配置的direction and tolerance论据。使用窗口函数（last对于“落后”，first代表“向前”，两者都代表“最近”）。

另外，根据我的经验，by熊猫的论点merge_asof经常需要。所以我也努力将此参数添加到函数中。论据by将是有益的，因为它可以通过创建分区进一步提高性能。

from pyspark.sql import functions as F, Window as W

def merge_asof(df_left, df_right, on: str, by=None, tolerance=None, direction: str='backward'):
    def backward():
        return add_diff(F.last(stru1, True).over(w0))
    def forward():
        return add_diff(F.first(stru1, True).over(w0.rowsBetween(0, W.unboundedFollowing)))
    def nearest():
        return F.array_sort(F.array(backward(), forward()))[0]
    def add_diff(col):
        return F.struct(
            F.abs(F.col(on) - col[on]).alias('diff'),
            col[on].alias(on),
            col[c].alias(c)
        )

    df_r = df_right if by else df_right.withColumn('_by', F.lit(1))
    df_l = df_left if by else df_left.withColumn('_by', F.lit(1))
    df_l = df_l.withColumn('_df_l', F.lit(True))
    by = [by] if isinstance(by, str) else by or ['_by']

    join_on = [on] + by
    df = df_l.join(df_r, join_on, 'full')

    w0 = W.partitionBy(*by).orderBy(on)
    for c in set(df_right.columns) - set(join_on):
        stru1 = F.when(~F.isnull(c), F.struct(on, c))
        stru2 = eval(f'{direction}()')
        if tolerance:
            stru2 = stru2.withField(c, F.when(stru2['diff'] <= tolerance, stru2[c]))
        df = df.withColumn(c, stru2[c])
    df = df.filter('_df_l').drop('_df_l', '_by')

    return df

一些解释

首先，函数的参数被稍微修改，并且基于两者执行完全连接，on and by论据。

df_r = df_right if by else df_right.withColumn('_by', F.lit(1))
df_l = df_left if by else df_left.withColumn('_by', F.lit(1))
df_l = df_l.withColumn('_df_l', F.lit(True))
by = [by] if isinstance(by, str) else by or ['_by']

join_on = [on] + by
df = df_l.join(df_r, join_on, 'full')

然后，对于右侧数据框中的每一列（除了on and by列），正在计算一个新值direction and tolerance.

w0 = W.partitionBy(*by).orderBy(on)
for c in set(df_right.columns) - set(join_on):
    stru1 = F.when(~F.isnull(c), F.struct(on, c))
    stru2 = eval(f'{direction}()')
    if tolerance:
        stru2 = stru2.withField(c, F.when(stru2['diff'] <= tolerance, stru2[c]))
    df = df.withColumn(c, stru2[c])

stru1列（的struct类型）被创建，持有on and c价值观。eval(f'{direction}()')执行一个基于的函数direction。函数是为每个direction值（“向后”、“向前”、“最近”）。这些函数向结构列添加另一字段（“diff”）。那么，如果“diff”在上面tolerancelevel，列的值null.

一些例子

df1_spark = spark.createDataFrame([{"timestamp": 0.5 * i, "a": i * 2} for i in range(66)])
df2_spark = spark.createDataFrame([{"timestamp": 0.33 * i, "b": i} for i in range(100)])

merge_asof(df1_spark, df2_spark, on='timestamp', direction='backward').show(3)
# +---------+---+---+
# |timestamp|  a|  b|
# +---------+---+---+
# |      0.0|  0|  0|
# |      0.5|  2|  1|
# |      1.0|  4|  3|
# +---------+---+---+

merge_asof(df1_spark, df2_spark, on='timestamp', direction='forward').show(3)
# +---------+---+---+
# |timestamp|  a|  b|
# +---------+---+---+
# |      0.0|  0|  0|
# |      0.5|  2|  2|
# |      1.0|  4|  4|
# +---------+---+---+

merge_asof(df1_spark, df2_spark, on='timestamp', direction='nearest').show(3)
# +---------+---+---+
# |timestamp|  a|  b|
# +---------+---+---+
# |      0.0|  0|  0|
# |      0.5|  2|  2|
# |      1.0|  4|  3|
# +---------+---+---+

merge_asof(df1_spark, df2_spark, on='timestamp', tolerance=0.05, direction='nearest').show()
# +---------+---+----+
# |timestamp|  a|   b|
# +---------+---+----+
# |      0.0|  0|   0|
# |      0.5|  2|null|
# |      1.0|  4|   3|
# |      1.5|  6|null|
# |      2.0|  8|   6|
# |      2.5| 10|null|
# |      3.0| 12|   9|
# |      3.5| 14|null|
# |      4.0| 16|  12|
# |      4.5| 18|null|
# |      5.0| 20|  15|
# |      5.5| 22|null|
# |      6.0| 24|null|
# |      6.5| 26|null|
# |      7.0| 28|null|
# |      7.5| 30|null|
# |      8.0| 32|null|
# |      8.5| 34|null|
# |      9.0| 36|null|
# |      9.5| 38|null|
# +---------+---+----+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

连接 Spark 数据帧时相当于 pandas merge_asof，具有合并最近和容差的相关文章

在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
Pyqt-如何因另一个组合框数据而更改组合框数据？

我有一个表有 4 列这 4 列中的两列是关于功能的一个是特征另一个是子特征在每一列中所有单元格都有组合框我可以在这些单元格中打开txt 我想当我选择电影院作为功能时我只想看到子功能组合框中的电影名称而不是我的数据中的
无故运行测试时 PyCharm 抛出“AttributeError: 'module' object has no attribute”

因此我有一个 Django REST Framework 项目有一天它无法在 PyCharm 中运行测试从命令行我可以使用它们来运行它们paver or the manage py直接地曾经有一段时间当我们没有在文件顶部导入类的超
cv2.drawContours() - 取消填充字符内的圆圈（Python，OpenCV）

根据 Silencer的建议我使用了他发布的代码here https stackoverflow com questions 48244328 copy shape to blank canvas opencv python 482465
Python 是解释型的还是编译型的，或者两者兼而有之？

据我了解 An 解释的语言是由解释器将高级语言转换为机器代码然后执行的程序实时运行和执行的高级语言它一次处理一点程序 A compiled语言是一种高级语言其代码首先由编译器将高级语言转换为机器代码的程序转换为机器代码然后由执
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
字符串中的注释和注释中的字符串

我正在尝试使用 Python 和 Regex 计算 C 代码中包含的注释中的字符数但没有成功我可以先删除字符串以删除字符串中的注释但这也会删除注释中的字符串结果会很糟糕是否有机会通过使用正则表达式来询问不匹配注释中的字符串反之亦
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
如何在VIM中设置文件的正确路径？

每当我击中 pwd在 vim 中命令总是返回路径C Windows system32 即使我在桌面上的 Python 文件中所以每当我跑步时 python 命令返回 python can t open file Users myname
将 numpy 代码点数组与字符串相互转换

我有一个很长的 unicode 字符串 alphabet range 0x0FFF mystr join chr random choice alphabet for in range 100 mystr re sub W mystr 我想
如何使用 javascript/jquery/AJAX 调用 Django REST API？

我想使用 Javascript jQuery AJAX 在前端调用 Django Rest API 请求方法是 POST 但当我看到 API 调用它的调用 OPTIONS 方法时所以我开始了解access control allow o
揭秘sharedctypes性能

在 python 中可以在多个进程之间共享 ctypes 对象然而我注意到分配这些对象似乎非常昂贵考虑以下代码 from multiprocessing import sharedctypes as sct import ctypes
如何在Python中按AaB而不是ABa顺序对字符串进行排序

我正在尝试对字符串进行排序为 punnetsquare 制作基因型我目前的实现是 unsorted genotype ABaB sorted genotype sorted list unsorted genotype sorted s
如何在 Azure 数据工厂 - Databricks 中使用 continuation_token 获取 ADF Pipeline 运行详细信息的下一页？

我在用 adf client pipeline runs query by factory resourceGroupName 工厂名称过滤器参数的方法azure mgmt datafactory DataFactoryManageme
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r

随机推荐

Android NDK - NativeActivity 与 JNI 库

两年前我开发了一个增强现实框架android 7 闪电泡芙 http developer android com about versions android 2 1 html 由于 AR 应用程序是计算密集型任务因此我开发了一个 JN
我应该使用类还是字典？

我有一个只包含字段而不包含方法的类如下所示 class Request object def init self environ self environ environ self request method environ get R
如何创建通用存储库？

我想知道是否有人有关于制作通用存储库的任何好的教程或者甚至可能是已经制作好的并且有详细记录的库我当前正在使用 linq to sql 但它可能会发生变化所以我不知道您是否可以创建一个通用存储库如果我说切换到实体框架则几乎不需要任何
以编程方式展开/折叠 CoordinatorLayout 中的底部导航视图

我有一个CoordinatorLayout其中包含一个BottomNavigationView and an AppBarLayout with a ToolBar在它里面这BottomNavigationView不在里面AppBarLa
部署不渲染 Kendo UI

VS2012 asp net MVC4 c 带有 KendoUI 实现的互联网应用程序最简单的说法是我的网站看起来像这样开发机器上的本地像这样部署我检查了服务器 Kendo UI 论坛所有论坛都指向图像丢失我检查了甚至复制了我的
授予 EC2 实例对 S3 存储桶的访问权限

我想授予我的 ec2 实例对 s3 存储桶的访问权限在此 ec2 实例上启动了一个包含我的应用程序的容器现在我没有获得 s3 存储桶的许可这是我的存储桶政策 Version 2012 10 17 Id Policy146280822
如何使用iPhone SDK下载文本文件？

我是开发基于视图的 iPhone 应用程序的新手我需要下载这个 txt 文件来自互联网并将其保存到应用程序的文档文件夹中谁能简单地告诉我如何做到这一点 txt 文件很小所以我不会需要任何用户界面对象 Thanks Kevin N
如何使用CSS仅在移动设备上显示文本？

我有一个文本在 div 中显示在桌面和移动屏幕上 Expected 我希望文本仅显示在 media only screen and max width 768px How to 隐藏 div 与display none or 还有其他解
Django-rest-framework 多个 url 参数

如何将示例对象映射到 url website com api
编辑 PrimeNG 组件的 CSS

我目前正在使用 Angular 4 Angular Materials 和 PrimeNG 组件开发用户界面我正在处理的最新组件是来自 PrimeNG 的 MultiSelect 组件 https www primefaces org p
iOS 禁用横向 LaunchScreen.storyboard

我有一个LaunchScreen storybaord显示徽标文本因此与方向无关该应用程序始终以纵向启动但它有某些允许横向模式的视图控制器因此不能选择仅使应用程序纵向我想要的是启动屏幕始终以纵向显示因此在应用程序启动期间将手
通过模拟器发送电话号码

我正在制作一个应用程序我想检索设备电话号码并将其发送到服务器上但我正在 Android 模拟器上测试这个应用程序谁能告诉我如何在模拟器和实际设备中设置或获取电话号码 Thanks 如果我们使用电话管理器我们可以在模拟器中获取电话号码
如何在 Entity Framework Core 中删除多行？ [复制]

这个问题在这里已经有答案了我需要使用 Entity Framework Core 从数据库中删除多行此代码不起作用 foreach var item in items myCollection Remove item 因为我在第一个对象
如何测试 Ruby on Rails 功能测试的 JSON 结果？

我该如何维护我的Ajax http en wikipedia org wiki Ajax 28programming 29请求并测试 Ruby on Rails 功能测试的 JSON 输出在 Rails gt 5 中 Use Action
Jena PrefixMapping：当模型是从数据集中获取的命名模型时，基本命名空间缺失

这是我用来加载的代码OntModel to a Dataset作为命名模型然后我尝试检索PrefixMapping以两种不同的方式实现相同的目的 public static void loadDatasetwithNamedModels
获取“exec”调用中最后一个表达式的值

假设我在字符串中有一些 python 代码 code a 42 a and I exec那串代码 result exec code Then result一直会None 有没有办法获得最后一个表达式的值在这种情况下那就是5 since
VueJS 读取 Dom 属性

我想获取按钮单击事件的 href 属性 a href user all 2 i class fa fa edit i span Get Data span a 主要 JS 文件 new Vue el body methods func fu
实体框架 4 存储过程调用超时

我有一个导入到 EF4 中的存储过程当我在 30 秒后使用某些参数调用它时它会抛出超时错误在 SQL Server Profiler 中我可以看到使用正确参数的存储过程调用仅花费了 30 秒多一点这是我的应用程序的超时时间然而
Spring MVC：当未指定内容类型时@RequestBody

我有一个 Spring MVC 应用程序它以 JSON 字符串的形式从外部系统接收 HTTP 请求其响应的返回方式与 JSON 字符串类似我的控制器正确注释为 RequestBody and ResponseBody我有集成测试它实
连接 Spark 数据帧时相当于 pandas merge_asof，具有合并最近和容差

我正在尝试复制熊猫merge asof https pandas pydata org pandas docs version 0 25 0 reference api pandas merge asof html加入 Spark 数据帧时

连接 Spark 数据帧时相当于 pandas merge_asof，具有合并最近和容差

连接 Spark 数据帧时相当于 pandas merge_asof，具有合并最近和容差 的相关文章

随机推荐

热门标签

连接 Spark 数据帧时相当于 pandas merge_asof，具有合并最近和容差的相关文章