在python中按时间（TimestampType）连接两个spark数据帧

2023-11-26

我有两个数据帧，我想基于一列连接它们，但需要注意的是，该列是一个时间戳，并且该时间戳必须在一定的偏移量（5 秒）内才能连接记录。更具体地说，记录在dates_df with date=1/3/2015:00:00:00应该加入events_df with time=1/3/2015:00:00:01因为两个时间戳相差不超过 5 秒。

我试图让这个逻辑与 python Spark 一起工作，这是非常痛苦的。人们如何在 Spark 中进行这样的连接？

我的方法是添加两个额外的列dates_df这将决定lower_timestamp and upper_timestamp以 5 秒偏移为边界，并执行条件连接。这就是它失败的地方，更具体地说：

joined_df = dates_df.join(events_df, 
    dates_df.lower_timestamp < events_df.time < dates_df.upper_timestamp)

joined_df.explain()

仅捕获查询的最后部分：

Filter (time#6 < upper_timestamp#4)
 CartesianProduct
 ....

它给了我一个错误的结果。

我真的必须对每个不等式进行完整的笛卡尔连接，并在进行过程中删除重复项吗？

这是完整的代码：

from datetime import datetime, timedelta

from pyspark import SparkContext, SparkConf
from pyspark.sql import SQLContext
from pyspark.sql.types import *
from pyspark.sql.functions import udf


master = 'local[*]'
app_name = 'stackoverflow_join'

conf = SparkConf().setAppName(app_name).setMaster(master)
sc = SparkContext(conf=conf)

sqlContext = SQLContext(sc)

def lower_range_func(x, offset=5):
    return x - timedelta(seconds=offset)

def upper_range_func(x, offset=5):
    return x + timedelta(seconds=offset)


lower_range = udf(lower_range_func, TimestampType())
upper_range = udf(upper_range_func, TimestampType())

dates_fields = [StructField("name", StringType(), True), StructField("date", TimestampType(), True)]
dates_schema = StructType(dates_fields)

dates = [('day_%s' % x, datetime(year=2015, day=x, month=1)) for x in range(1,5)]
dates_df = sqlContext.createDataFrame(dates, dates_schema)

dates_df.show()

# extend dates_df with time ranges
dates_df = dates_df.withColumn('lower_timestamp', lower_range(dates_df['date'])).\
           withColumn('upper_timestamp', upper_range(dates_df['date']))


event_fields = [StructField("time", TimestampType(), True), StructField("event", StringType(), True)]
event_schema = StructType(event_fields)

events = [(datetime(year=2015, day=3, month=1, second=3), 'meeting')]
events_df = sqlContext.createDataFrame(events, event_schema)

events_df.show()

# finally, join the data
joined_df = dates_df.join(events_df, 
    dates_df.lower_timestamp < events_df.time < dates_df.upper_timestamp)    

joined_df.show()

我得到以下输出：

+-----+--------------------+
| name|                date|
+-----+--------------------+
|day_1|2015-01-01 00:00:...|
|day_2|2015-01-02 00:00:...|
|day_3|2015-01-03 00:00:...|
|day_4|2015-01-04 00:00:...|
+-----+--------------------+

+--------------------+-------+
|                time|  event|
+--------------------+-------+
|2015-01-03 00:00:...|meeting|
+--------------------+-------+


+-----+--------------------+--------------------+--------------------+--------------------+-------+
| name|                date|     lower_timestamp|     upper_timestamp|                time|  event|
+-----+--------------------+--------------------+--------------------+--------------------+-------+
|day_3|2015-01-03 00:00:...|2015-01-02 23:59:...|2015-01-03 00:00:...|2015-01-03 00:00:...|meeting|
|day_4|2015-01-04 00:00:...|2015-01-03 23:59:...|2015-01-04 00:00:...|2015-01-03 00:00:...|meeting|
+-----+--------------------+--------------------+--------------------+--------------------+-------+

我做了 Spark SQL 查询explain()看看它是如何完成的，并在 python 中复制了相同的行为。首先是如何使用 SQL Spark 执行相同的操作：

dates_df.registerTempTable("dates")
events_df.registerTempTable("events")
results = sqlContext.sql("SELECT * FROM dates INNER JOIN events ON dates.lower_timestamp < events.time and  events.time < dates.upper_timestamp")
results.explain()

这是可行的，但问题是如何在 python 中做到这一点，所以解决方案似乎只是一个简单的连接，后面跟着两个过滤器：

joined_df = dates_df.join(events_df).filter(dates_df.lower_timestamp < events_df.time).filter(events_df.time < dates_df.upper_timestamp)

joined_df.explain()产生与 sql Spark 相同的查询results.explain()所以我认为这就是事情的完成方式。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在python中按时间（TimestampType）连接两个spark数据帧的相关文章

简单的 Linq 查询对同一个表有重复的连接？

来自 Julia Lerman 的新实体框架书中的示例我有一个包含两个表的数据库联系人和地址 Contact 表有一个 ContactID int 以及名字姓氏等 Address 表有一个 ContactID 以及城市州邮政编码等
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
将嵌套字典键值转换为 pyspark 数据帧

我有一个 Pyspark 数据框如下所示我想提取 dic 列中的那些嵌套字典并将它们转换为 PySpark 数据帧像这样请让我知道如何实现这一目标 Thanks from pyspark sql import functions a
dplyr：连接中的 NSE (by)

我很难弄清楚如何使用 dplyr left join 和 NSE 连接两个表问题是我无法为 by 提供正确的值我想我现在已经找到了解决方案但感觉我正在以一种额外复杂的方式来做因此如果您知道更简单更优雅的解决方案请告诉我这就是
如何将 UDF 中的结构或类数组返回到数据帧列值中？

d ID 1 pID 1000 startTime 2018 07 02T03 34 20 endTime 2018 07 03T02 40 20 ID 1 pID 1000 startTime 2018 07 02T03 45 20 en
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
连接 3 三张表

我有这个图表应该可以解释我的情况我需要一些关于连接 3 个表的帮助我不知道如何做这种事情因此我可以通过执行以下操作来经历一段检索记录的 while 循环 img src alt Album AlbumID 使用内部联接 http w
如何避免连接两个表时重复

Student Table SID Name 1 A 2 B 3 C Marks Table id mark subject 1 50 physics 2 40 biology 1 50 chemistry 3 30 mathematics
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
pyspark.sql.functions.window 函数的“startTime”参数和 window.start 有何作用？

示例如下 df spark createDataFrame 1 2017 05 15 23 12 26 2 5 1 2017 05 09 15 26 58 3 5 1 2017 05 18 15 26 58 3 6 2 2017 05 15
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
运行pyspark时没有这样的文件或目录错误

我安装了 Spark 但是当我运行时pyspark在终端上我得到 usr local Cellar apache spark 2 4 5 1 libexec bin pyspark line 24 Users miguel spark 2
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
如何获取使用 concat_ws 生成的结果的大小？

我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat ws 我怎样才能获得该列表中的值的计数这是我的代码 Dataset
具有条件连接和非匿名返回的 LINQ 查询

我有一个针对 SQL Server 数据库的 LINQ 查询该查询将每行的数据写入一个对象Person 在某些情况下我想加入其他表并添加更多字段Person对象同时利用 LINQ 延迟加载 The Person类看起来像这样 publ
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
由于 UTFDataFormatException 导致 Spark 中的任务无法序列化：编码字符串太长

我在 Yarn 上运行 Spark 应用程序时遇到一些问题我有非常广泛的集成测试运行时没有任何问题但是当我在 YARN 上运行应用程序时它将抛出以下错误 17 01 06 11 22 23 ERROR yarn Applicatio

随机推荐

在 Python 中将 OpenCL 加速函数与 OpenCV3 结合使用

OpenCV3 引入了它的 T API 透明 API 它使用户能够使用 GPU 或其他支持 OpenCL 的设备加速的功能我正在努力寻找如何使用 Python 来利用它对于 C 有这样的调用ocl setUseOpenCL true
将字符串发布到 ASP.NET 4.5 和 VS 2012 RC 中的 Web API 控制器

我是 WebAPI 新手正在尝试学习它我有一个 WebAPI 控制器我试图使用单元测试中的 WebClient 向其发布字符串我使用下面的代码将字符串发布到我的 WebAPI using var client new WebClie
具有多个参数的performSelectorOnMainThread

我正在尝试在主线程上执行此操作 curItem mButton setBackgroundImage newArt forState UIControlStateNormal 所以我这样做 cWrapperObject obj cWrapp
为什么 Git 不将分支名称存储为提交的一部分？

请注意我并不是想重新争论 Mercurial 还是 Git 哪个更好我只是有一个技术问题作为 Mercurial 用户我不明白我也不确定 SO 是否是问这样的问题的正确地方但它is编程相关从用户的角度来看关于 Git 和 M
按列表过滤 pandas 数据框

我有一个数据框其中有一行名为 Hybridization REF 我想进行过滤以便只获取与列表中的项目之一具有相同标签的项目的数据基本上我想做以下事情 dataframe dataframe Hybridization REF ap
如何在 OpenAPI (Swagger) 中定义一个可以是字符串或 null 的属性？

我有 JSON 模式文件其中一个属性定义为string or null type string null 当转换为 YAML 与 OpenAPI Swagger 一起使用时它将变为 type null string 但 Swagger
为多个平台构建 Linux 二进制文件

帮我算个账吧我有一个用 C 编写的软件旨在在尽可能多的 Linux 发行版上运行我需要找出一种有效的策略在这种情况下我试图发送二进制文件而不是源代码可能很高兴知道它已经是一个商业产品我的知识产权问题阻止了我开源该产品但也意
从文本框中获取整数值，如何检查它是否为 NaN 或 null 等？

我正在通过 JavaScript 从文本框中提取一个值如果文本框为空则返回NaN 如果它是 null 空等我想返回一个空字符串我该做什么检查 if NAN tb value 嗯这里有些可疑在什么浏览器中空文本框返回 NaN 我从
使用 spring3 @Value 访问 PropertyPlaceholderConfigurer 值？

我正在尝试使用 spring bean 设置字符串的值 Value 当我的财产来源是的子类时PropertyPlaceholderConfigurer 有人知道怎么做吗老问题但仍然值得回答您可以像使用原始表达式一样使用该表达式Prop
如何通过 JObject 进行枚举？

我正在尝试确定如何访问 JObject 中的数据但我无法确定如何使用它 JObject Object JObject Response Data my key 我可以通过 Console WriteLine Object 将其打印到控制台
内联脚本，因为它违反了以下内容安全策略指令：“script-src 'self'”

I use react create app构建我的 chrome 扩展当我使用npm run build在react create app中我有错误拒绝执行内联脚本因为它违反了以下规定内容安全策略指令 script src sel
通过 Eclipse 调试 Pylons 应用程序

我使用 PyDev 设置了 Eclipse 并且喜欢能够调试我的脚本应用程序我刚刚开始使用 Pylons 想知道是否有一种方法可以通过 Eclipse 启动 Paster 服务器以便我可以调试我的 Web 应用程序创建新的启动配置
Kotlin 中的 Getter 和 Setter

例如在 Java 中我可以自己编写 getter 由 IDE 生成或使用像 lombok 中的 Getter 这样的注释这非常简单然而 Kotlin 有默认情况下的 getter 和 setter 但我不明白如何使用它们我想让它
jQuery 循环 pagerAnchorBuilder

我正在使用 Cycle 插件在新闻旋转器中使用这意味着我使用 Div 来填充幻灯片而不是图像我的最终目标是制作一个寻呼机而不是通常的 1 2 3 4 等而是返回幻灯片中的第一个 H3 标签我知道这可能是一个小选择问题但这是我到目
是否可以将自定义小部件添加到 QListView 中？

我有大量日志数据 100 1000 100000 记录我想通过以下方式将其可视化哪个小部件例如QListView QListWidget 我应该使用以及如何使用以避免性能和内存问题是否可以将自定义小部件添加到 QListView
通过LTR和RTL内容的组合改变负数的方向

这是我的 HTML 结构 div direction rtl span direction ltr div span 2 span div 这是预期结果如你所见符号应出现在数字的开头我怎样才能做到这一点 Note 的方向div应该rt
如何确定主语、宾语等词语？

我正在尝试实现可以通过将句子分成更小的部分来确定句子含义的应用程序所以我需要知道哪些词是主语宾语等以便我的程序知道如何处理这个句子这是一个开放的研究问题您可以在维基百科上获得概述 http en wikipedia org wi
如何使用 Node.js 将 Base64 编码的图像（字符串）直接上传到 Google Cloud Storage 存储桶？

目前我正在使用 google cloud 存储NPM 包可将文件直接上传到 Google Cloud Storage 存储桶这需要一些技巧因为我只有图像的 base64 编码字符串我必须解码字符串将其另存为文件将文件路径发送到
我也可以通过单击其他元素来展开/折叠 JQuery ui Accordion 的内容吗？

默认情况下有内容标题来控制展开折叠但在我的情况下我也可以通过其他元素展开折叠内容例如 jquery ui 手风琴代码的基本结构 div class demo div h3 a href Section 1 a h3 div p
在python中按时间（TimestampType）连接两个spark数据帧

我有两个数据帧我想基于一列连接它们但需要注意的是该列是一个时间戳并且该时间戳必须在一定的偏移量 5 秒内才能连接记录更具体地说记录在dates df with date 1 3 2015 00 00 00应该加入events

在python中按时间（TimestampType）连接两个spark数据帧

在python中按时间（TimestampType）连接两个spark数据帧 的相关文章

随机推荐

热门标签

在python中按时间（TimestampType）连接两个spark数据帧的相关文章