PySpark - RDD 中对象的时间重叠

2023-12-15

我的目标是根据时间重叠对对象进行分组。

我的每个对象rdd包含一个start_time and end_time.

我可能效率很低，但我计划做的是根据每个对象是否与任何其他对象有任何时间重叠来为每个对象分配一个重叠 id。我有时间重叠的逻辑。然后，我希望以此分组overlap_id.

所以首先，

mapped_rdd = rdd.map(assign_overlap_id)
final_rdd = mapped_rdd.reduceByKey(combine_objects)

现在我的问题来了。我该如何编写 allocate_overlap_id 函数？

def assign_overlap_id(x):
  ...
  ...
  return (overlap_id, x)

使用 Spark SQL 和数据帧的简单解决方案：

Scala:

import org.apache.spark.sql.functions.udf

case class Interval(start_time: Long, end_time: Long)

val rdd = sc.parallelize(
    Interval(0, 3) :: Interval(1, 4) ::
    Interval(2, 5) :: Interval(3, 4) ::
    Interval(5, 8) :: Interval(7, 10) :: Nil
)

val df = sqlContext.createDataFrame(rdd)

// Simple check if a given intervals overlap
def overlaps(start_first: Long, end_first: Long,
        start_second: Long, end_second: Long):Boolean = {
    (start_second > start_first & start_second < end_first) |
    (end_second > start_first & end_second < end_first) 
}

// Register udf and data frame aliases
// It look like Spark SQL doesn't support
// aliases in FROM clause [1] so we have to
// register df twice
sqlContext.udf.register("overlaps", overlaps)
df.registerTempTable("df1")
df.registerTempTable("df2")

// Join and filter
sqlContext.sql("""
     SELECT * FROM df1 JOIN df2
     WHERE overlaps(df1.start_time, df1.end_time, df2.start_time, df2.end_time)
""").show

使用 PySpark 也能完成同样的事情

from pyspark.sql.functions import udf
from pyspark.sql.types import BooleanType

rdd = sc.parallelize([
    (0, 3), (1, 4), 
    (2, 5), (3, 4),
    (5, 8), (7, 10)
])

df = sqlContext.createDataFrame(rdd, ('start_time', 'end_time'))

def overlaps(start_first, end_first, start_second, end_second):
    return ((start_first < start_second < end_first) or
        (start_first < end_second < end_first))

sqlContext.registerFunction('overlaps', overlaps, BooleanType())
df.registerTempTable("df1")
df.registerTempTable("df2")

sqlContext.sql("""
     SELECT * FROM df1 JOIN df2
     WHERE overlaps(df1.start_time, df1.end_time, df2.start_time, df2.end_time)
""").show()

按窗口分组的低级转换

更聪明的方法是使用某个指定宽度的窗口生成候选对。这是一个相当简化的解决方案：

Scala:

// Generates list of "buckets" for a given interval
def genRange(interval: Interval) = interval match {
    case Interval(start_time, end_time) => {
      (start_time / 10L * 10L) to (((end_time / 10) + 1) * 10) by 1
    }
}


// For each interval generate pairs (bucket, interval)
val pairs = rdd.flatMap( (i: Interval) => genRange(i).map((r) => (r, i)))

// Join (in the worst case scenario it is still O(n^2)
// But in practice should be better than a naive
// Cartesian product
val candidates = pairs.
    join(pairs).
    map({
        case (k, (Interval(s1, e1), Interval(s2, e2))) => (s1, e1, s2, e2)
   }).distinct


// For each candidate pair check if there is overlap
candidates.filter { case (s1, e1, s2, e2) => overlaps(s1, e1, s2, e2) }

Python:

def genRange(start_time, end_time):
    return xrange(start_time / 10L * 10L, ((end_time / 10) + 1) * 10)

pairs = rdd.flatMap(lambda (s, e): ((r, (s, e)) for r in genRange(s, e)))
candidates = (pairs
    .join(pairs)
    .map(lambda (k, ((s1, e1), (s2, e2))): (s1, e1, s2, e2))
    .distinct())

candidates.filter(lambda (s1, e1, s2, e2): overlaps(s1, e1, s2, e2))

虽然对于某些数据集来说它足以用于生产就绪的解决方案，但您应该考虑实现一些最先进的算法，例如NCList.

http://docs.datastax.com/en/datastax_enterprise/4.6/datastax_enterprise/spark/sparkSqlSupportedSyntax.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

RDD

PySpark - RDD 中对象的时间重叠的相关文章

sklearn DeprecationWarning 数组的真值

从文档中运行 rasa core 示例 python3 m rasa core run d models dialogue u models nlu default current 并在对话框中的每条消息后获取此错误输出 sklearn D
如何将本机 popcount 与 numba 一起使用

我正在使用 numba 0 57 1 我想在我的代码中利用本机 CPU popcount 我现有的代码太慢因为我需要运行它数亿次这是一个 MWE import numba as nb nb njit nb uint64 nb uint6
如何测试使用 XCom 的 Apache Airflow 任务

我正在尝试找出一种测试 DAG 的方法其中有几个任务使用 XCom 进行通信由于控制台命令只允许我从 DAG 运行任务有没有一种方法可以测试通信而无需通过 UI 运行 DAG Thanks 这是一种对我有用的方法尽管 Airflow
scipy.misc.imshow RuntimeError('无法执行图像视图')

我正在测试scipy misc imshow https docs scipy org doc scipy 0 15 1 reference generated scipy misc imshow html我得到了运行时错误无法执行图像查
使用 Python 在 Google Cloud Storage 存储桶中创建/上传新文件

如何使用 Python 和可用的客户端库在 Google Cloud Storage 中创建新的空文件或者如何使用 blob 函数 upload from filename 将新文件上传到选定的存储桶要初始化 blob 对象我们应该在
Python grpc protobuf 存根生成问题：--grpc_out: protoc-gen-grpc: 插件失败，状态代码 1

正如问题所说我从源代码编译了 grpc 并且也做了sudo pip install grpcio 但是那which grpc python plugin不返回任何内容这是一个问题因为route guide的grpc python示例
我应该为 MySQL 使用什么 python 3 库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案据我所知 MySQLdb 仍然没有移植到 Python 3 pypy 上似乎有另一个名为 PyMySQL
如何使用 HTTP 标头发送非英语 unicode 字符串？

我是 HTTP 相关问题的新手我的问题是在 iOS 开发中我想使用 HTTP 标头发送一个字符串所以我使用 httpRequest setValue nonEnglishString forHTTPHeaderField custom
如何从 Lua 调用 Python 函数？

我想从我的 lua 文件运行 python 脚本我怎样才能实现这个目标 Example Python代码 sum py file def sum from python a b return a b Lua code main lua f
Django 未在 404 页面上应用应用程序中的 CSS 文件

姜戈3 0 8 Python 3 7 x 我有一个包含一些应用程序的 Django 项目我正在尝试为 400 403 404 500 错误制作一些默认错误页面我已经这样做了并显示了适当的模板但没有任何样式或 JS 在 404 错
类型错误：需要 Future 或协程

我尝试在 asyncssh 上自动重新连接 ssh 客户端 SshConnectManager 必须留在后台并在需要时进行 ssh 会话 class SshConnectManager object def init self host u
python：是否有用于对输入流进行分块的库函数？

我想对输入流进行分块以进行批处理给定一个输入列表或生成器 x in 1 2 3 4 5 6 我想要一个能够返回该输入块的函数说如果chunk size 4 then x chunked 1 2 3 4 5 6 这是我一遍又一遍地做的事
如何删除 pandas 数据框中的唯一行？

我遇到了一个看似简单的问题在 pandas 数据框中删除唯一的行基本上相反drop duplicates https pandas pydata org pandas docs stable generated pandas Data
Python，多线程，获取网页，下载网页

我想在一个站点批量下载网页我的 urls txt 文件中有 5000000 个 url 链接大约有300M 如何让多线程链接这些网址并下载这些网页或者如何批量下载这些网页我的想法 with open urls txt r as f
Qcut Pandas：ValueError：Bin 边缘必须是唯一的

我使用 Pandas 中的 Qcut 将数据离散化为大小相等的存储桶我想要有价格桶这是我的数据框 productId sell prix categ popularity 11997 16758760 0 28 75 50 524137
Python 队列 get()/task_done() 问题

我的消费者端队列 m queue get queue task done
如何使用 pygame.mixer 重复音乐？

我创建了以下使用 pygame mixer 播放 mp3 音乐的代码然而音乐不会重复有什么想法可以让音乐重复播放吗这是代码 playlist list playlist append put music here mp3 playl
在多个图表上绘制一条线

I don t know how this thing is called or even how to describe it so the title may be a little bit misleading The first a
部署 Flask 应用程序时如何检测额外文件的更改并重新加载应用程序？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我在 Flask 中构建了一个小型 Web 应用程序并尝试将其部署在 Pythonanywhere 上在开发过程中
django admin 中内联模型的分页器

我有这个简单的 django 模型由一个传感器和特定传感器的值组成每个日射强度计的值数量很多 gt 30k 是否可以以某种方式分页PyranometerValues在特定日期或一般情况下将分页器应用于管理内联视图 class Pyran

随机推荐

Android Activity 在 4.3 设备上运行缓慢

我开发了一个可以从网络传输视频的应用程序我有一个活动列出了视频包括它们的图标标题和状态新更新每行都有一个视频缩略图视频标题然后有一个新鲜图标来指示它是新上传的在模拟器中这工作得相当好在 2 3 和 4 0 3 HTC
使用 Python 与其他程序交互

我有一个想法使用 Python 编写一个程序该程序将找到我提供的歌曲的歌词我认为整个过程应该归结为以下几件事这些是我希望程序在运行时执行的操作提示我输入歌曲名称复制那个名字打开网络浏览器例如谷歌浏览器将该名称粘贴到地址栏中
是否还可以自定义STL向量的“参考”类型？

是否可以定制reference of a std vector 直到 C 11 似乎可以通过Allocator模板参数但现在不再了吗根据文档 http en cppreference com w cpp container vector
如何确定 gfortran 正在矢量化什么

我正在尝试编写一个大规模并行蒙特卡罗代码其中一部分将导出到 Xeon phi 协处理器为了确保我有效地使用协处理器我想看看编译器当前为 gfortran 能够对代码的哪些部分进行矢量化我知道我可以使用 ifort commane
Android 10 MediaStore 文件权限

我仅在 Android 10 中遇到图像权限问题我声明该问题仅适用于 Android 10 事实上 Android 11 和 Android 9 及更早版本都启用了写入和读取权限在清单中我有
剥离可执行文件 (Windows)

我听说 strip 是一个可以使可执行文件变小的程序我尝试从我的编译器针对 Python 打开它但是当运行 strip 时我只是在命令提示符中看到 strip 未被识别为命令或程序错误那么我在哪里可以获得 Windows 版 s
如何让图像看起来好像站在平台上（如果它“降落”在平台上）

所以我正在创建我的第一个 2d java 游戏我想知道如何让玩家看起来好像站在一个平台上如果它落在平台上问题在于在我的游戏中 NINJA 始终位于屏幕中央并且从不移动但只有背景和平台移动关于如何解决问题有什么想法吗 r back
如何调整 JTextField 的大小？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心以获得指导如何调整 JTextFie
ASP.NET：向不同的 Web 表单添加限制

我目前正在寻求一些建议和帮助以了解如何避免人们访问页面除非他们 1 已登录 2 具有访问该页面的正确角色到目前为止我已经完成了登录页面注册页面和其他一些页面我还有一个链接到这些页面的数据库用于存储用户及其各自的角色当前在注册
Flutter - 如何切换flutter通道而不需要每次都下载flutter & dart sdk

目前我正在尝试 flutter web 为此我需要在 flutter master 频道上工作但是然后我需要处理其他项目在他们身上我正在开发颤振稳定通道但是每次我使用命令 flutter channel stable 或 flu
将组合框字符串值转换为 int

我有一个关于转换类型的问题我想将当前选定的组合框值字符串更改为 int 但出现错误 My code int Parse age SelectedItem ToString 对于这个问题我能做什么好的现在我们知道错误了您可以在尝试解析
xpath 查找特定根下具有特定名称的所有属性

为了找到所有具有名称的属性myAttr在文档中我可以这样做 myAttr但是如果我想指定根并仍然在文档中查找具有该名称的所有属性怎么办就像是 root whatever or nothing myAttribute 这样怎么样 root
SQL Server 中按 x 排序，然后按 y 列排序

考虑一个像这样的表 debit credit code 0 10 5 5 0 3 0 11 2 0 15 1 7 0 6 6 0 2 5 0 1 我需要生成这样的结果集首先借记然后按代码列排序 debit credit code 5 0
如何在 Flutter 中更改主题？

所以我在这里尝试获取当前主题无论是浅色还是深色所以我可以相应地改变小部件颜色但是它不起作用我使用 if 语句来知道何时是黑暗模式但它总是 False 这是代码顺便说一句它在深色和浅色主题之间切换但是当我尝试获取当前主题时
Subversion E160004 X的根节点的前身是Y但应该是Z

我继承了一个大型 Subversion 存储库 74010 修订版并且我正在尝试执行转储加载以将存储库升级到 1 8 版本以利用节省空间的功能在尝试这个过程之前我跑了svnadmin verify对有问题的存储库进行检查以确保该存
在 Google 商店中将多个 Chrome 扩展程序作为单个项目发布

Chrome 扩展程序和 Chrome 应用程序具有我需要实现某些功能的 API 但我无法仅使用扩展程序或仅使用应用程序或使用本机代码来实现此目的所以我制作了一个扩展程序和一个应用程序并使它们通过消息相互通信一切正常但现在我必须发布
将表单提交到操作 php 文件

我有一个表单当用户单击提交时我需要运行一个 php 文件下面是表单和 php 文件
Spirit X3，如何让属性类型匹配规则类型？

对于 Spirit X3 解析器的开发我想使用语义操作脚注 1 对我来说控制如何将属性存储到 STL 容器中非常重要这个问题是关于如何控制解析器属性 attr ctx 与规则类型 val ctx 匹配以便可以正确分配它也许这个问
如何构建电影数据库和用户选择？

我想创建电影数据库用户可以在其中标记他她观看和喜欢的电影 class Movies ndb Model watched ndb UserProperty liked ndb UserProperty 那行得通吗我使用谷歌帐户以后我应
PySpark - RDD 中对象的时间重叠

我的目标是根据时间重叠对对象进行分组我的每个对象rdd包含一个start time and end time 我可能效率很低但我计划做的是根据每个对象是否与任何其他对象有任何时间重叠来为每个对象分配一个重叠 id 我有时间重叠的逻辑然

PySpark - RDD 中对象的时间重叠

使用 Spark SQL 和数据帧的简单解决方案：

按窗口分组的低级转换

PySpark - RDD 中对象的时间重叠 的相关文章

随机推荐

热门标签

PySpark - RDD 中对象的时间重叠的相关文章