一个 RDD 中的值与另一个 RDD 中的值部分/完全匹配

2024-04-14

我有两个 RDD，其中第一个 RDD 具有以下形式的记录

RDD1 = (1, 2017-2-13,"ABX-3354 gsfette"
        2, 2017-3-18,"TYET-3423 asdsad"
        3, 2017-2-09,"TYET-3423 rewriu"
        4, 2017-2-13,"ABX-3354 42324"
        5, 2017-4-01,"TYET-3423 aerr")

第二个 RDD 具有以下形式的记录

RDD2 = ('mfr1',"ABX-3354")
       ('mfr2',"TYET-3423")

我需要找到 RDD1 中与 RDD1 的第三列到 RDD2 的第二列匹配的 RDD2 中每个值具有完全匹配/部分匹配的所有记录，并获取计数

对于此示例，最终结果将是：

ABX-3354  2
TYET-3423 3

做这个的最好方式是什么？

我正在发布几个使用 Spark SQL 的解决方案更专注于准确的模式匹配给定文本中的搜索字符串。

1：使用CrossJoin

import spark.implicits._

val df1 = Seq(
  (1, "2017-2-13", "ABX-3354 gsfette"),
  (2, "2017-3-18", "TYET-3423 asdsad"),
  (3, "2017-2-09", "TYET-3423 rewriu"),
  (4, "2017-2-13", "ABX-335442324"), //changed from "ABX-3354 42324"
  (5, "2017-4-01", "aerrTYET-3423") //changed from "TYET-3423 aerr"
).toDF("id", "dt", "txt")

val df2 = Seq(
  ("mfr1", "ABX-3354"),
  ("mfr2", "TYET-3423")
).toDF("col1", "key")

//match function for filter
def matcher(row: Row): Boolean = row.getAs[String]("txt")
  .contains(row.getAs[String]("key"))

val join = df1.crossJoin(df2)

import org.apache.spark.sql.functions.count

val result = join.filter(matcher _)
  .groupBy("key")
  .agg(count("txt").as("count"))

2：使用广播变量

import spark.implicits._

val df1 = Seq(
  (1, "2017-2-13", "ABX-3354 gsfette"),
  (2, "2017-3-18", "TYET-3423 asdsad"),
  (3, "2017-2-09", "TYET-3423 rewriu"),
  (4, "2017-2-13", "ABX-3354 42324"),
  (5, "2017-4-01", "aerrTYET-3423"),
  (6, "2017-4-01", "aerrYET-3423")
).toDF("id", "dt", "pattern")

//small dataset to broadcast
val df2 = Seq(
  ("mfr1", "ABX-3354"),
  ("mfr2", "TYET-3423")
).map(_._2) // considering only 2 values in pair

//Lookup to use in UDF
val lookup = spark.sparkContext.broadcast(df2)

//Udf
import org.apache.spark.sql.functions._
val matcher = udf((txt: String) => {
  val matches: Seq[String] = lookup.value.filter(txt.contains(_))
  if (matches.size > 0) matches.head else null
})

val result = df1.withColumn("match", matcher($"pattern"))
  .filter($"match".isNotNull) // not interested in non matching records
  .groupBy("match")
  .agg(count("pattern").as("count"))

两种解决方案都会产生相同的输出

result.show()

+---------+-----+
|      key|count|
+---------+-----+
|TYET-3423|    3|
| ABX-3354|    2|
+---------+-----+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

patternmatching

一个 RDD 中的值与另一个 RDD 中的值部分/完全匹配的相关文章

我们可以在比赛中重用后卫内部的中间变量吗？

说我有方法foo as def foo i Int Option Int some code 现在我想在一个Seq of Int如下 Seq 1 2 map case int gt foo int collect case Some int
Spark SQL / PySpark 中的逆透视

我手头有一个问题陈述其中我想在 Spark SQL PySpark 中取消透视表我已经浏览了文档我可以看到仅支持pivot 但到目前为止还不支持取消透视有什么方法可以实现这个目标吗让我的初始表如下所示 When I pivotPy
为什么不重新评估 Binding.scala 路由器？

我正在尝试通过 Binding scala 为个人项目构建通用路由器我定义了一个PageState trait sealed trait WhistState def text String def hash String def ren
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
PlayFramework：如何转换 JSON 数组的每个元素

鉴于以下 JSON values one two three 我如何在 Scala Play 中像这样转换它 values elem one elem two elem three 这很容易Play 的 JSON 转换器 https www
将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
Scala 如何将 Map 转换为元组的可变参数？

在 Scala Play 2 2 x 测试的背景下我有一个Map String String 我需要将其传递给接受的函数 String String 即一个可变参数 String String tuple e g val data Map
JavaFx ComboBox 绑定混乱

我有一个 I18N 实现它通过属性绑定 JavaFX UI 元素例如 def translateLabel l Label key String args Any Unit l textProperty bind createStrin
Spark 执行器 STDOUT 到 Kubernetes STDOUT

我在 Spark Worker 中运行的 Spark 应用程序将执行程序日志输出到特定文件路径 worker home directory app xxxxxxxx 0 stdout I used log4j properties将日志从
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
Scala：获取 Map.head 元素的键（和值）

让我们想象一下以下不可变的 Map val foo Map 10 ten 100 one hundred 我想获得第一个元素的密钥 foo head获取第一个元素但接下来呢我还想要这个元素的值即十设置键值对 val key va
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3

brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
如何询问 Scala 类型参数的所有实例化是否存在证据？

给定皮亚诺数的以下类型级加法函数 sealed trait Nat class O extends Nat class S N lt Nat extends Nat type plus a lt Nat b lt Nat a match c
对于“迭代算法”，转换为 RDD 然后再转换回 Dataframe 有什么优势

我在读高性能火花作者提出以下主张虽然 Catalyst 优化器非常强大但它目前遇到挑战的情况之一是非常大的查询计划这些查询计划往往是迭代算法的结果例如图算法或机器学习算法一个简单的解决方法是将数据转换为 RDD 并在每次迭代结束时
如何将多行标签 xml 文件转换为 dataframe

我有一个包含多个行标签的 xml 文件我需要将此 xml 转换为正确的数据帧我使用了spark xml 它只处理单行标签 xml数据如下
如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
当两个模式共享“when”子句时，模式匹配不完整

A 共同的惊喜 https stackoverflow com q 18691622 2314532对于 F 初学者来说以下事实是不完全匹配 let x y 5 10 match something with when x lt y gt
Scala repl 抛出错误

当我打字时scala在终端上启动 repl 它会抛出此错误 scala gt init error error while loading AnnotatedElement class file usr lib jvm java 8 ora

随机推荐

HighCharts：在一个系列中绘制多个段？

我问自己是否可以做多条重叠的线在一个系列中我找不到任何例子我不想要这个 Highcharts Highstock 阶梯线没有垂直过渡线 https stackoverflow com questions 23242857 high
私有子方法的原型

我的代码如下所示 var baseClass function CODE var subClass function MORE CODE 向baseClass添加方法就可以了我只是使用 baseClass prototype newMet
如何从 XML 文档读取值来构建 ComboBox？

我正在尝试阅读xml questions tagged xml我想为我妈妈制作的文件所以基本上这就是我想做的 A ComboBox这将显示 XML 中的所有蔬菜名称选择一种蔬菜后第二个ComboBox将在 XML 中显示可以使用第一个
如何使用用户环境在 NodeJS 中执行？

我正在尝试在 Node 中执行命令 cd www foo path to git bin git exe config list global 基本上我想执行一个返回全局配置针对当前用户的 Git 命令当我直接在 cli 上执行命令
如何在Spritekit中创建计时器？

我已经弄清楚如何在单视图应用程序中制作计时器但没有弄清楚 Spritekit 当我使用以下代码时出现 2 个错误如下所示谁能帮我解决这个问题吗谢谢杰克计时器 if scorelabel scorelabel SKLabelNo
Session_End 上的 asp.net 会话变量

我需要访问 global asax cs 中 Session End 事件上的会话变量但 HttpContext Current 为空因此所有会话变量都不可访问 a 我可以以不同的方式访问用户会话或者 b 在 Session End
为什么以 utf-8 保存的文本文件比其他文件大？

什么是 UTF 8 编码为什么以 utf 8 格式保存的文本文件比其他格式的文件大例如我在记事本中输入 A 并将其保存为 UTF 8 格式之后文件大小变为 4字节 Why 几乎可以肯定因为您用来保存文件的任何内容也包括字节顺序标
ISO15693 (NfcV) / Tag-it HF-I 命令引发标签丢失异常

当我尝试收发 NFC V Tag it HF I Plus Inlay 标签的命令时大多数命令都会出现 TagLostException 从我经历过的链接来看这个异常可能是由不正确的命令引起的如何为 Nfc V Tag it HF I
如何在不使用“~”的情况下从 sass 加载器中的 node_modules 导入样式表

我正在设置 Storybook 实例以从 Rails 应用程序加载样式但它无法在我的应用程序中加载导入main scss文件两者都是样式表node modules import react table react table css i
Hibernate JPA 序列（非 Id）

是否可以对某些列使用数据库序列不是标识符不是复合标识符的一部分我使用 hibernate 作为 jpa 提供程序并且我有一个表其中有一些生成值的列使用序列尽管它们不是标识符的一部分我想要的是使用序列为实体创建新值其中序列的列
合并 JSON 数组

所以我的目标是合并 json 文件以获得以下格式 title NamesBook list name Ajay name Al 我的文件看起来像这样的格式等等 json title NamesBook list name Ajay blu
如何使用QtCopyDialog？

我包括这个库 include
如何在Python中检测两个文件是否相同[重复]

这个问题在这里已经有答案了在这种情况下对 md5sum file1 和 md5sum file2 进行系统调用并比较两个返回值是否足够如果您想做的不仅仅是检测它们是否不同或者不信任哈希解决方案标准库中有一些名为difflib ht
我可以将 pandas.dataframe.isin() 与数字容差参数一起使用吗？

我事先查看了以下帖子有没有办法将 DataFrame isin 与近似因子或容差值一起使用或者还有其他方法可以吗如果列中的值位于一组值列表中则过滤数据框行 https stackoverflow com questions 1206
网页中的复选框 - 如何使它们更大？

大多数浏览器中呈现的标准复选框都非常小即使使用较大的字体也不会增加大小显示较大复选框的最佳独立于浏览器的方式是什么如果这可以帮助任何人这里有一个简单的 CSS 作为起点将其变成一个基本的圆角正方形大到足以容纳拇指并具有切换的
Windows Phone 8 Facebook 身份验证

我正在开发一个适用于 Windows Phone 8 的应用程序我想让用户可以使用他们的 Facebook 帐户登录这样他们就不必在我的应用程序上创建帐户我看到了 Facebook SDK for NET 并决定使用它因为它似乎非常
Axios：收到两个请求 OPTIONS 和 POST

我正在尝试发布数据一切正常但我不知道为什么我收到两个请求OPTIONS POST POST OPTIONS 这是代码 const url http rest learncode academy api johnbob myusers e
重叠圆的组合面积

我最近遇到一个问题我有四个圆中点和半径并且必须计算这些圆的并集面积示例图片对于两个圆来说这很容易我可以计算不在三角形内的每个圆圈面积的分数然后计算三角形的面积但是当有两个以上的圆圈时我可以使用一种聪明的算法吗找到外周上
Java“相当于”CSLA

我读过该书的好几章CSLA http www lhotka net cslanet 我喜欢这本书但最近我更倾向于 Java 所以我正在寻找基于 Java 的等效书有谁知道任何接近的东西Java 中的 CSLA 我还愿意将其他现有技术很好
一个 RDD 中的值与另一个 RDD 中的值部分/完全匹配

我有两个 RDD 其中第一个 RDD 具有以下形式的记录 RDD1 1 2017 2 13 ABX 3354 gsfette 2 2017 3 18 TYET 3423 asdsad 3 2017 2 09 TYET 3423 rewriu