如何在scala Spark中按键连接两个数据集

2024-04-23

我有两个数据集，每个数据集都有两个元素。以下是示例。

数据1：（名称，动物）

('abc,def', 'monkey(1)')
('df,gh', 'zebra')
...

数据2：（名称、水果）

('a,efg', 'apple')
('abc,def', 'banana(1)')
...

预期结果：（名称、动物、水果）

('abc,def', 'monkey(1)', 'banana(1)')
...

我想通过使用第一列“名称”来加入这两个数据集。我已经尝试这样做了几个小时，但我无法弄清楚。谁能帮我？

val sparkConf = new SparkConf().setAppName("abc").setMaster("local[2]")
val sc = new SparkContext(sparkConf)
val text1 = sc.textFile(args(0))
val text2 = sc.textFile(args(1))

val joined = text1.join(text2)

上面的代码不起作用！

join定义在 RDD 上，即 RDD 类型RDD[(K,V)]。所需的第一步是将输入数据转换为正确的类型。

我们首先需要对原始数据进行类型转换String成对(Key, Value):

val parse:String => (String, String) = s => {
  val regex = "^\\('([^']+)',[\\W]*'([^']+)'\\)$".r
  s match {
    case regex(k,v) => (k,v)
    case _ => ("","")
  }
}

（请注意，我们不能使用简单的split(",")表达式，因为键包含逗号）

然后我们使用该函数来解析文本输入数据：

val s1 = Seq("('abc,def', 'monkey(1)')","('df,gh', 'zebra')")
val s2 = Seq("('a,efg', 'apple')","('abc,def', 'banana(1)')")

val rdd1 = sparkContext.parallelize(s1)
val rdd2 = sparkContext.parallelize(s2)

val kvRdd1 = rdd1.map(parse)
val kvRdd2 = rdd2.map(parse)

最后，我们使用join连接两个 RDD 的方法

val joined = kvRdd1.join(kvRdd2)

// 我们来看看结果

joined.collect

// res31: Array[(String, (String, String))] = Array((abc,def,(monkey(1),banana(1))))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

如何在scala Spark中按键连接两个数据集的相关文章

对于值类型，asInstanceOf[X] 和 toX 之间有什么区别吗？

我使用 IntelliJ 将 Java 代码转换为 Scala 代码的功能通常效果很好看来 IntelliJ 用调用替换了所有强制转换asInstanceOf 是否有任何有效的用法asInstanceOf Int asInstanceO
将元组划分为多个元组的类型安全方法

我们有一个特征除其他外还包含execute T lt Record Seq Session gt T Seq T 方法其中Record是我们从数据库中检索的所有特征的超级特征 trait DbTrait val threadCount
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
PlayFramework：如何转换 JSON 数组的每个元素

鉴于以下 JSON values one two three 我如何在 Scala Play 中像这样转换它 values elem one elem two elem three 这很容易Play 的 JSON 转换器 https www
Play 框架 2.0：在 Http.Context 中存储值

我正在尝试在 Play 框架中的 scalaquery 中实现基于请求的会话我使用 scalaquery 创建一个会话并尝试将其存储在当前的 http 上下文中如下所示 def withTransaction A bp BodyP
司机下令停车后 Spark 工作人员停下来

基本上主节点也充当从节点之一一旦主服务器上的从服务器完成它就会调用 SparkContext 来停止因此该命令传播到所有从服务器从而在处理过程中停止执行其中一名工作人员登录时出错信息 SparkHadoopMapRedUtil
Scala 对大数的阶乘有时会崩溃，有时不会

以下程序经过编译和测试有时返回结果有时充满屏幕 java lang StackOverflowError at scala BigInt apply BigInt scala 47 at scala BigInt equals BigI
实现一个scala集合，以便map、filter等产生正确的类型

我正在尝试实施一个默认值映射 https stackoverflow com questions 3187411 designing a convenient default valued map in scala 我想要过滤器地图等De
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
如何询问 Scala 类型参数的所有实例化是否存在证据？

给定皮亚诺数的以下类型级加法函数 sealed trait Nat class O extends Nat class S N lt Nat extends Nat type plus a lt Nat b lt Nat a match c
scala 中 'Array[Int]' 隐式转换为 'Int => Int' 的地方在哪里？

这是一个问题this https stackoverflow com questions 70000384 why val arr int int array1 2 3 is allowed in scala 现在我们已经证明了Array
如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re
如何在 Scala 中编写 Pig UDF

我正在尝试在 Scala 中编写 Pig UDF 使用 Eclipse 我已将 pig jar 添加为 java 构建路径中的库这似乎解决了以下 2 个导入问题导入 org apache pig EvalFunc 导入 org apac
覆盖 Predef 的隐式转换

我有多个返回 java lang Integer 的方法然后使用 Scala 的 Predef 隐式转换将其隐式转换为 Int 下面是它的编写方式there https github com scala scala blob v2 11
如何设计具有相互依赖的测试的 Specs2 数据库测试？

有没有一些首选的方法来设计Specs2 http etorreborre github com specs2 测试有很多测试取决于之前测试的结果下面您将找到我当前的测试套件我不喜欢var位于测试片段之间不过它们是需要的因为某
';'预期但发现“导入” - Scala 和 Spark

我正在尝试使用 Spark 和 Scala 来编译一个独立的应用程序我不知道为什么会收到此错误 topicModel scala 2 expected but import found error import org apache sp
如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看

随机推荐

将行添加到 ASP.NET GridView？

我有以下 GridView 其中有几个 DropDownLists 和 TextBoxes 如何在保留现有 GridView 的同时向其中添加新行我想使用 LinkBut ton 添加新行我没有使用 DataSource 控件并且 G
使用MuMIn疏浚功能时出错：找不到函数glmmTMB

我正在尝试挖掘装有 glmmTMB 的模型并不断收到每个模型子集的以下警告在 glmmTMB 找不到函数 glmmTMB 和后续错误 dredge par 中的错误 global model m valuate T rank AIC m
适用于任何支付网关的购物车 API？（至少需要支付宝）

我正在尝试找到一个基于 java 的 API 它至少包含处理信用卡交易或通过 PayPal 购买的详细信息以及其他网关以 IPN 方式作为附加功能即不需要产品只需发票金额作为一点简化我认为我应该能够执行类似以下伪代码的操作 sho
R 如何进行精确的 wilcoxon 秩和检验？

我阅读了 R 中的文档wilcox test 并想要确定计算机如何wilcox test 文档说当样本数量很小时它会精确地进行测试而不是使用正常的近似值它使用哪些表来精确地执行此操作 wilcox test default 隐藏
如何使用JPA从表中获取多列？

例如我有一张桌子Student它包含像这样的列id name age我正在通过使用恢复特定列值原生查询像下面这样 Query query entityManager createNativeQuery SELECT age FROM Stu
未捕获的类型错误：无法读取未定义的属性“$$minErr”

我收到此错误并且我的验证无法正常工作我使用 CDN 如下声明我的数据存储在本地存储中 Uncaught TypeError Cannot read property minErr of undefined anonymous funct
通过 API 设置 Nest 目标湿度

我在文档中找不到有关设置 Nest 恒温器目标湿度的任何内容我绝对必须能够远程设置湿度有人成功地做到了这一点吗湿度不是一个可写字段
如何在NodeJS中测试socket.setKeepAlive

我尝试在NodeJS中测试setKeepAlive 的功能我在同一本地网络中的不同计算机上运行 Server js 和 client js 然后我关闭了客户端计算机上的 WiFi 连接断开互联网连接 15分钟后仍然没有消息抛出这是
在 macOS High Sierra 上安装 mysql-python

我正在尝试安装mysql pythonPython 2 7 10 中使用命令的库pip install mysql python 这会导致以下错误 Collecting mysql python Using cached MySQL pyt
Three.js：通过触摸和设备方向旋转相机

我正在使用 Threejs 制作一个 3D 项目它允许使用计算机设备的鼠标控制相机还允许使用触摸事件和智能手机的设备方向事件进行控制举个例子这个网站 http lacostewinter seeourwork cn en intro
如何使用Javascript检查并加载CSS（如果未加载）？

我需要检查在 Javascript 中 CSS 文件是否已加载如果没有则加载它 jQuery 没问题只需检查一下是否有元素存在于href属性设置为 CSS 文件的 URL if link href path to css length
什么是 css“设计模式”的良好在线资源？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
为什么 pageX 和 pageY 与包装器相关，而不是与文档相关？

好的所以我想让 div prodimg 跟随鼠标位置这是可行的只不过它是相对于 wrapper 的左侧 pos 定位的 wrapper 是 details 和 prodimg 的父 div 为什么会发生这种情况有什么建议来修复它或跟
如何在Python中序列化scandir.DirEntry以通过网络套接字发送？

我有通过网络套接字相互通信的服务器和客户端程序我想要的是发送一个目录条目 scandir DirEntry 从获取scandir scandir 通过插座现在我正在使用pickle and cPickle模块并提出以下内容仅摘录 i
如何通过api在google幻灯片中填充线性渐变颜色？

下面是正常填充颜色的示例 requests new Google Service Slides Request array updateShapeProperties gt array objectId gt elementID field
为什么浏览器将换行符呈现为空格？

很长一段时间以来我一直想理解为什么浏览器在渲染的 HTML 元素之间有一个 NewLine 时会在它们之间添加一个空格例如 span Hello span span World span 上面的 html 将输出 HelloWorld
设置配置项 (csrf) 在 Codeigniter 中不起作用

我只想在我的几个控制器中打开 csrf 保护所以我有 function construct parent construct this gt load gt library form validation this gt load gt
在 ASP.NET Core 1.0 上处理大文件上传

当我将大文件上传到 ASP NET Core 中的 Web api 时运行时会在触发处理和存储上传的函数之前将文件加载到内存中对于大量上传这会成为一个问题因为它既慢又需要更多内存对于早期版本的 ASP NET有一些文章 http
Angular4 - ZoneAwareError

当我尝试运行 Angular4 时我突然看到一个错误如下所示 ERROR ZoneAwareError zone symbol error Error Uncaught in promise Error Error at Error Z
如何在scala Spark中按键连接两个数据集

我有两个数据集每个数据集都有两个元素以下是示例数据1 名称动物 abc def monkey 1 df gh zebra 数据2 名称水果 a efg apple abc def banana 1 预期结果名称动物水果 ab

如何在scala Spark中按键连接两个数据集

如何在scala Spark中按键连接两个数据集 的相关文章

随机推荐

热门标签

如何在scala Spark中按键连接两个数据集的相关文章