Spark中连接两个RDD

2024-04-16

我有两个 rdd，一个 rdd 只有一列，其他有两列来连接键上的两个 RDD 我添加了虚拟值 0 ，是否有其他有效的方法可以使用 join 来执行此操作？

val lines = sc.textFile("ml-100k/u.data")
val movienamesfile = sc.textFile("Cml-100k/u.item")

val moviesid = lines.map(x => x.split("\t")).map(x => (x(1),0))
val test = moviesid.map(x => x._1)
val movienames = movienamesfile.map(x => x.split("\\|")).map(x => (x(0),x(1)))
val shit = movienames.join(moviesid).distinct()

Edit:

让我把这个问题转换成SQL。比如说我有table1 (moveid) and table2 (movieid,moviename)。在 SQL 中我们这样写：

select moviename, movieid, count(1)
from table2 inner join table table1 on table1.movieid=table2.moveid 
group by ....

在 SQL 中table1只有一列，其中table2有两列仍然是join工作原理，Spark 中的相同方式可以连接来自两个 RDD 的键。

连接操作仅定义在PairwiseRDDs这与 SQL 中的关系/表有很大不同。的每个元素PairwiseRDD is a Tuple2其中第一个元素是key第二个是value。两者都可以包含复杂的对象，只要key提供了有意义的hashCode

如果你想用 SQL 语言来思考这个问题，你可以将 key 视为所有的内容ON条款和value包含选定的列。

SELECT table1.value, table2.value
FROM table1 JOIN table2 ON table1.key = table2.key

虽然这些方法乍一看很相似，并且您可以使用另一种方法来表达，但它们之间存在根本区别。当您查看 SQL 表并忽略约束时，所有列都属于同一类对象，而key and value in the PairwiseRDD有明确的含义。

回到你的问题来使用join你两者都需要key and value。可以说比使用干净得多0作为占位符将使用null单例，但确实没有办法解决它。

对于小数据，您可以以类似于广播连接的方式使用过滤器：

val moviesidBD = sc.broadcast(
  lines.map(x => x.split("\t")).map(_.head).collect.toSet)

movienames.filter{case (id, _) => moviesidBD.value contains id}

但如果你真的想要 SQL 式的连接，那么你应该简单地使用 SparkSQL。

val movieIdsDf = lines
   .map(x => x.split("\t"))
   .map(a => Tuple1(a.head))
   .toDF("id")

val movienamesDf = movienames.toDF("id", "name")

// Add optional join type qualifier 
movienamesDf.join(movieIdsDf, movieIdsDf("id") <=> movienamesDf("id"))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

Spark中连接两个RDD 的相关文章

减少/折叠幺半群列表，但减少器返回任一

我发现自己遇到过几次这样的情况我有一个减速器组合 fn 如下所示 def combiner a String b String Either String String a b asRight String 它是一个虚拟实现但 fn
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
为什么 Scala 中的隐式类必须驻留在另一个特征/类/对象中？

基于scala文档 http docs scala lang org overviews core implicit classes html http docs scala lang org overviews core implicit
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
如何从命令行向 REPL 添加导入？

如何使 REPL 导入命令行中给出的包 Sample scala someMagicHere import sys error scala gt imports 1 import scala Predef 162 terms 78 are
模拟 BlazeClientBuilder[IO] 以返回模拟客户端[IO]

我正在使用BlazeClientBuilder IO resource方法得到Client IO 现在我想模拟客户端进行单元测试但不知道该怎么做有没有一个好的方法来嘲笑这个我会怎么做 class ExternalCall val r
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
可选择将项目添加到 Scala 映射

我正在寻找这个问题的惯用解决方案我正在构建一个valScala 不可变 Map 并希望有选择地添加一项或多项 val aMap Map key1 gt value1 key2 gt value2 if condition key3 gt
pyspark flatmat 错误：TypeError：“int”对象不可迭代

这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
Play框架：单属性案例类的JSON读取

我正在尝试为包含单个属性的案例类创建隐式 JSON Reads 但收到错误 Reads Nothing 不符合预期类型这是代码 import play api libs functional syntax import play api
Scala中有类似Java Stream的“peek”操作吗？

在Java中你可以调用peek x gt println x 在 Stream 上它将对每个元素执行操作并返回原始流这与 foreach 不同 foreach 是 Unit Scala 中是否有类似的东西最好是适用于所有 Monady
Slick和bonecp：org.postgresql.util.PSQLException：FATAL：抱歉，太多客户端已经错误

当我在本地开发应用程序时我使用以下命令启动我的 play2 应用程序sbt run 我喜欢如何更改代码然后重新加载浏览器以查看我的更改在大约 10 次代码更改之后我收到 postgresql 太多连接错误见下文我的数据库连接使用
Java 8 Stream，获取头部和尾部

Java 8 引入了Stream http download java net jdk8 docs api java util stream Stream html类似于 Scala 的类Stream http www scala lang
具有继承类型的 Aux 模式推理失败

我有一个复杂的玩具算法我希望纯粹在类型级别上表示根据饮食要求选择当天菜肴的修改对卷积表示歉意但我认为我们需要每一层才能达到我想要使用的最终界面我的代码有一个问题如果我们表达一个类型约束Aux 模式生成的类型基于另一个泛型类型它
如何通过 javascript 和 ajax 调用 Scala 中的方法？

我不知道我的标题是否有点误导但这是我真正需要帮助的我正在获取这个网址 get fb login fbEmail function data console log data 这是我的路线 GET fb login email prese
为什么自类型类可以声明类

我知道 Scala 只能混合特征这对于依赖注入和蛋糕模式是有意义的我的问题是为什么我仍然可以声明一个需要另一个类但不需要特征的类 Code class C class D self C gt 这仍然编译成功我认为它应该编译失败因
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助

随机推荐

DisplayMemberPath 在 WPF 中不起作用

我要显示CustomerList CustomerName财产项目ListBox using ItemsSource DisplayMemberPath仅限财产但它不起作用我不想使用DataContext或我的问题中的任何其他绑定请帮
实体框架 6 和集合

我正在开发我的第一个实体框架应用程序我正在使用 EF 版本 6 来自 Nuget 和 net 4 0 然而我在一些对我来说似乎应该非常简单的事情上遇到了一些困难我在互联网上发现了很多相互矛盾的建议和解决方案但是在花了几天时间尝试解决
Firebase - Firestore - 使用 collection.add() 获取密钥

我在使用 Firebase 的新 Firestore 时遇到问题情况我有一个collection room 我创建房间collection room add room 我正在尝试做的事情我需要更新一个房间为此我使用 collect
示例 urllib3 和 python 中的线程

我正在尝试在简单线程中使用 urllib3 来获取多个 wiki 页面该脚本将为每个线程创建 1 个连接我不明白为什么并永远挂起 urllib3 和线程的任何提示建议或简单示例 import threadpool from url
将多行转换为一行，并以逗号作为分隔符[重复]

这个问题在这里已经有答案了如果我发出SELECT username FROM Users我得到这个结果 username Paul John Mary 但我真正需要的是one所有值均以逗号分隔的行如下所示 Paul John Mary
计算网格上两点之间恰好有“n”个节点的最短路径

我在网格上定义了以下 3D 表面 pylab inline def muller potential x y use numpy False Muller potential Parameters x float np ndarray or
实体框架 Fluent API 映射简单的一对多关系

我有两张桌子文档 Id DocumentTypeId 标题详细信息文档类型 ID 名称描述 DocumentTypeId 是引用 DocumentTypes 表的外键 IE 所有文件都可以应该有一个分配给它们的类型我有两节课 p
多人台球游戏物理模拟[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
将邻接矩阵转换为 Cytoscape 的 Edgelist（csv 文件）

我的 csv 文件中有一个大的 200 列行邻接矩阵这详细说明了个体之间的互动我想将此文件转换为边缘列表可以手动完成但需要大量时间下面显示了一小部分数据第一个单元格是空格 A B C A 0 0 1 B 0 0 1 C 1
(0, _reactI18next.translate) 不是函数

实际上我是本地反应新手在这里我尝试使用 react i18next 将语言更改为阿拉伯语但在执行时出现以下错误 ReactNativeJS 0 reactI18next translate 不是一个函数在 0 reactI18nex
AppDelegate 或 AppController

在阅读可可教程时我注意到一些教程使用AppDelegate还有一些AppController用于定义IBActions打开使用子类的各种窗口NSWindowController 这有某种经验法则吗我创建一个仅是我的应用程序委托的类并实
如何使用 Visual Studio 2008 对 C# Web 服务进行单元测试

您应该如何使用 Visual Studio 2008 对 C 中的 Web 服务进行单元测试当我生成单元测试时它会添加对 Web 服务类的实际引用而不是 Web 引用它设置以下中指定的属性 http msdn microsoft c
检查 netcdf linux 库版本

如何确定我的系统中安装了哪个版本的 netcdf 库有命令行吗我尝试搜索 netcdf 发现了一堆文件但无法确定版本号有没有命令可以检查已安装的任何版本我在ubuntu上 netCDF 提供nc config用于此目的的命令行工具
在 Rust 中应该如何进行指针算术？

我知道答案是你不应该但为了争论如何should你做吧例如如果您想编写一个替代方案Vec
Apache 服务器上的 React、js

我正在一个react js项目中工作我有一个安装了apache服务器的云服务器我的问题是我可以在 apache 服务器上设置我的反应项目吗正如达文泰伦所说 react是一种浏览器技术除了客户端浏览器从服务器下载应用程序之外一切都
用户模型中带有 uuid 列的 Laravel Sanctum 不保存 tokenable_id

我尝试使用Laravel 8 x and Laravel sanctum 2 14 2验证我的 API 和 UUID 作为我的主密钥User model 我的定制PersonalAccessToken model use Illuminat
在 Google Places Apis 中搜索特定城市内的位置

我正在使用 Google Places Apis 来过滤特定城市内的结果我能够过滤结果但它也会显示该城市之外的结果例如如果我设置德里市的 LatLngBounds 并搜索纽约市的位置它还给了我纽约市的结果但纽约的 LatLng
为什么要实现 IEquatable 接口

我一直在阅读文章并在一定程度上理解接口但是如果我想纠正我自己的自定义 Equals 方法似乎我可以在不实现 IEquatable 接口的情况下做到这一点一个例子 using System using System Collectio
Python 如何在一行中分配多个变量？

Python 在一行中分配多个变量实际上执行了哪些步骤我以前经常做 A 0 A 1 A 1 A 0 来交换但是最近在分配链表时遇到了一个错误 insert self gt node gt def insert next self nod
Spark中连接两个RDD

我有两个 rdd 一个 rdd 只有一列其他有两列来连接键上的两个 RDD 我添加了虚拟值 0 是否有其他有效的方法可以使用 join 来执行此操作 val lines sc textFile ml 100k u data val mov

Spark中连接两个RDD

Spark中连接两个RDD 的相关文章

随机推荐

热门标签