如何使用 usingColumns 连接 Spark 中的嵌套列

2024-01-31

我有 2 个数据框想要加入。

DF1:

root
 |-- myStruct: struct (nullable = true)
 |    |-- id: string (nullable = true)
 |    |-- region: long (nullable = true)
 |-- first_name: string (nullable = true)

DF2:

root
 |-- id: string (nullable = true)
 |-- region: long (nullable = true)
 |-- second_name: string (nullable = true)

我的加入声明是

df1.join(df2, Seq("id", "region"), "leftouter")

但这失败了

USING column `id` cannot be resolved on the left side of the join. The left-side columns: myStruct, first_name

我在 Scala 上运行 Spark 2.2

您可以使用.从中选择元素的符号struct柱子。所以要选择id from df1你必须做myStruct.id并选择region你必须使用myStruct.region.

And 因为要使用的列名不相同您可以使用===比较符号为

df1.join(df2, df1("myStruct.id") === df2("id") && df1("myStruct.region") === df2("region"), "leftouter")

你应该已经加入了数据框与以下schema

root
 |-- myStruct: struct (nullable = true)
 |    |-- id: string (nullable = true)
 |    |-- region: long (nullable = false)
 |-- first_name: string (nullable = true)
 |-- id: string (nullable = true)
 |-- region: integer (nullable = true)
 |-- second_name: string (nullable = true)

You can dropjoin 或之后不必要的列select连接后仅需要列

我希望答案有帮助

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

join

apachesparksql

如何使用 usingColumns 连接 Spark 中的嵌套列的相关文章

AWS EMR PySpark 连接到 mysql

我正在尝试使用 jdbc 通过 pyspark 连接到 mysql 我可以在 EMR 之外完成此操作但是当我尝试使用 EMR 时 pyspark 无法正确启动我在我的机器上使用的命令 pyspark conf spark executo
将数据作为 RDD 保存回 Cassandra

我试图从 Kafka 读取消息处理数据然后将数据添加到 cassandra 中就像它是 RDD 一样我的麻烦是将数据保存回 cassandra 中 from future import print function from pys
在 R 中连接/匹配数据帧

我有两个数据框第一列有两列 x是水深 y是每个深度的温度第二个也有两列 x也是水深但与第一个表中的深度不同第二栏z是盐度我想通过以下方式连接两个表x 通过增加z到第一张桌子我已经学会了如何使用 key 来连接表tidyr 但只有
pyspark中的稀疏向量RDD

我一直在使用 mllib 的功能通过 Python Pyspark 实现此处描述的 TF IDF 方法 https spark apache org docs 1 3 0 mllib feature extraction html http
Twitter API 与 Scala 2.12 一起使用

我正在使用 Scala 2 12 使用 SBT 构建构建 Spark 3 0 0 流应用程序鉴于所有用于执行此操作的库均适用于 Scala EDIT 我尝试使用库构建时得到的示例输出 object twitter is not a me
如何使用 Spark 执行插入覆盖？

我正在尝试将我们的 ETL Hive 脚本之一转换为 Spark 其中 Hive ETL 脚本维护一个表其中需要在每晚新同步之前删除部分数据 Hive ETL 使用插入覆盖的方式将主表删除超过 3 天的数据基本上创建一个临时表其中的数
Spark - java.lang.OutOfMemoryError：请求的数组大小超出 VM 限制

我正在尝试对 Cloudera 的 Spark 2 1 0 中的数据帧进行 groupBy 操作该集群位于总 RAM 约为 512GB 的 7 节点集群上我的代码如下 ndf ndf repartition 20000 by user
如何在 Spark 中创建空数据帧

我有一组基于 Avro 的配置单元表我需要从中读取数据由于Spark SQL使用hive serdes从HDFS读取数据因此比直接读取HDFS慢很多因此我使用数据块 Spark Avro jar 从底层 HDFS 目录读取 Avr
MS Access 不支持连接表达式吗？

谁能向我解释我的查询有什么问题吗 SELECT T2 TIPOPRODUTO T2 PRODUTO T1 ESPESSURA AS LARGURA AS COMPRIMENTO AS ACABAM REVEST AS ESPECIF QUA
如何使用 Apache Livy 设置 Spark 配置属性？

我不知道在向 Apache Livy 提交 Spark 作业时如何以编程方式传递 SparkSession 参数这是测试 Spark 作业 class Test extends Job Int override def call jc J
除了连接之外还有其他方法可以提高性能吗？

除了连接之外还有其他方法可以提高性能吗编辑 gbn 相关连接或相关子查询与存在子句哪个更好 https stackoverflow com questions 3305891 为什么没有人提到嵌套循环连接这不是 JOIN 的替代方式
是否有一个 clojure 函数可以“连接”两个地图列表？

我正在寻找一个类似于sql中的join的连接函数例如这是两个地图列表 def a user id 1 name user 1 user id 2 name user 2 def b user id 2 email e 2 user id
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
Spark 执行器 STDOUT 到 Kubernetes STDOUT

我在 Spark Worker 中运行的 Spark 应用程序将执行程序日志输出到特定文件路径 worker home directory app xxxxxxxx 0 stdout I used log4j properties将日志从
从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
SQL：使用相等的键和最近的键进行连接（类似于 Pandas 的合并）

例如我有2个这样的表对于表 1 中的每一行我想获取该行 same customer id and nearest date 就我而言 table2 date lt table1 date 结果应该是这样的我怎样才能在 SQL 中做到
Spark Scala：按小时或分钟计算两列的 DateDiff

我在数据框中有两个时间戳列我想获取它们的分钟差异或者小时差异目前我可以通过四舍五入获得日差 val df2 df1 withColumn time datediff df1 ts1 df1 ts2 但是当我查看文档页面时https
Spark：并行转换多个数据帧

了解如何在并行转换多个数据帧时实现最佳并行性我有一系列路径 val paths Array path1 path2 我从每个路径加载数据帧然后转换并写入目标路径 paths foreach path gt val df spark re

随机推荐

缓存与分页

所以我在上计算机体系结构课我想我很难区分缓存和页面我能想到的唯一解释是页面是操作系统欺骗程序的方式让程序在指定的内存区域中完成所有工作而高速缓存是硬件欺骗操作系统从指定区域读取数据的方式记忆区域而实际上并非如此操作系统是否指
DrRacket/Scheme 中的地图、过滤器、Foldr

编程语言 Scheme DrRacket 我们目前正在回顾map filter and foldr在我的计算机科学课上我知道这三个函数都可以用来创建抽象函数但说实话我对这三个函数之间的区别以及何时使用每个函数感到有点困惑有人愿意解释
sed 删除特定字符周围的空格

仅删除某些字符周围的空格的最佳方法是什么让我们说一个破折号 Some String 12345 Here会成为Some String 12345 Here 就像是sed s g s g 但我确信一定有更好的方法 Thanks 如果你的意思
ASP.NET MVC 5 中的“通用”OpenID

我尝试了 ASP NET MVC 5 中的新身份验证功能我之前使用过DotNetOpenAuth 我知道内置的 Google 提供程序使用 OpenID 1 并且工作正常但我想在身份验证时使用我自己的 OpenID 提供程序不幸的是
如何对 ksh93 进行编程以使用 bash 自动完成功能？

In a 回答 shell 问题的评论 https stackoverflow com questions 933445 a better linux shell 933489 933489 user 修补匠 https stackover
PHPforward_static_call 与 call_user_func

有什么区别forward static call and call user func 同样的问题也适用于forward static call array and call user func array 区别仅在于forward sta
第一个记录的结束日期与下一个记录的第一个日期之间的时间差

如何查找不同列级别之间的日期差异以分钟为单位 No SourceID RecordID Start Date End Date 1 1 1 2009 09 07 09 12 00 0000 2009 09 07 11 00 00 0000
如何同步访问indexedDB？

indexedDB 有一个spec https developer mozilla org en IndexedDB Synchronous API说可以同步访问索引数据库但还没有实现我只是想知道是否有办法让它手动同步我的 JavaS
Java冒泡排序错误输出

我正在尝试实现一个基本的 java 冒泡排序但我得到了错误的输入 Code is public class BubbleSort public static void main String args int arr sort new i
Git 非缓存文件正在上传到 Github

我正在尝试将我的项目上传到 github 但是它有 1 个非常大的文件超出了 github 文件大小限制我不想搞乱大文件存储我可以忍受 github 上没有这个文件我已将该文件添加到我的 gitignore像这样的文件 Suppor
将终端移回底部

我不小心点击了将终端从底部移动到右侧的按钮我怎样才能让它回到底部再次单击拆分按钮只会拆分终端只需移动Terminal向左分割条以加宽Terminal窗口以便图标Move to Bottom会出现以便您可以单击它 UPDATE Th
工作副本和分支基础之间的 git diff

我可以将大师的提示和我的工作副本进行比较 git diff master 我可以将当前分支的尖端与其来自 master 的合并基础进行比较 git diff master 是一个git diff命令来比较当前分支和工作副本的合并基础是
根据范围滑块的用户输入重新启动 d3 模拟

我正在使用构建一个弹簧 d3 force https github com d3 d3 force布局我想通过用户输入来操纵它的属性例如强度和距离为此我目前正在使用输入范围滑块为了更好地理解我在 codepen 上制定
以编程方式创建 WebView 并在视图中显示 NSString

我以编程方式创建了一个 WebView 这很完美代码如下我现在需要尝试做的是注入NSStrings进去我有一个包含 30 个字符串的数组 15 个标题和 15 个正文是否可以将这些内容显示在 WebView 中我猜我需要将它们更改
错误：由以下原因引起：java.lang.ClassnotfoundException [重复]

这个问题在这里已经有答案了我对编码非常陌生这是我的第一个应用程序非常令人沮丧的是当在设备或模拟器上运行所述应用程序时出现不幸的是应用程序名称已停止错误我相信通过查看 LogCat 我已经将问题定位到错误 java lan
为什么final类不能被继承，而final方法却可以被继承？

我对类和方法之间 final 关键字的使用有很大的困惑即为什么final方法只支持继承而不支持final类 final class A void print System out println Hello World class Fi
如何创建对象列表？

如何在 Python 中创建对象类实例列表或者这是糟糕设计的结果我需要这个因为我有不同的对象我需要在稍后阶段处理它们所以我会继续将它们添加到列表中并稍后调用它们存储对象实例列表非常简单 class MyClass objec
Berkeley DB 的最佳 Python 模块？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案根据 Python 2 6 5 文档 1 bsddb 模块已在 Python 3 0 中被弃用并删除
为我的 Android 应用程序选择正确的 API 级别

我目前有一个针对 android 2 3 api level 10 的应用程序但我认为probably使用 android 2 1 2 2 或更早版本的人甚至无法在市场上看到该应用程序所以我认为使用 api level 3 是最好的选择
如何使用 usingColumns 连接 Spark 中的嵌套列

我有 2 个数据框想要加入 DF1 root myStruct struct nullable true id string nullable true region long nullable true first name string

如何使用 usingColumns 连接 Spark 中的嵌套列

如何使用 usingColumns 连接 Spark 中的嵌套列 的相关文章

随机推荐

热门标签

如何使用 usingColumns 连接 Spark 中的嵌套列的相关文章