Spark SQL 中的数组交集

2024-01-18

我有一个表，其中包含名为的数组类型列writer其值如下array[value1, value2], array[value2, value3].... ETC。

我在做self join获得数组之间具有共同值的结果。我试过：

sqlContext.sql("SELECT R2.writer FROM table R1 JOIN table R2 ON R1.id != R2.id WHERE ARRAY_INTERSECTION(R1.writer, R2.writer)[0] is not null ")

And

sqlContext.sql("SELECT R2.writer FROM table R1 JOIN table R2 ON R1.id != R2.id WHERE ARRAY_INTERSECT(R1.writer, R2.writer)[0] is not null ")

但得到了同样的例外：

线程“main”org.apache.spark.sql.AnalysisException 中出现异常：未定义的函数：“ARRAY_INTERSECT”。该函数既不是注册的临时功能或注册的永久功能数据库“默认”。；第 1 行位置 80

Spark SQL 可能不支持ARRAY_INTERSECTION and ARRAY_INTERSECT。我怎样才能实现我的目标Spark SQL?

从 Spark 2.4 开始array_intersect https://spark.apache.org/docs/latest/api/sql/index.html#array_intersect函数可以直接在SQL中使用

spark.sql(
  "SELECT array_intersect(array(1, 42), array(42, 3)) AS intersection"
).show()

+------------+
|intersection|
+------------+
|        [42]|
+------------+

and Dataset API:

import org.apache.spark.sql.functions.array_intersect

Seq((Seq(1, 42), Seq(42, 3)))
  .toDF("a", "b")
  .select(array_intersect($"a", $"b") as "intersection")
  .show()

+------------+
|intersection|
+------------+
|        [42]|
+------------+

其他语言中也存在等效函数：

pyspark.sql.functions.array_intersect https://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=array_intersect#pyspark.sql.functions.array_intersect在 PySpark 中。
SparkR::array_intersect https://spark.apache.org/docs/latest/api/R/column_collection_functions在 SparkR 中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

HiveQL

apachesparkdataset

Spark SQL 中的数组交集的相关文章

如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
在 Spark MLlib 上使用 Java 中的 Breeze

在尝试从Java使用MLlib时使用微风矩阵运算的正确方法是什么例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的有一些方法例如 colon times 可以通过正确的方式调用 breez
Spark：如何使用crossJoin

我有两个数据框 df1有 100000 行并且df2有 10000 行我想创建一个df3这是两者的交叉连接 val df3 df1 crossJoin df2 这将产生 10 亿行尝试在本地运行它但似乎需要很长时间您认为本地可以实现
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
PySpark - 系统找不到指定的路径

Hy 我已经多次运行 Spark Spyder IDE 今天我收到这个错误代码是相同的 from py4j java gateway import JavaGateway gateway JavaGateway os environ SP
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1

随机推荐

PHP读取和解析大文件？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我即将读取一个大小为 200Mb 的
MySQL中如何比较两个查询结果是否相等？

我是 MySQL 用户我有两个疑问我想比较他们的结果是否相等我想用一个返回 true 或 false 的查询来完成此操作因此我的两个查询很可能采用子查询的形式我想避免返回两个查询的结果并在应用程序级别比较它们以减少通信并提高性能
如何在单击时切换两个图像

我正在制作一个可折叠的树视图我做到了这一切我只需要我的 and 每当单击图标时就会进行切换当我更改图标时我做了这部分 to 单击后使用 jQuery 并使用以下代码 this attr src images expand gif 问
如何在显示 ABPeoplePickerNavigationController 时指定组

最初显示时如何指定组ABPeoplePickerNavigationController 所以它不会自动显示所有联系人是的我必须让它发挥作用将您的班级设置为人员选择器的代表 pp delegate self 然后实施 void na
在 django 日期时间上使用 strftime 会在字符串中生成 UTC 时间

我的模型之一中有以下代码 def shortDescription self return self name self class date strftime I M self class date是否具有时区意识DateTimeFiel
在 C++ 模板化代码中找不到构造函数[重复]

这个问题在这里已经有答案了使用以下命令编译它时出现此错误 g main cpp Vec cpp Wall o main I tmp cciqbEQJ o In function main main cpp text 0x8b undefi
如何以兼容模式运行Java？

Java支持兼容模式运行吗换句话说如果我们在系统上安装了 JDK 8 是否可以将其配置为使用相同的安装在 7 或之前版本上运行我的应用程序我可以举一个例子比如 IE 11 可以根据兼容性选项切换为 IE 8 9 或 10 运行我同
在 C# 中将 double 转换为 int

在我们的代码中我们需要将 double 转换为 int double score 8 6 int i1 Convert ToInt32 score int i2 int score 谁能解释一下为什么i1 i2 我得到的结果是 i1 9
为什么？ “始终将用户定义的异常声明为最终的”

我使用 Java 源代码分析器分析了我正在处理的代码警告之一是始终将用户定义的异常声明为最终的还有许多其他警告没有多大意义但这个警告让我有点困惑我正在开发一个框架并且有一个根通用异常例如 FrameworkGenericExc
iOS 推送通知自定义声音重复？

我正在处理推送通知我已经为推送通知实现了自定义声音如果推送通知自定义声音只有 5 秒长那么我可以重复它直到达到最大声音限制 30 秒吗例如我可以重复播放一个通知的声音 6 次吗 JSON 有效负载是 array alert gt
替代 ClientLogin 进行身份验证

由于 Google 将 ClientLogin API 列为已弃用建议的替代方案是什么就我而言我需要一台服务器来使用我拥有的凭据进行身份验证和发布内容 OAuth 等替代方案在这种情况下不起作用根据您的应用场景认证方式有所不同报
你能在 Angular 中压缩 get 请求的内容吗？

我正在使用 Angular 获取一些 JSON 如下所示 http url https www somemachine com getdata method GET params success function data status h
尝试让 main/form1 之外的类相互交互是否是一种不好的形式？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何从 GitHub 构建 R 包？

我尝试建立R 包的分支 https github com patcpsc rredis来自github 这个fork有一个新的错误修复 https github com bwlewis doRedis issues 10 我能够构建并安装来
使散景的自定义 TapTool 适用于全息视图

我想使用散景TapTool单击每个 URL 时打开不同的 URLholoviews Polygons 散景中的一个完美示例是散景文档 https docs bokeh org en latest docs user guide intera
Python pip包安装elastic-search-curator时出现RequestsDependencyWarning

我通过以下命令安装了弹性搜索策展人 sudo pip install U elasticsearch curator 一切都安装好了但是现在当我执行以下操作时 curator cli version 我收到以下依赖性警告 usr loca
javax.net.ssl.SSLHandshakeException：没有适当的协议（协议已禁用或密码套件不合适

我知道有几个关于此错误的问题但没有任何对我有帮助我有在 gmail 服务器上发送带有附件的电子邮件的方法效果很好昨天我买了一台新的 mac mini m1 我尝试用这种方法发送电子邮件但它引发了此错误 public static
Gson - 将嵌套对象序列化为属性

有没有一种简单的方法可以将嵌套对象转换为 JSON 我正在尝试创建一个 JSON 对象来匹配后端我在网络中使用 Retrofit 它使用 Gson 将对象转换为 JSON 我无权访问网络调用和转换之间的任何代码因此我试图找到一种干净的方
带有自定义项目的 JavaFx 2 ChoiceBox

我有一堂课例如 public class myClass int age String name public String toString return name public static ObservableList
Spark SQL 中的数组交集

我有一个表其中包含名为的数组类型列writer其值如下array value1 value2 array value2 value3 ETC 我在做self join获得数组之间具有共同值的结果我试过 sqlContext sql SE

Spark SQL 中的数组交集

Spark SQL 中的数组交集 的相关文章

随机推荐

热门标签

Spark SQL 中的数组交集的相关文章