SPARK SQL 中的相关子查询列不允许作为非相等谓词的一部分

2024-04-15

我正在尝试在 where 子句中编写一个子查询，如下所示。但我越来越“非等式谓词中不允许有相关列：”

SELECT *, 
   holidays 
      FROM   ( 
          SELECT *, 
                 s.holidays, 
                 s.entity 
          FROM   transit_t tt 
          WHERE  ( 
                        SELECT Count(thedate) AS holidays 
                        FROM   fact_ent_rt 
                        WHERE  entity=tt.awborigin 
                        AND    ( 
                                      Substring(thedate,1,10)) BETWEEN (Substring(awbpickupdate,1,10)) AND    (
                                      Substring(deliverydate,1,10)) 
                        AND    ( 
                                      nholidayflag = true 
                               OR     weekendflag = true))) s

此查询有任何问题。因为我认为spark>2.0支持where子句中的子查询。任何建议，将不胜感激。谢谢

输入将是转运表中的提货日期和交货日期。我们需要查找这些日期之间是否有周末（该数据可在 fact_ent_rt 中找到）并计算假期的数量。

我得到的输出是 pyspark.sql.utils.AnalysisException：u“非等式谓词中不允许使用相关列：\n聚合

输入示例：

输入1： +---------++--------------------+------------------ -+

|AWBOrigin||      AWBPickupDate|       DeliveryDate|

+---------++-------------------+-------------------+

|      LON||2018-09-01 08:52:00|2018-09-12 13:57:00|
|      DHA||2018-09-04 11:47:00|2018-09-08 07:30:00|
|      NIC||2009-01-01 01:47:00|2009-01-09 11:37:00
+---------+-----------+-----------------------------

输入 2 (fact_ent)

------+-------------------+-----------+------------

 Entity|            TheDate|WeekendFlag|NHolidayFlag

 ------+-------------------+-----------+------------

NIC|2009-01-01 00:00:00|      False|       False
NIC|2009-01-02 00:00:00|      False|       False
NIC|2009-01-03 00:00:00|       True|       False
NIC|2009-01-04 00:00:00|       True|       False
NIC|2009-01-05 00:00:00|      False|       False
NIC|2009-01-06 00:00:00|      False|       False
NIC|2009-01-07 00:00:00|      False|       False
NIC|2009-01-08 00:00:00|      False|       False
NIC|2009-01-09 00:00:00|      False|       False
NIC|2009-01-10 00:00:00|       True|       False
NIC|2009-01-11 00:00:00|       True|       False
NIC|2009-01-12 00:00:00|      False|       False
NIC|2009-01-13 00:00:00|      False|       False
NIC|2009-01-14 00:00:00|      False|       False
NIC|2009-01-15 00:00:00|      False|       False
NIC|2009-01-16 00:00:00|      False|       False
NIC|2009-01-17 00:00:00|       True|       False
NIC|2009-01-18 00:00:00|       True|       False
NIC|2009-01-19 00:00:00|      False|       False
NIC|2009-01-20 00:00:00|      False|       False
------+-------------------+-----------+------------

预期输出

 +---------++-------------------+-------------------+

|AWBOrigin||      AWBPickupDate|       DeliveryDate| Holidays

+---------++-------------------+-------------------+

|      LON||2018-09-01 08:52:00|2018-09-12 13:57:00|  NA
|      DHA||2018-09-04 11:47:00|2018-09-08 07:30:00|  NA
|      NIC||2009-01-01 01:47:00|2009-01-09 11:37:00|  2
+---------+-----------+-----------------------------

我用 SCALA 做了这个，所以你需要转换，但我认为以一种更简单的方式。我添加了一个键并在键级别执行了操作，您可以调整并聚合它。但原理要简单得多。不需要相关子查询。只是关系演算。用于日期等的数字。

// SCALA 
// Slightly ambiguous on hols vs. weekend, as you stated treated as 1

import spark.implicits._ 
import org.apache.spark.sql.functions._

val dfE = Seq( 
              ("NIC", 1, false, false),
              ("NIC", 2, false, false),
              ("NIC", 3, true, false),
              ("NIC", 4, true, true),
              ("NIC", 5, false, false),
              ("NIC", 6, false, false),
              ("XYZ", 1, false, true)
              ).toDF("e","d","w", "h")
 //dfE.show(false)

 val dfE2 = dfE.withColumn("wh", when ($"w" or $"h", 1) otherwise (0)).drop("w").drop("h")
 //dfE2.show()

//Assuming more dfD's can exist
val dfD = Seq( 
              ("NIC", 1, 4, "k1"),
              ("NIC", 2, 3, "k2"),
              ("NIC", 1, 1, "k3"),
              ("NIC", 7, 10, "k4")
              ).toDF("e","pd","dd", "k")
//dfD.show(false)

dfE2.createOrReplaceTempView("E2")
dfD.createOrReplaceTempView("D1")

// This done per record, if over identical keys, then strip k and aggr otherwise, I added k for checking each entry
// Point is it is far easier. Key means synthetic grouping by.

val q=sqlContext.sql(""" SELECT d1.k, d1.e, d1.pd, d1.dd, sum(e2.wh) 
                       FROM D1, E2
                      WHERE D1.e = E2.e 
                        AND E2.d >= D1.pd
                        AND E2.d <= D1.dd
                    GROUP BY d1.k, d1.e, d1.pd, d1.dd   
                    ORDER BY d1.k, d1.e, d1.pd, d1.dd
                     """)
q.show

returns:

 +---+---+---+---+-------+
 |  k|  e| pd| dd|sum(wh)|
 +---+---+---+---+-------+
 | k1|NIC|  1|  4|      2|
 | k2|NIC|  2|  3|      1|
 | k3|NIC|  1|  1|      0|
 +---+---+---+---+-------+

我认为可以进行简单的性能改进。事实上不需要相关的东西。

如果需要，可以在 D1.pd 和 D1.dd 之间使用 AND E2.d。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

SPARK SQL 中的相关子查询列不允许作为非相等谓词的一部分的相关文章

如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
“为 Apache Hadoop 2.7 及更高版本预构建”是什么意思？

Apache Spark 下载页面上的 pre built for Apache Hadoop 2 7 and later 是什么意思这是否意味着spark中HDFS必须有库如果是这样其他存储系统例如 Cassandra s3 HB

随机推荐

@Html.ValidationSummary() 在 Ajax.BeginForm 中不起作用

使用有什么问题吗 Html ValidationSummary 里面一个Ajax BeginForm form 我遇到以下情况但无法验证必填字段表单刚刚发布也没有抛出任何错误这是视图 using Ajax BeginForm Reg
在 scenebuilder 17 中加载自定义组件

我们正在开发 Javafx 项目该项目在 Java8 上运行良好最近我们用Java17更新了项目我们能够解决 IDEA 的问题好像Java 9 之后他们已经严格封装了所有的类要使用它我们必须在虚拟机选项中使用 export o
RStudio 的早期命令持续发出警告

我正在努力为此创建一个可重现的示例但我怀疑其他人会明白我的意思为什么 R 有时似乎会陷入积压的警告错误消息中并且在后续命令之后再次重复例如你会收到一些警告消息Bad whatever system choking运行一些代码后
如何在 Windows 上通过 Vim 使用 MinGW make

我已经在我的机器上安装了 Vim 和 MinGW 所以我尝试创建 Hello World 然后在 Vim 中编译一切正常但是当我输入时 make它显示错误 make not recognized as an internal or ex
JQuery 菜单无法正常工作

我正在尝试 Jquery 菜单小部件但由于某种原因它不起作用我在浏览器和 JSFiddle 上都尝试过 http jsfiddle net evanevee MANH4 2 http jsfiddle net evanvee MANH4
Java 中间隔重复算法的开源实现 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在从事一个项目其中间隔重复至关重要但我不是该主题的专家我害怕重新发明方轮我的研究指出了两个不
用于 Java 集成测试的 Groovy 是否有更好的替代方案？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我计划使用其编程接口来测试我的基于 Java 的 Web 应用程序为此我打算使用它们的 RMI We
WEB-INF 在 Java EE Web 应用程序中代表什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案互联网上的大多数地方都说它代表WEB INF信息我比较怀疑该文件夹包含可执行文件信息不是一个合适的名字据我所知正如你所说 INF 代表
如何从 GTK Builder 检索对象的名称？ [复制]

这个问题在这里已经有答案了如何获取从 Builder 对象检索的 Gtk Widget 的名称我特指的是在 Glade 中看到的名字例如 button1 而不是类的名称 GtkWindow 这个问题与this one https st
基准和处理时间结果的差异

我一直在尝试对替换数据框中的 NA 的最有效方法进行一些测试我首先在 100 万行 12 列的数据集上比较 NA 与 0 的替换解决方案把所有有管道能力的都扔进去microbenchmark我得到以下结果问题一有没有办法测试子集左赋
Oracle查询将多列转换为一列

我的表中有 50 列它只返回一行我希望 50 列的一行显示为 50 行和 1 列任何人都可以建议我使用 Oracle 查询吗您可以使用UNPIVOT对于像这样的一行仅获取包含值的列 SELECT colvalue FROM SEL
在单独的 cpp 文件中进行 Boost 单元测试

我想将 Boost 单元测试分成单独的 cpp 文件例如 Test1 cpp Test2 cpp Test3 cpp 等这样我就不会在单个 cpp 文件中包含 1000 个测试到目前为止当我尝试构建时我遇到了各种错误测试1 cp
节或组名称“oracle.manageddataaccess.client”已定义

将 Oracle ManagedDataAccess dll 从版本 4 121 1 0 更新到版本 4 121 2 0 后由于我无法使用 NHibernate 保存先前版本中 CLOB 类型的值因此在客户端计算机上出现以下错误 Sys
使用马哈拉诺比斯距离进行多变量离群值去除

我的数据有异常值我怎样才能找到马哈拉诺比斯距离并用它来删除异常值首先让我提出一些一般准则实际上如果你有很多特征和较少的样本马哈拉诺比斯算法往往会给出误导性的结果你可以自己尝试一下所以你拥有的特征越多你应该提供的样本就越多
埃拉托色尼真筛——用于生成素数的算法

今天读到一篇论文奥尼尔梅丽莎 E 正版埃拉托斯特尼筛法 http www cs hmc edu oneill papers Sieve JFP pdf杂志函数式编程已出版剑桥大学出版社在线 2008 年 10 月 9 日 doi
Spring Social NoSuchMethodError SocialAuthenticationFilter.getFilterProcessesUrl()

我使用Spring Security登录现在我正在尝试添加 spring 社交 facebook 登录但我收到很多错误信息首先当我尝试使用相同的方法时春季社交指南 http spring io guides gs accessing
Hibernate 4.3.5 不适用于 Oracle10g 数据库

我正在尝试使用 Hibernate 4 3 5 和 Oracle 数据库但在运行过程中我遇到了以下问题相同的代码在 MySQl 数据库中运行良好 org hibernate engine jdbc connections interna
Java 中 C# ObservableCollection 的等效项

我想知道是否存在一种数据结构其行为类似于 ObservableCollection 几乎就像 C 中一样能够采用某种类型 ex 在 C 中我可以说 ObservableCollection
通过浏览器链接在代码中连接 teamviewer

我有一个问题让我抓狂我已经成功地将我的 teamviewer 会话从浏览器 uri 连接到我所需的远程资源我通过在浏览器地址栏中使用以下 uri 命令来实现此目的实际上这是 html 中的按钮单击 teamviewer8 remot
SPARK SQL 中的相关子查询列不允许作为非相等谓词的一部分

我正在尝试在 where 子句中编写一个子查询如下所示但我越来越非等式谓词中不允许有相关列 SELECT holidays FROM SELECT s holidays s entity FROM transit t tt WHERE

SPARK SQL 中的相关子查询列不允许作为非相等谓词的一部分

SPARK SQL 中的相关子查询列不允许作为非相等谓词的一部分 的相关文章

随机推荐

热门标签

SPARK SQL 中的相关子查询列不允许作为非相等谓词的一部分的相关文章