为什么 Spark 会失败并显示“检测到逻辑计划之间的 INNER join 的笛卡尔积”？

2024-01-25

我在用火花2.1.0.

当我执行以下代码时，我从 Spark 收到错误。为什么？如何修复它？

val i1 = Seq(("a", "string"), ("another", "string"), ("last", "one")).toDF("a", "b")
val i2 = Seq(("one", "string"), ("two", "strings")).toDF("a", "b")
val i1Idx = i1.withColumn("sourceId", lit(1))
val i2Idx = i2.withColumn("sourceId", lit(2))
val input = i1Idx.union(i2Idx)
val weights = Seq((1, 0.6), (2, 0.4)).toDF("sourceId", "weight")
weights.join(input, "sourceId").show

Error:

scala> weights.join(input, "sourceId").show
org.apache.spark.sql.AnalysisException: Detected cartesian product for INNER join between logical plans
Project [_1#34 AS sourceId#39, _2#35 AS weight#40]
+- Filter (((1 <=> _1#34) || (2 <=> _1#34)) && (_1#34 = 1))
   +- LocalRelation [_1#34, _2#35]
and
Union
:- Project [_1#0 AS a#5, _2#1 AS b#6]
:  +- LocalRelation [_1#0, _2#1]
+- Project [_1#10 AS a#15, _2#11 AS b#16]
   +- LocalRelation [_1#10, _2#11]
Join condition is missing or trivial.
Use the CROSS JOIN syntax to allow cartesian products between these relations.;
  at org.apache.spark.sql.catalyst.optimizer.CheckCartesianProducts$$anonfun$apply$19.applyOrElse(Optimizer.scala:1011)
  at org.apache.spark.sql.catalyst.optimizer.CheckCartesianProducts$$anonfun$apply$19.applyOrElse(Optimizer.scala:1008)
  at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$3.apply(TreeNode.scala:288)
  at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$3.apply(TreeNode.scala:288)
  at org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:70)
  at org.apache.spark.sql.catalyst.trees.TreeNode.transformDown(TreeNode.scala:287)
  at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$transformDown$1.apply(TreeNode.scala:293)
  at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$transformDown$1.apply(TreeNode.scala:293)
  at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$5.apply(TreeNode.scala:331)
  at org.apache.spark.sql.catalyst.trees.TreeNode.mapProductIterator(TreeNode.scala:188)
  at org.apache.spark.sql.catalyst.trees.TreeNode.transformChildren(TreeNode.scala:329)
  at org.apache.spark.sql.catalyst.trees.TreeNode.transformDown(TreeNode.scala:293)
  at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$transformDown$1.apply(TreeNode.scala:293)
  at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$transformDown$1.apply(TreeNode.scala:293)
  at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$5.apply(TreeNode.scala:331)
  at org.apache.spark.sql.catalyst.trees.TreeNode.mapProductIterator(TreeNode.scala:188)
  at org.apache.spark.sql.catalyst.trees.TreeNode.transformChildren(TreeNode.scala:329)
  at org.apache.spark.sql.catalyst.trees.TreeNode.transformDown(TreeNode.scala:293)
  at org.apache.spark.sql.catalyst.trees.TreeNode.transform(TreeNode.scala:277)
  at org.apache.spark.sql.catalyst.optimizer.CheckCartesianProducts.apply(Optimizer.scala:1008)
  at org.apache.spark.sql.catalyst.optimizer.CheckCartesianProducts.apply(Optimizer.scala:993)
  at org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1$$anonfun$apply$1.apply(RuleExecutor.scala:85)
  at org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1$$anonfun$apply$1.apply(RuleExecutor.scala:82)
  at scala.collection.IndexedSeqOptimized$class.foldl(IndexedSeqOptimized.scala:57)
  at scala.collection.IndexedSeqOptimized$class.foldLeft(IndexedSeqOptimized.scala:66)
  at scala.collection.mutable.WrappedArray.foldLeft(WrappedArray.scala:35)
  at org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1.apply(RuleExecutor.scala:82)
  at org.apache.spark.sql.catalyst.rules.RuleExecutor$$anonfun$execute$1.apply(RuleExecutor.scala:74)
  at scala.collection.immutable.List.foreach(List.scala:381)
  at org.apache.spark.sql.catalyst.rules.RuleExecutor.execute(RuleExecutor.scala:74)
  at org.apache.spark.sql.execution.QueryExecution.optimizedPlan$lzycompute(QueryExecution.scala:73)
  at org.apache.spark.sql.execution.QueryExecution.optimizedPlan(QueryExecution.scala:73)
  at org.apache.spark.sql.execution.QueryExecution.sparkPlan$lzycompute(QueryExecution.scala:79)
  at org.apache.spark.sql.execution.QueryExecution.sparkPlan(QueryExecution.scala:75)
  at org.apache.spark.sql.execution.QueryExecution.executedPlan$lzycompute(QueryExecution.scala:84)
  at org.apache.spark.sql.execution.QueryExecution.executedPlan(QueryExecution.scala:84)
  at org.apache.spark.sql.Dataset.withTypedCallback(Dataset.scala:2791)
  at org.apache.spark.sql.Dataset.head(Dataset.scala:2112)
  at org.apache.spark.sql.Dataset.take(Dataset.scala:2327)
  at org.apache.spark.sql.Dataset.showString(Dataset.scala:248)
  at org.apache.spark.sql.Dataset.show(Dataset.scala:636)
  at org.apache.spark.sql.Dataset.show(Dataset.scala:595)
  at org.apache.spark.sql.Dataset.show(Dataset.scala:604)
  ... 48 elided

打开flag后可以触发inner join

spark.conf.set("spark.sql.crossJoin.enabled", "true")

您还可以使用交叉连接。

weights.crossJoin(input)

或将别名设置为

weights.join(input, input("sourceId")===weights("sourceId"), "cross")

您可以找到更多关于问题 SPARK-6459 https://issues.apache.org/jira/browse/SPARK-6459据说在 2.1.1 中已修复

由于您已经使用过 2.1.1，该问题应该已得到解决。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

为什么 Spark 会失败并显示“检测到逻辑计划之间的 INNER join 的笛卡尔积”？的相关文章

使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
如何向数据框spark添加标题和列？

我有一个数据框我想在其中添加标题和第一列手动这是数据框 import org apache spark sql SparkSession val spark SparkSession builder master local appN
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
错误：无法在 scala 中找到或加载主类

安装 eclipse scala 插件和 eclipse maven scala 插件后我是 scala 新手所以我尝试确保在测试 scala hello world 项目后环境正常工作它按预期工作但我在尝试执行我从公司存储库中签出
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
Apache Spark 和 scikit_learn 之间的 KMeans 结果不一致

我正在使用 PySpark 对数据集执行聚类为了找到簇的数量我对一系列值 2 20 进行了聚类并找到了wsse 簇内平方和每个值的值k 在这里我发现了一些不寻常的东西根据我的理解当你增加集群数量时 wsse单调递减但我得到的结
SBT 对 Scala 类型感到困惑

SBT 抛出以下错误 value split is not a member of String String error filter arg gt arg split delimiter length gt 2 对于以下代码块 impl
将当前类作为 scala 中的参数传递

如何传递当前类作为参数在java中我们这样做 mymethod this class or mymethod MyClass class 如何将 scala 当前类传递给此方法 this getClass or classOf MyCla
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
如何在 Spark 数据帧 groupBy 中执行 count(*)

我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
Scala：“递归值...需要类型”，但我只使用 Java 类型

object Rec extends App val outStream new java io ByteArrayOutputStream val out new java io PrintStream new java io Buffe
WSClient - 打开的文件太多

我正在 CentOS 6 上使用 Play Framework 2 4 我的应用程序抛出此异常 java net SocketException Too many open files 我在 Stack Overflow 上搜索了很多主题并
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
承诺的反面是什么？

承诺代表将来可能可用或无法实现的值我正在寻找的是一种数据类型它表示将来可能变得不可用的可用值可能是由于错误 Promise a b TransitionFromTo
Akka中有轻量级的actor吗？

我的用例非常简单在两个对象之间交换少量现在我正在从 Scala Actors 迁移到 Akka 但是我再也找不到那些轻量级 Actors 使用Akka 我不仅需要为Actor创建创建ActorSystem Props 还需要照顾Acto
使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如
Spark SQL/Hive 查询通过 Join 永远持续下去

所以我正在做一些应该很简单的事情但显然它不在 Spark SQL 中如果我在 MySQL 中运行以下查询查询将在不到一秒的时间内完成 SELECT ua address id FROM user u inner join user a
在 AKKA 中，对主管调用 shutdown 是否会停止其监督的所有参与者？

假设我有一位主管连接了 2 位演员当我的应用程序关闭时我想优雅地关闭这些参与者调用supervisor shutdown 是否会停止所有参与者还是我仍然需要手动停止我的参与者 gracias 阻止主管 https github co
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts

随机推荐

禁用输入元素的样式 - Chrome 和 Firefox 之间的差异

我有一个禁用的输入元素我使用以下 CSS 对其进行样式设置 input disabled disabled color 666 此 CSS 在 Firefox 中按预期工作但 Chrome 将文本颜色渲染为太浅如果我将颜色全部设置为黑
GLFW 编译未定义的引用[重复]

这个问题在这里已经有答案了当我尝试编译我的简单 OpenGl 程序时我收到未定义的引用但我不知道为什么我虽然我的所有设置都正确但我想不是有人可以帮我解决我的问题吗 My Code include
javafx 2 和 css 伪类：在 setStyle 方法中设置悬停属性

我有一个带有以下代码的简单场景 scene getStylesheets add packagename testcss css 我的 testcss css 是 button fx background color DDFFA4 butt
如何将 NAnt 函数“path::combine(path1, path2)”转换为 MSBuild？

我需要转换函数 path combine path1 path2 如果您有什么想法请帮助我谢谢你使用组合路径任务
模块内的 ruby 模块

我有一个 ruby 模块其中包含许多其他模块这是一个简单的例子 module Foo module Bar end module Baz end end 除了我在 Foo 模块中有 6 7 个模块有没有办法可以将 Bar Baz 放
对 Google 的 Cloud Storage API 进行单元测试

我有一个 API 端点我正在尝试为其编写单元测试但我似乎无法弄清楚如何对 Python Google Cloud Storage 客户端库调用进行单元测试 https cloud google com appengine docs py
如何在Spring管理的事务中手动管理Neo4j锁

首先我会解释为什么我要手动设置写锁我在基于 Spring Data Neo4j 的 Web 服务应用程序中使用 Neo4j 数据库事务由Spring管理我只使用 Transactional注释但是我对特定用例有问题这会导致数据库
OpenCV：使用函数 cvGoodFeaturesToTrack 时出错

当我调用函数 cvGoodFeaturesToTrack 来查找 Harris 角时出现以下错误 OpenCV Error Assertion failed src type CV 8UC1 src type CV 32FC1 in co
创建一个新的 AnonymousType 实例

我正在尝试创建一个 AnonymousType 实例如下所示 new Channel g Key Channel Comment g Key Comment Count g Count 在黑暗中 NET 创建一个 AnonymousTyp
Haskell 中的合并排序

我是 Haskell 的新手我正在尝试在其中实现一些已知的算法我已经对字符串实现了合并排序我有点失望我的 Haskell 实现与 C 和 Java 实现相比的性能在我的机器 Ubuntu Linux 1 8 GHz 上 C gcc
Maven编译错误

您好我有一个可以从我的计算机构建的项目但是我在其他环境服务器中遇到了这个问题 INFO ERROR BUILD ERROR INFO INFO Internal error in the plugin manager executi
Python Virtualenv - 没有名为 virtualenvwrapper.hook_loader 的模块

我运行的是 Mac 操作系统 10 6 8 除了 python 2 6 之外还想安装 python 2 7 并在新的 virtualenv 中使用 python 2 7 我执行了以下步骤我下载了 python 2 7 并安装了它 http
指定函数参数类型，但不指定变量

我以前见过这样的示例代码 class C C C foo T1 T2 C foo T1 T2 not using T1 T2 与这样的传统代码相比 class D D D bar T1 t1 T2 t2 D bar T1 t1 T2 t2
如何在 R 中的 data.table 中使用自定义函数

这是我的交易数据它显示了从帐户进行的交易from列到帐户中to包含日期和金额信息的列 data id from to date amount
mollview：使用 matplotlib 颜色图并更改背景颜色

我正在尝试在healpy mollview上使用其他颜色图我用这段代码成功了 from healpy import mollview from pylab import arange show cm m arange 768 mollvi
使用输入单元格的单元格引用？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案在单元格 K1 中 VBA 插入一个单元格引用该引用根据 vba 代码中概述的某些条件而变化对于此示例假设此单元格的值为 A 13
使用 Tensorflow 提高 Iris ML 模型的准确性

我是 Python 和 ML 的初学者我正在练习这个 Iris 数据集以使用张量流 2 0 创建 ML 模型我解析了 csv 并使用数据集训练了模型在模型创建过程中我能够获得 90 的训练准确度和 91 的验证准确度 import
tkinter 标签的背景颜色不会改变（python 3.4）

我正在 python 3 4 中使用 Tkinter 制作一个小部件由于某种原因我无法更改标签的背景颜色默认的灰色标签的代码是这样的 self label ttk Label master text Label Text foregr
Android：捕获 BLE 连接失败/断开连接？

所以在正常情况下我能够很好地连接到 BLE 设备我想做的是处理异常情况例如与设备的连接失败或已建立的连接丢失也许它被扔下悬崖或被公共汽车撞到我正在使用 CyPress BLE 模块来测试这一点我正在做的测试之一是断开模块的电源然
为什么 Spark 会失败并显示“检测到逻辑计划之间的 INNER join 的笛卡尔积”？

我在用火花2 1 0 当我执行以下代码时我从 Spark 收到错误为什么如何修复它 val i1 Seq a string another string last one toDF a b val i2 Seq one string

为什么 Spark 会失败并显示“检测到逻辑计划之间的 INNER join 的笛卡尔积”？

为什么 Spark 会失败并显示“检测到逻辑计划之间的 INNER join 的笛卡尔积”？ 的相关文章

随机推荐

热门标签

为什么 Spark 会失败并显示“检测到逻辑计划之间的 INNER join 的笛卡尔积”？的相关文章