Spark 2.x 的 Spark.sql.crossJoin.enabled

2024-02-14

我正在使用“预览”Google DataProc Image 1.1 和 Spark 2.0.0。为了完成我的一项操作，我必须完成笛卡尔积。从2.0.0版本开始，创建了一个spark配置参数（spark.sql.cross Join.enabled），该参数禁止笛卡尔积并抛出异常。如何设置spark.sql.crossJoin.enabled=true，最好通过使用初始化操作？spark.sql.crossJoin.enabled=true

火花 >= 3.0

spark.sql.crossJoin.enable默认为 true (SPARK-28621 https://issues.apache.org/jira/browse/SPARK-28621).

火花 >= 2.1

您可以使用crossJoin:

df1.crossJoin(df2)

它使您的意图明确，并保持更保守的配置，以保护您免受意外交叉连接的影响。

火花2.0

SQL 属性可以在运行时动态设置RuntimeConfig.set方法，所以你应该能够调用

spark.conf.set("spark.sql.crossJoin.enabled", true)

每当您想明确允许笛卡尔积时。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

googleclouddataproc

Spark 2.x 的 Spark.sql.crossJoin.enabled 的相关文章

如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
Scala 案例类忽略 Spark shell 中的导入

我希望这个问题有一个明显的答案我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本如果我输入以下最小的 Scala import java sql Timestamp case class C
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
如何将 Spark DataFrame 以 csv 格式保存在磁盘上？

例如这样的结果 df filter project en select title count groupBy title sum 将返回一个数组如何将 Spark DataFrame 作为 csv 文件保存在磁盘上 Apache Sp
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
collect_list() 是否保持行的相对顺序？

想象一下我有以下 DataFrame df id featureName featureValue id1 a 3 id1 b 4 id2 a 2 id2 c 5 id3 d 9 想象一下我运行 df groupBy id agg coll
四舍五入数据框中的所有列 - 两位小数 pyspark

我使用此命令将数据框中的所有列四舍五入到小数点后两位 data data withColumn columnName1 func round data columnName1 2 我不知道如何通过一个命令对所有数据框进行四舍五入不是每一列

随机推荐

在巨大的 gzip 文件顶部添加一行

我有一个巨大的 gzip 文件 400MB 我想在文件的开头附加一行文本我正在考虑创建一个带有标题行的 gzip 文件然后使用zcat合并头文件和日志文件只是想检查是否有更好优雅有效的方法来做到这一点两个 gzip 压缩文件连接
无法使用 Transform 删除 Web.Config 节点

我有一个包含这样的重写规则的 web config
Spring Boot 与 Jersey 和 Spring Security OAuth2

以下是 Spring Boot 的示例来自 GitHub 的示例代码 https github com spring projects spring boot tree master spring boot samples spring
当文本换行时，Flexbox 不再对齐项目

我正在努力使用flexbox容器连同bootstrap 4将我的元素水平居中对齐这是我到目前为止所拥有的 div class d flex flex column align items center img class rounded
是否可以在 GCE 上配置容器优化的操作系统虚拟机而无需实际部署映像？

我想构建一个 CI 管道其中基础设施阶段在 Google Compute Engine 上使用 Terraform 提供容器优化的操作系统实例beforeDocker 化的应用程序上传到 ArtifactRegistry 并首次部署我的
根据实体框架导航属性中的项目计数对绑定的 ASP.NET GridView 进行排序

我有一个 ASP NET 页面其中有一个绑定到 EntityDataSource 的 GridView 控件请参阅下面的简化代码网格显示了一个列表Parent项目并包括一个显示 Count 的列Children对于这位家长我可以让网
PHP ImageMagick setColorspace 不起作用[重复]

这个问题在这里已经有答案了我正在尝试通过使用以下代码更改色彩空间来将图像转换为黑白图像 im new Imagick image png im gt setImageColorspace Imagick COLORSPACE GRAY i
Aurelia Typescript 项目仅适用于 Chrome

有谁知道为什么列出 Aurelia Typescript 项目在这个 git 存储库中 https github com cmichaelgraham aurelia typescript只能在 Chrome 浏览器上使用吗是否存在目前仅
自引用结构定义？

我写 C 的时间不长所以我不确定应该如何做这些递归的事情我希望每个单元格包含另一个单元格但我在字段 child 的类型不完整行这是怎么回事 typedef struct Cell int isParent Cell child
ActionCable：如何使用动态通道

我用 Rails 5 和 ActionCable 构建了一个简单的聊天其中有一个简单的聊天频道如何使频道订阅和消息广播动态化以便我可以创建聊天频道并将消息发送到正确的频道不幸的是我找不到这方面的单个代码示例 Update 下面
Sqoop 自由格式查询导致 Hue/Oozie 中的参数无法识别

我正在尝试使用自由格式查询运行 sqoop 命令因为我需要执行聚合它作为 Oozie 工作流程通过 Hue 界面提交以下是命令和查询的缩小版本处理命令时 query 语句用引号引起来会导致查询的每个部分被解释为无法识别的参数如
Flutter：垃圾收集 - 如何检查？

在 Flutter 中如何检查我是否正确释放处置所有内容我正在构建一个应用程序我感觉模拟器在一系列热重载后变得越来越慢非常感谢您的回答 Dart 带有一个名为的调试器Observatory 它可以满足您所需的一切从 CPU 内
如何使用 Java 8 Streams 按对象属性分组并映射到另一个对象？

假设我有一组碰碰车它们的侧面有尺寸颜色和标识符汽车代码 class BumperCar int size String color String carCode 现在我需要将碰碰车映射到List of DistGroup对象每个对象
HTML 5 音频当前位置

将 HTML 5 与 DOM 一起使用有没有办法获取用户正在播放音频文件的当前位置并在稍后返回到该位置 See the HTML媒体元素 http dev w3 org html5 spec Overview html htmlmedi
使用 **kwargs 将 **kwargs 参数传递给另一个函数

我不明白下面的例子假设我有这些功能 python likes def save filename data kwargs fo openX filename w kwargs lt 1 fo write data fo close pyt
Omniauth-facebook 登录无法正常工作

当我尝试使用omniauth facebook 登录我的Rails 应用程序时出现以下错误这是在 localhost 3000 上测试时不安全登录被阻止您无法从不安全页面获取访问令牌或登录此应用程序尝试将页面重新加载为 https
命令设计模式 - 调用者是可选的吗？

Command 设计模式中 Invoker 类是可选的吗客户端需要实例化命令的具体命令和接收器客户端是否总是需要实例化 Invoker 并将命令对象传递给 Invoker 对象稍后每当客户端需要执行命令时客户端只需询问 Invok
FizzBuzz 列表理解

当我学习 python 时我正在摆弄一些不同的 fizzuzz 脚本我发现这个效果很好但我无法破译它是如何工作的我知道正常的嘶嘶声如何与 for 循环和 if i 3 0 and i 5 0 一起工作让我困惑的是如何 Fizz n
批处理文件创建另一个批处理文件，如何在写入行时忽略命令？

我正在编写的 Windows 批处理文件遇到了一些问题我需要批处理文件将一些特定行写入另一个批处理文件我一直使用的方法是 type NUL gt batchfile bat ECHO texttobewrittentofile gt g
Spark 2.x 的 Spark.sql.crossJoin.enabled

我正在使用预览 Google DataProc Image 1 1 和 Spark 2 0 0 为了完成我的一项操作我必须完成笛卡尔积从2 0 0版本开始创建了一个spark配置参数 spark sql cross Join ena

Spark 2.x 的 Spark.sql.crossJoin.enabled

Spark 2.x 的 Spark.sql.crossJoin.enabled 的相关文章

随机推荐

热门标签