apachesparksql

在 Spark SQL 中将结构转换为映射

我正在尝试转换一个数据集该数据集声明一列具有特定的struct类型例如struct

apachespark apachesparksql

PySpark 中按降序排序

我正在使用 PySpark Python 2 7 9 Spark 1 3 1 并有一个数据框 GroupObject 我需要按降序过滤和排序试图通过这段代码来实现它 group by dataframe count filter coun

python apachespark DataFrame PySpark apachesparksql

如何在大窗口上优化窗口聚合？

我在 Spark 2 4 4 中使用带有大窗口的窗口函数例如 Window partitionBy id orderBy timestamp 在我的测试中我有大约 70 个不同的 ID 但我可能有大约 200 000 行 ID 如果没有

scala apachespark apachesparksql

如何根据列值是否位于 Spark DataFrame 中的一组字符串中来过滤行

是否有一种更优雅的方法根据字符串集中的值进行过滤 def myFilter actions Set String myDF DataFrame DataFrame val containsAction udf action String g

scala apachespark apachesparksql

如何爆炸空间分隔的柱子？

我在 Spark Scala 中有一个示例数据框其中包含一列和许多其他列 50 并且需要分解 id 示例数据 id name address 234 435 567 auh aus 345 123 muji uk 输出数据 id name

scala apachespark apachesparksql

Spark VectorAssembler 错误 - PySpark 2.3 - Python

我正在使用 pySpark 2 3 0 并创建了一个非常简单的 Spark 数据框来测试 VectorAssembler 的功能这是较大数据框的子集其中我只选择了一些数字双精度数据类型列 gt gt gt cols index ho

python apachespark PySpark apachesparksql

仅保留 DataFrame 中有关某些字段的重复项

我有这个火花数据框 ID ID2 Number Name Opening Hour Closing Hour ALT QWA 6 null 08 59 00 23 30 00 ALT AUTRE 2 null 08 58 00 23 29

apachespark PySpark apachesparksql

Spark 使用前一行的值向数据帧添加新列

我想知道如何在 Spark Pyspark 中实现以下目标初始数据框 id num 4 9 0 3 7 0 2 3 0 1 5 0 结果数据框 id num new Col 4 9 0 7 0 3 7 0 3 0 2 3 0 5 0 我通

python apachespark DataFrame PySpark apachesparksql

如何从不同列条件下的 PySpark 数据帧中提取数组元素？

我有以下内容PySpark 输入数据框 index valuelist 1 0 10 20 30 2 0 11 21 31 0 0 14 12 15 Where 索引双精度型值列表类型Vector it s 非数组从上面的输入数据框

PySpark apachesparksql

从 Spark DataFrame 中的单个列派生多个列

我有一个 DF 它有一个巨大的可解析元数据作为 Dataframe 中的单个字符串列我们称之为 DFA 带有 ColmnA 我想通过函数 ClassXYZ Func1 ColmnA 将这一列 ColmnA 分成多个列该函数返回一个类 C

scala apachespark DataFrame apachesparksql userdefinedfunctions

我可以将格式和路径选项传递到spark_write_table中吗？或者将 saveAsTable 与 Spark_write_orc 一起使用？

Spark 2 0 与 Hive 假设我正在尝试编写一个 Spark 数据框 irisDf to orc and将其保存到 hive 元存储在 Spark 中我会这样做 irisDf write format orc mode overw

r apachespark hive apachesparksql sparklyr

pyspark：类型错误：IntegerType 无法接受类型为的对象

在 Spark 集群上使用 pyspark 进行编程数据很大并且是碎片因此无法加载到内存中或轻松检查数据的完整性基本上看起来像 af b Current 20events 1 996 af b Kategorie Musiek 1 4

python apachespark apachesparksql PySpark

toDF 问题，值 toDF 不是 org.apache.spark.rdd.RDD 的成员

我已附加错误 value toDF is not a member of org apache spark rdd RDD 的代码片段我正在使用 scala 2 11 8 和 Spark 2 0 0 您能帮我解决 API toDF 的这个

DataFrame apachesparksql

Databricks - 不为空，但它不是 Delta 表

我在 Databricks 上运行查询 DROP TABLE IF EXISTS dublicates hotels CREATE TABLE IF NOT EXISTS dublicates hotels 我试图理解为什么我收到以下错误

apachesparksql Databricks deltalake

与查找数据集连接后进行多列值查找

我正在使用spark sql 2 4 1v如何根据列的值进行各种连接我需要获得多个查找值map val给定值列的列如下所示样本数据 val data List 20 score school 2018 03 31 14 12 21 s

scala apachespark apachesparksql SparkStreaming

在 Spark 中，从哈希映射创建数据帧，其中键作为列名称，值作为行

我有一个数据框我有一个列它是数据框中的地图如下所示 scala gt df printSchema root A1 map nullable true key string value string valueContainsNull

scala apachespark DataFrame apachesparksql

Spark SQL 广播哈希连接

我正在尝试使用 SparkSQL 对数据帧执行广播哈希连接记录在这里 https spark apache org docs latest sql performance tuning html join strategy hints fo

apachespark apachesparksql

SPARK SQL 中的相关子查询列不允许作为非相等谓词的一部分

我正在尝试在 where 子句中编写一个子查询如下所示但我越来越非等式谓词中不允许有相关列 SELECT holidays FROM SELECT s holidays s entity FROM transit t tt WHERE

apachespark apachesparksql

一个 RDD 中的值与另一个 RDD 中的值部分/完全匹配

我有两个 RDD 其中第一个 RDD 具有以下形式的记录 RDD1 1 2017 2 13 ABX 3354 gsfette 2 2017 3 18 TYET 3423 asdsad 3 2017 2 09 TYET 3423 rewriu

scala apachespark apachesparksql patternmatching

将包含无效字符的嵌套字段从 Spark 2 导出到 Parquet [重复]

这个问题在这里已经有答案了我正在尝试使用 Spark 2 0 2 将 JSON 文件转换为镶木地板 JSON 文件来自外部源因此架构在到达之前无法更改该文件包含属性映射在我收到文件之前属性名称是未知的属性名称包含不能在 parq

apachespark apachesparksql parquet