Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
在 Spark SQL 中将结构转换为映射
我正在尝试转换一个数据集 该数据集声明一列具有特定的struct类型 例如struct
apachespark
apachesparksql
PySpark 中按降序排序
我正在使用 PySpark Python 2 7 9 Spark 1 3 1 并有一个数据框 GroupObject 我需要按降序过滤和排序 试图通过这段代码来实现它 group by dataframe count filter coun
python
apachespark
DataFrame
PySpark
apachesparksql
如何在大窗口上优化窗口聚合?
我在 Spark 2 4 4 中使用带有大窗口的窗口函数 例如 Window partitionBy id orderBy timestamp 在我的测试中 我有大约 70 个不同的 ID 但我可能有大约 200 000 行 ID 如果没有
scala
apachespark
apachesparksql
如何根据列值是否位于 Spark DataFrame 中的一组字符串中来过滤行
是否有一种更优雅的方法根据字符串集中的值进行过滤 def myFilter actions Set String myDF DataFrame DataFrame val containsAction udf action String g
scala
apachespark
apachesparksql
如何爆炸空间分隔的柱子?
我在 Spark Scala 中有一个示例数据框 其中包含一列和许多其他列 50 并且需要分解 id 示例数据 id name address 234 435 567 auh aus 345 123 muji uk 输出数据 id name
scala
apachespark
apachesparksql
Spark VectorAssembler 错误 - PySpark 2.3 - Python
我正在使用 pySpark 2 3 0 并创建了一个非常简单的 Spark 数据框来测试 VectorAssembler 的功能 这是较大数据框的子集 其中我只选择了一些数字 双精度数据类型 列 gt gt gt cols index ho
python
apachespark
PySpark
apachesparksql
仅保留 DataFrame 中有关某些字段的重复项
我有这个火花数据框 ID ID2 Number Name Opening Hour Closing Hour ALT QWA 6 null 08 59 00 23 30 00 ALT AUTRE 2 null 08 58 00 23 29
apachespark
PySpark
apachesparksql
Spark 使用前一行的值向数据帧添加新列
我想知道如何在 Spark Pyspark 中实现以下目标 初始数据框 id num 4 9 0 3 7 0 2 3 0 1 5 0 结果数据框 id num new Col 4 9 0 7 0 3 7 0 3 0 2 3 0 5 0 我通
python
apachespark
DataFrame
PySpark
apachesparksql
如何从不同列条件下的 PySpark 数据帧中提取数组元素?
我有以下内容PySpark 输入数据框 index valuelist 1 0 10 20 30 2 0 11 21 31 0 0 14 12 15 Where 索引 双精度型 值列表 类型Vector it s 非数组 从上面的输入数据框
PySpark
apachesparksql
从 Spark DataFrame 中的单个列派生多个列
我有一个 DF 它有一个巨大的可解析元数据作为 Dataframe 中的单个字符串列 我们称之为 DFA 带有 ColmnA 我想通过函数 ClassXYZ Func1 ColmnA 将这一列 ColmnA 分成多个列 该函数返回一个类 C
scala
apachespark
DataFrame
apachesparksql
userdefinedfunctions
我可以将格式和路径选项传递到spark_write_table中吗?或者将 saveAsTable 与 Spark_write_orc 一起使用?
Spark 2 0 与 Hive 假设我正在尝试编写一个 Spark 数据框 irisDf to orc and将其保存到 hive 元存储 在 Spark 中我会这样做 irisDf write format orc mode overw
r
apachespark
hive
apachesparksql
sparklyr
pyspark:类型错误:IntegerType 无法接受类型为
的对象
在 Spark 集群上使用 pyspark 进行编程 数据很大并且是碎片 因此无法加载到内存中或轻松检查数据的完整性 基本上看起来像 af b Current 20events 1 996 af b Kategorie Musiek 1 4
python
apachespark
apachesparksql
PySpark
toDF 问题,值 toDF 不是 org.apache.spark.rdd.RDD 的成员
我已附加错误 value toDF is not a member of org apache spark rdd RDD 的代码片段 我正在使用 scala 2 11 8 和 Spark 2 0 0 您能帮我解决 API toDF 的这个
DataFrame
apachesparksql
Databricks - 不为空,但它不是 Delta 表
我在 Databricks 上运行查询 DROP TABLE IF EXISTS dublicates hotels CREATE TABLE IF NOT EXISTS dublicates hotels 我试图理解为什么我收到以下错误
apachesparksql
Databricks
deltalake
与查找数据集连接后进行多列值查找
我正在使用spark sql 2 4 1v如何根据列的值进行各种连接 我需要获得多个查找值map val给定值列的列 如下所示 样本数据 val data List 20 score school 2018 03 31 14 12 21 s
scala
apachespark
apachesparksql
SparkStreaming
在 Spark 中,从哈希映射创建数据帧,其中键作为列名称,值作为行
我有一个数据框 我有一个列 它是数据框中的地图 如下所示 scala gt df printSchema root A1 map nullable true key string value string valueContainsNull
scala
apachespark
DataFrame
apachesparksql
Spark SQL 广播哈希连接
我正在尝试使用 SparkSQL 对数据帧执行广播哈希连接记录在这里 https spark apache org docs latest sql performance tuning html join strategy hints fo
apachespark
apachesparksql
SPARK SQL 中的相关子查询列不允许作为非相等谓词的一部分
我正在尝试在 where 子句中编写一个子查询 如下所示 但我越来越 非等式谓词中不允许有相关列 SELECT holidays FROM SELECT s holidays s entity FROM transit t tt WHERE
apachespark
apachesparksql
一个 RDD 中的值与另一个 RDD 中的值部分/完全匹配
我有两个 RDD 其中第一个 RDD 具有以下形式的记录 RDD1 1 2017 2 13 ABX 3354 gsfette 2 2017 3 18 TYET 3423 asdsad 3 2017 2 09 TYET 3423 rewriu
scala
apachespark
apachesparksql
patternmatching
将包含无效字符的嵌套字段从 Spark 2 导出到 Parquet [重复]
这个问题在这里已经有答案了 我正在尝试使用 Spark 2 0 2 将 JSON 文件转换为镶木地板 JSON 文件来自外部源 因此架构在到达之前无法更改 该文件包含属性映射 在我收到文件之前 属性名称是未知的 属性名称包含不能在 parq
apachespark
apachesparksql
parquet
«
1
2
3
4
5
6
7
...43
»