apachesparksql

Spark：创建嵌套架构

伴随着火花 import spark implicits val data Seq 1 value11 value12 2 value21 value22 3 value31 value32 val df data toDF id v1 d

apachespark DataFrame apachesparksql schema

使用 pyspark 计算 Spark Dataframe 中的新列，将 df1 中的标记列表列与 df2 中的文本列交叉

我正在使用 Spark 2 4 5 我需要从令牌列表列计算情绪分数 MeaningfulWords列的df1 根据中的话df2 西班牙语情感词典在df1我必须创建一个新列其中包含标记的分数列表另一列包含每条记录的分数平均值分数总和

apachespark PySpark apachesparksql

Scala Dataframe 列的 null 检查

val new df df filter type interne type interne null 给我错误值不是字符串的成员当我使用适用于过滤器 val new df df filter type interne type in

scala apachespark DataFrame apachesparksql

从列表 PySpark 的列表中创建单行数据框

我有一个这样的数据data 1 1 1 2 1 3 1 4 1 5 1 6 我想创建一个 PySpark 数据框我已经使用了 dataframe SQLContext createDataFrame data features 但我总是得

python apachespark PySpark apachesparksql

检查 arraytype 列是否包含 null

我有一个数据框其中有一列可以包含整数值的数组类型如果没有值它将只包含一个并且它将是空值重要的注意该列不会为空而是一个具有单个值的数组无效的 gt val df DataFrame Seq foo Seq Some 2 Som

scala apachespark DataFrame null apachesparksql

从spark.sql.Row获取第一个值

我有以下 json 格式 Request TrancheList Tranche TrancheId 500192163 OwnedAmt 26500000 Curr USD TrancheId 500213369 OwnedAmt 410

apachespark apachesparksql

如何将数组（即列表）列转换为向量

问题的简短版本考虑以下代码片段假设spark已经设置为一些SparkSession from pyspark sql import Row source data Row city Chicago temperatures 1 0 2

python apachespark PySpark apachesparksql apachesparkml

更改 Spark Dataframe 中所有“双精度类型”列的小数精度

我有一个火花DataFrame 我们说 df 我对此做了以下简单的聚合DataFrame df groupBy sum 这样做后我得到以下异常 java lang IllegalArgumentException requirement

scala apachespark apachesparksql

可空字段在写入 Spark Dataframe 时发生更改

以下代码从 parquet 文件读取 Spark DataFrame 并写入另一个 parquet 文件将 DataFrame 写入新的 Parquet 文件后 ArrayType 中的 Nullable 字段的 DataType 会发生

DataFrame apachespark apachesparksql

在 Apache Spark SQL 中我们可以回滚事务吗

我想让spark sql将数据持久化这样的话我可以使用回滚我们已经持久化的数据吗前任假设我们有 3 个表 t1 t2 和 t3 t1 和 t2 表数据已成功保留但 t3 在数据完整性级别上失败了那么我可以回滚我已经坚持的 t1 和

apachespark apachesparksql

需要 Spark sql 中 SQL IsNumeric 函数的等效功能

就像我们有 SQL ISNUMERIC 函数来验证表达式是否为数字一样我需要 Spark SQL 中是否有任何等效的函数我试图找到它但无法找到它请问有人可以提供帮助或建议吗尝试使用spark udf 这种方法将帮助您克隆任何函数 s

apachesparksql

Spark UDAF以ArrayType作为bufferSchema性能问题

我正在开发一个返回元素数组的 UDAF 每次更新的输入是索引和值的元组 UDAF 的作用是将同一索引下的所有值相加 Example 对于输入索引值 2 1 3 1 2 3 应该返回 0 0 4 1 0 逻辑工作正常但我有一个问题更新方

scala performance apachespark apachesparksql userdefinedfunctions

SparkContext.getOrCreate() 用途

目的是什么getOrCreate方法来自SparkContext班级我不明白什么时候应该使用这个方法如果我有 2 个 Spark 应用程序运行spark submit 在主要方法中我用以下方法实例化 Spark 上下文SparkCon

apachespark PySpark apachesparksql SparkStreaming

Spark 中广播对象的最大大小是多少？

使用数据框时播送 http spark apache org docs 2 0 0 api java org apache spark sql functions html broadcast org apache spark sql Da

apachespark DataFrame apachesparksql BROADCAST

使用Python编写Parquet文件的方法？

我无法找到允许使用 Python 编写 Parquet 文件的库如果我可以结合使用 Snappy 或类似的压缩机制那就加分了到目前为止我发现的唯一方法是将 Spark 与pyspark sql DataFrame镶木地板支持我有一

python apachespark apachesparksql parquet snappy

为什么火花计数动作分三个阶段执行

我已经加载了一个 csv 文件将其重新分区为 4 然后对 DataFrame 进行计数当我查看 DAG 时我发现此操作分 3 个阶段执行为什么这个简单的动作要分三个阶段执行我想第一阶段是加载文件第二阶段是查找每个分区的计数那么

apachespark apachesparksql

Spark sql row_number 还是序列号？

随机数生成器 SparkSQL 例如 Netezza 序列号 mysql 序列号 Thanks Spark sql 中的序列在 Spark 1 6 中其 select monotonically increasing id from ta

apachespark apachesparksql

使用 pyspark 使用嵌套结构 ArrayType 展平数据框

我有一个具有此架构的数据框 root AUTHOR ID integer nullable false NAME string nullable true Books array nullable false element struct

DataFrame apachespark PySpark apachesparksql

Spark Dataframes 已成功创建，但无法写入本地磁盘

我正在使用 IntelliJ IDE 在 Microsoft Windows 平台上执行 Spark Scala 代码我有四个 Spark Dataframe 每个 Dataframe 大约有 30000 条记录我尝试从每个 Dataf

apachespark intellijidea apachesparksql

如何使用分隔符连接 PySpark 中的多个列？

我有一个pyspark Dataframe 我想加入3个专栏 id column 1 column 2 column 3 1 12 34 67 2 45 78 90 3 23 93 56

apachespark PySpark apachesparksql