Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Spark:创建嵌套架构
伴随着火花 import spark implicits val data Seq 1 value11 value12 2 value21 value22 3 value31 value32 val df data toDF id v1 d
apachespark
DataFrame
apachesparksql
schema
使用 pyspark 计算 Spark Dataframe 中的新列,将 df1 中的标记列表列与 df2 中的文本列交叉
我正在使用 Spark 2 4 5 我需要从令牌列表列计算情绪分数 MeaningfulWords列 的df1 根据中的话df2 西班牙语情感词典 在df1我必须创建一个新列 其中包含标记的分数列表 另一列包含每条记录的分数平均值 分数总和
apachespark
PySpark
apachesparksql
Scala Dataframe 列的 null 检查
val new df df filter type interne type interne null 给我错误值 不是字符串的成员 当我使用 适用于过滤器 val new df df filter type interne type in
scala
apachespark
DataFrame
apachesparksql
从列表 PySpark 的列表中创建单行数据框
我有一个这样的数据data 1 1 1 2 1 3 1 4 1 5 1 6 我想创建一个 PySpark 数据框 我已经使用了 dataframe SQLContext createDataFrame data features 但我总是得
python
apachespark
PySpark
apachesparksql
检查 arraytype 列是否包含 null
我有一个数据框 其中有一列可以包含整数值的数组类型 如果没有值 它将只包含一个 并且它将是空值 重要的 注意该列不会为空 而是一个具有单个值的数组 无效的 gt val df DataFrame Seq foo Seq Some 2 Som
scala
apachespark
DataFrame
null
apachesparksql
从spark.sql.Row获取第一个值
我有以下 json 格式 Request TrancheList Tranche TrancheId 500192163 OwnedAmt 26500000 Curr USD TrancheId 500213369 OwnedAmt 410
apachespark
apachesparksql
如何将数组(即列表)列转换为向量
问题的简短版本 考虑以下代码片段 假设spark已经设置为一些SparkSession from pyspark sql import Row source data Row city Chicago temperatures 1 0 2
python
apachespark
PySpark
apachesparksql
apachesparkml
更改 Spark Dataframe 中所有“双精度类型”列的小数精度
我有一个火花DataFrame 我们说 df 我对此做了以下简单的聚合DataFrame df groupBy sum 这样做后 我得到以下异常 java lang IllegalArgumentException requirement
scala
apachespark
apachesparksql
可空字段在写入 Spark Dataframe 时发生更改
以下代码从 parquet 文件读取 Spark DataFrame 并写入另一个 parquet 文件 将 DataFrame 写入新的 Parquet 文件后 ArrayType 中的 Nullable 字段的 DataType 会发生
DataFrame
apachespark
apachesparksql
在 Apache Spark SQL 中我们可以回滚事务吗
我想让spark sql将数据持久化 这样的话我可以使用回滚我们已经持久化的数据吗 前任 假设我们有 3 个表 t1 t2 和 t3 t1 和 t2 表数据已成功保留 但 t3 在数据完整性级别上失败了 那么我可以回滚我已经坚持的 t1 和
apachespark
apachesparksql
需要 Spark sql 中 SQL IsNumeric 函数的等效功能
就像我们有 SQL ISNUMERIC 函数来验证表达式是否为数字一样 我需要 Spark SQL 中是否有任何等效的函数 我试图找到它但无法找到它 请问有人可以提供帮助或建议吗 尝试使用spark udf 这种方法将帮助您克隆任何函数 s
apachesparksql
Spark UDAF以ArrayType作为bufferSchema性能问题
我正在开发一个返回元素数组的 UDAF 每次更新的输入是索引和值的元组 UDAF 的作用是将同一索引下的所有值相加 Example 对于输入 索引 值 2 1 3 1 2 3 应该返回 0 0 4 1 0 逻辑工作正常 但我有一个问题更新方
scala
performance
apachespark
apachesparksql
userdefinedfunctions
SparkContext.getOrCreate() 用途
目的是什么getOrCreate方法来自SparkContext班级 我不明白什么时候应该使用这个方法 如果我有 2 个 Spark 应用程序运行spark submit 在主要方法中 我用以下方法实例化 Spark 上下文SparkCon
apachespark
PySpark
apachesparksql
SparkStreaming
Spark 中广播对象的最大大小是多少?
使用数据框时播送 http spark apache org docs 2 0 0 api java org apache spark sql functions html broadcast org apache spark sql Da
apachespark
DataFrame
apachesparksql
BROADCAST
使用Python编写Parquet文件的方法?
我无法找到允许使用 Python 编写 Parquet 文件的库 如果我可以结合使用 Snappy 或类似的压缩机制 那就加分了 到目前为止 我发现的唯一方法是将 Spark 与pyspark sql DataFrame镶木地板支持 我有一
python
apachespark
apachesparksql
parquet
snappy
为什么火花计数动作分三个阶段执行
我已经加载了一个 csv 文件 将其重新分区为 4 然后对 DataFrame 进行计数 当我查看 DAG 时 我发现此操作分 3 个阶段执行 为什么这个简单的动作要分三个阶段执行 我想第一阶段是加载文件 第二阶段是查找每个分区的计数 那么
apachespark
apachesparksql
Spark sql row_number 还是序列号?
随机数生成器 SparkSQL 例如 Netezza 序列号 mysql 序列号 Thanks Spark sql 中的序列在 Spark 1 6 中 其 select monotonically increasing id from ta
apachespark
apachesparksql
使用 pyspark 使用嵌套结构 ArrayType 展平数据框
我有一个具有此架构的数据框 root AUTHOR ID integer nullable false NAME string nullable true Books array nullable false element struct
DataFrame
apachespark
PySpark
apachesparksql
Spark Dataframes 已成功创建,但无法写入本地磁盘
我正在使用 IntelliJ IDE 在 Microsoft Windows 平台上执行 Spark Scala 代码 我有四个 Spark Dataframe 每个 Dataframe 大约有 30000 条记录 我尝试从每个 Dataf
apachespark
intellijidea
apachesparksql
如何使用分隔符连接 PySpark 中的多个列?
我有一个pyspark Dataframe 我想加入3个专栏 id column 1 column 2 column 3 1 12 34 67 2 45 78 90 3 23 93 56
apachespark
PySpark
apachesparksql
«
1 ...
3
4
5
6
7
8
9
...43
»