PySpark

在 Spark 中读取 XML

我正在尝试使用spark xml jar 读取pyspark 中的xml 嵌套xml df sqlContext read format com databricks spark xml option rowTag hierachy loa

xml apachespark DataFrame PySpark apachesparkxml

PySpark 中按降序排序

我正在使用 PySpark Python 2 7 9 Spark 1 3 1 并有一个数据框 GroupObject 我需要按降序过滤和排序试图通过这段代码来实现它 group by dataframe count filter coun

python apachespark DataFrame PySpark apachesparksql

Spark VectorAssembler 错误 - PySpark 2.3 - Python

我正在使用 pySpark 2 3 0 并创建了一个非常简单的 Spark 数据框来测试 VectorAssembler 的功能这是较大数据框的子集其中我只选择了一些数字双精度数据类型列 gt gt gt cols index ho

python apachespark PySpark apachesparksql

仅保留 DataFrame 中有关某些字段的重复项

我有这个火花数据框 ID ID2 Number Name Opening Hour Closing Hour ALT QWA 6 null 08 59 00 23 30 00 ALT AUTRE 2 null 08 58 00 23 29

apachespark PySpark apachesparksql

如何通过继承向 Pyspark Dataframe 类添加自定义方法

我正在尝试继承 DataFrame 类并添加其他自定义方法如下所示以便我可以流畅地链接并确保所有方法引用相同的数据帧我收到异常因为列不可迭代 from pyspark sql dataframe import DataFrame c

python apachespark PySpark

Apache Spark 警告“在 RowBasedKeyValueBatch 上调用溢出()”的含义

我正在使用 Apache Spark 本地模式运行 pyspark 2 2 0 作业并看到以下警告 WARN RowBasedKeyValueBatch Calling spill on RowBasedKeyValueBatch Wil

apachespark PySpark warnings

替换数据框中的重复列

我有一个data frame in pyspark 该数据框有一些带有特殊字符的列 cols df schema names cols abc test test abc eng test abc test reps def col ren

python apachespark PySpark

Spark 使用前一行的值向数据帧添加新列

我想知道如何在 Spark Pyspark 中实现以下目标初始数据框 id num 4 9 0 3 7 0 2 3 0 1 5 0 结果数据框 id num new Col 4 9 0 7 0 3 7 0 3 0 2 3 0 5 0 我通

python apachespark DataFrame PySpark apachesparksql

Spark任务仅在一个执行器上运行

大家好首先我知道这个线程的存在 Spark 中的任务仅在一个执行器上运行 https stackoverflow com questions 53425983 task is running on only one executor in

python apachespark elasticsearch PySpark hadoopyarn

delta Lake - 在 pyspark 中插入 sql 失败，并显示 java.lang.NoSuchMethodError: org.apache.spark.sql.catalyst.expressions.Alias

Dataproc 集群是使用映像创建的2 0 x带有 Delta io 包io delta delta core 2 12 0 7 0 Spark版本是3 1 1 Spark shell 启动于 pyspark conf spark sql

apachespark PySpark Databricks googleclouddataproc deltalake

Jupyter + EMR + Spark - 从本地计算机上的 Jupyter 笔记本连接到 EMR 集群

我是 PySpark 和 EMR 的新手我尝试通过 Jupyter Notebook 访问 EMR 集群上运行的 Spark 但遇到错误我使用以下代码生成 SparkSession spark SparkSession builder

python PySpark jupyter amazonemr

如何从不同列条件下的 PySpark 数据帧中提取数组元素？

我有以下内容PySpark 输入数据框 index valuelist 1 0 10 20 30 2 0 11 21 31 0 0 14 12 15 Where 索引双精度型值列表类型Vector it s 非数组从上面的输入数据框

PySpark apachesparksql

PySpark，Win10 - 系统找不到指定的路径

我之前将 PySpark 作为通过 pip 安装的 Python 包安装最近我使用干净版本的 Python 卸载了它并下载了独立版本在我的用户变量中我创建了一个名为 SPARK HOME 的路径值为 C spark 2 3 2 bi

PySpark

PySpark：反序列化 eventhub 捕获 avro 文件中包含的 Avro 序列化消息

初始情况 AVRO 序列化事件被发送到 azure 事件中心这些事件使用 azure 事件中心捕获功能持久存储捕获的数据以及事件中心元数据以 Apache Avro 格式写入应使用 py Spark 分析捕获 avro 文件中包含的原

apachespark PySpark Avro azureeventhub

pyspark：类型错误：IntegerType 无法接受类型为的对象

在 Spark 集群上使用 pyspark 进行编程数据很大并且是碎片因此无法加载到内存中或轻松检查数据的完整性基本上看起来像 af b Current 20events 1 996 af b Kategorie Musiek 1 4

python apachespark apachesparksql PySpark

警告 BlockManagerMasterEndpoint：没有更多副本可用于 rdd

当使用 YARN 在 pyspark 中缓存大型数据帧时我看到以下类型的消息 WARN BlockManagerMasterEndpoint No more replicas available for rdd 23 62 这条消息到底是

apachespark PySpark

如何在 Spark/PySpark 中对数据框中包含空值的两列求和？ [复制]

这个问题在这里已经有答案了我有以下格式的数据框 Col1 cnt Test1 cnt Test2 Stud1 null 2 Stud2 3 4 Stud3 1 null 我想通过聚合 cnt Test1 和 cnt Test2 来创建一个

PySpark

Pyspark 错误：Java 网关进程在发送其端口号之前退出

我正在使用 Pyspark 在 Jupyter Notebook 中运行一些命令但它抛出错误我尝试了此链接中提供的解决方案 Pyspark 异常 Java 网关进程在向驱动程序发送其端口号之前退出 https stackoverflow

python python3x PySpark jupyternotebook

无法使用 PySpark 和 Databricks Connect 连接到 Azure Data Lake Gen2

最近 Databricks 推出Databricks Connect that 允许您使用 Spark 本机 API 编写作业并让它们在 Azure Databricks 群集上远程执行而不是在本地 Spark 会话中执行除非我尝试访

apachespark PySpark Databricks azuredatabricks

在spark中读取谷歌存储桶数据

我已经按照这个博客读取了谷歌存储桶中存储的数据 https cloud google com dataproc docs connectors install storage connector https cloud google com

PySpark googlecloudplatform googlecloudstorage