PySpark

如何将逻辑回归模型获得的系数映射到pyspark中的特征名称

我使用 databricks 列出的管道流构建了一个逻辑回归模型 https docs databricks com spark latest mllib binary classification mllib pipelines html

PySpark LogisticRegression featureextraction

在 databrick 上运行时将 PySpark 标准输出和标准错误日志保存到云对象存储

我正在标准 databricks 集群上运行 PySpark 数据管道代码我需要保存所有 Python PySpark 标准输出和标准错误消息存储到 Azure BLOB 帐户中的文件中当我在本地运行 Python 代码时我可以在终端

python apachespark PySpark azureblobstorage azuredatabricks

Spark 读取分区 avro 比指向确切位置慢得多

我正在尝试读取分区的 Avro 数据该数据是根据年月和日分区的这似乎比直接将其指向路径要慢得多在物理计划中我可以看到分区过滤器正在传递因此它不会扫描整个目录集但速度仍然慢得多例如像这样读取分区数据 profitLossPa

apachespark PySpark Avro azuredatabricks

PySpark 将列除以其总和[重复]

这个问题在这里已经有答案了我试图将 PySpark 中的列除以它们各自的总和我的数据框此处仅使用一列如下所示 event rates 1 10 461016949152542 2 10 38953488372093 3 10 609

python apachespark PySpark

如果没有可用的指定分区路径，SPARK SQL 会失败

我在 EMR 中使用 Hive Metastore 我可以通过 HiveSQL 手动查询表但是当我在 Spark Job 中使用同一个表时它说输入路径不存在 s3 导致 org apache hadoop mapred InvalidI

python Hadoop apachespark hive PySpark

“RDD”对象没有属性“_jdf”pyspark RDD

我是 pyspark 的新手我想对文本文件执行一些机器学习 from pyspark import Row from pyspark context import SparkContext from pyspark sql session

python3x apachespark machinelearning PySpark apachesparksql

在 Spark 中获取上周一

我正在使用 Spark 2 0 和 Python API 我有一个数据框其中有一列类型为 DateType 我想在包含最近星期一的数据框中添加一列我可以这样做 reg schema pyspark sql types StructTyp

python apachespark PySpark apachesparksql

Spark-2.1.0-bin-hadoop2.7\python：CreateProcess 错误=5，访问被拒绝

我尝试在 pyspark 上运行这个简单的代码但是当我执行收集时出现错误访问被拒绝我不明白出了什么问题我认为我拥有所有权利 x sc parallelize a 1 b 1 a 1 a 1 b 1 b 1 b 1 b 1 3 y x

apachespark PySpark

`spark.debug.maxToStringFields` 和 `spark.sql.debug.maxToStringFields` 关系？

火花v2 4 spark sql debug maxToStringFields在这里定义https github com apache spark blob master sql catalyst src main scala org a

apachespark PySpark

具有更好性能的 pyspark 枢轴替代品

以下是我的输入数据集 df spark createDataFrame 0 CattyCat B2K B 0 CattyCat B3L I 0 CattyCat B3U I 0 CattyCat D3J C 0 CattyCat J1N H

apachespark PySpark Pivot Databricks crosstab

AttributeError：模块“numpy”没有属性“core”

我想知道是否有人在运行 Spark 并尝试导入 numpy 时遇到这个问题 Numpy 在标准笔记本中正确导入但是当我尝试通过运行 Spark 的笔记本导入它时出现此错误我有最新版本的 numpy 并且正在运行最新的 anaconda

python NumPy PySpark Anaconda

Spark 应用程序在 1 小时后在 EMR 中突然被终止，并且 livy 会话过期。原因和解决方案是什么？

我在 AWS EMR 集群上使用 JupyterHub 我使用的是 EMR 版本 5 16 我使用 pyspark3 笔记本提交了 Spark 应用程序我的应用程序正在尝试将 1TB 数据写入 s3 我正在使用 EMR 的自动缩放功能来缩

PySpark amazonemr livy

Spark DAG 的“withColumn”与“select”不同

Context 在最近的一次SO post https stackoverflow com questions 59788837 chained spark column expressions with distinct windows

python DataFrame apachespark PySpark directedacyclicgraphs

使用pyspark获取列的数据类型

我们正在从 MongoDB 读取数据Collection Collection列有两个不同的值例如 bson Int64 int int float 我正在尝试使用 pyspark 获取数据类型我的问题是某些列具有不同的数据类型 Ass

apachespark PySpark apachesparksql

在pyspark中读取json文件

我是 PySpark 的新手下面是来自 kafka 的 JSON 文件格式 header platform atm version 2 0 details abc 3 def 4 abc 5 def 6 abc 7 def 8 我怎样才能

apachespark PySpark SparkStreaming

如何在 PySpark 中构建稀疏矩阵？

我是 Spark 新手我想制作一个稀疏矩阵专门用于推荐引擎的用户 ID 项目 ID 矩阵我知道如何在 python 中做到这一点如何在 PySpark 中做到这一点这是我在矩阵中的做法桌子现在看起来像这样 Session ID

python apachespark PySpark sparsematrix recommendationengine

如何在 PySpark 中创建返回字符串数组的 udf？

我有一个返回字符串列表的 udf 这应该不会太难我在执行 udf 时传入数据类型因为它返回一个字符串数组 ArrayType StringType 现在不知怎的这不起作用我正在操作的数据框是df subsets concat看起来

python apachespark PySpark apachesparksql userdefinedfunctions

Spark：如何使用动态嵌套数组转置和分解列

我应用了问题中的算法Spark 如何转置和分解具有嵌套数组的列 https stackoverflow com questions 69418239 spark how to transpose and explode columns wi

python sql apachespark PySpark apachesparksql

获取 Spark 数据帧列中最大值的最佳方法

我正在尝试找出在 Spark 数据帧列中获取最大值的最佳方法考虑以下示例 df spark createDataFrame 1 4 2 5 3 6 A B df show 这会创建 A B 1 0 4 0 2 0 5 0 3 0 6 0

python apachespark PySpark apachesparksql

结合 Spark Streaming + MLlib

我尝试使用随机森林模型来预测示例流但似乎我无法使用该模型对示例进行分类这是pyspark中使用的代码 sc SparkContext appName App model RandomForest trainClassifier trai

python apachespark PySpark SparkStreaming apachesparkmllib