Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何将逻辑回归模型获得的系数映射到pyspark中的特征名称
我使用 databricks 列出的管道流构建了一个逻辑回归模型 https docs databricks com spark latest mllib binary classification mllib pipelines html
PySpark
LogisticRegression
featureextraction
在 databrick 上运行时将 PySpark 标准输出和标准错误日志保存到云对象存储
我正在标准 databricks 集群上运行 PySpark 数据管道代码 我需要保存所有 Python PySpark 标准输出和标准错误消息存储到 Azure BLOB 帐户中的文件中 当我在本地运行 Python 代码时 我可以在终端
python
apachespark
PySpark
azureblobstorage
azuredatabricks
Spark 读取分区 avro 比指向确切位置慢得多
我正在尝试读取分区的 Avro 数据 该数据是根据年 月和日分区的 这似乎比直接将其指向路径要慢得多 在物理计划中 我可以看到分区过滤器正在传递 因此它不会扫描整个目录集 但速度仍然慢得多 例如 像这样读取分区数据 profitLossPa
apachespark
PySpark
Avro
azuredatabricks
PySpark 将列除以其总和[重复]
这个问题在这里已经有答案了 我试图将 PySpark 中的列除以它们各自的总和 我的数据框 此处仅使用一列 如下所示 event rates 1 10 461016949152542 2 10 38953488372093 3 10 609
python
apachespark
PySpark
如果没有可用的指定分区路径,SPARK SQL 会失败
我在 EMR 中使用 Hive Metastore 我可以通过 HiveSQL 手动查询表 但是当我在 Spark Job 中使用同一个表时 它说输入路径不存在 s3 导致 org apache hadoop mapred InvalidI
python
Hadoop
apachespark
hive
PySpark
“RDD”对象没有属性“_jdf”pyspark RDD
我是 pyspark 的新手 我想对文本文件执行一些机器学习 from pyspark import Row from pyspark context import SparkContext from pyspark sql session
python3x
apachespark
machinelearning
PySpark
apachesparksql
在 Spark 中获取上周一
我正在使用 Spark 2 0 和 Python API 我有一个数据框 其中有一列类型为 DateType 我想在包含最近星期一的数据框中添加一列 我可以这样做 reg schema pyspark sql types StructTyp
python
apachespark
PySpark
apachesparksql
Spark-2.1.0-bin-hadoop2.7\python:CreateProcess 错误=5,访问被拒绝
我尝试在 pyspark 上运行这个简单的代码 但是当我执行收集时出现错误 访问被拒绝 我不明白出了什么问题 我认为我拥有所有权利 x sc parallelize a 1 b 1 a 1 a 1 b 1 b 1 b 1 b 1 3 y x
apachespark
PySpark
`spark.debug.maxToStringFields` 和 `spark.sql.debug.maxToStringFields` 关系?
火花v2 4 spark sql debug maxToStringFields在这里定义https github com apache spark blob master sql catalyst src main scala org a
apachespark
PySpark
具有更好性能的 pyspark 枢轴替代品
以下是我的输入数据集 df spark createDataFrame 0 CattyCat B2K B 0 CattyCat B3L I 0 CattyCat B3U I 0 CattyCat D3J C 0 CattyCat J1N H
apachespark
PySpark
Pivot
Databricks
crosstab
AttributeError:模块“numpy”没有属性“core”
我想知道是否有人在运行 Spark 并尝试导入 numpy 时遇到这个问题 Numpy 在标准笔记本中正确导入 但是当我尝试通过运行 Spark 的笔记本导入它时 出现此错误 我有最新版本的 numpy 并且正在运行最新的 anaconda
python
NumPy
PySpark
Anaconda
Spark 应用程序在 1 小时后在 EMR 中突然被终止,并且 livy 会话过期。原因和解决方案是什么?
我在 AWS EMR 集群上使用 JupyterHub 我使用的是 EMR 版本 5 16 我使用 pyspark3 笔记本提交了 Spark 应用程序 我的应用程序正在尝试将 1TB 数据写入 s3 我正在使用 EMR 的自动缩放功能来缩
PySpark
amazonemr
livy
Spark DAG 的“withColumn”与“select”不同
Context 在最近的一次SO post https stackoverflow com questions 59788837 chained spark column expressions with distinct windows
python
DataFrame
apachespark
PySpark
directedacyclicgraphs
使用pyspark获取列的数据类型
我们正在从 MongoDB 读取数据Collection Collection列有两个不同的值 例如 bson Int64 int int float 我正在尝试使用 pyspark 获取数据类型 我的问题是某些列具有不同的数据类型 Ass
apachespark
PySpark
apachesparksql
在pyspark中读取json文件
我是 PySpark 的新手 下面是来自 kafka 的 JSON 文件格式 header platform atm version 2 0 details abc 3 def 4 abc 5 def 6 abc 7 def 8 我怎样才能
apachespark
PySpark
SparkStreaming
如何在 PySpark 中构建稀疏矩阵?
我是 Spark 新手 我想制作一个稀疏矩阵 专门用于推荐引擎的用户 ID 项目 ID 矩阵 我知道如何在 python 中做到这一点 如何在 PySpark 中做到这一点 这是我在矩阵中的做法 桌子现在看起来像这样 Session ID
python
apachespark
PySpark
sparsematrix
recommendationengine
如何在 PySpark 中创建返回字符串数组的 udf?
我有一个返回字符串列表的 udf 这应该不会太难 我在执行 udf 时传入数据类型 因为它返回一个字符串数组 ArrayType StringType 现在 不知怎的 这不起作用 我正在操作的数据框是df subsets concat看起来
python
apachespark
PySpark
apachesparksql
userdefinedfunctions
Spark:如何使用动态嵌套数组转置和分解列
我应用了问题中的算法Spark 如何转置和分解具有嵌套数组的列 https stackoverflow com questions 69418239 spark how to transpose and explode columns wi
python
sql
apachespark
PySpark
apachesparksql
获取 Spark 数据帧列中最大值的最佳方法
我正在尝试找出在 Spark 数据帧列中获取最大值的最佳方法 考虑以下示例 df spark createDataFrame 1 4 2 5 3 6 A B df show 这会创建 A B 1 0 4 0 2 0 5 0 3 0 6 0
python
apachespark
PySpark
apachesparksql
结合 Spark Streaming + MLlib
我尝试使用随机森林模型来预测示例流 但似乎我无法使用该模型对示例进行分类 这是pyspark中使用的代码 sc SparkContext appName App model RandomForest trainClassifier trai
python
apachespark
PySpark
SparkStreaming
apachesparkmllib
«
1 ...
3
4
5
6
7
8
9
...46
»