apachesparkml

如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro

Java scala apachespark apachesparkmllib apachesparkml

Spark Streaming 中的 ML 模型更新

我通过 Spark 批处理作业在 HDFS 中保留了机器学习模型并且我在 Spark 流中使用它基本上 ML 模型从 Spark Driver 广播到所有执行器有人可以建议我如何在不停止 Spark Streaming 作业的情况下实

SparkStreaming apachesparkml

如何在 Spark Pipeline 中使用随机森林

我想通过网格搜索和 Spark 交叉验证来调整我的模型在 Spark 中它必须将基础模型放入管道中即管道办公室演示 http spark apache org docs latest ml guide html example mod

apachespark apachesparkmllib pipeline RandomForest apachesparkml

如何在 PySpark 中创建自定义估算器

我正在尝试构建一个简单的自定义Estimator在 PySpark MLlib 中我有here https stackoverflow com questions 32331848 create a custom transformer

python apachespark PySpark apachesparkmllib apachesparkml

如何在 PySpark Pipeline 中使用 XGboost

我想更新我的 pyspark 代码在pyspark中它必须将基础模型放入管道中即办公室演示 http spark apache org docs latest ml pipeline html管道使用逻辑回归作为基本模型但是似乎无

apachespark PySpark apachesparkmllib xgboost apachesparkml

PySpark 在嵌套数组中反转 StringIndexer

我正在使用 PySpark 使用 ALS 进行协作过滤我原来的用户和项目 ID 是字符串所以我使用StringIndexer将它们转换为数字索引 PySpark 的 ALS 模型要求我们这样做安装模型后我可以获得每个用户的前 3 个

python apachespark PySpark apachesparksql apachesparkml

如何将数组（即列表）列转换为向量

问题的简短版本考虑以下代码片段假设spark已经设置为一些SparkSession from pyspark sql import Row source data Row city Chicago temperatures 1 0 2

python apachespark PySpark apachesparksql apachesparkml

ALS模型-如何生成full_u * v^t * v？

我试图弄清楚 ALS 模型如何在批处理更新期间预测新用户的值在我的搜索中我遇到了这个堆栈溢出答案 https stackoverflow com a 34729751 1033422 为了方便读者我将答案复制如下您可以使用经过训练的

apachespark apachesparkmllib apachesparkml

pyspark 中的交叉验证

我使用交叉验证来训练线性回归模型使用以下代码 from pyspark ml evaluation import RegressionEvaluator lr LinearRegression maxIter maxIteration m

apachespark machinelearning PySpark crossvalidation apachesparkml

通过 pyspark.ml CrossValidator 调整隐式 pyspark.ml ALS 矩阵分解模型的参数

我正在尝试调整使用隐式数据的 ALS 矩阵分解模型的参数为此我尝试使用 pyspark ml tuning CrossValidator 运行参数网格并选择最佳模型我相信我的问题出在评估器上但我无法弄清楚我可以使用回归 RMSE

python apachespark PySpark apachesparkml

PySpark 中的 PCA 分析

看着http spark apache org docs latest mllib Dimensionality reduction html http spark apache org docs latest mllib dimensio

python apachespark apachesparkmllib PCA apachesparkml

如何从 org.apache.spark.mllib.linalg.VectorUDT 转换为 ml.linalg.VectorUDT

我正在使用 Spark cluster 2 0 我想将向量转换为org apache spark mllib linalg VectorUDT to org apache spark ml linalg VectorUDT Import L

apachespark machinelearning PySpark apachesparkmllib apachesparkml

在 Pyspark 中将稀疏向量转换为密集向量

我有一个像这样的稀疏向量 gt gt gt countVectors rdd map lambda vector vector 1 collect SparseVector 13 0 1 0 2 1 0 3 1 0 6 1 0 8 1 0

apachespark PySpark apachesparkmllib apachesparkml

字段“功能”不存在。 SparkML

我正在尝试使用 Zeppelin 在 Spark ML 中构建模型我是这个领域的新手需要一些帮助我想我需要为该列设置正确的数据类型并将第一列设置为标签任何帮助将不胜感激谢谢 val training sc textFile hdf

scala apachezeppelin apachesparkml

无法将类型转换为 Vector

给定我的 pyspark Row 对象 gt gt gt row Row clicked 0 features SparseVector 7 0 1 0 3 1 0 6 0 752 gt gt gt row clicked 0 gt gt

apachespark PySpark apachesparksql apachesparkmllib apachesparkml

使用训练有素的 Spark ML 模型提供实时预测[重复]

这个问题在这里已经有答案了我们目前正在测试一个基于 Spark 在 Python 中实现 LDA 的预测引擎 https spark apache org docs 2 2 0 ml clustering html latent diri

apachespark PySpark apachesparkml

Spark MLlib 和 Spark ML 中的 PCA

Spark 现在有两个机器学习库 Spark MLlib 和 Spark ML 它们在实现的内容上确实有些重叠但据我了解作为整个 Spark 生态系统的新手 Spark ML 是可行的方法而 MLlib 仍然存在主要是为了向后兼容我

apachespark apachesparkmllib apachesparkml

Sparklyr 处理分类变量

Sparklyr 处理分类变量我来自 R 背景习惯于在后端处理分类变量作为因子对于 Sparklyr 来说使用起来相当混乱string indexer or onehotencoder 例如我有许多变量在原始数据集中被编码为数值

r apachespark apachesparkml sparklyr

带点火花的列名称

我正在尝试从DataFrame并将其转换为RDD Vector 问题是我的列名称中带有点如下数据集 col0 1 col1 2 col2 3 col3 4 1 2 3 4 10 12 15 3 1 12 10 5 这就是我正在做的 va

scala apachespark apachesparksql apachesparkmllib apachesparkml

使用基于 Spark 数据集的 ML API 时初始化逻辑回归系数？

默认情况下逻辑回归训练将系数初始化为全零但是我想自己初始化系数这将很有用例如如果之前的训练运行在几次迭代后崩溃了我可以简单地使用最后一组已知的系数重新开始训练这对于任何基于数据集数据帧的 API 最好是 Scala 是否可

apachespark apachesparkmllib apachesparkml