Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何将模型从 ML Pipeline 保存到 S3 或 HDFS?
我正在尝试保存 ML Pipeline 生成的数千个模型 正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro
Java
scala
apachespark
apachesparkmllib
apachesparkml
Spark Streaming 中的 ML 模型更新
我通过 Spark 批处理作业在 HDFS 中保留了机器学习模型 并且我在 Spark 流中使用它 基本上 ML 模型从 Spark Driver 广播到所有执行器 有人可以建议我如何在不停止 Spark Streaming 作业的情况下实
SparkStreaming
apachesparkml
如何在 Spark Pipeline 中使用随机森林
我想通过网格搜索和 Spark 交叉验证来调整我的模型 在 Spark 中 它必须将基础模型放入管道中 即管道办公室演示 http spark apache org docs latest ml guide html example mod
apachespark
apachesparkmllib
pipeline
RandomForest
apachesparkml
如何在 PySpark 中创建自定义估算器
我正在尝试构建一个简单的自定义Estimator在 PySpark MLlib 中 我有here https stackoverflow com questions 32331848 create a custom transformer
python
apachespark
PySpark
apachesparkmllib
apachesparkml
如何在 PySpark Pipeline 中使用 XGboost
我想更新我的 pyspark 代码 在pyspark中 它必须将基础模型放入管道中 即办公室演示 http spark apache org docs latest ml pipeline html管道使用逻辑回归作为基本模型 但是 似乎无
apachespark
PySpark
apachesparkmllib
xgboost
apachesparkml
PySpark 在嵌套数组中反转 StringIndexer
我正在使用 PySpark 使用 ALS 进行协作过滤 我原来的用户和项目 ID 是字符串 所以我使用StringIndexer将它们转换为数字索引 PySpark 的 ALS 模型要求我们这样做 安装模型后 我可以获得每个用户的前 3 个
python
apachespark
PySpark
apachesparksql
apachesparkml
如何将数组(即列表)列转换为向量
问题的简短版本 考虑以下代码片段 假设spark已经设置为一些SparkSession from pyspark sql import Row source data Row city Chicago temperatures 1 0 2
python
apachespark
PySpark
apachesparksql
apachesparkml
ALS模型-如何生成full_u * v^t * v?
我试图弄清楚 ALS 模型如何在批处理更新期间预测新用户的值 在我的搜索中 我遇到了这个堆栈溢出答案 https stackoverflow com a 34729751 1033422 为了方便读者 我将答案复制如下 您可以使用经过训练的
apachespark
apachesparkmllib
apachesparkml
pyspark 中的交叉验证
我使用交叉验证来训练线性回归模型 使用以下代码 from pyspark ml evaluation import RegressionEvaluator lr LinearRegression maxIter maxIteration m
apachespark
machinelearning
PySpark
crossvalidation
apachesparkml
通过 pyspark.ml CrossValidator 调整隐式 pyspark.ml ALS 矩阵分解模型的参数
我正在尝试调整使用隐式数据的 ALS 矩阵分解模型的参数 为此 我尝试使用 pyspark ml tuning CrossValidator 运行参数网格并选择最佳模型 我相信我的问题出在评估器上 但我无法弄清楚 我可以使用回归 RMSE
python
apachespark
PySpark
apachesparkml
PySpark 中的 PCA 分析
看着http spark apache org docs latest mllib Dimensionality reduction html http spark apache org docs latest mllib dimensio
python
apachespark
apachesparkmllib
PCA
apachesparkml
如何从 org.apache.spark.mllib.linalg.VectorUDT 转换为 ml.linalg.VectorUDT
我正在使用 Spark cluster 2 0 我想将向量转换为org apache spark mllib linalg VectorUDT to org apache spark ml linalg VectorUDT Import L
apachespark
machinelearning
PySpark
apachesparkmllib
apachesparkml
在 Pyspark 中将稀疏向量转换为密集向量
我有一个像这样的稀疏向量 gt gt gt countVectors rdd map lambda vector vector 1 collect SparseVector 13 0 1 0 2 1 0 3 1 0 6 1 0 8 1 0
apachespark
PySpark
apachesparkmllib
apachesparkml
字段“功能”不存在。 SparkML
我正在尝试使用 Zeppelin 在 Spark ML 中构建模型 我是这个领域的新手 需要一些帮助 我想我需要为该列设置正确的数据类型并将第一列设置为标签 任何帮助将不胜感激 谢谢 val training sc textFile hdf
scala
apachezeppelin
apachesparkml
无法将类型
转换为 Vector
给定我的 pyspark Row 对象 gt gt gt row Row clicked 0 features SparseVector 7 0 1 0 3 1 0 6 0 752 gt gt gt row clicked 0 gt gt
apachespark
PySpark
apachesparksql
apachesparkmllib
apachesparkml
使用训练有素的 Spark ML 模型提供实时预测[重复]
这个问题在这里已经有答案了 我们目前正在测试一个基于 Spark 在 Python 中实现 LDA 的预测引擎 https spark apache org docs 2 2 0 ml clustering html latent diri
apachespark
PySpark
apachesparkml
Spark MLlib 和 Spark ML 中的 PCA
Spark 现在有两个机器学习库 Spark MLlib 和 Spark ML 它们在实现的内容上确实有些重叠 但据我了解 作为整个 Spark 生态系统的新手 Spark ML 是可行的方法 而 MLlib 仍然存在主要是为了向后兼容 我
apachespark
apachesparkmllib
apachesparkml
Sparklyr 处理分类变量
Sparklyr 处理分类变量 我来自 R 背景 习惯于在后端处理分类变量 作为因子 对于 Sparklyr 来说 使用起来相当混乱string indexer or onehotencoder 例如 我有许多变量在原始数据集中被编码为数值
r
apachespark
apachesparkml
sparklyr
带点火花的列名称
我正在尝试从DataFrame并将其转换为RDD Vector 问题是我的列名称中带有 点 如下数据集 col0 1 col1 2 col2 3 col3 4 1 2 3 4 10 12 15 3 1 12 10 5 这就是我正在做的 va
scala
apachespark
apachesparksql
apachesparkmllib
apachesparkml
使用基于 Spark 数据集的 ML API 时初始化逻辑回归系数?
默认情况下 逻辑回归训练将系数初始化为全零 但是 我想自己初始化系数 这将很有用 例如 如果之前的训练运行在几次迭代后崩溃了 我可以简单地使用最后一组已知的系数重新开始训练 这对于任何基于数据集 数据帧的 API 最好是 Scala 是否可
apachespark
apachesparkmllib
apachesparkml
1
2
3
»