Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
pyspark.sql.utils.IllegalArgumentException:u'字段“功能”不存在。'
我正在尝试执行随机森林分类器并使用交叉验证评估模型 我使用 pySpark 工作 输入 CSV 文件以 Spark DataFrame 格式加载 但我在构建模型时遇到了一个问题 下面是代码 from pyspark import Spark
apachespark
PySpark
apachesparksql
apachesparkml
SparkML 交叉验证仅适用于“标签”列吗?
当我运行交叉验证时example使用列中具有标签的数据集not名为 label 我在 Spark 3 1 1 上观察到 IllegalArgumentException 为什么 下面的代码已被修改为将 label 列重命名为 target
apachespark
PySpark
crossvalidation
apachesparkml
如何定义自定义聚合函数来对向量列求和?
我有一个两列的数据框 ID类型的Int and Vec类型的Vector org apache spark mllib linalg Vector DataFrame 如下所示 ID Vec 1 0 0 5 1 4 0 1 1 1 2 1
scala
apachespark
apachesparksql
aggregatefunctions
apachesparkml
将新的拟合阶段添加到现有 PipelineModel 中,无需再次拟合
我想将几个经过训练的管道连接到一个 这类似于 Spark 将新的拟合阶段添加到现有 PipelineModel 中 无需再次拟合 但是下面的解决方案适用于 PySpark gt pipe model new PipelineModel st
apachespark
pipeline
apachesparkml
apachespark20
mllib NaiveBayes 中的类数量有限制吗?调用 model.save() 时出错
我正在尝试训练一个模型来预测文本输入数据的类别 我使用以下方法遇到了似乎数值不稳定的问题pyspark ml classification NaiveBayes当类别数量超过一定数量时 对词袋进行分类 在我的现实世界项目中 我有大约 10
python
apachespark
PySpark
naivebayes
apachesparkml
我们是否可以更新spark-ml/spark-mllib中的现有模型?
我们使用 Spark ml 根据现有数据构建模型 新数据每天都会出现 有没有一种方法可以让我们只读取新数据并更新现有模型 而不必每次都读取所有数据并重新训练 这取决于您使用的模型 但对于某些 Spark 来说 它完全按照您的方式执行want
apachespark
apachesparkmllib
apachesparkml
线性回归 scala.MatchError:
在 Spark 1 6 1 和 2 0 中使用 ParamGridBuilder 时出现 scala MatchError val paramGrid new ParamGridBuilder addGrid lr regParam Arr
apachespark
apachesparkml
MinHash Spark ML 中与 OR 条件的字符串相似度
我有两个数据集 第一个是大型参考数据集 第二个数据集将通过 MinHash 算法从第一个数据集找到最佳匹配 val dataset1 x y a b dataString x y a John Smith 55649 28200 John
scala
apachespark
apachesparkmllib
apachesparkml
minhash
Spark:如何获得伯努利朴素贝叶斯的概率和 AUC?
我正在运行一个Bernoulli Naive Bayes使用代码 val splits MyData randomSplit Array 0 75 0 25 seed 2L val training splits 0 cache val t
apachespark
PySpark
apachesparkmllib
naivebayes
apachesparkml
如何在 Spark 中将 n-gram 组合成一个词汇表?
想知道是否有内置的 Spark 功能可以将 1 2 n gram 特征组合到单个词汇表中 环境n 2 in NGram随后调用CountVectorizer结果是一个只包含 2 grams 的字典 我真正想要的是将所有频繁的 1 gram
python
apachespark
NLP
PySpark
apachesparkml
Spark 2.0 中访问向量列时出现 MatchError
我正在尝试在 JSON 文件上创建 LDA 模型 使用 JSON 文件创建 Spark 上下文 import org apache spark sql SparkSession val sparkSession SparkSession b
scala
apachespark
apachesparksql
apachesparkmllib
apachesparkml
如何从 PySpark MultilayerPerceptronClassifier 获取分类概率?
我在 python 中使用 Spark 2 0 1 我的数据集位于 DataFrame 中 因此我使用 ML 不是 MLLib 库进行机器学习 我有一个多层感知器分类器 但只有两个标签 我的问题是 是否不仅可以获得标签 还可以获得 或仅 该
apachespark
machinelearning
neuralnetwork
PySpark
apachesparkml
Spark 多类分类示例
你们知道在哪里可以找到 Spark 中多类分类的示例吗 我花了很多时间在书籍和网络上搜索 到目前为止我只知道根据文档的最新版本这是可能的 ML Spark 2 0 推荐使用 我们将使用与下面 MLlib 中相同的数据 有两个基本选项 如果E
scala
apachespark
apachesparkmllib
RandomForest
apachesparkml
保存 ML 模型以供将来使用
我正在将一些机器学习算法 如线性回归 逻辑回归和朴素贝叶斯 应用于一些数据 但我试图避免使用 RDD 并开始使用 DataFrame 因为RDD 速度较慢比 pyspark 下的数据帧 见图 1 我使用 DataFrames 的另一个原因是
apachespark
PySpark
apachesparkmllib
apachesparkml
通过 pyspark.ml.tuning.TrainValidationSplit 调整后如何获得最佳参数?
我正在尝试调整 Spark PySpark 的超参数ALS模型由TrainValidationSplit 它运行良好 但我想知道哪种超参数组合是最好的 评估后如何获得最佳参数 from pyspark ml recommendation i
apachespark
PySpark
apachesparkml
Pyspark - 获取使用 ParamGridBuilder 创建的模型的所有参数
我正在使用 PySpark 2 0 参加 Kaggle 竞赛 我想知道模型的行为 RandomForest 取决于不同的参数 ParamGridBuilder 允许为单个参数指定不同的值 然后执行 我猜 整个参数集的笛卡尔积 假设我的Dat
python
machinelearning
PySpark
apachesparkml
hyperparameters
«
1
2
3