apachesparkml

字段“功能”不存在。 SparkML

我正在尝试使用 Zeppelin 在 Spark ML 中构建模型我是这个领域的新手需要一些帮助我想我需要为该列设置正确的数据类型并将第一列设置为标签任何帮助将不胜感激谢谢 val training sc textFile hdf

scala apachezeppelin apachesparkml

无法将类型转换为 Vector

给定我的 pyspark Row 对象 gt gt gt row Row clicked 0 features SparseVector 7 0 1 0 3 1 0 6 0 752 gt gt gt row clicked 0 gt gt

apachespark PySpark apachesparksql apachesparkmllib apachesparkml

使用训练有素的 Spark ML 模型提供实时预测[重复]

这个问题在这里已经有答案了我们目前正在测试一个基于 Spark 在 Python 中实现 LDA 的预测引擎 https spark apache org docs 2 2 0 ml clustering html latent diri

apachespark PySpark apachesparkml

Spark MLlib 和 Spark ML 中的 PCA

Spark 现在有两个机器学习库 Spark MLlib 和 Spark ML 它们在实现的内容上确实有些重叠但据我了解作为整个 Spark 生态系统的新手 Spark ML 是可行的方法而 MLlib 仍然存在主要是为了向后兼容我

apachespark apachesparkmllib apachesparkml

Sparklyr 处理分类变量

Sparklyr 处理分类变量我来自 R 背景习惯于在后端处理分类变量作为因子对于 Sparklyr 来说使用起来相当混乱string indexer or onehotencoder 例如我有许多变量在原始数据集中被编码为数值

r apachespark apachesparkml sparklyr

带点火花的列名称

我正在尝试从DataFrame并将其转换为RDD Vector 问题是我的列名称中带有点如下数据集 col0 1 col1 2 col2 3 col3 4 1 2 3 4 10 12 15 3 1 12 10 5 这就是我正在做的 va

scala apachespark apachesparksql apachesparkmllib apachesparkml

使用基于 Spark 数据集的 ML API 时初始化逻辑回归系数？

默认情况下逻辑回归训练将系数初始化为全零但是我想自己初始化系数这将很有用例如如果之前的训练运行在几次迭代后崩溃了我可以简单地使用最后一组已知的系数重新开始训练这对于任何基于数据集数据帧的 API 最好是 Scala 是否可

apachespark apachesparkmllib apachesparkml

SPARK、ML、Tuning、CrossValidator：访问指标

为了构建 NaiveBayes 多类分类器我使用 CrossValidator 在管道中选择最佳参数 val cv new CrossValidator setEstimator pipeline setEstimatorParamMap

apachespark apachesparkmllib apachesparkml

如何将向量列分成两列？

我使用 PySpark Spark ML 的随机森林输出 DataFrame 有一个概率列它是一个具有两个值的向量我只想向输出 DataFrame 添加两列 prob1 和 prob2 它们对应于向量中的第一个和第二个值我尝试过以

apachespark PySpark apachesparkml

无法在简单示例中从 Spark ML 运行 RandomForestClassifier

我尝试过运行实验RandomForestClassifier来自spark ml包版本 1 5 2 我使用的数据集来自LogisticRegression中的示例Spark 机器学习指南 http spark apache org doc

scala apachespark DataFrame apachesparksql apachesparkml

Spark ML 和 MLLIB 包之间有什么区别

我注意到有两个LinearRegressionModelSparkML 中的类 ML 包中的一个类 spark ml 和另一个MLLib spark mllib 包裹这两者的实现方式完全不同例如那个来自MLLib实施Serializab

apachespark apachesparkmllib apachesparkml

如何使用 foreachPartition 在 Spark 中为每个分区高效构建一个 ML 模型？

我正在尝试为数据集的每个分区拟合一个 ML 模型但我不知道如何在 Spark 中执行此操作我的数据集基本上是这样的按公司划分 Company Features Target A xxx 0 9 A xxx 0 8 A xxx 1 0 B

scala apachespark apachesparkml

Spark v3.0.0 - 警告 DAGScheduler：广播大小为 xx 的大型任务二进制文件

我是火花新手我正在使用以下配置集在 Spark 独立版 v3 0 0 中编写机器学习算法 SparkConf conf new SparkConf conf setMaster local conf set spark driver me

Java apachespark apachesparkmllib apachesparkml

如何在 Spark SQL 中查找分组向量列的平均值？

我创建了一个RelationalGroupedDataset通过致电instances groupBy instances col property name val x instances groupBy instances col pr

无法在结构化流上评估 ML 模型，因为 RDD 转换和操作是在其他转换内部调用的

这是结构化流的一个众所周知的限制 1 我试图使用自定义接收器来解决它接下来 modelsMap是一个字符串键的映射org apache spark mllib stat KernelDensity models and streaming

apachespark apachesparkml SparkStructuredStreaming

如何将向量拆分为列 - 使用 PySpark [重复]

这个问题在这里已经有答案了 Context 我有一个DataFrame有 2 列单词和向量其中向量的列类型是VectorUDT 一个例子 word vector assert 435 323 324 212 我想得到这个 word

python apachespark PySpark apachesparksql apachesparkml

具有流源的查询必须使用 writeStream.start();; 执行

我正在尝试使用 Spark 结构化流从 Kafka 读取数据并预测传入数据我正在使用使用 Spark ML 训练过的模型 val spark SparkSession builder appName Spark SQL basic exa

在 pySpark 中使用 paramGrid 从 CrossValidator 中提取结果

我用 pySpark 训练随机森林我想要一个包含网格中每个点的结果的 csv 我的代码是 estimator RandomForestRegressor evaluator RegressionEvaluator paramGrid Pa

python apachespark PySpark apachesparkml

获取 Spark ML 多层感知器分类器的输出层神经元值

我正在使用 Spark ML 多层感知器分类器进行二元分类 mlp MultilayerPerceptronClassifier labelCol evt featuresCol features layers inputneurons i

apachespark PySpark neuralnetwork apachesparkmllib apachesparkml

Spark ML StringIndexer 不同标签训练/测试

我正在使用 Scala 并使用 StringIndexer 为训练集中的每个类别分配索引它根据每个类别的频率分配索引问题是在我的测试数据中类别的频率不同因此 StringIndexer 为类别分配不同的索引这使我无法正确评估模型

apachespark apachesparksql apachesparkml