Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
字段“功能”不存在。 SparkML
我正在尝试使用 Zeppelin 在 Spark ML 中构建模型 我是这个领域的新手 需要一些帮助 我想我需要为该列设置正确的数据类型并将第一列设置为标签 任何帮助将不胜感激 谢谢 val training sc textFile hdf
scala
apachezeppelin
apachesparkml
无法将类型
转换为 Vector
给定我的 pyspark Row 对象 gt gt gt row Row clicked 0 features SparseVector 7 0 1 0 3 1 0 6 0 752 gt gt gt row clicked 0 gt gt
apachespark
PySpark
apachesparksql
apachesparkmllib
apachesparkml
使用训练有素的 Spark ML 模型提供实时预测[重复]
这个问题在这里已经有答案了 我们目前正在测试一个基于 Spark 在 Python 中实现 LDA 的预测引擎 https spark apache org docs 2 2 0 ml clustering html latent diri
apachespark
PySpark
apachesparkml
Spark MLlib 和 Spark ML 中的 PCA
Spark 现在有两个机器学习库 Spark MLlib 和 Spark ML 它们在实现的内容上确实有些重叠 但据我了解 作为整个 Spark 生态系统的新手 Spark ML 是可行的方法 而 MLlib 仍然存在主要是为了向后兼容 我
apachespark
apachesparkmllib
apachesparkml
Sparklyr 处理分类变量
Sparklyr 处理分类变量 我来自 R 背景 习惯于在后端处理分类变量 作为因子 对于 Sparklyr 来说 使用起来相当混乱string indexer or onehotencoder 例如 我有许多变量在原始数据集中被编码为数值
r
apachespark
apachesparkml
sparklyr
带点火花的列名称
我正在尝试从DataFrame并将其转换为RDD Vector 问题是我的列名称中带有 点 如下数据集 col0 1 col1 2 col2 3 col3 4 1 2 3 4 10 12 15 3 1 12 10 5 这就是我正在做的 va
scala
apachespark
apachesparksql
apachesparkmllib
apachesparkml
使用基于 Spark 数据集的 ML API 时初始化逻辑回归系数?
默认情况下 逻辑回归训练将系数初始化为全零 但是 我想自己初始化系数 这将很有用 例如 如果之前的训练运行在几次迭代后崩溃了 我可以简单地使用最后一组已知的系数重新开始训练 这对于任何基于数据集 数据帧的 API 最好是 Scala 是否可
apachespark
apachesparkmllib
apachesparkml
SPARK、ML、Tuning、CrossValidator:访问指标
为了构建 NaiveBayes 多类分类器 我使用 CrossValidator 在管道中选择最佳参数 val cv new CrossValidator setEstimator pipeline setEstimatorParamMap
apachespark
apachesparkmllib
apachesparkml
如何将向量列分成两列?
我使用 PySpark Spark ML 的随机森林输出 DataFrame 有一个 概率 列 它是一个具有两个值的向量 我只想向输出 DataFrame 添加两列 prob1 和 prob2 它们对应于向量中的第一个和第二个值 我尝试过以
apachespark
PySpark
apachesparkml
无法在简单示例中从 Spark ML 运行 RandomForestClassifier
我尝试过运行实验RandomForestClassifier来自spark ml包 版本 1 5 2 我使用的数据集来自LogisticRegression中的示例Spark 机器学习指南 http spark apache org doc
scala
apachespark
DataFrame
apachesparksql
apachesparkml
Spark ML 和 MLLIB 包之间有什么区别
我注意到有两个LinearRegressionModelSparkML 中的类 ML 包中的一个类 spark ml 和另一个MLLib spark mllib 包裹 这两者的实现方式完全不同 例如那个来自MLLib实施Serializab
apachespark
apachesparkmllib
apachesparkml
如何使用 foreachPartition 在 Spark 中为每个分区高效构建一个 ML 模型?
我正在尝试为数据集的每个分区拟合一个 ML 模型 但我不知道如何在 Spark 中执行此操作 我的数据集基本上是这样的按公司划分 Company Features Target A xxx 0 9 A xxx 0 8 A xxx 1 0 B
scala
apachespark
apachesparkml
Spark v3.0.0 - 警告 DAGScheduler:广播大小为 xx 的大型任务二进制文件
我是火花新手 我正在使用以下配置集在 Spark 独立版 v3 0 0 中编写机器学习算法 SparkConf conf new SparkConf conf setMaster local conf set spark driver me
Java
apachespark
apachesparkmllib
apachesparkml
如何在 Spark SQL 中查找分组向量列的平均值?
我创建了一个RelationalGroupedDataset通过致电instances groupBy instances col property name val x instances groupBy instances col pr
无法在结构化流上评估 ML 模型,因为 RDD 转换和操作是在其他转换内部调用的
这是结构化流的一个众所周知的限制 1 我试图使用自定义接收器来解决它 接下来 modelsMap是一个字符串键的映射org apache spark mllib stat KernelDensity models and streaming
apachespark
apachesparkml
SparkStructuredStreaming
如何将向量拆分为列 - 使用 PySpark [重复]
这个问题在这里已经有答案了 Context 我有一个DataFrame有 2 列 单词和向量 其中 向量 的列类型是VectorUDT 一个例子 word vector assert 435 323 324 212 我想得到这个 word
python
apachespark
PySpark
apachesparksql
apachesparkml
具有流源的查询必须使用 writeStream.start();; 执行
我正在尝试使用 Spark 结构化流从 Kafka 读取数据并预测传入数据 我正在使用使用 Spark ML 训练过的模型 val spark SparkSession builder appName Spark SQL basic exa
在 pySpark 中使用 paramGrid 从 CrossValidator 中提取结果
我用 pySpark 训练随机森林 我想要一个包含网格中每个点的结果的 csv 我的代码是 estimator RandomForestRegressor evaluator RegressionEvaluator paramGrid Pa
python
apachespark
PySpark
apachesparkml
获取 Spark ML 多层感知器分类器的输出层神经元值
我正在使用 Spark ML 多层感知器分类器进行二元分类 mlp MultilayerPerceptronClassifier labelCol evt featuresCol features layers inputneurons i
apachespark
PySpark
neuralnetwork
apachesparkmllib
apachesparkml
Spark ML StringIndexer 不同标签训练/测试
我正在使用 Scala 并使用 StringIndexer 为训练集中的每个类别分配索引 它根据每个类别的频率分配索引 问题是 在我的测试数据中 类别的频率不同 因此 StringIndexer 为类别分配不同的索引 这使我无法正确评估模型
apachespark
apachesparksql
apachesparkml
«
1
2
3
»