SparkML 交叉验证仅适用于“标签”列吗？

2023-12-05

当我运行交叉验证时example使用列中具有标签的数据集not名为“label”，我在 Spark 3.1.1 上观察到 IllegalArgumentException。为什么？

下面的代码已被修改为将“label”列重命名为“target”，并且 labelCol 已设置为回归模型的“target”。此代码导致异常，而将所有内容保留在“标签”中则可以正常工作。

from pyspark.ml import Pipeline
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.evaluation import BinaryClassificationEvaluator
from pyspark.ml.feature import HashingTF, Tokenizer
from pyspark.ml.tuning import CrossValidator, ParamGridBuilder

training = spark.createDataFrame([
    (0, "a b c d e spark", 1.0),
    (1, "b d", 0.0),
    (2, "spark f g h", 1.0),
    (3, "hadoop mapreduce", 0.0),
    (4, "b spark who", 1.0),
    (5, "g d a y", 0.0),
    (6, "spark fly", 1.0),
    (7, "was mapreduce", 0.0),
    (8, "e spark program", 1.0),
    (9, "a e c l", 0.0),
    (10, "spark compile", 1.0),
    (11, "hadoop software", 0.0)
], ["id", "text", "target"]) # try switching between "target" and "label"

tokenizer = Tokenizer(inputCol="text", outputCol="words")
hashingTF = HashingTF(inputCol=tokenizer.getOutputCol(), outputCol="features")

lr = LogisticRegression(maxIter=10, labelCol="target") #try switching between "target" and "label"

pipeline = Pipeline(stages=[tokenizer, hashingTF, lr])

paramGrid = ParamGridBuilder() \
    .addGrid(hashingTF.numFeatures, [10, 100, 1000]) \
    .addGrid(lr.regParam, [0.1, 0.01]) \
    .build()

crossval = CrossValidator(estimator=pipeline,
                          estimatorParamMaps=paramGrid,
                          evaluator=BinaryClassificationEvaluator(),
                          numFolds=2)  


cvModel = crossval.fit(training)

这是预期的行为吗？

您需要提供标签列BinaryClassificationEvaluator也。所以如果你更换线路

evaluator=BinaryClassificationEvaluator(),

with

evaluator=BinaryClassificationEvaluator(labelCol="target"),

它应该工作正常。

您可以在以下位置找到用法docs.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

crossvalidation

apachesparkml

SparkML 交叉验证仅适用于“标签”列吗？的相关文章

Spark中如何获取map任务的ID？

Spark中有没有办法获取map任务的ID 例如如果每个映射任务都调用用户定义的函数我可以从该用户定义的函数中获取该映射任务的 ID 吗我不确定您所说的地图任务 ID 是什么意思但您可以使用以下方式访问任务信息TaskContext
如何在SparkR中进行map和reduce

如何使用 SparkR 进行映射和归约操作我能找到的只是有关 SQL 查询的内容有没有办法使用 SQL 进行映射和减少 See 写入从 SparkR map 返回的 R 数据帧 https stackoverflow com quest
如何并行运行多个Spark作业？

一个 Spark 有一个 Oracle 查询所以我必须并行运行多个作业以便所有查询同时触发如何并行运行多个作业引用官方文档作业调度 http spark apache org docs latest job scheduling h
Spark SQL 中的 SQL LIKE

我正在尝试使用 LIKE 条件在 Spark SQL 中实现联接我正在执行连接的行看起来像这样称为修订 Table A 8NXDPVAE Table B 4 8 NXD V 在 SQL Server 上执行联接 A revision
pyspark中的函数input()

我的问题是当我输入 p 的值时没有任何反应它不执行请问有办法修复它吗 import sys from pyspark import SparkContext sc SparkContext local simple App p inp
Spark MLlib - 训练隐式警告

我在使用时不断看到这些警告trainImplicit WARN TaskSetManager Stage 246 contains a task of very large size 208 KB The maximum recommend
如何在 Scala 中将 DataFrame 模式写入文件

我有一个 DataFrame 它从一个巨大的 json 文件加载并从中获取架构该架构基本上大约有 1000 列我希望将 printSchema 的相同输出保存在文件中而不是控制台中有任何想法吗如果您在本地环境中工作您可以执行以下操
Spark中的count和collect函数抛出IllegalArgumentException

当我使用时抛出此异常时我尝试在本地 Spark 上加载一个小数据集count 在 PySpark 中 take 似乎有效我试图搜索这个问题但没有找到原因看来RDD的分区有问题有任何想法吗先感谢您 sc stop sc Spark
K均值||用于 Spark 上的情感分析

我正在尝试编写基于Spark的情感分析程序为此我使用了 word2vec 和 KMeans 聚类从 word2Vec 我在 100 维空间中得到了 20k 个单词向量集合现在我正在尝试对这个向量空间进行聚类当我使用默认并行实现运
与 aws-java-sdk 链接时读取 json 文件时 Spark 崩溃

Let config json是一个小的 json 文件 toto 1 我编写了一个简单的代码来读取 json 文件sc textFile 因为文件可以在S3 本地或HDFS上所以textFile很方便 import org apache
为什么我必须明确告诉 Spark 要缓存什么？

在 Spark 中每次我们对 RDD 执行任何操作时都会重新计算 RDD 因此如果我们知道 RDD 将被重用我们应该显式地缓存 RDD 比方说 Spark 决定延迟缓存所有 RDD 并使用 LRU 自动将最相关的 RDD 保留在内存
使用 pySpark 在 Azure Databricks 中使用来自 EventHub 的事件

我可以看到 Spark 连接器和使用 Azure Databricks 中的 Scala 从事件中心消费事件的指南但是我们如何使用 pySpark 从 azure databricks 消费事件中心中的事件任何建议文档详细信息都会有
通过Listener获取Spark thrift服务器查询中读取的行数

我正在尝试为我们的 ST 服务器构建一个监控系统到目前为止诸如记录查询检索的行红色和花费的时间之类的事情都很好我已经实现了一个自定义侦听器我能够毫无问题地检索查询和时间侦听SparkListenerSQLExecutionSt
Scala Spark：将数据框中的双列转换为日期时间列

我正在尝试编写代码来将日期时间列 date 和 last updated date 转换为 mm dd yyyy 格式以进行显示它们实际上是 unix 时间转换为双精度数我该怎么做呢 import org joda time impor
在使用 Phoenix 4.5 的 CDH 5.4 上运行 Spark 作业时未找到 PhoenixOutputFormat

我通过重新编译源代码设法在 Cloudera CDH 5 4 上配置 Phoenix 4 5 sqlline py效果很好但火花有问题 spark submit class my JobRunner master yarn deploy
如何解决此错误：Py4JJavaError：调用 o70.showString 时出错？

目前我正在开发 PySpark 和 DataFrame 我创建了一个数据框 from pyspark sql import import pandas as pd spark SparkSession builder appName Dat
pySpark 映射多列

我需要能够使用多列比较两个数据帧 pySpark尝试 get PrimaryLookupAttributeValue values from reference table in a dictionary to compare them t
这个错误是什么意思（SimpleHttpConnectionManager 被错误使用）？

我正在尝试从 ElasticSearch 中读取数据到 Spark conf es resource sflow sflow es nodes ES01 es query some query rdd sc newAPIHadoopRDD
Spark中分布式读取CSV文件

我正在开发一个 Spark 处理框架它读取大型 CSV 文件将它们加载到 RDD 中执行一些转换最后保存一些统计数据相关 CSV 文件平均大小约为 50GB 我正在使用 Spark 2 0 我的问题是当我使用sparkConte
Pyspark 应用程序仅部分利用 dataproc 集群资源

我的 pyspark 应用程序在 106 36 MB 数据集 817 270 条记录上运行 UDF 使用常规 python lambda 函数大约需要 100 小时我创建了一个 Google Dataproc 集群其中包含 20 个工

随机推荐

如何将所有非 www URL 重定向到 https://www。在IIS 中？

我想在 IIS 8 5 中添加正确的 301 永久重定向规则我添加了以下规则但它不起作用
如何在 Fragment 中设置 ViewPager

我需要将 ViewPager 放置在片段内但我有两个片段片段 1 是我的菜单片段 2 我想用作 ViewPagerIndicator 但是一个片段不能有另一个片段我需要为此做什么从 Android 4 2 开始出现了嵌套片段 h
是否有可能在 ngrx-effects 内部抛出错误而不完成 Observable 流？

有什么办法可以使用吗throw在 ngrx effects 流内有一个 Error 对象而没有完成流我读过这些关于为什么流被抛出错误而被终止的很好的答案 ngrx 效果不会第二次运行 ngrx 影响错误处理 https github co
重复过滤后的列表顺序

我正在尝试自学函数式语言思维并编写了一个过程该过程接受一个列表并返回一个已过滤掉重复项的列表这是可行的但是输出列表是按照last在输入列表中找到每个重复项的实例 define inlist L n cond null L f car
给定一个文本区域，有没有办法根据行数限制长度？

我有一个文本区域字段我希望用户能够输入不超过 3 行那可能吗 Fiddle http jsfiddle net nvLBZ 1 我刚刚 2小时创建了一个脚本always将文本区域的高度限制为 3 行为特定文本区域计算字符的最大可能宽
mysql 全文 MATCH,AGAINST 返回 0 个结果

我正在尝试遵循 http dev mysql com doc refman 4 1 en fulltext natural language html 试图提高搜索查询的速度和按分数排序的能力但是当使用此 SQL 时 skitt 用作搜
VBA-使用 Lotus Notes 在签名上方插入电子邮件正文

我想要实现的目标非常简单将电子邮件正文插入到 Lotus Notes 中的签名上方我在 vba 中的代码在运行时会在 Lotus Notes 中打开一个新的电子邮件窗口粘贴到主题发送至和正文字段中一切都很完美但是当插入正
使用 toupper() 函数连接时无法打印字符串

我在使用 toupper 函数时遇到问题 Code include
如何在swift 3中转换xml和json数据

我是 IOS 新手我想使用 swift 3 将从 SOAP Web 服务接收的一些混合数据 xml 和 JSON 混合数据转换为数组我在解析器方法的字符串变量中接收此数据 func connection connection NSUR
JSF 从子类中选择项目

我正在尝试填充列表
TypeScript React.FC 混淆

我正在学习 TypeScript 有些内容让我感到困惑下面一位 interface Props name string const PrintName React FC
Angularjs ui-router 未到达子控制器

我有一个配置函数 function config stateProvider locationProvider locationProvider html5Mode true stateProvider state projectsWs t
复合文字是标准 C++ 吗？

复合文字是 C99 构造即使我可以用 C 做到这一点 include
如何在颤振中没有上下文的情况下导航？

我最终使用了静态函数但我需要进行导航它给了我一个错误没有找到上下文的吸气剂所以我寻找解决方案并找到了 GET 包但当我尝试使用它时它给了我另一个错误 E flutter 6078 ERROR flutter lib ui ui
Angular 8：在子组件中选择浏览器后退按钮时恢复滚动位置

我有一个由许多卡片列表组成的组件如网格格式向下滚动并选择其中一张卡片后我希望在按下浏览器后退按钮时返回到相同的滚动位置我无法使用 Router 的 rollPositionRestoration 方法因为它位于我的子组件中感谢你
如何计算球体上一点到线段的距离？

我在地球上有一条线段大圆部分线段由其端点的坐标定义显然两个点定义了两条线段所以假设我对较短的一条线段感兴趣我得到了第三个点我正在寻找线和点之间的最短距离所有坐标均以经度纬度 WGS 84 给出我如何计算距离任何合理
Python Hadoop 流错误“ERROR Streaming.StreamJob：作业未成功！”和堆栈跟踪：ExitCodeException exitCode=134

我正在尝试使用 Hadoop Streaming 在 Hadoop 集群上运行 python 脚本进行情感分析我在本地计算机上运行的相同脚本运行正常并给出输出要在本地计算机上运行我使用此命令 cat home MB analytics
如何在 Objective-C / Cocoa Touch 中进行模运算？

我有两个 CGFloat 值想要计算模结果或者换句话说我想知道如果将 valueA 尽可能多地放入 valueB 中还剩下什么所以我只是尝试 CGFloat moduloResult valueB valueA 编译器抱怨并告诉
使用 MongoDB 返回每个组中具有最大值的文档

给定一个数据集 id 0 type banana amount 5 id 1 type banana amount 3 id 2 type apple amount 8 id 3 type apple amount 2 仅获取相同记录的最有
SparkML 交叉验证仅适用于“标签”列吗？

当我运行交叉验证时example使用列中具有标签的数据集not名为 label 我在 Spark 3 1 1 上观察到 IllegalArgumentException 为什么下面的代码已被修改为将 label 列重命名为 target

SparkML 交叉验证仅适用于“标签”列吗？

SparkML 交叉验证仅适用于“标签”列吗？ 的相关文章

随机推荐

热门标签

SparkML 交叉验证仅适用于“标签”列吗？的相关文章