如何将 Spark 中的分类变量转换为一组编码为 {0,1} 的列?

2023-11-22

我正在尝试使用 Spark MLlib(使用 Scala)对包含分类变量的数据集执行逻辑回归(LogisticRegressionWithLBFGS)。我发现 Spark 无法使用这种变量。

在 R 中,有一种简单的方法来处理此类问题:我将变量转换为因子(类别),因此 R 创建一组编码为 {0,1} 指示变量的列。

我如何使用 Spark 执行此操作?


Using 矢量索引器,您可以告诉索引器某个字段可能具有的不同值(基数)的数量,以便使用 setMaxCategories() 方法将其视为分类。

val indexer = new VectorIndexer()
.setInputCol("features")
.setOutputCol("indexed")
.setMaxCategories(10)

From 斯卡拉文档:

用于索引 Vector 数据集中的分类特征列的类。

它有 2 种使用模式:

自动识别分类特征(默认行为)

这有助于将未知向量的数据集处理成具有某些特征的数据集 连续特征和一些分类特征。 连续型和分类型之间的选择基于 maxCategories 参数。

将 maxCategories 设置为任何分类特征应具有的最大分类数。

例如:特征 0 具有唯一值 {-1.0, 0.0},特征 1 具有唯一值 {1.0, 3.0, 5.0}。如果 maxCategories = 2,则特征 0 将被声明为分类并使用索引 {0, 1},而特征 1 将被声明为连续。

我发现这是一种提取分类值的方便(虽然粗粒度)的方法,但要注意,在任何情况下,如果您有一个想要连续的数量较低的字段(例如,大学生的年龄与原籍国或美国州) )。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何将 Spark 中的分类变量转换为一组编码为 {0,1} 的列? 的相关文章

  • Scala 模式匹配打印漂亮

    是否有可能以某种方式编组部分函数 假设它总是只包含一种情况 进入某物人类可读的 假设我们有 Any 类型的集合 消息 List Any 以及使用模式匹配块定义的 PartialFuntion Any T 的数量 case object R1
  • 尝试创建 jar 时出现 UNRESOLVED DEPENDENCIES 错误

    我正在尝试构建一个 Scala jar 文件以在 Spark 中运行它 我正在关注这个tutorial http spark apache org docs latest quick start html 当尝试使用 sbt 作为构建 ja
  • 如何检查SparkContext是否已停止?

    如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
  • Scala 中的行聚合

    我正在寻找一种方法在 Scala 的数据框中获取一个新列来计算min max中的值col1 col2 col10对于每一行 我知道我可以使用 UDF 来做到这一点 但也许有一种更简单的方法 Thanks Porting 这个Python答案
  • 如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

    我正在尝试根据时间序列数据的滑动窗口提取特征 在Scala中 似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
  • 在 Databricks / Spark 中的 SQL 中为变量分配动态值

    我觉得我一定在这里遗漏了一些明显的东西 但我似乎无法在 Spark SQL 中动态设置变量值 假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
  • 错误:无法在 scala 中找到或加载主类

    安装 eclipse scala 插件和 eclipse maven scala 插件后 我是 scala 新手 所以我尝试确保在测试 scala hello world 项目后环境正常工作 它按预期工作 但我在尝试执行我从公司存储库中签出
  • 使用列的长度过滤 DataFrame

    我想过滤一个DataFrame使用与列长度相关的条件 这个问题可能很简单 但我在SO中没有找到任何相关问题 更具体地说 我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
  • 将当前类作为 scala 中的参数传递

    如何传递当前类作为参数 在java中我们这样做 mymethod this class or mymethod MyClass class 如何将 scala 当前类传递给此方法 this getClass or classOf MyCla
  • 按元素聚合数组

    Spark scala 相当新 我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
  • 如何防止 SQL Server 在导入数据时去除前导零

    A data file被导入到SQL Server桌子 数据文件中的一列是文本数据类型 该列中的值只能是整数 SQL Server 数据库中目标表中的相应列的类型为varchar 100 但在数据导入后 SQL Server 会存储以下值
  • 如何在 Spark 数据帧 groupBy 中执行 count(*)

    我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
  • Jack(Java Android 编译器套件)将如何影响 Scala 开发人员

    现在随着公告Jack https source android com source jack html谷歌阐明了 Java 与 Android 相关的可预见的未来 但这对 Scala 和其他基于 JVM 的语言开发人员有何影响 尤其 Sc
  • 使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

    使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦 一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
  • 来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

    我正在构建一个使用 Spark 进行基于随机森林分类的 应用程序 当尝试运行该程序时 我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label
  • Scala 中用于阻止调用的 Future

    The Akka文档说 you may be tempted to just wrap the blocking call inside a Future and work with that instead but this strate
  • SBT插件——编译前执行自定义任务

    我刚刚编写了我的第一个 SBT 自动插件 它有一个生成设置文件的自定义任务 如果该文件尚不存在 当显式调用任务时 一切都会按预期工作 但我希望在使用插件编译项目之前自动调用它 无需项目修改其 build sbt 文件 有没有办法实现这一点
  • Scala 中的高级类型 [重复]

    这个问题在这里已经有答案了 我正在阅读 Scala 中的函数式编程一书 在 Monoids 章节中 他们讨论了 Monoid 接口 如下所示 trait Monoid A def op a1 A a2 A A def zero A 后来 他
  • 为什么 Spark 退出并显示 exitCode: 16?

    我将 Spark 2 0 0 与 Hadoop 2 7 一起使用 并使用纱线集群模式 每次 我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S
  • Spark scala:大量列上的简单 UDF 会导致性能下降

    我有一个包含 1 亿行和约 10 000 列的数据框 这些列有两种类型 标准 C i 和动态 X i 这个dataframe是经过一些处理后得到的 性能很快 现在只剩下2步了 Goal 需要使用 C i 列的相同子集对每个 X i 执行特定

随机推荐

  • AWS Code PipeLine 未获取 BitBucket 帐户的所有存储库

    我正在使用 AWS CodeBuild 和 CodePipeline 服务在我的项目中实施 CI CD 使用 Bitbucket 的 AWS CodeBuild 我正在获取我的 Bitbucket 帐户的所有存储库 在创建 CodePipe
  • Java 7 和 8 中方法的最大大小

    我知道 Java 的方法不能大于 64 KB 该限制导致我们在生成代码时出现问题JavaCC语法 我们在使用 Java 6 时遇到了问题 并且能够通过更改语法来解决这个问题 Java 7 的限制是否已更改 或者 Java 8 是否计划更改
  • 哪些 CSS 伪类没有特异性?

    我正在研究一些 CSS 从阅读中发现有一些没有特殊性的伪类 例如where and not 还有更多吗 如果您检查规格 您可以找到特异性计算的完整细节 我要参考一下CSS 选择器级别 4包括所有新的选择器 对于给定元素 选择器的特异性计算如
  • 在React中,当父组件重新渲染时,是否props未更改的子组件不需要重新渲染?

    我认为事实是 当父组件在 React 中重新渲染时 通常所有子组件也会重新渲染 我做了一个实验来证实 https codesandbox io s currying pine r16rzi return div div Time now i
  • jquery setInterval或滚动

    我正在做一个项目 我需要听取scroll事件 我想知道什么是更好的方法 第一种方法 function scroll if window scrollTop gt 200 top fadeIn else top fadeOut if menu
  • 将整个列(列中的每个值)放入数组中?

    所以我正在制作一个宏来做很多事情 一件事是从sheet2中查找sheet1中单元格的重复项 给定工作表 1 中的列 A 工作表 2 上的列 B 中的任何值是否与工作表 1 的列 A 中的任何值匹配 我知道有删除重复项 但我只想标记它们 而不
  • Javascript:找出点击了哪个元素而不附加任何事件侦听器?

    我对寻找解决此问题的方法感到困惑 考虑下面的html div div div div div div div div div div div div 事件侦听器附加到父元素 如果用户单击 child c 有没有办法使用 myFunc 找出单
  • 如何使用linux命令获取部分路径

    例如需要获取路径的一部分 home server folder1 rev 1111 bin 需要的部分是 rev 1111 我将尝试通过 PWD 和 grep 命令进行解析 但我是 Linux 新手 我不能这样做 pwd awk F pri
  • 函数没有隐式类型

    我正在尝试学习使用函数 我有以下代码 program main implicit none write test 4 end program integer function test n implicit none integer int
  • Hibernate/JPA - 实体侦听器未正确调用

    我正在尝试在我的 Seam Hibernate JPA 应用程序中利用 EntityListener 对象和回调方法 我在 JBoss 5 1 上使用 Seam 2 2 管理的持久性上下文 后端使用 PostgreSQL 9 1 我声明了以
  • 在 iOS 上使用 SOAP Web 服务 [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心以获得指导 我正在尝试为 iPad 编
  • 如何在 Java 中运行 GDAL (ogr2ogr) 将 Shapefile 转换为 GeoJSON

    我是编程初学者 在尝试使用外部库时感到非常困惑 我将地图保存在 shapefile 中 并使用 Mapshaper org 网站将其转换为 GeoJSON 只有这样我才能从 Java 应用程序读取地图 我希望用户能够直接导入 shapefi
  • CSS:将元素集中在 y 轴的标准(动态)方式

    我的问题或多或少是不言自明的 我试图找到一种标准的动态方法来将元素集中在 y 轴上 就像 margin auto 对于 x 轴 有任何想法吗 我说的是下面的一段代码 空白页面 在中心对齐一张图像 div style display bloc
  • 找到图像中相似区域的好算法?

    我想搜索两个图像中的相似区域 但我不知道什么效果最好 这些区域不会以任何方式缩放或转换 但可能出现在两个图像中的任何位置 我想知道在哪里 他们周围还有其他东西 这是我想要的一个例子 我怎样才能做到这一点 分割图像 获取已找到区域的绑定矩形
  • 多线程中的静态变量

    I found that declaring a variable as static makes no sense in 多线程 我认为 这是因为every thread has its own stack 这是唯一的原因吗 我知道sta
  • 如何处理 Elasticsearch 索引中的空值

    我有一个 SQL 表 正在导出到 Elasticsearch 其中一列是可为空的数字字段 某些记录中存在空值 当我们尝试为表建立索引时 会出现以下错误 表的 ETL BigQuery gt ElasticSearch 作业之一 MLS 有
  • SQL查询获取与另一列的最大值相对应的列值?

    好的 这是我的查询 SELECT video category video url video date video title short description MAX video id FROM videos GROUP BY vid
  • 在客户端使用 dc.js,在服务器上使用 crossfilter

    我正在致力于为大型数据集创建交互式可视化 由于数据集大小 无法在浏览器中加载数据集 我们在节点服务器上使用 crossfilter 来加载和过滤服务器端的数据 我想知道是否可以以某种方式将服务器端交叉过滤器过滤器与 dc js 图表结合起来
  • 什么时候适合使用NOLOCK?

    我在一些长时间运行的查询中时不时地遇到超时问题和死锁 我想知道什么时候使用NOLOCK最合适 在哪里使用 我是否在更新和插入中使用它 或阅读 请注意 您可以在每个表的基础上指定 nolock 我通常在复杂的 SELECT 查询中使用 nol
  • 如何将 Spark 中的分类变量转换为一组编码为 {0,1} 的列?

    我正在尝试使用 Spark MLlib 使用 Scala 对包含分类变量的数据集执行逻辑回归 LogisticRegressionWithLBFGS 我发现 Spark 无法使用这种变量 在 R 中 有一种简单的方法来处理此类问题 我将变量