如何将 Spark 中的分类变量转换为一组编码为 {0,1} 的列？

2023-11-22

我正在尝试使用 Spark MLlib（使用 Scala）对包含分类变量的数据集执行逻辑回归（LogisticRegressionWithLBFGS）。我发现 Spark 无法使用这种变量。

在 R 中，有一种简单的方法来处理此类问题：我将变量转换为因子（类别），因此 R 创建一组编码为 {0,1} 指示变量的列。

我如何使用 Spark 执行此操作？

Using 矢量索引器，您可以告诉索引器某个字段可能具有的不同值（基数）的数量，以便使用 setMaxCategories() 方法将其视为分类。

val indexer = new VectorIndexer()
.setInputCol("features")
.setOutputCol("indexed")
.setMaxCategories(10)

From 斯卡拉文档:

用于索引 Vector 数据集中的分类特征列的类。

它有 2 种使用模式：

自动识别分类特征（默认行为）

这有助于将未知向量的数据集处理成具有某些特征的数据集连续特征和一些分类特征。连续型和分类型之间的选择基于 maxCategories 参数。

将 maxCategories 设置为任何分类特征应具有的最大分类数。

例如：特征 0 具有唯一值 {-1.0, 0.0}，特征 1 具有唯一值 {1.0, 3.0, 5.0}。如果 maxCategories = 2，则特征 0 将被声明为分类并使用索引 {0, 1}，而特征 1 将被声明为连续。

我发现这是一种提取分类值的方便（虽然粗粒度）的方法，但要注意，在任何情况下，如果您有一个想要连续的数量较低的字段（例如，大学生的年龄与原籍国或美国州））。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

Bigdata

apachesparkmllib

categoricaldata

如何将 Spark 中的分类变量转换为一组编码为 {0,1} 的列？的相关文章

Scala 模式匹配打印漂亮

是否有可能以某种方式编组部分函数假设它总是只包含一种情况进入某物人类可读的假设我们有 Any 类型的集合消息 List Any 以及使用模式匹配块定义的 PartialFuntion Any T 的数量 case object R1
尝试创建 jar 时出现 UNRESOLVED DEPENDENCIES 错误

我正在尝试构建一个 Scala jar 文件以在 Spark 中运行它我正在关注这个tutorial http spark apache org docs latest quick start html 当尝试使用 sbt 作为构建 ja
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
Scala 中的行聚合

我正在寻找一种方法在 Scala 的数据框中获取一个新列来计算min max中的值col1 col2 col10对于每一行我知道我可以使用 UDF 来做到这一点但也许有一种更简单的方法 Thanks Porting 这个Python答案
如何在 Pyspark 中使用滑动窗口对时间序列数据进行数据转换

我正在尝试根据时间序列数据的滑动窗口提取特征在Scala中似乎有一个sliding函数基于这个帖子 https stackoverflow com a 28863132 3089523 and 文档 http spark apache
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
错误：无法在 scala 中找到或加载主类

安装 eclipse scala 插件和 eclipse maven scala 插件后我是 scala 新手所以我尝试确保在测试 scala hello world 项目后环境正常工作它按预期工作但我在尝试执行我从公司存储库中签出
使用列的长度过滤 DataFrame

我想过滤一个DataFrame使用与列长度相关的条件这个问题可能很简单但我在SO中没有找到任何相关问题更具体地说我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
将当前类作为 scala 中的参数传递

如何传递当前类作为参数在java中我们这样做 mymethod this class or mymethod MyClass class 如何将 scala 当前类传递给此方法 this getClass or classOf MyCla
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
如何防止 SQL Server 在导入数据时去除前导零

A data file被导入到SQL Server桌子数据文件中的一列是文本数据类型该列中的值只能是整数 SQL Server 数据库中目标表中的相应列的类型为varchar 100 但在数据导入后 SQL Server 会存储以下值
如何在 Spark 数据帧 groupBy 中执行 count(*)

我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
Jack（Java Android 编译器套件）将如何影响 Scala 开发人员

现在随着公告Jack https source android com source jack html谷歌阐明了 Java 与 Android 相关的可预见的未来但这对 Scala 和其他基于 JVM 的语言开发人员有何影响尤其 Sc
使用 org.apache.hadoop/* 依赖项离线编译 sbt 时遇到的问题

使用依赖于 org apache hadoop 包的 sbt 进行离线编译时遇到很多麻烦一个简单的build sbt name Test version 1 0 scalaVersion 2 10 4 libraryDependencie
来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

我正在构建一个使用 Spark 进行基于随机森林分类的应用程序当尝试运行该程序时我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label
Scala 中用于阻止调用的 Future

The Akka文档说 you may be tempted to just wrap the blocking call inside a Future and work with that instead but this strate
SBT插件——编译前执行自定义任务

我刚刚编写了我的第一个 SBT 自动插件它有一个生成设置文件的自定义任务如果该文件尚不存在当显式调用任务时一切都会按预期工作但我希望在使用插件编译项目之前自动调用它无需项目修改其 build sbt 文件有没有办法实现这一点
Scala 中的高级类型 [重复]

这个问题在这里已经有答案了我正在阅读 Scala 中的函数式编程一书在 Monoids 章节中他们讨论了 Monoid 接口如下所示 trait Monoid A def op a1 A a2 A A def zero A 后来他
为什么 Spark 退出并显示 exitCode: 16？

我将 Spark 2 0 0 与 Hadoop 2 7 一起使用并使用纱线集群模式每次我都会收到以下错误 17 01 04 11 18 04 INFO spark SparkContext Successfully stopped S
Spark scala：大量列上的简单 UDF 会导致性能下降

我有一个包含 1 亿行和约 10 000 列的数据框这些列有两种类型标准 C i 和动态 X i 这个dataframe是经过一些处理后得到的性能很快现在只剩下2步了 Goal 需要使用 C i 列的相同子集对每个 X i 执行特定

随机推荐

AWS Code PipeLine 未获取 BitBucket 帐户的所有存储库

我正在使用 AWS CodeBuild 和 CodePipeline 服务在我的项目中实施 CI CD 使用 Bitbucket 的 AWS CodeBuild 我正在获取我的 Bitbucket 帐户的所有存储库在创建 CodePipe
Java 7 和 8 中方法的最大大小

我知道 Java 的方法不能大于 64 KB 该限制导致我们在生成代码时出现问题JavaCC语法我们在使用 Java 6 时遇到了问题并且能够通过更改语法来解决这个问题 Java 7 的限制是否已更改或者 Java 8 是否计划更改
哪些 CSS 伪类没有特异性？

我正在研究一些 CSS 从阅读中发现有一些没有特殊性的伪类例如where and not 还有更多吗如果您检查规格您可以找到特异性计算的完整细节我要参考一下CSS 选择器级别 4包括所有新的选择器对于给定元素选择器的特异性计算如
在React中，当父组件重新渲染时，是否props未更改的子组件不需要重新渲染？

我认为事实是当父组件在 React 中重新渲染时通常所有子组件也会重新渲染我做了一个实验来证实 https codesandbox io s currying pine r16rzi return div div Time now i
jquery setInterval或滚动

我正在做一个项目我需要听取scroll事件我想知道什么是更好的方法第一种方法 function scroll if window scrollTop gt 200 top fadeIn else top fadeOut if menu
将整个列（列中的每个值）放入数组中？

所以我正在制作一个宏来做很多事情一件事是从sheet2中查找sheet1中单元格的重复项给定工作表 1 中的列 A 工作表 2 上的列 B 中的任何值是否与工作表 1 的列 A 中的任何值匹配我知道有删除重复项但我只想标记它们而不
Javascript：找出点击了哪个元素而不附加任何事件侦听器？

我对寻找解决此问题的方法感到困惑考虑下面的html div div div div div div div div div div div div 事件侦听器附加到父元素如果用户单击 child c 有没有办法使用 myFunc 找出单
如何使用linux命令获取部分路径

例如需要获取路径的一部分 home server folder1 rev 1111 bin 需要的部分是 rev 1111 我将尝试通过 PWD 和 grep 命令进行解析但我是 Linux 新手我不能这样做 pwd awk F pri
函数没有隐式类型

我正在尝试学习使用函数我有以下代码 program main implicit none write test 4 end program integer function test n implicit none integer int
Hibernate/JPA - 实体侦听器未正确调用

我正在尝试在我的 Seam Hibernate JPA 应用程序中利用 EntityListener 对象和回调方法我在 JBoss 5 1 上使用 Seam 2 2 管理的持久性上下文后端使用 PostgreSQL 9 1 我声明了以
在 iOS 上使用 SOAP Web 服务 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心以获得指导我正在尝试为 iPad 编
如何在 Java 中运行 GDAL (ogr2ogr) 将 Shapefile 转换为 GeoJSON

我是编程初学者在尝试使用外部库时感到非常困惑我将地图保存在 shapefile 中并使用 Mapshaper org 网站将其转换为 GeoJSON 只有这样我才能从 Java 应用程序读取地图我希望用户能够直接导入 shapefi
CSS：将元素集中在 y 轴的标准（动态）方式

我的问题或多或少是不言自明的我试图找到一种标准的动态方法来将元素集中在 y 轴上就像 margin auto 对于 x 轴有任何想法吗我说的是下面的一段代码空白页面在中心对齐一张图像 div style display bloc
找到图像中相似区域的好算法？

我想搜索两个图像中的相似区域但我不知道什么效果最好这些区域不会以任何方式缩放或转换但可能出现在两个图像中的任何位置我想知道在哪里他们周围还有其他东西这是我想要的一个例子我怎样才能做到这一点分割图像获取已找到区域的绑定矩形
多线程中的静态变量

I found that declaring a variable as static makes no sense in 多线程我认为这是因为every thread has its own stack 这是唯一的原因吗我知道sta
如何处理 Elasticsearch 索引中的空值

我有一个 SQL 表正在导出到 Elasticsearch 其中一列是可为空的数字字段某些记录中存在空值当我们尝试为表建立索引时会出现以下错误表的 ETL BigQuery gt ElasticSearch 作业之一 MLS 有
SQL查询获取与另一列的最大值相对应的列值？

好的这是我的查询 SELECT video category video url video date video title short description MAX video id FROM videos GROUP BY vid
在客户端使用 dc.js，在服务器上使用 crossfilter

我正在致力于为大型数据集创建交互式可视化由于数据集大小无法在浏览器中加载数据集我们在节点服务器上使用 crossfilter 来加载和过滤服务器端的数据我想知道是否可以以某种方式将服务器端交叉过滤器过滤器与 dc js 图表结合起来
什么时候适合使用NOLOCK？

我在一些长时间运行的查询中时不时地遇到超时问题和死锁我想知道什么时候使用NOLOCK最合适在哪里使用我是否在更新和插入中使用它或阅读请注意您可以在每个表的基础上指定 nolock 我通常在复杂的 SELECT 查询中使用 nol
如何将 Spark 中的分类变量转换为一组编码为 {0,1} 的列？

我正在尝试使用 Spark MLlib 使用 Scala 对包含分类变量的数据集执行逻辑回归 LogisticRegressionWithLBFGS 我发现 Spark 无法使用这种变量在 R 中有一种简单的方法来处理此类问题我将变量

如何将 Spark 中的分类变量转换为一组编码为 {0,1} 的列？

如何将 Spark 中的分类变量转换为一组编码为 {0,1} 的列？ 的相关文章

随机推荐

热门标签

如何将 Spark 中的分类变量转换为一组编码为 {0,1} 的列？的相关文章