Sparklyr 处理分类变量

2024-02-21

Sparklyr 处理分类变量

我来自 R 背景，习惯于在后端处理分类变量（作为因子）。对于 Sparklyr 来说，使用起来相当混乱string_indexer or onehotencoder.

例如，我有许多变量在原始数据集中被编码为数值变量，但它们实际上是分类的。我想将它们用作分类变量，但不确定我做得是否正确。

library(sparklyr)
library(dplyr)
sessionInfo()
sc <- spark_connect(master = "local", version = spark_version)
spark_version(sc)
set.seed(1)    
exampleDF <- data.frame (ID = 1:10, Resp = sample(c(100:205), 10, replace = TRUE), 
                     Numb = sample(1:10, 10))

example <- copy_to(sc, exampleDF) 
pred <- example %>% mutate(Resp = as.character(Resp)) %>%
                sdf_mutate(Resp_cat = ft_string_indexer(Resp)) %>%
                ml_decision_tree(response = "Resp_cat", features = "Numb") %>%
                sdf_predict()
pred

模型的预测不是绝对的。见下文。这是否意味着我还必须从预测转换回 Resp_cat，然后再转换回 Resp？

R version 3.4.0 (2017-04-21)
Platform: x86_64-redhat-linux-gnu (64-bit)
Running under: CentOS Linux 7 (Core)

spark_version(sc)
[1] ‘2.1.1.2.6.1.0’

Source:   table<sparklyr_tmp_74e340c5607c> [?? x 6]
Database: spark_connection
      ID  Numb  Resp Resp_cat id74e35c6b2dbb prediction
     <int> <int> <chr>    <dbl>          <dbl>      <dbl>
 1     1    10   150        8              0   8.000000
 2     2     3   191        4              1   4.000000
 3     3     4   146        9              2   9.000000
 4     4     9   125        5              3   5.000000
 5     5     8   107        2              4   2.000000
 6     6     2   110        1              5   1.000000
 7     7     5   133        3              6   5.333333
 8     8     7   154        6              7   5.333333
 9     9     1   170        0              8   0.000000
10    10     6   143        7              9   5.333333

一般来说，Spark 在处理分类数据时依赖于列元数据。在您的管道中，这是由StringIndexer (ft_string_indexer）。机器学习总是预测标签，而不是原始字符串。通常你会使用IndexToString变压器由ft_index_to_string.

在火花中IndexToString可以使用提供的标签列表 https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.ml.feature.IndexToString@setLabels(value:Array%5BString%5D):IndexToString.this.type or Column元数据。很遗憾sparklyr实施受到两个方面的限制：

它只能使用元数据 https://github.com/rstudio/sparklyr/blob/a375d1f9c0be5af8cafc4892c3e7946b8144f3f9/R/ml_feature_transformation.R#L131-L132，未在预测列上设置。
ft_string_indexer丢弃经过训练的模型，因此它不能用于提取标签。

我可能错过了一些东西，但看起来你必须手动映射预测，例如通过joining转换后的数据：

pred %>% 
  select(prediction=Resp_cat, Resp_prediction=Resp) %>% 
  distinct() %>% 
  right_join(pred)

Joining, by = "prediction"
# Source:   lazy query [?? x 9]
# Database: spark_connection
   prediction Resp_prediction    ID  Numb  Resp Resp_cat id777a79821e1e
        <dbl>           <chr> <int> <int> <chr>    <dbl>          <dbl>
 1          7             171     1     3   171        7              0
 2          0             153     2    10   153        0              1
 3          3             132     3     8   132        3              2
 4          5             122     4     7   122        5              3
 5          6             198     5     4   198        6              4
 6          2             164     6     9   164        2              5
 7          4             137     7     6   137        4              6
 8          1             184     8     5   184        1              7
 9          0             153     9     1   153        0              8
10          1             184    10     2   184        1              9
# ... with more rows, and 2 more variables: rawPrediction <list>,
#   probability <list>

解释:

pred %>% 
  select(prediction=Resp_cat, Resp_prediction=Resp) %>% 
  distinct()

创建从预测（编码标签）到原始标签的映射。我们重命名Resp_cat to prediction所以它可以作为连接密钥，并且Resp to Resp_prediction以免与实际发生冲突Resp.

最后我们应用右等值连接：

... %>%  right_join(pred)

Note:

您应该指定树的类型：

ml_decision_tree(
  response = "Resp_cat", features = "Numb",type = "classification")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Sparklyr 处理分类变量的相关文章

R 中的转换会导致文档错误

每当我运行此代码时 tm map 行都会给我警告消息警告信息在 tm map SimpleCorpus docs toSpace 中转换删除文档 texts lt read csv Data fast food Domino s Do
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
使用 R 从字符串中提取函数参数

最好使用stringr包我想创建一个函数extract 以字符串向量作为参数 vec lt c div span icon hospital user i18n t Enrolments or i18n t Paper a string
分组和计数以获得接近值

我想计算每country的次数status is open以及次数status is closed 然后计算closerate per country Data customer lt c 1 2 3 4 5 6 7 8 9 country
在 Shiny 应用程序中过滤数据时，长度为 1 的字符向量除了第一个元素之外的所有元素都将被忽略错误

我有以下闪亮的应用程序 library shiny library rhandsontable library shinydashboard library ggplot2 library dplyr setwd C Users Marc
R lubridate：当地语言的工作日

如何获取本地语言的工作日和月份 My code library lubridate data lt c 10 02 2015 11 03 2015 data lubri lt dmy data wday data lubri label T
无法在 Document-Term-Matrix 中看到 `RTextTools::toLower()` 文本的结果

我尝试创建一个矩阵为此我想降低文本为此我使用此 R 指令 matrix create matrix tweets 1 toLower TRUE language english removeStopwords FALSE remove
ggplot2 - 添加具有不同中断和标签的辅助 y 轴

是否可以使用 ggplot2 手动向辅助 y 轴添加中断和标签 see bottom right 我希望在右侧 y 轴上有更紧凑的中断代表条形该图将作为基本情况然后我将展示如何更改辅助 y 轴上的分隔符和标签 sapply c pip
使用starts_with() 将 NA 替换为 0

我正在尝试替换我的一组特定列的 NA 值tibble 这些列都以相同的前缀开头所以我想知道是否有一种简洁的方法来使用starts with 函数从dplyr包可以让我做到这一点我已经看到了有关 SO 的其他几个问题但是它们都需要使用特
warnings() 在函数内不起作用？如何解决这个问题？

op lt options warn 0 although doesn t work for any value of warn assign last warning NULL envir baseenv thisDoesntWork l
在 mutate 和 across 之后使用 ~separate

目的是将所有物种 setosa 行转换为一行 setosa 这是一个最小的示例实际上有更多列和更多组我有这个数据框 head iris 2 gt select 1 2 5 gt group by Species Sepal Length
R：为什么 boxplot(x,log="y") 与 boxplot(log(x)) 不同？

delme lt exp rnorm 1000 1 5 0 3 boxplot delme log y boxplot log10 delme 为什么这两个图中的胡须不同谢谢阿古斯我想说的是在您的第一个图中您只是将 y 轴更改为对
从向量中删除元素在 R 中出现的时间量

我想从一个向量中删除元素在另一个向量中出现的时间就像我要减去它们一样鉴于我想要删除的元素向量中的每个元素也存在于我想要从中删除的主向量中 a lt c A B B C C C b lt c A B C C a a in b return
R：根据元素长度从向量中删除元素

如何根据字符串的字符数或长度从字符串向量中删除元素 df lt c asdf fweafewwf af aewfawefwef awefWEfawefawef gt df 1 asdf fweafewwf af aewfawefwef aw
回归时如何设置系数值；右

我正在寻找一种指定预测变量值的方法当我使用当前数据运行 glm 时其中一个变量的系数接近 1 我想将其设置为 0 8 我知道这会给我一个较低的 R 2 值但我先验地知道模型的预测能力会更大 glm 的权重组件看起来很有希望但我还没有
如何将带有观察计数的标签添加到 stat_summary ggplot？

我有一个数据集例如 outcome lt c rnorm 500 45 10 rnorm 250 40 12 rnorm 150 38 7 rnorm 1000 35 10 rnorm 100 30 7 group lt c rep A
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
访问 R 工作区中的数据[重复]

这个问题在这里已经有答案了我是自学 R 的可能有一些非常基本的东西我可能不熟悉如果是这样我道歉我正在尝试访问外部来源提供给我的数据它作为一个工作空间出现我的流程如下 gt ls 1 2003OHT HR gt attach 20
从 data.frame 中提取时用 NA 填充缺失的列

我有一个函数它将具有某些列的数据框作为输入 columns a b z 现在我有一个数据框DF只有很少的这些列DF columns f u z 如果列不在其中如何创建一个包含所有值为 NA 的列的数据框DF这与DF在柱子上 f u z
如何使用 R 中的函数 sqlSave() 将数据附加到具有 IDENTITY 主键的 SQL Server 表？

我在SQL Server中创建了一个表如下所示 CREATE TABLE testPK ID INT NOT NULL IDENTITY 1 1 PRIMARY KEY NumVal NUMERIC 18 4 现在我想使用 RODBC 函

随机推荐

如何在CXF中使用PATCH方法

我正在尝试使用 JAX RS 的 CXF 实现在我的客户端中使用 PATCH 方法起初我将 PATCH 注释定义为 Target ElementType METHOD Retention RetentionPolicy RUNTIME H
C 与 C++ 中的 typedef 和 struct 命名空间

我正在尝试在一些新的 C 中使用一些旧的 C 库该库的头文件使用 D Hanson 的 C 接口和实现 https rads stackoverflow com amzn click com 0201498413隐藏实现的习惯用法 def
将元素替换为outerHTML并立即访问新创建的元素

我通过将 DOM 元素的内容替换为outerHTML 这个技巧有效但我需要立即访问新创建的 DOM 元素不幸的是元素的创建
有没有办法只获取未命名的参数？

在 JavaScript 函数中 arguments https developer mozilla org en US docs Web JavaScript Reference Functions and function scope
为 ggplot2 中的两个构面组指定不同的 x-tick 标签

我有代表两种方法结果的箱线图每种方法都有两种验证方法和三种场景使用 ggplot2 进行绘制一切正常但我想更改 x 轴刻度标签以区分每组中使用的技术类型我使用了以下代码 data lt read csv results csv h
Laravel 和 Eloquent：检索相关项目时指定列

这是以下帖子的后续帖子 Laravel 4 和 Eloquent 检索所有记录和所有相关记录 https stackoverflow com questions 21735011 laravel 4 and eloquent retriev
从 iOS 服务检测屏幕开/关

我正在开发一个作为服务在后台运行的网络监控应用程序当屏幕打开或关闭时是否可以收到通知来电它通过使用以下代码存在于Android中 private void registerScreenOnOffReceiver IntentFilte
使用nodejs进行heroku部署失败

我正在尝试将本地文件推送到 heroku 并遇到以下错误我的代码在github https github com asimkh apps tree haz 有人可以帮我吗谢谢 heroku buildpacks set heroku n
如何检测 STAMINA 模式？

您能帮助我如何以编程方式检测索尼设备上的 STAMINA 模式吗我想通知用户如果 STAMINA 打开我的应用程序将无法正常工作因为它阻止了 AlarmManager 并且设备在我需要时不会被唤醒我也想知道这个我想一个天真的方
Flask WTform 对多个字段进行验证

根据两个或多个条目验证 WTform 的最佳方法是什么 IE 在下面的表格中我想验证数据库中尚不存在具有所提供名称和地址的公司 class CompanyForm FlaskForm name StringField Company Na
如何在bash中生成笛卡尔积？

我想生成这样的文件笛卡尔积 1 3 X 1 5 1 1 1 2 1 3 1 4 1 5 2 1 2 2 2 3 2 4 2 5 3 1 3 2 3 3 3 4 3 5 我可以使用嵌套循环来做到这一点例如 for i in seq 3 d
无法执行dex：Java堆空间 Java堆空间

在 Eclipse IDE 中执行 Web 驱动程序脚本时出现 Unable toexecute dex Java heap space Java heap space 错误我已经使用 Android SDK 和 AVD Manager
Java 流压缩两个列表

我有一个人员哈希集一个人有名字姓氏和年龄例如 Person Hans Man 36 我的任务是获取 17 岁以上人员的列表按年龄对他们进行排序并将名字与姓氏连接起来比如汉斯曼另一个名字另一个名字我刚刚被允许导入 imp
禁用 Reactjs 中的依赖下拉选项

我正在制作一个简单的反应应用程序其中有一些下拉列表其中一个依赖于另一个 gt 这里下拉菜单 1 的值为游戏类型例如Indoor and Outdoor gt 这里下拉菜单 2 的值为运动类型例如Chess Tennis and Fo
“perf stat”输出是什么意思？

I use perf stat 命令对一些事件进行统计 root root test perf stat a e r81d0 r82d0 v a r81d0 71800964 1269047979 1269006431 r82d0 2665
Graphics.Drawstring 在 PictureBox 中看起来不错，但在 Bitmap 中却很糟糕

我正在尝试使用DrawString将文本写为图像然后将其旋转 90 度它无论是在位图上还是直接在 PictureBox 上都可以正常工作但最大的区别在于质量这PictureBox绘制的文本质量很好而且看起来很漂亮当我把它画在图像上
使用 jimp 在 Node.js 中调整图像大小并获取新图像的路径

我正在使用 jimp 调整 node js 中的图像大小我成功地降低了图像质量但有点困惑如何获取新图像的路径 Jimp read test jpg function err test if err throw err test resi
事件循环和Promise之间有什么关系[重复]

这个问题在这里已经有答案了我很好奇Event Loop和Promise之间的关系演示暴露了这个问题我预计p1 fulfilled出现在中间因为它们将任务排队到同一个任务队列中并逐个执行 var p1 new Promise func
Fortran 中的断言

Fortran 是否有与 C 等效的标准函数关键字assert 我找不到assert我在 Fortran 2003 标准中提到过我发现了几种使用预处理器的方法但是在这个answer https stackoverflow com a
Sparklyr 处理分类变量

Sparklyr 处理分类变量我来自 R 背景习惯于在后端处理分类变量作为因子对于 Sparklyr 来说使用起来相当混乱string indexer or onehotencoder 例如我有许多变量在原始数据集中被编码为数值

Sparklyr 处理分类变量

Sparklyr 处理分类变量

Sparklyr 处理分类变量 的相关文章

随机推荐

热门标签

Sparklyr 处理分类变量的相关文章