在 Sparklyr 中创建虚拟变量？

2024-03-29

我正在尝试扩展我的一些 ML 管道，我喜欢 Sparklyr 打开的 rstudio、spark 和 h2o 的组合（http://spark.rstudio.com/ http://spark.rstudio.com/)

我试图弄清楚的一件事是如何使用 Sparklyr 从数据框中的字符向量创建虚拟列。

我已经尝试过以下内容，但我认为它可能混合了一些 Sparklyr 尚未实现的功能。

library(sparklyr)
library(dplyr)

sc <- spark_connect(master = "local")

flights_tbl <- copy_to(sc, nycflights13::flights, "flights")

flights_tbl %>% bind_cols(as_data_frame(setNames(lapply(unique(flights_tbl$carrier), 
                                               function(x){as.integer(flights_tbl$carrier == x)}), 
                                        paste0('var2_', levels(flights_tbl$carrier)))))

在此示例中，我想为每个运营商创建指标变量。

老实说，我对 dplyr 不太熟悉，所以不确定我会如何做到这一点。

是否有一个已经存在的 Spark 函数，我可以通过 Sparklyr 扩展来调用它，或者有没有办法仅使用 dplyr 函数来执行此操作？

Update

我想我有办法在 pyspark 的数据帧上执行此操作（如果对任何人有用）。

因此，如果数据如下所示：

>>> df.show(20)
+------------+----------+------+-----------+
|        word|word_count|corpus|corpus_date|
+------------+----------+------+-----------+
|  profession|         1|hamlet|       1600|
|      augury|         1|hamlet|       1600|
|undertakings|         1|hamlet|       1600|
|     surmise|         1|hamlet|       1600|
|    religion|         1|hamlet|       1600|
|    advanced|         1|hamlet|       1600|
|    Wormwood|         1|hamlet|       1600|
|   parchment|         1|hamlet|       1600|
|     villany|         1|hamlet|       1600|
|        digs|         1|hamlet|       1600|
| authorities|         1|hamlet|       1600|
|      Popp'd|         1|hamlet|       1600|
|  retrograde|         1|hamlet|       1600|
|       tax'd|         1|hamlet|       1600|
|        tomb|         1|hamlet|       1600|
|       moral|         1|hamlet|       1600|
| foreknowing|         1|hamlet|       1600|
|  dreadfully|         1|hamlet|       1600|
|      parted|         1|hamlet|       1600|
|      willow|         1|hamlet|       1600|
+------------+----------+------+-----------+

那么以下似乎适用于在 [word] 字段上制作虚拟对象：

categories = df.select("word").distinct().rdd.flatMap(lambda x: x).collect()

exprs = [F.when(F.col("word") == category, 1).otherwise(0).alias(category) for category in categories]

df_dummies = df.select("word", *exprs).limit(1000)

取自（带有虚拟变量的 pyspark 矩阵 https://stackoverflow.com/questions/35879372/pyspark-matrix-with-dummy-variables)

自原始帖子以来，这些可能是新的。这ml_功能有ml_create_dummy_variables http://spark.rstudio.com/reference/ml_create_dummy_variables.html效果很好

iris_tbl <- copy_to(sc, iris)

iris_dum <- ml_create_dummy_variables(iris_tbl, "Species")

iris_dum %>% select(contains("Species")) %>% head

> 
Source:   query [6 x 4]
Database: spark connection master=local[4] app=lol local=TRUE

  Species Species_setosa Species_versicolor Species_virginica
    <chr>          <dbl>              <dbl>             <dbl>
1  setosa              1                  0                 0
2  setosa              1                  0                 0
3  setosa              1                  0                 0
4  setosa              1                  0                 0
5  setosa              1                  0                 0
6  setosa              1                  0                 0

羞愧的是他们<dbl>并不是<int>但这很容易解决as.integer call.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

apachespark

dplyr

plyr

sparklyr

在 Sparklyr 中创建虚拟变量？的相关文章

生成因子变量水平的预测值

我正在使用连续结果变量对多个因子变量进行回归lm 例如 fit lt lm dv factor hour factor weekday factor month factor year count data df 我想生成预测值 yhat
向图像添加坐标，以用作 R 中的 Leaflet、Shiny 和 Shinydashboard 包中的地图

我计划使用 Leaflet Shiny 和 Shinydashboard 沿着以下很棒的路线创建一个带有医院 OHS 事件标记的交互式地图交互式地图和直方图模板 http shiny rstudio com gallery superzip
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
R dplyr过滤多列上的字符串条件

我有一个 df 例如 df lt read table text v1 v2 v3 v4 v5 1 A B X C 2 A B C X 3 A C C C 4 B D V A 5 B Z Z D header T 如果变量 v2 到 v5
根据另一个向量替换向量中的值

我想替换向量中的值 x 与另一个向量 y 陷阱 22 方法需要是动态的以适应向量中不同数量的级别 x 例如考虑向量x x lt sample c 1 2 3 4 5 100 replace TRUE gt x 1 2 4 1 1 3
Rstudio 命令历史记录

这些天我经常使用 Rstudio 但最近注意到我的命令不再存储在历史记录中我不知道这是从什么时候开始的但可能是在安装最新版本时发生的关于问题可能是什么的任何想法吗 Thanks 这是我们在 v0 93 73 中引入并在 v0 93 7
如何加速 R for 循环？

我正在为 R 中 GWmodel 包中的 gwr basic 函数运行以下 for 循环我需要做的是收集任何给定带宽的估计参数的平均值代码如下 library GWmodel data DubVoter Dub voter LARent
为什么我必须在每次 R 升级时手动创建目录“~/R/%p-library/%v”？

每次R升级后我必须重新安装我使用的软件包来自源代码因此必须为新版本重新编译它们这是一个正确的可以理解的行为所以我调用install packages http stat ethz ch R manual R devel libr
列槽不足

当尝试为 data table 中的每个变量 108 个变量创建 12 个滞后时我收到一条错误指出列槽不足此操作应创建大约 1200 个变量或列 Data A as data table Datos A Varnames names
在 Spark MLlib 上使用 Java 中的 Breeze

在尝试从Java使用MLlib时使用微风矩阵运算的正确方法是什么例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的有一些方法例如 colon times 可以通过正确的方式调用 breez
Plotly 绘图不会在 RMarkdown 文档的 for 循环内渲染

我正在尝试动态构建一个需要运行循环的报告并为每次迭代打印一些消息表格和绘图我可以让一切正常运转except为了情节示例 rmd r echo FALSE results asis fig keep all message FALSE
grid.arrange 中的错误 -rangeGrob() 函数

我有两个图 p1 和 p2 我试图使用 grid arrage 绘制它们我的代码如下所示 grid arrange p1 p2 ncol 2 top textGrob Distribution across each day of the
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘
循环中的knitr模板和子文档

圣诞节前我之前问过跨多个 knitr 文档的单一样式表 https stackoverflow com questions 20370584 single style sheet across multiple knitr document
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
使用 R 从字符串中提取函数参数

最好使用stringr包我想创建一个函数extract 以字符串向量作为参数 vec lt c div span icon hospital user i18n t Enrolments or i18n t Paper a string
栅格堆叠后如何写入？

我想操作几个光栅文件然后再次写入它们 rasterfiles lt list files C data envi full names TRUE d1 lt overlay stack rasterfiles fun function x
对于多项式，获取其所有极值并通过突出显示所有单调部分来绘制它

有人问我这个有趣的问题我认为值得将其发布在这里因为 Stack Overflow 上还没有任何相关线程假设我有长度为的多项式系数n vector pc 其中次数多项式n 1对于变量x可以以其原始形式表示 pc 1 pc 2 x pc
R lubridate：当地语言的工作日

如何获取本地语言的工作日和月份 My code library lubridate data lt c 10 02 2015 11 03 2015 data lubri lt dmy data wday data lubri label T
Shiny可以识别用鼠标选择的文本（突出显示的文本）吗？

我需要用户将文本片段分配给 Shiny 中的类别或代码基本上我希望用户突出显示输出中的文本在下面的示例中来自table or text输出然后按一个按钮 code 并将选定的文本分配给应用程序内的对象在下面的应用程序中所选文

随机推荐

laravel 5.3 当页数 = 1 时的分页

我有城市表它有 7 个城市我有一个视图页面来显示这些城市每页 10 个城市控制器 cities City orderBy id desc gt paginate 10 return view cities home compact
在浏览器控制台中使用 Angularjs $http

我在开发过程中在浏览器控制台中测试了 AngularJS 服务以进行快速验证我将服务注入控制台的方式如下所述这个问题 https stackoverflow com a 15529185 605840 or var inj angula
使用字典中的特定键构建列表（python）？

我正在用 Python 实现 Dijkstra 搜索算法在搜索结束时我使用前驱图重建最短路径从目标节点的前驱开始例如 path path append destination previous predecessor map des
如何在 Selenium 中的 HTML5 Canvas 上执行鼠标滚轮滚动？

我正在开发 GWT 应用程序类似于 Paint 在此我有一个 HTML5 Canvas 其中有一个功能向上和向下滚动鼠标滚轮将放大和缩小画布我进行了很多搜索但没有找到解决此问题的解决方法这是所做的 int PosX 0 int
系统（'php -l'）的替代品？

在我目前正在从事的一个项目中我们正在考虑放置system http php net system进入 php ini 的disable functions http php net disable functions宣言现在我们的一个
SwiftUI - ObservableObject 创建多次

我在视图中创建了一个 ObservableObject ObservedObject var selectionModel FilterSelectionModel 我在里面放置了一个断点FilterSelectionModel s ini
Apache Maven 资源插件排除目录

我试图在构建过程中将一些资源从一个点复制到另一个点因此我使用 Apache Maven 资源插件实际上我排除了一些文件我不需要但我还想排除一个目录我尝试了几种方法但没有成功
使用位置 Azure Data Lake 创建 Databricks SQL 数据库

如何在 Databricks hive 元存储中使用位置 adls 和 abfss 创建数据库无需安装像这样的东西 create database if not exists adb raw location abfss con ema
如何从 Vega Lite 图表中删除轴线

我想从下面的 vega lite 图表中删除隐藏轴线我尝试将颜色更改为空如下所示或其他颜色但这不起作用 https vega github io editor gist fc799bc9f7a8f28b8f1f2ec84673e9
android + eclipse + maven + actionbarsherlock

我读了很多关于 actionbarsherlock maven android 的东西但我见过的解决方案都不适合我我确信我已经非常接近解决方案但我不明白我需要一些帮助所以这是我的问题我尝试创建一个依赖于 Actionbarshe
如何删除空值？

如何删除底部计数中的空值即我只想查看实际销售单位的产品我尝试过非空和非空但没有成功 with member Measures Amount Sold as Measures Internet Sales Amount format s
为什么“超时”不适用于管道？

以下命令行调用timeout 这没有意义只是出于测试原因无法按预期工作它会等待 10 秒并且在 3 秒后不会停止命令的运行为什么 timeout 3 ls sleep 10 您的命令正在执行的操作正在运行timeout 3 ls并
在 Windows 上的 XAMPP 中哪里可以更改 lower_case_table_names=2 的值？

我正在使用 Windows 7 和 XAMPP 我正在尝试导出数据库在此过程中表名称将转换为小写我搜索了很多我知道我必须改变的值lower case table names from 0 to 2 但是我必须在哪里更改这个值在哪个文
将 TypeScript 网站从 GitHub 部署到 Azure

我有一个 NET 网站其中包含一些 TypeScript 文件我尝试将其从 GitHub 部署为 Azure 网站但收到与 TypeScript 相关的错误在我看来这可能与我使用最新版本 1 0 有关而 kudu 版本只有 0
Google 端点和公共 Api 密钥

要使用 Google 服务您可以使用 OAuth 身份验证或者如果您不需要用户登录则可以使用公共 api 密钥将授权域定义为请求的来源现在我正在使用 google 端点编写自己的 API 并且我将允许用户通过公共 api 密钥
使用sessionStorage有什么好处？ [复制]

这个问题在这里已经有答案了只是想知道在存储要在 Javascript 轮播中使用的 HTML 内容时使用 HTML5 的 sessionStorage 的实际好处是什么与性能有关吗加载时间带宽是的您将使用更少的带宽这会提高性能
使用 ggdendro 在树状图的片段下显示变量标签

我的问题与安德里的有关answer https i stack imgur com JW0m1 png我之前的问题我的问题是是否可以在树状图的相应段下显示变量标签和汽车标签 library ggplot2 library ggdendro
扩展 Android 的默认 Gmail/电子邮件应用程序

我想通过插入 ContentProvider 或使用意图过滤器来扩展 Android 平台的默认 Gmail 电子邮件应用程序本质上我希望能够扫描传入的电子邮件以查找将在我的 Android 应用程序中触发事件的特殊规则如果自动扫描电
立即终止无循环线程，无需中止或挂起

我正在实现一个协议库这里有一个简化的描述 main 函数中的主线程将始终检查网络流在 tcpclient 内上是否有某些数据可用假设响应是收到的消息线程是正在运行的线程 thread new Thread new ThreadSt
在 Sparklyr 中创建虚拟变量？

我正在尝试扩展我的一些 ML 管道我喜欢 Sparklyr 打开的 rstudio spark 和 h2o 的组合 http spark rstudio com http spark rstudio com 我试图弄清楚的一件事是如何使用

在 Sparklyr 中创建虚拟变量？

在 Sparklyr 中创建虚拟变量？ 的相关文章

随机推荐

热门标签

在 Sparklyr 中创建虚拟变量？的相关文章