Sparklyr：如何将列表列分解为 Spark 表中自己的列？

2023-12-02

我的问题与中的问题类似here，但我在实现答案时遇到问题，并且我无法在该线程中发表评论。

因此，我有一个包含嵌套数据的大 CSV 文件，其中包含由空格分隔的 2 列（假设第一列是 Y，第二列是 X）。 X 列本身也是一个逗号分隔值。

21.66 2.643227,1.2698358,2.6338573,1.8812188,3.8708665,...
35.15 3.422151,-0.59515584,2.4994135,-0.19701914,4.0771823,...
15.22 2.8302398,1.9080592,-0.68780196,3.1878228,4.6600842,...
...

我想使用以下命令将此 CSV 读入 2 个不同的 Spark 表sparklyr.

到目前为止，这就是我一直在做的事情：

Use spark_read_csv将所有 CSV 内容导入 Spark 数据表

df = spark_read_csv(sc, path = "path", name = "simData", delimiter = " ", header = "false", infer_schema = "false")

结果是一个名为的 Spark 表simData有 2 列：C0 and C1
Use dplyr选择第一列和第二列，然后将它们分别注册为名为 Y 和 X 的新表

simY <- df %>% select(C0) %>% sdf_register("simY")

simX <- df %>% select(C1) %>% sdf_register("simX")
将值拆分为simX using ft_regex_tokenizer函数，关于答案写在here.

ft_regex_tokenizer(input_DF, input.col = "COL", output.col = "ResultCols", pattern = '\\###')

但当我尝试head它使用dplyr:

Source:   query [6 x 1]
Database: spark connection master=yarn-client app=sparklyr local=FALSE

        Result
        <list>
1 <list [789]>
2 <list [789]>
3 <list [789]>
4 <list [789]>
5 <list [789]>
6 <list [789]>

我想把它变成一个新的 Spark 表并将类型转换为 double。有什么办法可以做到这一点吗？我考虑过collect将数据导入R（使用dplyr），转换为矩阵，然后做strsplit对于每一行，但我认为这不是一个解决方案，因为 CSV 大小最多可达 40GB。

编辑：Spark版本是1.6.0

假设您的数据如下所示

library(dplyr)
library(sparklyr)

df <- data.frame(text = c("1.0,2.0,3.0", "4.0,5.0,6.0"))
sdf <- copy_to(sc, df, "df", overwrite = TRUE)

并且您已经创建了一个spark_connection你可以执行以下操作

n <- 3

# There is no function syntax for array access in Hive
# so we have to build [] expressions
# CAST(... AS double) could be handled in sparklyr / dplyr with as.numeric
exprs <- lapply(
  0:(n - 1), 
  function(i) paste("CAST(bits[", i, "] AS double) AS x", i, sep=""))

sdf %>%
  # Convert to Spark DataFrame
  spark_dataframe() %>% 
  # Use expression with split and explode
  invoke("selectExpr", list("split(text, ',') AS  bits")) %>%
  # Select individual columns
  invoke("selectExpr", exprs) %>%
  # Register table in the metastore ("registerTempTable" in Spark 1.x)
  invoke("createOrReplaceTempView", "exploded_df")

And use dplyr::tbl去取回sparklyr object:

tbl(sc, "exploded_df")

Source:   query [2 x 3]
Database: spark connection master=local[8] app=sparklyr local=TRUE

     x0    x1    x2
  <dbl> <dbl> <dbl>
1     1     2     3
2     4     5     6

在最新版本中，您还可以使用sdf_separate_column:

sdf %>% 
  mutate(text=split(text, ",")) %>% 
  sdf_separate_column("text", paste0("x", 0:2))

# Source:   table<sparklyr_tmp_87125f13b89> [?? x 4]
# Database: spark_connection
  text       x0    x1    x2   
  <list>     <chr> <chr> <chr>
1 <list [3]> 1.0   2.0   3.0  
2 <list [3]> 4.0   5.0   6.0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

apachespark

dplyr

tidyr

sparklyr

Sparklyr：如何将列表列分解为 Spark 表中自己的列？的相关文章

如果落在 R 中另一个数据集中的两个变量定义的范围内，则从一个数据集中获取变量值

我有一个关于 R 中日期操作的问题我已经查了好几天了但在网上找不到任何帮助我有一个数据集其中有 id 和两个日期另一个数据集具有相同的 id 变量日期和价格例如 x data frame id c A B C C date1
如何编写固定宽度的文件？

我应该编写一个基于固定宽度列的特定格式的 txt 文件例如第 1 8 列中的第一个变量第 9 15 列中的第二个变量原始数据有不同的长度它们必须放在指定列的右侧例如值 15 96 和 12 489 必须写入第一行和第二行的第1
data.table 查找值并翻译

像许多人一样我是 R 新手我有一个大数据集 500M 行我已将其读取到 data table 中logStats其中有如下数据 head logStats 15 time pid mean 1 2014 03 10 00 00 00
dplyr::group_by_ 带有多个变量名的字符串输入

我正在编写一个函数要求用户在函数调用中定义一个或多个分组变量然后使用 dplyr 对数据进行分组如果只有一个分组变量它会按预期工作但我还没有弄清楚如何使用多个分组变量来做到这一点 Example x lt c cyl y lt c
GLMER 警告：方差-协方差矩阵 [...] 不是正定的或包含 NA 值

我有时发现我的 GLMM 来自glmer 包裹lme4 当调用其摘要时显示以下警告消息 Warning messages 1 In vcov merMod object use hessian use hessian variance co
如何比较数据框1的每一行与数据框2的每一行？

我有两个数据框如下所示 x data frame Name c 200003 200260 400826 400863 500710 Chr c chr1 chr1 chr2 chr3 chr3 Position c 11880 1441
如何自动替换多个文件的文本内容中的字符？

我有一个文件夹 myfolder包含许多乳胶表我需要替换其中每个字符即替换任何minus sign by an en dash 只是为了确定我们正在替换连字符INSIDE该文件夹中的所有 tex 文件我不关心 tex 文件名手动执
消除垂直线ggplot

这个问题以前曾被问过但答案并不总是明确或很复杂我希望 ggplot2 的新版本能够带来更简单的解决方案如何仅消除 ggplot 的垂直线而不消除轴刻度线或标签这对于条形图来说确实很好因为它可以消除图形中一些不必要的干扰这里有一些
R中的for循环和if函数

我正在用 R 中的 if 函数编写一个循环表格如下 ID category 1 a 1 b 1 c 2 a 2 b 3 a 3 b 4 a 5 a 我想使用 for 循环和 if 函数添加另一列来计算每个分组的 ID 如下所示的计数列 I
R - 加速近似日期匹配。 idata.frame？

我正在努力有效地执行两个数据帧之间的关闭日期匹配这个问题探索了一个解决方案使用idata frame来自plyr包但我也对其他建议的解决方案感到非常满意这是两个数据框的非常简单的版本 sampleticker lt data f
将 R 中的列中的单引号替换为双引号

我在 R 中的数据框有一个 A 列其中有带单引号的字符串数据 Column A Hello World Hi World Good morning world 我想做的是将单引号替换为双引号并实现如下所示的输出 Column A Hell
设置设备默认图形参数

我经常喜欢在 IDE 中使用浅色文本和深色背景颜色主题当我在 R 中绘制某些内容时绘图的默认颜色方案是白色背景上的黑色文本边框点我试图默认更改此设置最好是默认从 R 调用的特定设备 X11cairo RStudioGD 同时保留
R闪亮：在渲染表格时显示“正在加载...”消息

在 Rstudio Shiny 中我得到了一些renderDataTable通过 RMySQL 从数据库获取信息的调用有些查询可能需要几秒钟才能完成我想添加一条正在加载消息其中表格将在等待时最终呈现这个问题与这个问题类似 R闪
如何计算由离散数据定义的表面下的体积？

我需要确定由离散数据点表示的一系列表面下方的体积在我的数据中每个样本都作为数据帧列表中的单独数据帧存储这是一些小示例数据 df1 lt data frame x c 2 2 2 3 3 3 4 4 4 5 5 5 6 6 6 y
一起使用 R6 类和 foreach() %dopar% 的问题

当与 foreach 一起使用时我在 R6 类上遇到问题可能与环境有关我使用的是 Windows 假设有两个 R6 类 class1 和 class2 class1 中的 method1 依赖于 class2 例如请参见下面的示例代
如何在 nlme 与 lme4 中指定不同的随机效应？

我想使用指定模型中的不同随机效应nlme lme 数据在底部随机效应是 1 intercept and position变化超过subject 2 intercept变化超过comparison 这很简单使用lme4 lmer lmer
使用 R 中的晶格为 xyplot 中的每个面板添加不同的垂直线

我有一个按年份排列的几个站点的植物物种频率图我正在使用 grid 包中的 xyplot 绘制这些站点我已经弄清楚如何获取每个物种位点组合的散点图但是我想添加一个 abline 代表进行化学处理的每年每个地点在不同年份添加了化学处理
r - 如何在 normalizePath 中指定路径，或解决与其关联的此错误？

我正在学习 R 并将其安装在我的办公室计算机上我没有计算机的管理员权限因为我什至必须致电IT人员进行安装然后我安装一个包一开始输入时不起作用例如 install packages thepackage 错误信息是这样的 Error
如何将表输出复制到剪贴板？

我试图通过单击按钮将表输出复制到剪贴板我尝试查看 rclipboard 包但以我有限的理解它似乎无法复制输出我添加了一个actionButton屏幕截图中带有一个图标来显示我想要实现的目标现在按钮没有任何作用 Code libra
如何使用字符对象使用 dplyr 重命名列[重复]

这个问题在这里已经有答案了我想通过使用变量以动态方式使用 dplyr 重命名列但是它只是为列命名变量的名称而不是其内容有任何想法吗 colnames y 1 time channel 1 channel 2 channel 3 c

随机推荐

ClearCase：我可以在动态视图中劫持文件吗？

我正在 Unix 平台的动态视图中工作我需要暂时劫持一个文件稍后再取消劫持但命令chmod w filename不管用我收到消息chmod WARNING can t change filename 我可以从 Windows 中的快
如何将“SelectMany”与 DataServiceQuery<> 一起使用

我针对 ADO 数据服务运行以下 DataServiceQuery 安装了更新以使其像 net 4 一样运行 DataServiceQuery
php 单引号和双引号

remove line breaks function safeEmail string return preg replace n r t 0A 0D 08 09 i string example usage 1 from HTML Em
Woocommerce 3.3+ 中的后端订单列出自定义操作按钮

自 WooCommerce 版本 3 3 起下面在管理订单列表中显示自定义操作按钮的代码不再起作用 Add your custom order action button add action woocommerce admin orde
Python - Flask：根目录外的静态文件夹

只是为了好玩我试图了解如何创建一个网站Python and Flask 该网站必须在我自己的计算机上运行我将是唯一的客户到目前为止我已经完成了大部分我想做的事情但现在我遇到了一个无法解决的技术问题在客户端我想显示服务器返回的图像
使用 ServiceStack 访问 SOAP Web 服务

我正在创建与 ServiceStack 相互通信的客户端服务器应用程序并且运行良好但我还需要访问外部 SOAP Web 服务我尝试使用Soap12ServiceClient访问它但我找不到任何示例然后我采用了实际有效的添加服务引
Nodejs - Express res.download 给出发送异常后无法设置标头

我想制作一个可以为任何扩展名的文件提供服务的 api 像这样 http localhost download 文件扩展名这是我的代码但它间歇性地给出此消息发送后无法设置标头 var express require express v
Python：如何从导入的模块调用全局函数

Python 3 中可以从导入函数调用全局函数吗 folders folder1 def py def do test print def do test global function 1 print def do test main p
将 Rust 中的浮点值限制为最小/最大范围

给定一些任意的浮点值将该值限制在最小最大范围的惯用方法是什么 IE 如果您提供的值低于最小值则返回最小范围值如果您提供的值大于最大值则返回最大范围值否则返回原始浮点值我认为这种方法可行但它没有给我正确的值 fn main d
尝试更改 WPF 中绑定的 RadioButton 时出现奇怪的行为

我在我的中绑定了两个单选按钮Child窗口到Enum in my ViewModel它是在主窗口中构建的绑定按预期工作但我注意到一个非常奇怪的行为我无法解决我在这里提供了所有代码以便您可以轻松地自己重构问题以下是查看这种奇怪行为
应用程序进入后台后每 n 分钟获取用户位置

我正在努力实施中给出的建议这个帖子不幸的是我不清楚这些步骤我尝试实施这些建议但即使在启动和停止 locationServices 后 backgroundTimeRemaining 仍继续减少我是这样开发的 void applic
Android 是否按升序或降序覆盖资源文件？

Android 有各种文件夹来设置其资源例如 values small values normal values large drawable mdpi drawable hdpi drawable xhdpiAndroid 如何从这些文
循环遍历 Excel 中某个范围的每一行

这是我确信有一个内置函数的事情之一而且我很可能在过去被告知过但我正在挠头去记住它如何使用 Excel VBA 循环遍历多列范围的每一行我一直在搜索的所有教程似乎都只提到在一维范围内工作 Dim a As Range b As Ran
运行作业时的参数解释

h host1 example com code Get WmiObject Class Win32 ComputerSystem Namespace root cimv2 ComputerName h timeout 5 jobstate
在 Foreach 循环中递增变量并使用它-SSIS

我有一个包我正在使用 foreach 循环来循环数据库我正在传递一个字符串它会循环遍历所有数据库到这里一切都很完美我想要实现的是对于它循环的每个数据库它应该将变量增加 1 假设我必须循环遍历总共 5 个数据库包级变量 myv
等待 Firebase 检索数据[重复]

这个问题在这里已经有答案了我想构建一个返回a的方法childFirebase 中的值我尝试做这样的事情 public String getMessage root child MessagesOnLaunch child Message
通过RedBean批量插入mysql

如何运行以下sqlRedBean INSERT INTO tbl name a b c VALUES 1 2 3 4 5 6 7 8 9 我应该使用循环还是RedBean支持批量插入 RedBeanPHP 的创建者在这里 RedBeanPH
在 Adobe AIR for iOS 中获取唯一标识符（MAC 地址、UDID 等）

我正在尝试在适用于 Android 和 iOS iPad 2 的 Adob e AIR 应用程序中获取用户设备网络适配器的 MAC 地址在 Android 中它可以正常工作但在 iOS 中却不能这是我正在使用的代码 var vNetw
从unittest.TestCase切换到tf.test.TestCase后的幻像测试

以下代码 class BoxListOpsTest unittest TestCase Tests for common bounding box operations
Sparklyr：如何将列表列分解为 Spark 表中自己的列？

我的问题与中的问题类似here 但我在实现答案时遇到问题并且我无法在该线程中发表评论因此我有一个包含嵌套数据的大 CSV 文件其中包含由空格分隔的 2 列假设第一列是 Y 第二列是 X X 列本身也是一个逗号分隔值 21 66 2

Sparklyr：如何将列表列分解为 Spark 表中自己的列？

Sparklyr：如何将列表列分解为 Spark 表中自己的列？ 的相关文章

随机推荐

热门标签

Sparklyr：如何将列表列分解为 Spark 表中自己的列？的相关文章