SparklyR：直接转换为镶木地板

2024-02-18

您好，我是集群计算的新手，目前我只在独立集群上玩（sc <- spark_connect(master = "local", version = '2.0.2')）。我有一个巨大的 csv 文件（15GB），我想将其转换为 parquet 文件（第三块代码解释了原因）。这个 15GB 文件已经是 60GB 文件的样本，当我停止播放时，我需要使用/查询完整的 60GB 文件。目前我所做的是：

> system.time({FILE<-spark_read_csv(sc,"FILE",file.path("DATA/FILE.csv"),memory = FALSE)})
   user  system elapsed 
   0.16    0.04 1017.11 
> system.time({spark_write_parquet(FILE, file.path("DATA/FILE.parquet"),mode='overwrite')})
   user  system elapsed 
   0.92    1.48 1267.72 
> system.time({FILE<-spark_read_parquet(sc,"FILE", file.path("DATA/FILE.parquet"),memory = FALSE)})
   user  system elapsed 
   0.00    0.00    0.26

如您所见，这需要相当长的时间。我想知道第一行代码中发生了什么（spark_read_csv) with memory = FALSE？它在哪里读取/保存它？当我断开并再次重新连接会话时，我可以访问该位置吗？

另外，有没有办法以更有效的方式结合步骤 1 和 2？

我并不羞于尝试使用 API 中尚未提供的较低级别的函数，因为它很简单并且可以在很大程度上实现自动化。

当以下情况时不保存数据spark_read_csv被调用memory = FALSE。您的延迟与数据加载本身无关，而是与模式推断过程有关，该过程需要单独的数据扫描。

尽管使用模式推断很方便，但显式提供模式（如命名向量）从列名映射到输入简单的字符串 https://stackoverflow.com/a/32286450。例如，如果您要将 iris 数据集加载到local mode:

path <- tempfile()
readr::write_csv(iris, path)

你会用

spark_read_csv(
  sc, "iris", path, infer_schema=FALSE, memory = FALSE,
  columns = c(
    Sepal_Length = "double", Sepal_Width = "double", 
    Petal_Length = "double", Petal_Width = "double",
    Species = "string"))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

SparklyR：直接转换为镶木地板的相关文章

美人鱼图：调整图表周围的空白

我在用 Rstudio 编译的 Rmd 报告中使用了美人鱼图在 HTML PDF 输出中图表上方和下方有大量空白请参见下面的示例 Header Text r library DiagrammeR mermaid graph TD cl
如何使用autoconf重新生成配置文件？

我使用 autoconf 重新生成配置文件它有效但是当我执行生成的配置文件时 configure 有一些错误消息例如 configure line 3713 syntax error near unexpected token bla
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
根据 R 数据框中的名称对列进行平均

我想知道是否有一种有效的方法来获取每组的平均值类似命名的列谁的名字结尾为 1S and 2S ex ex1S ex2S at time 1并取每组的平均值类似命名的列谁的名字结尾为 1C or 2C ex ex1C ex2C at time
RStudio 不会通过 rPython 调用加载所有 Python 模块

我从 Bash 和 RStudio 中运行相同的脚本时出现一些意外行为请考虑以下事项我有一个文件夹 rpython 包含两个脚本 test1 R library rPython setwd rpython python load tes
修改linux下的路径

虽然我认为我已经接近 Linux 专业人士但显然我仍然是一个初学者当我登录服务器时我需要使用最新版本的R 统计软件 R 安装在 2 个地方当我运行以下命令时 which R I get usr bin R 进而 R version
dplyr 中的标准评估：全局环境中的函数出现“无法找到函数”错误

我试图在 dplyr 中对全局环境中的函数使用标准评估但出现无法找到函数错误这是一些代码 create data frame df lt data frame x rnorm 10 y rnorm 10 define arbitra
zsh：未找到命令：使用 Big Sur Mac 的终端上的 R

我从官方 cran 网站安装了 R 我可以从 Rstudio 运行 R 但是当我尝试从终端使用 R 时我得到以下结果 base ege Eges MBP R zsh command not found R base ege Eges MB
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
rvest 和 NHL 统计数据的 CSS 选择器问题

我想从 hockey reference com 中抓取数据特别是从以下链接中抓取数据 https www hockey reference com leagues NHL 1991 html https www hockey refer
如何确定 R 包的作者？

如何确定包的作者是谁鉴于我们拥有这个广泛使用的代码库我认为参考我在分析中使用的软件是合适的有没有办法以编程方式检索作者和任何其他相关信息在伪代码中我想执行以下操作 references base 我怎样才能做到这一点为了能够引用
更改 pander 中的默认对齐方式 (pandoc.table)

我目前正在切换到pander对于我的大部分时间knitr markdown格式化因为它提供了如此出色的pandoc支持我不太满意的一件事是默认的居中对齐营销人员可能会喜欢它但对于技术报告来说这是一个可怕的事情使用的最佳选择Hmis
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
如何返回包含最大值标签的向量

我有一个 4 列数组我想获得一个向量其中每行包含包含该行最大值的列的标签我可以在循环中执行此操作但我想使用矩阵函数来提高速度我怎样才能在不编写自己的库函数的情况下做到这一点有一个函数可以做到这一点如果x是你的矩阵尝试max
手动设置scale_fill_distiller()的比例

我正在尝试制作一系列图表进行比较举例来说我想使用iris数据集来制作这样的图其中我已过滤以仅查看 setosa 物种 library ggplot2 library dplyr iris gt filter Species setos
排序因素与水平

有人能解释一下 R 中 ordered 参数的用途吗 R says ordered逻辑标志来确定级别是否应被视为有序按给定的顺序所以如果我有一个名为名称的因素并设置ordered TRUE names lt factor c fred
按特定样本前缀对列名称向量进行子集化

假设我有一个如下所示的数据框 ca01 lt c 1 10 ca02 lt c 2 11 ca03 lt c 3 12 stuff 1 lt rep test 10 other lt rep 9 10 data lt data frame
RStudio 如何确定控制台宽度，为什么它似乎总是出错？

我刚刚发现wid lt options width在 RStudio 中它似乎是我日常控制台使用中令人烦恼的根源或者更确切地说更接近根源我应该先说一下我目前使用的是 R 3 2 2 RStudio 0 99 491 Linux M
如何绘制堆积比例图？

我有一个数据框 x lt data frame id letters 1 3 val0 1 3 val1 4 6 val2 7 9 id val0 val1 val2 1 a 1 4 7 2 b 2 5 8 3 c 3 6 9 我想绘制一个
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor

随机推荐

在 iPhone MKMapView 中显示用户位置蓝点

我正在 iPhone 应用程序的 MapView 中开发自定义引脚这是代码 MKAnnotationView mapView MKMapView mapView viewForAnnotation id
传递给 http.HandleFunc 的函数如何访问 http.ResponseWriter 和 http.Request？

func main http HandleFunc handler func handler w http ResponseWriter r http Request I never declared initialized or pass
PHP 中的 HTML DOM 操作

我想知道如何使用 PHP 操作 DOM 树我已经看到一些在 html 文件中加载 XML DOM 的答案但如果我不需要加载怎么办如果我想要操作的文档中有 XML DOM 脚本怎么办我下面有一个打印出所有文件夹的示例填写答案中的空白
来自字节数组的 Crystal Report 图像无法打印

我有一个带有类作为数据源的水晶报表我有一个字节数组我将位图传递给它但它没有打印在水晶报表上请参阅下面我的代码 var d new Label var eanCreator new CreateEan var bf new Binar
取消搁置到另一个分支

我正在尝试使用 TFS Power Tools 将更改解压到另一个分支我正在尝试执行命令 tfpt unshelve migrate NuGet Build source ProjectName Main Source target Pr
了解 Python HTTP 流

我正在努力使用 Python 和请求访问流 API API 内容我们启用了一个流端点以便利用持久的 HTTP 套接字连接来请求报价和交易数据来自 API 的流数据包括发出经过身份验证的 HTTP 请求并保持 HTTP 套接字打开以持续
下一个和上一个按钮不起作用

这是我的线性布局
在 C 客户端服务器应用程序中，socket() 返回 0

我正在开发一个应用程序其中包含多个服务器套接字每个服务器套接字都在唯一的线程中运行外部实用程序脚本由线程之一调用该脚本调用一个实用程序客户端该实用程序将消息发送到服务器套接字之一最初我使用的是system 来执行这个外部
蟒蛇正则表达式。提取模式之间的文本

如何获取下面 str 中 uniprotkb 和 gene name 之间的所有值 str uniprotkb HIST1H3D gene name uniprotkb HIST1H3A gene name uniprotkb HIST1H
哪些字符对于 JavaScript 变量名有效？

哪些字符可用于命名 JavaScript 变量我想为工作中的非 JavaScript 用户创建一个小型扩展库他们在谈到语言时似乎都有些拘谨我喜欢 jQuery 和 Prototype 都使用美元符号由于我使用 jQuery 我正
Jupyter 项目输入/输出括号表示法

我正在尝试了解项目 Juypter 的工作原理以前称为 IPython Notebook 我对单元标识符的 In 和 Out 感到非常困惑我理解 In 输入单元和 Out 输出单元但我感到困惑通过括号内数字的重要性这意味着什么它在
在 cookie 中将 httponly 属性设置为 false

我如何使用 Laravel 制作 cookieCookie Make 或其他并将 httponly 属性设置为 false 我想这样做因为 cookie 包含一个我的 JS 必须能够读取的密钥 Laravel 为此提供了一个选项但文档
关于 __attribute__((__packed__)) 的 c++ 编译错误还有哪些其他方法？

当我编译以下代码时 include
如何获取从SQL表中删除的最后一行的ID

我试图使用 max Id 函数获取最后一个 Id 其中 Id 是主键除非我从表中删除最后一行否则我的代码运行良好因为当我删除最后一行时该 Id 仍然保留在这种情况下 max Id 将检索最后一行 Id 但不会检索从表中删除的 Id
Scala：“模糊的隐式值”，但未找到正确的值

我正在编写一个小型 Scala 程序它应该从本地 FS 读取文件逐行从每一行解析三个双精度值根据这三个值创建案例类的实例将这些实例传递到二叉堆为了能够解析Strings 到两个Doubles and CoordinatePoi
导入错误：没有名为“sqlite3”的模块

我正在尝试在 python 文件中导入 nltk 但出现此错误文件 mycode py 第 5 行位于从实用程序导入 TextCleaner TF IDF FeatureExtraction 文件 home myhome Baselin
Azure - 使用服务主体对 Key Vault 进行身份验证会返回未经授权的异常

我正在尝试使用服务原则从 net Core 控制台应用程序访问 KeyVault 我有App Id and 应用秘密这是我的代码 var client new KeyVaultClient GetAccessToken var secre
部署后 JPA 实体中出现 ClassCastException (Glassfish 3.1.2)

使用 Glassfish 3 1 2 取消部署和部署 WebArchive war 时出现奇怪的效果 asadmin undeploy myWebApp asadmin deploy target myWebApp war 它部署正常但是
在 Nginx 中从 Angular 调用 API 无法解析 Docker 服务名称

我有一个Angular应用程序运行在NginX Docker容器 The Angular应用程序可以制作一个REST调用另一个容器 Spring Boot API Docker using localhost作为服务器 server str
SparklyR：直接转换为镶木地板

您好我是集群计算的新手目前我只在独立集群上玩 sc lt spark connect master local version 2 0 2 我有一个巨大的 csv 文件 15GB 我想将其转换为 parquet 文件第三块代码解释了原

SparklyR：直接转换为镶木地板

SparklyR：直接转换为镶木地板 的相关文章

随机推荐

热门标签

SparklyR：直接转换为镶木地板的相关文章