sparkr

如果为 null 则替换为 0，否则在同一列中使用默认值

在SparkR shell 1 5 0中创建了一个示例数据集 df test lt createDataFrame sqlContext data frame mon c 1 2 3 4 5 year c 2011 2012 2013 2

r apachespark sparkr

获取 Spark 中组的最后一个值

我有一个 SparkR DataFrame 如下所示 Create R data frame custId lt c rep 1001 5 rep 1002 3 1003 date lt c 2013 08 01 2014 01 01 20

apachespark PySpark apachesparksql sparkr

如何使用 SparkR 计算数据框每列的缺失值数量？

我正在处理一个 2 5 GB 的 csv 文件其中包含 110 万行和 1000 个似乎稀疏的数字列我目前在具有 8 GB RAM 的 1 核 VM 上执行 Spark 数据已分为 16 个分区我尝试了类似以下的方法但需要很长时间

sparkr

sql Sparklyr Sparkr Databricks 上的数据帧转换

我在使用以下代码创建的数据块上有 sql 表 sql CREATE TABLE data USING CSV OPTIONS header true inferSchema true LOCATION url data csv 以下代码分别

r sparkr sparklyr Databricks

如何在sparkR中绑定两个数据框列？

如何在spark 1 4的SparkR中绑定两列dataframe 蒂亚阿伦没有办法做到这一点这是一个关于scala中的spark 1 3 的问题能够做到这一点的唯一方法是使用某种 row numbering 因为这样您就可以加入

apachespark apachesparksql sparkr

如何在sparkR中创建一个新的DataFrame

在sparkR中我有data作为数据框我可以附加一个条目data像这样 newdata lt filter data data column 1 我怎样才能附加多个假设我想附加向量中的所有元素list lt c 1 6 10 11 14

sparkr

在 databricks 笔记本中使用多个 Spark 连接

我想使用 Spark 和 Sparklyr 连接到单个 databricks R 笔记本中的两个数据库表 sc one lt spark connect method databricks tbl change db sc one firs

r apachespark Databricks sparkr sparklyr

SparkR 与 Sparklyr [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案有人对 SparkR 与 Sparklyr 的优点缺点有概述吗谷歌没有给出任何令人满意的结果而且两者看起来相当相似尝试两者 S

r apachespark sparkr sparklyr

使用 install_github 安装 SparkR 包时出错

我正在尝试使用SparkRR 中的包我有所有依赖包例如devtools Rtools exe etc 当我尝试以下命令时 install github amplab extras SparkR pkg subdir pkg 我收到以下错

r apachespark sparkr

如何运行 SparkR 的 R 脚本？

我正在从终端运行sparkR 2 0 0 并且可以运行R命令但是如何创建 r 脚本并能够在 Spark 会话中运行它 SparkR 使用标准 R 解释器因此适用相同的规则如果您想在当前会话中执行外部脚本请使用source功能 We

r apachespark sparkr

Spark DataFrame 的 SparkRcollect() 和 head() 错误：参数意味着行数不同

我从 HDFS 系统读取了 parquet 文件 path lt hdfs part 2015 AppDF lt parquetFile sqlContext path printSchema AppDF root app binary n

r apachespark parquet sparkr apachesparksql

无法在 RStudio 中启动 SparkR

经过漫长而困难的 SparkR 安装过程后我遇到了启动 SparkR 的新问题我的设置 R 3 2 0 RStudio 0 98 1103 Rtools 3 3 Spark 1 4 0 Java Version 8 SparkR 1 4

r Windows apachespark RStudio sparkr

如何最好地处理将大型本地数据帧转换为 SparkR 数据帧？

如何有效地将大型本地数据帧转换为 SparkR 数据帧在我的本地开发机器上当我尝试将其转换为 SparkR 数据帧时大约 650MB 的本地数据帧很快就会超过可用内存并且我有一台具有 40GB RAM 的开发机器 library r

r sparkr

SparkR 作业 100 分钟超时

我编写了一个有点复杂的sparkR脚本并使用spark submit运行它脚本基本上做的是逐行读取基于 hive impala parquet 的大表并生成具有相同行数的新 parquet 文件但似乎工作在大约 100 分钟后停止这

Hadoop apachespark sparkr Bigdata

无法将 R 数据帧转换为 Spark DataFrame

当我尝试使用以下方法将 R 中的本地数据帧转换为 Spark DataFrame 时 raw data lt as DataFrame sc raw data 我收到此错误 17 01 24 08 02 04 警告 RBackendHand

r sparkr

使用sparkr时我应该在工作节点上预安装cran r包吗

我想在 cran 上使用 r 包例如forecast等与sparkr并遇到以下两个问题我应该在工作节点上预安装所有这些软件包吗但是当我读spark的源码时这个文件似乎spark会自动压缩包并通过 jars或 packages将它们分

r apachespark sparkr

SparkR 1.6：使用 glm（二项式族）建模时如何预测概率

我刚刚在 CentOS 上安装了 SparkR 1 6 1 并且没有使用 hadoop 我使用离散目标值对数据进行建模的代码如下 tr is a R data frame with 104 numeric columns and one

sparkr

SparkR 收集方法因 Java 堆空间内存不足而崩溃

使用 SparkR 我尝试使用 PoC 来收集我从包含大约 4M 行的文本文件创建的 RDD 我的 Spark 集群在 Google Cloud 中运行部署了 bdutil 由 1 个主节点和 2 个工作节点组成每个节点有 15GB R

r apachespark googlehadoop sparkr

SparkR显示汉字错误

我是SparkR新手这几天遇到一个问题将包含中文字符的文件转换成SparkR后它不再正确显示像这样 city c 北京上海杭州 A lt as data frame city A city 1 北京 2 上海 3 杭州然后我

r Unicode apachespark sparkr

通过 RStudio 加载 com.databricks.spark.csv

我已经安装了Spark 1 4 0 我还安装了它的 R 包 SparkR 并且可以通过 Spark shell 和 RStudio 使用它但是有一个我无法解决的差异启动 SparkR shell 时 bin sparkR master

RStudio sparkr