Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如果为 null 则替换为 0,否则在同一列中使用默认值
在SparkR shell 1 5 0中 创建了一个示例数据集 df test lt createDataFrame sqlContext data frame mon c 1 2 3 4 5 year c 2011 2012 2013 2
r
apachespark
sparkr
获取 Spark 中组的最后一个值
我有一个 SparkR DataFrame 如下所示 Create R data frame custId lt c rep 1001 5 rep 1002 3 1003 date lt c 2013 08 01 2014 01 01 20
apachespark
PySpark
apachesparksql
sparkr
如何使用 SparkR 计算数据框每列的缺失值数量?
我正在处理一个 2 5 GB 的 csv 文件 其中包含 110 万行和 1000 个似乎稀疏的数字列 我目前在具有 8 GB RAM 的 1 核 VM 上执行 Spark 数据已分为 16 个分区 我尝试了类似以下的方法 但需要很长时间
sparkr
sql Sparklyr Sparkr Databricks 上的数据帧转换
我在使用以下代码创建的数据块上有 sql 表 sql CREATE TABLE data USING CSV OPTIONS header true inferSchema true LOCATION url data csv 以下代码分别
r
sparkr
sparklyr
Databricks
如何在sparkR中绑定两个数据框列?
如何在spark 1 4的SparkR中绑定两列dataframe 蒂亚 阿伦 没有办法做到这一点 这是一个关于scala中的spark 1 3 的问题 能够做到这一点的唯一方法是使用某种 row numbering 因为这样您就可以加入
apachespark
apachesparksql
sparkr
如何在sparkR中创建一个新的DataFrame
在sparkR中我有data作为数据框 我可以附加一个条目data像这样 newdata lt filter data data column 1 我怎样才能附加多个 假设我想附加向量中的所有元素list lt c 1 6 10 11 14
sparkr
在 databricks 笔记本中使用多个 Spark 连接
我想使用 Spark 和 Sparklyr 连接到单个 databricks R 笔记本中的两个数据库表 sc one lt spark connect method databricks tbl change db sc one firs
r
apachespark
Databricks
sparkr
sparklyr
SparkR 与 Sparklyr [关闭]
Closed 这个问题需要多问focused help closed questions 目前不接受答案 有人对 SparkR 与 Sparklyr 的优点 缺点有概述吗 谷歌没有给出任何令人满意的结果 而且两者看起来相当相似 尝试两者 S
r
apachespark
sparkr
sparklyr
使用 install_github 安装 SparkR 包时出错
我正在尝试使用SparkRR 中的包 我有所有依赖包 例如devtools Rtools exe etc 当我尝试以下命令时 install github amplab extras SparkR pkg subdir pkg 我收到以下错
r
apachespark
sparkr
如何运行 SparkR 的 R 脚本?
我正在从终端运行sparkR 2 0 0 并且可以运行R命令 但是 如何创建 r 脚本并能够在 Spark 会话中运行它 SparkR 使用标准 R 解释器 因此适用相同的规则 如果您想在当前会话中执行外部脚本 请使用source功能 We
r
apachespark
sparkr
Spark DataFrame 的 SparkRcollect() 和 head() 错误:参数意味着行数不同
我从 HDFS 系统读取了 parquet 文件 path lt hdfs part 2015 AppDF lt parquetFile sqlContext path printSchema AppDF root app binary n
r
apachespark
parquet
sparkr
apachesparksql
无法在 RStudio 中启动 SparkR
经过漫长而困难的 SparkR 安装过程后 我遇到了启动 SparkR 的新问题 我的设置 R 3 2 0 RStudio 0 98 1103 Rtools 3 3 Spark 1 4 0 Java Version 8 SparkR 1 4
r
Windows
apachespark
RStudio
sparkr
如何最好地处理将大型本地数据帧转换为 SparkR 数据帧?
如何有效地将大型本地数据帧转换为 SparkR 数据帧 在我的本地开发机器上 当我尝试将其转换为 SparkR 数据帧时 大约 650MB 的本地数据帧很快就会超过可用内存 并且我有一台具有 40GB RAM 的开发机器 library r
r
sparkr
SparkR 作业 100 分钟超时
我编写了一个有点复杂的sparkR脚本并使用spark submit运行它 脚本基本上做的是逐行读取基于 hive impala parquet 的大表 并生成具有相同行数的新 parquet 文件 但似乎工作在大约 100 分钟后停止 这
Hadoop
apachespark
sparkr
Bigdata
无法将 R 数据帧转换为 Spark DataFrame
当我尝试使用以下方法将 R 中的本地数据帧转换为 Spark DataFrame 时 raw data lt as DataFrame sc raw data 我收到此错误 17 01 24 08 02 04 警告 RBackendHand
r
sparkr
使用sparkr时我应该在工作节点上预安装cran r包吗
我想在 cran 上使用 r 包 例如forecast等与sparkr并遇到以下两个问题 我应该在工作节点上预安装所有这些软件包吗 但是当我读spark的源码时这个文件 似乎spark会自动压缩包并通过 jars或 packages将它们分
r
apachespark
sparkr
SparkR 1.6:使用 glm(二项式族)建模时如何预测概率
我刚刚在 CentOS 上安装了 SparkR 1 6 1 并且没有使用 hadoop 我使用离散 目标 值对数据进行建模的代码如下 tr is a R data frame with 104 numeric columns and one
sparkr
SparkR 收集方法因 Java 堆空间内存不足而崩溃
使用 SparkR 我尝试使用 PoC 来收集我从包含大约 4M 行的文本文件创建的 RDD 我的 Spark 集群在 Google Cloud 中运行 部署了 bdutil 由 1 个主节点和 2 个工作节点组成 每个节点有 15GB R
r
apachespark
googlehadoop
sparkr
SparkR显示汉字错误
我是SparkR新手 这几天遇到一个问题 将包含中文字符的文件转换成SparkR后 它不再正确显示 像这样 city c 北京 上海 杭州 A lt as data frame city A city 1 北京 2 上海 3 杭州 然后 我
r
Unicode
apachespark
sparkr
通过 RStudio 加载 com.databricks.spark.csv
我已经安装了Spark 1 4 0 我还安装了它的 R 包 SparkR 并且可以通过 Spark shell 和 RStudio 使用它 但是 有一个我无法解决的差异 启动 SparkR shell 时 bin sparkR master
RStudio
sparkr
1
2
»