如何在sparkR中创建一个新的DataFrame

2024-03-26

在sparkR中我有data作为数据框。我可以附加一个条目data像这样：

newdata <- filter(data, data$column == 1)

我怎样才能附加多个？
假设我想附加向量中的所有元素list <- c(1,6,10,11,14) or if list是一个数据框1 6 10 11 14.

newdata <- filter(data, data$column == list)

如果我这样做，我会收到错误。

如果您最终尝试通过唯一值列表过滤 Spark DataFrame，您可以使用merge手术。如果您正在谈论从长数据格式到宽数据格式，您需要确保您正在考虑的因子变量的每个“级别”都有相同数量的观察值。如果要按列对 Spark 数据帧进行子集化，您还可以使用 select 语句，或者通过将 data$blah 粘贴到中来构建 select 语句，然后执行以下操作eval(parse(text=bigTextObject))正如@Wannes所建议的。也许是一个产生大的函数select语句是您想要的（如果您按列名称过滤）...amerge如果您尝试从单个列中提取值，这就是您想要的。

据我了解，似乎您想要获取一个包含大量列的大型 Spark DataFrame，并且只获取您感兴趣的列，如下所示list在你的问题中。

这是一个产生火花的小函数select陈述：

list<- c(1,2,5,8,90,200)
listWithDataPrePended<- paste0('data', '$', list)
gettingCloser<- noquote(paste0(listWithDataPrePended, collapse = ','))
finalSelectStatement<- noquote(paste("select(data,", gettingCloser, ")"))
finalData<- eval(parse(text=finalSelectStatement))
finalData<- SparkR::collect(finalData)

也许这就是您正在寻找的……也许不是。尽管如此，我希望它有所帮助。

祝你好运，内特

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

sparkr

如何在sparkR中创建一个新的DataFrame 的相关文章

在 Spark 中将日期转换为月底

我有一个 Spark DataFrame 如下所示 Create DataFrame df lt data frame name c Thomas William Bill John dates c 2017 01 05 2017 02 2
RStudio 中的 SparkR.init(master="local") 中的 SparkR 错误

我已将 Spark 发行版中的 SparkR 包安装到 R 库中我可以调用以下命令它似乎工作正常 library SparkR 但是当我尝试使用以下代码获取 Spark 上下文时 sc lt sparkR init master lo
Sparklyr：如何根据列将 Spark 表居中？

我有一个 Spark 表 simx x0 num 1 00 2 00 3 00 x1 num 2 00 3 00 4 00 x788 num 2 00 3 00 4 00 和一个名为simX tbl在连接到此的 R 环境中simx tabl
SparkR的安装

我有最新版本的 R 3 2 1 现在我想在 R 上安装 SparkR 执行后 gt install packages SparkR 我回来了 Installing package into home user R x86 64 pc lin
Sparkr 将 DF 写入文件 csv/txt

你好我正在纱线模式下开发 SparkR 我需要将 Sparkr df 写入 csv txt 文件我看到有write df但它会写入镶木地板文件我尝试做这些事情 RdataFrame lt collect SparkRDF write
如何使用 Jupyter + SparkR 和自定义 R 安装

我正在使用 Dockerized 映像和 Jupyter Notebook 以及 SparkR 内核当我创建 SparkR 笔记本时它使用 Microsoft R 3 3 2 安装而不是普通的 CRAN R 安装 3 2 3 我使用的
通过 RStudio 加载 com.databricks.spark.csv

我已经安装了Spark 1 4 0 我还安装了它的 R 包 SparkR 并且可以通过 Spark shell 和 RStudio 使用它但是有一个我无法解决的差异启动 SparkR shell 时 bin sparkR master
SparkR 收集方法因 Java 堆空间内存不足而崩溃

使用 SparkR 我尝试使用 PoC 来收集我从包含大约 4M 行的文本文件创建的 RDD 我的 Spark 集群在 Google Cloud 中运行部署了 bdutil 由 1 个主节点和 2 个工作节点组成每个节点有 15GB R
SparkR 1.6：使用 glm（二项式族）建模时如何预测概率

我刚刚在 CentOS 上安装了 SparkR 1 6 1 并且没有使用 hadoop 我使用离散目标值对数据进行建模的代码如下 tr is a R data frame with 104 numeric columns and one
无法将 R 数据帧转换为 Spark DataFrame

当我尝试使用以下方法将 R 中的本地数据帧转换为 Spark DataFrame 时 raw data lt as DataFrame sc raw data 我收到此错误 17 01 24 08 02 04 警告 RBackendHand
无法在 RStudio 中启动 SparkR

经过漫长而困难的 SparkR 安装过程后我遇到了启动 SparkR 的新问题我的设置 R 3 2 0 RStudio 0 98 1103 Rtools 3 3 Spark 1 4 0 Java Version 8 SparkR 1 4
Spark DataFrame 的 SparkRcollect() 和 head() 错误：参数意味着行数不同

我从 HDFS 系统读取了 parquet 文件 path lt hdfs part 2015 AppDF lt parquetFile sqlContext path printSchema AppDF root app binary n
使用 install_github 安装 SparkR 包时出错

我正在尝试使用SparkRR 中的包我有所有依赖包例如devtools Rtools exe etc 当我尝试以下命令时 install github amplab extras SparkR pkg subdir pkg 我收到以下错
SparkR 与 Sparklyr [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案有人对 SparkR 与 Sparklyr 的优点缺点有概述吗谷歌没有给出任何令人满意的结果而且两者看起来相当相似尝试两者 S
在 databricks 笔记本中使用多个 Spark 连接

我想使用 Spark 和 Sparklyr 连接到单个 databricks R 笔记本中的两个数据库表 sc one lt spark connect method databricks tbl change db sc one firs
如何在sparkR中创建一个新的DataFrame

在sparkR中我有data作为数据框我可以附加一个条目data像这样 newdata lt filter data data column 1 我怎样才能附加多个假设我想附加向量中的所有元素list lt c 1 6 10 11 14
如何在sparkR中绑定两个数据框列？

如何在spark 1 4的SparkR中绑定两列dataframe 蒂亚阿伦没有办法做到这一点这是一个关于scala中的spark 1 3 的问题能够做到这一点的唯一方法是使用某种 row numbering 因为这样您就可以加入
如何使用 SparkR 计算数据框每列的缺失值数量？

我正在处理一个 2 5 GB 的 csv 文件其中包含 110 万行和 1000 个似乎稀疏的数字列我目前在具有 8 GB RAM 的 1 核 VM 上执行 Spark 数据已分为 16 个分区我尝试了类似以下的方法但需要很长时间
获取 Spark 中组的最后一个值

我有一个 SparkR DataFrame 如下所示 Create R data frame custId lt c rep 1001 5 rep 1002 3 1003 date lt c 2013 08 01 2014 01 01 20
如果为 null 则替换为 0，否则在同一列中使用默认值

在SparkR shell 1 5 0中创建了一个示例数据集 df test lt createDataFrame sqlContext data frame mon c 1 2 3 4 5 year c 2011 2012 2013 2

随机推荐

如何从 TreeExplainer 获取 shap_values 的特征名称？

我正在做一个 shap 教程并尝试获取数据集中每个人的 shap 值 from sklearn model selection import train test split import xgboost import shap impo
Hadoop 2.2.0 配置弃用

我设置了 Hadoop 2 2 0 集群现在运行我的 java 客户端来处理数据运行我的 java 程序后我注意到输出显示如下 13 11 18 11 44 44 INFO Configuration deprecation user
理解“排序！”块

现在我有一个数组 letter a b c a b c a b b 有人可以解释一下以下返回值吗 letter sort x letter count x gt b b a c c a b b a 当你定义一个sort or sort 阻止
如何自定义 Flask admin QuerySelectMultipleField 选择？

我在用flask admin允许管理员用户访问数据库其中呈现一对多关系编辑条目时我希望下拉菜单仅显示满足条件的选项我虽然query factory可以做到这一点以下是我现在拥有的最小示例 class OneSideObj db M
如何在L2E或EF中使用外键？

我有一个User表有一个PrivilegeId外键指向aPrivilege表并且是那里的主键在Entity Framework中 VS不会生成PrivilegeId下的变量User为你它将生成一个Privilege财产和Privile
何时使用 numpy 与统计模块

在使用一些统计分析工具时我发现至少有 3 种 Python 方法可以计算平均值和标准差不包括自己动手技术 np mean np std ddof 0 或 1 statistics mean statistics pstdev 和或
如何使 Visual Studio 立即窗口提供纯字符串输出？

如果我在 Immediate 中评估生成长而复杂的字符串的内容则调试器会对 C 字符串转义中的所有内容进行编码因此我最终会得到一团乱麻 n t等等然后我必须手动修复整个文本这在以下情况下尤其令人烦恼 n 因为大多数文本编辑器无法进行
TinyXML：将文档保存为 char * 或字符串

我尝试使用 TinyXML 从内存中读取和保存而不是仅读取文件并将其保存到磁盘看来文档的解析函数可以加载一个char 但是当我完成后我需要将文档保存到 char 中有人知道这件事吗编辑打印和流媒体功能不是我想要的它们以可视格式
如何检查传递的迭代器是否是随机访问迭代器？

我有以下代码它执行一些迭代器算术 template
Damas-Hindley-Milner 类型推理算法实现

我正在寻找有关知名人士的信息Damas Hindley Milner 算法 https en wikipedia org wiki Hindley E2 80 93Milner type system为函数式语言进行类型推断尤其是有关实现
npm 错误！错误：EPERM：不允许操作，取消链接

操作系统 Windows 10 npm 版本 6 9 0 节点版本 12 4 0 我正在开发一个博览会应用程序我想在我的 expo 应用程序上安装所有软件包 npm install 但是发生了错误 17254 error Operati
Firestore 查询成本

在Firestore上我有一个社交应用程序它将每个用户存储为文档并根据一定距离内的用户进行查询例如如果用户启动了该应用程序并且 50 英里内有 1 000 个用户那么我是否需要为下载附近所有配置文件的 1000 次读取付费如
为什么此批处理脚本中的 FOR /f 循环评估空行？

我正在尝试编写一个批处理脚本该脚本获取除其他外计算机拥有的所有磁盘驱动器的列表基本代码如下所示 REM Build the list of disk drives to monitor SETLOCAL enabledelayede
如何将自定义对象传递到不同片段中的列表？

所以我有我的MainActivity其中有一个BottomNavigationView 其中有 3 个不同的选项卡当我单击它们时它们会将我重定向到 3 个不同的片段 In FragmentA我有一个RecyclerView对于项目每个
Java 线程 Random.nextLong() 返回相同的数字

我正在使用一个 OAuth 库它调用 new Random nextLong 来生成随机数但它在异步调用上生成相同的随机数我已将其范围缩小到线程 Random nextLong 以便经常返回相同的确切数字有谁知道这是否是 Java
将 OpenPGP 签名添加到已签名的文档中？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我们想要实现一个需要多人对文档进行数字签名的工作流程如果我自己的钥匙串中有多个秘密密钥我可以做一些简单的事情 gpg sign u userid1
函数不接受 1 个参数 C++

我的代码有问题因为我无法弄清楚为什么会收到错误这是代码 using namespace std void presentValue bool stringChar bool stringVal double futureValConv
如何在 Makefile.am 中指定我想要 C++0x？

目前我的项目有以下简单的树 Makefile am configure ac README src main cpp src Makefile am bin 我正在尝试遵循以下教程 http www gnu org software aut
window.onload = init(); 和有什么区别和 window.onload = init;

根据我收集的信息前者将函数返回语句的实际值分配给 onload 属性而后者分配实际函数并将在窗口加载后运行但我还是不确定感谢任何可以详细说明的人 window onload init 将 onload 事件分配给任何returne
如何在sparkR中创建一个新的DataFrame

在sparkR中我有data作为数据框我可以附加一个条目data像这样 newdata lt filter data data column 1 我怎样才能附加多个假设我想附加向量中的所有元素list lt c 1 6 10 11 14

如何在sparkR中创建一个新的DataFrame

如何在sparkR中创建一个新的DataFrame 的相关文章

随机推荐

热门标签