dplyr

R：如何从管道中的 Spark 连接（sparklyr）中的数据列中提取元素

我有一个数据集如下由于数据量较大我通过sparklyr包所以我只能使用管道语句 pos lt str sub csj helpful 2 neg1 lt str sub csj helpful 4 csj lt csj gt muta

r sparklyr dplyr

使用 dplyr 填充缺失值（通过连接？）

我有一个数据框 df1 其中缺少一些值城市州 SiteID City StateBasedIn Lat Lon Var1 Var2 4227 Richmond KY 39 113 6 0 4987 Nashville TN 33 97

r dplyr tidyverse

使用此列中的数据时排除“dplyr”“mutate_at”中的列

我想重新调整所有变量但是year and gender in a df由一个具体的year 分组依据gender set seed 1 df lt data frame gender c rep m 5 rep f 5 year rep

r dplyr

在某些观察结果之前选择组，通过将 R 中的 var 分组与 NA 控制分开

我的样品 data structure list add structure c 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 2

r dplyr dataTable

在过去 365 天窗口中执行运行总计的有效方法

这就是我的数据框的样子库数据表 df lt fread Name EventType Date SalesAmount RunningTotal Runningtotal prior365Days John Email 1 1 201

r vectorization dplyr zoo rollapply

从虚拟变量中最简单地创建因子变量

此处问题的选定答案使用 dplyr 创建因子变量没有给哈德利留下深刻的印象后续的答案并不能很好地概括我遇到的一些问题我想知道社区是否可以通过一个更简单的示例做得更好 DATA A round runif 200 0 1 0 B c

r dplyr

对列中的多个值使用 ifelse 语句

我有一个大约有 3000 行的表其数据格式为 Number Type 10001 0 10005 7 10006 0 10007 14 10012 16 10022 14 10023 0 10024 0 10029 7 10035 17

r ifstatement dplyr

为 R 中所有列的多行创建摘要（第 90 个百分位）统计数据的新数据框

我正在开展一个学校项目有一个包含 4 000 行的数据集有 40 名参与者每人大约有 100 行我想创建一个数据集将每个参与者的行折叠成汇总统计数据最好是第 90 个百分位我知道如何用 dplyr 找到平均值 Means lt

r dplyr percentile

R dplyr 根据多个选定列的条件过滤行

我有一个数据框DF 我想根据几个选定列的条件对其进行过滤例如我想过滤 DF 中满足该行包含任何值的条件的行小于0 03在列中PCS AB PCS AD PCS BD DF lt cbind data frame A c 100 10 1

r filter dplyr

使用 mutate_at 用列名更新单元格值

我正在处理调查数据有些问题要求参与者检查所有适用于他们的选项在我当前拥有的数据框中每个可能的响应都有一列如果参与者选择了该选项则记录值为 1 例如对于问题您在工作中经历过以下哪种情绪使用选项无聊压力满足我的数据框将如

r dplyr

将中间输出分配给临时变量作为 dplyr 管道的一部分

问在 R dplyr 管道中如何将一些中间输出分配给临时变量以便在管道中进一步使用我下面的方法有效但它分配到全局框架中这是不可取的一定有更好的方法对吧我认为涉及注释行的方法会得到预期的结果没有骰子很困惑为什么这不起作用

r dplyr pipeline

使用 df2 的日期时间中 df1 的“小时”和“分钟”的条件合并 2 个数据帧

我有一个数据框df sample像这样 id lt c A A A A A A A A A A A date lt c 2018 11 12 2018 11 12 2018 11 12 2018 11 12 2018 11 12 2018

r DataFrame dplyr dataTable nonequijoin

R中按组删除异常值

在我的数据集中我必须分别删除每个组的异常值这是我的数据集 vpg structure list customer c 1L 1L 1L 1L 2L 2L 2L 2L 1L 1L 1L 1L 2L 2L 2L 2L code c 2L 2

r DataFrame dplyr

Sparklyr：如何将列表列分解为 Spark 表中自己的列？

我的问题与中的问题类似here 但我在实现答案时遇到问题并且我无法在该线程中发表评论因此我有一个包含嵌套数据的大 CSV 文件其中包含由空格分隔的 2 列假设第一列是 Y 第二列是 X X 列本身也是一个逗号分隔值 21 66 2

r apachespark dplyr tidyr sparklyr

动态选择group_by的多列

当存在多个分组变量时 group by 的数据屏蔽不起作用粘贴下面的代码 grpByCols lt model mpg gt group by data grpByCols grpByCols lt c model manufacture

r dplyr tidyeval

group_by(across(all_of(vars, YEARS))) - 按具有固定 YEAR 变量的变量进行分组

我有一些数据想总结一下我想对所有列进行总结并固定年份列即对于一个变量我可以这样做 df gt group by LG1 YEAR gt summarise Freq n 不过我想对每个变量都进行此操作下面的内容不能按我想要的方式

r dplyr

将 dplyr SE 与 ggplot2 结合使用

我经常结合dplyr with ggplot2在包装函数中进行分析当我转向 v 0 7 1 的新 NSE SE 范例时tidyeval 我正在努力让这个组合发挥作用我找到ggplot 还不理解未引用的引用者以下不起作用 exampl

r ggplot2 dplyr

使用 dplyr 将唯一 ID 分配给组内的不同值

问题我需要为具有两级分组的数据创建一个唯一的 ID 字段在这里的示例代码中它是Emp and Color ID 的结构需要如下 Emp 每个的唯一编号Color 重复的序列号Colors 这些值由句点分隔示例数据 dat lt da

r dplyr

根据条件和分组更新列

我的数据是 Prod Vend Capac Dema Price p1 v2 2 6 1 p1 v1 3 6 2 p1 v3 3 6 2 p2 v1 1 1 1 p2 v3 2 1 2 p2 v2 5 1 2 p3 v1 5 3 3 p3

r dplyr

dplyr r：选择名称位于外部向量中的列[重复]

这个问题在这里已经有答案了 Purpose 我可以使用选择列dplyr条件是列名位于外部向量中我发现一些帖子解释了如何使用名称向量对数据框进行子集化但当向量中的某些名称在数据框中不存在时我找不到帖子示例数据集 library tid

r select dplyr conditionalstatements