Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
R:如何从管道中的 Spark 连接(sparklyr)中的数据列中提取元素
我有一个数据集如下 由于数据量较大 我通过sparklyr包 所以我只能使用管道语句 pos lt str sub csj helpful 2 neg1 lt str sub csj helpful 4 csj lt csj gt muta
r
sparklyr
dplyr
使用 dplyr 填充缺失值(通过连接?)
我有一个数据框 df1 其中缺少一些值 城市 州 SiteID City StateBasedIn Lat Lon Var1 Var2 4227 Richmond KY 39 113 6 0 4987 Nashville TN 33 97
r
dplyr
tidyverse
使用此列中的数据时排除“dplyr”“mutate_at”中的列
我想重新调整所有变量 但是year and gender in a df由一个具体的year 分组依据gender set seed 1 df lt data frame gender c rep m 5 rep f 5 year rep
r
dplyr
在某些观察结果之前选择组,通过将 R 中的 var 分组与 NA 控制分开
我的样品 data structure list add structure c 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 1L 2
r
dplyr
dataTable
在过去 365 天窗口中执行运行总计的有效方法
这就是我的数据框的样子 库 数据 表 df lt fread Name EventType Date SalesAmount RunningTotal Runningtotal prior365Days John Email 1 1 201
r
vectorization
dplyr
zoo
rollapply
从虚拟变量中最简单地创建因子变量
此处问题的选定答案 使用 dplyr 创建因子变量 没有给哈德利留下深刻的印象 后续的答案并不能很好地概括我遇到的一些问题 我想知道社区是否可以通过一个更简单的示例做得更好 DATA A round runif 200 0 1 0 B c
r
dplyr
对列中的多个值使用 ifelse 语句
我有一个大约有 3000 行的表 其数据格式为 Number Type 10001 0 10005 7 10006 0 10007 14 10012 16 10022 14 10023 0 10024 0 10029 7 10035 17
r
ifstatement
dplyr
为 R 中所有列的多行创建摘要(第 90 个百分位)统计数据的新数据框
我正在开展一个学校项目 有一个包含 4 000 行的数据集 有 40 名参与者 每人大约有 100 行 我想创建一个数据集 将每个参与者的行折叠成汇总统计数据 最好是第 90 个百分位 我知道如何用 dplyr 找到平均值 Means lt
r
dplyr
percentile
R dplyr 根据多个选定列的条件过滤行
我有一个数据框DF 我想根据几个选定列的条件对其进行过滤 例如 我想过滤 DF 中满足该行包含任何值的条件的行小于0 03在列中PCS AB PCS AD PCS BD DF lt cbind data frame A c 100 10 1
r
filter
dplyr
使用 mutate_at 用列名更新单元格值
我正在处理调查数据 有些问题要求参与者检查所有适用于他们的选项 在我当前拥有的数据框中 每个可能的响应都有一列 如果参与者选择了该选项 则记录值为 1 例如 对于问题 您在工作中经历过以下哪种情绪 使用选项 无聊 压力 满足 我的数据框将如
r
dplyr
将中间输出分配给临时变量作为 dplyr 管道的一部分
问 在 R dplyr 管道中 如何将一些中间输出分配给临时变量以便在管道中进一步使用 我下面的方法有效 但它分配到全局框架中 这是不可取的 一定有更好的方法 对吧 我认为涉及注释行的方法会得到预期的结果 没有骰子 很困惑为什么这不起作用
r
dplyr
pipeline
使用 df2 的日期时间中 df1 的“小时”和“分钟”的条件合并 2 个数据帧
我有一个数据框df sample像这样 id lt c A A A A A A A A A A A date lt c 2018 11 12 2018 11 12 2018 11 12 2018 11 12 2018 11 12 2018
r
DataFrame
dplyr
dataTable
nonequijoin
R中按组删除异常值
在我的数据集中 我必须分别删除每个组的异常值 这是我的数据集 vpg structure list customer c 1L 1L 1L 1L 2L 2L 2L 2L 1L 1L 1L 1L 2L 2L 2L 2L code c 2L 2
r
DataFrame
dplyr
Sparklyr:如何将列表列分解为 Spark 表中自己的列?
我的问题与中的问题类似here 但我在实现答案时遇到问题 并且我无法在该线程中发表评论 因此 我有一个包含嵌套数据的大 CSV 文件 其中包含由空格分隔的 2 列 假设第一列是 Y 第二列是 X X 列本身也是一个逗号分隔值 21 66 2
r
apachespark
dplyr
tidyr
sparklyr
动态选择group_by的多列
当存在多个分组变量时 group by 的数据屏蔽不起作用 粘贴下面的代码 grpByCols lt model mpg gt group by data grpByCols grpByCols lt c model manufacture
r
dplyr
tidyeval
group_by(across(all_of(vars, YEARS))) - 按具有固定 YEAR 变量的变量进行分组
我有一些数据想总结一下 我想对所有列进行总结 并固定 年份 列 即对于一个变量我可以这样做 df gt group by LG1 YEAR gt summarise Freq n 不过我想对每个变量都进行此操作 下面的内容不能按我想要的方式
r
dplyr
将 dplyr SE 与 ggplot2 结合使用
我经常结合dplyr with ggplot2在包装函数中进行分析 当我转向 v 0 7 1 的新 NSE SE 范例时tidyeval 我正在努力让这个组合发挥作用 我找到ggplot 还 不理解未引用的引用者 以下不起作用 exampl
r
ggplot2
dplyr
使用 dplyr 将唯一 ID 分配给组内的不同值
问题 我需要为具有两级分组的数据创建一个唯一的 ID 字段 在这里的示例代码中 它是Emp and Color ID 的结构需要如下 Emp 每个的唯一编号Color 重复的序列号Colors 这些值由句点分隔 示例数据 dat lt da
r
dplyr
根据条件和分组更新列
我的数据是 Prod Vend Capac Dema Price p1 v2 2 6 1 p1 v1 3 6 2 p1 v3 3 6 2 p2 v1 1 1 1 p2 v3 2 1 2 p2 v2 5 1 2 p3 v1 5 3 3 p3
r
dplyr
dplyr r:选择名称位于外部向量中的列[重复]
这个问题在这里已经有答案了 Purpose 我可以使用选择列dplyr条件是列名位于外部向量中 我发现一些帖子解释了如何使用名称向量对数据框进行子集化 但当向量中的某些名称在数据框中不存在时 我找不到帖子 示例数据集 library tid
r
select
dplyr
conditionalstatements
«
1 ...
35
36
37
38
39
40
41
...46
»