在 data.frame 中有效地定位分组常量列

2024-04-18

如何有效地从数据框中提取分组常量列？我在下面包含了一个 plyr 实现，以精确说明我想要做的事情，但它很慢。我怎样才能尽可能高效地做到这一点？（理想情况下根本不分割数据框）。

base <- data.frame(group = 1:1000, a = sample(1000), b = sample(1000))
df <- data.frame(
  base[rep(seq_len(nrow(base)), length = 1e6), ], 
  c = runif(1e6), 
  d = runif(1e6)
)


is.constant <- function(x) length(unique(x)) == 1
constant_cols <- function(x) head(Filter(is.constant, x), 1)
system.time(constant <- ddply(df, "group", constant_cols))
#   user  system elapsed 
# 20.531   1.670  22.378 
stopifnot(identical(names(constant), c("group", "a", "b")))
stopifnot(nrow(constant) == 1000)

在我的实际用例中（ggplot2深处）可能有任意数量的常量和非常量列。示例中数据的大小大约是正确的数量级。

（编辑可能是为了解决具有相同值的连续组的问题）

我暂时提交这个答案，但我还没有完全相信自己在所有情况下它都会在组常量列中正确识别。但它肯定更快（并且可能可以改进）：

constant_cols1 <- function(df,grp){
    df <- df[order(df[,grp]),]

    #Adjust values based on max diff in data
    rle_group <- rle(df[,grp])
    vec <- rep(rep(c(0,ceiling(diff(range(df)))),
               length.out = length(rle_group$lengths)),
               times = rle_group$lengths)
    m <- matrix(vec,nrow = length(vec),ncol = ncol(df)-1)
    df_new <- df
    df_new[,-1] <- df[,-1] + m

    rles <- lapply(df_new,FUN = rle)
    nms <- names(rles)
    tmp <- sapply(rles[nms != grp],
                  FUN = function(x){identical(x$lengths,rles[[grp]]$lengths)})
    return(tmp)
}

我的基本想法是使用rle，明显地。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

DataFrame

plyr

在 data.frame 中有效地定位分组常量列的相关文章

有条件填写 pandas 数据框

我有一个数据框df列中包含浮点值A 我想添加另一列B这样 B 0 A 0 for i gt 0 B i if np isnan A i then A i else Step3 B i if abs B i 1 A i B i 1 lt 0
网页抓取（R 语言？）

我想获取中间栏中的公司名称this http www consumercomplaints in bysubcategory mobile service providers page 1 html页面以蓝色粗体书写以及登记投诉者的位置
left_join 表示列不存在，即使它存在

我想用两个不同的变量 tp join 连接两个数据框出现错误表示无法在第二个数据帧中找到变量但是当我运行函数 colnames 时会显示列名称为什么会这样呢 df new lt left join master settlemen
尝试 .Split 时出现“列必须与键长度相同”错误

下面的代码在 Python 3 8 10 中运行良好但在 Python 3 10 中无法运行知道可能是什么问题吗 import pandas as pd import requests url https coinmarketcap c
自动将变量名称添加到列表的元素[重复]

这个问题在这里已经有答案了我有一个模型列表为了使代码更易于维护因此可以方便地添加和删除模型我希望有一个地方来存储它们及其名称为此我必须解决以下命名问题上游我生成模型的方式比以下方式效率低如果是这样压缩的我会assign他
以计数矩阵作为响应的多项式

根据帮助multinom 包裹nnet 响应应该是一个因子或具有 K 列的矩阵它将被解释为每个 K 类的计数我尝试在第二种情况下使用此函数但出现错误这是我所做的示例代码 response lt matrix round runif
如何转置 R markdown 文档中的表格？

假设我打印一个名为summary table的数据框如下所示 summary table data frame a c 1 2 3 b c 11 12 13 c c 21 22 23 d c 31 32 33 e c 41 42 43 f
如何用月份的全名替换数字月份

使用 tidyverse 包将月份的列更改为完整的实际月份名称请记住尽管这些数据只有四个月但我的真实数据集包含一年中的所有实际月份我是 tidyverse 的新手 mydata lt tibble camp c Platinum 2
R 中使用 randomForest 进行内存高效预测

TL DR我想知道使用基于大型数据集数百个特征数十万行构建的随机森林模型执行批量预测的内存有效方法 Details 我正在处理一个大型数据集内存中超过 3GB 并且想要使用以下方法进行简单的二进制分类randomForest 由于我
我可以在 R 中并行读取 1 个大 CSV 文件吗？ [复制]

这个问题在这里已经有答案了我有一个很大的 csv 文件需要很长时间才能阅读我可以使用 parallel 或相关的包在 R 中并行读取此内容吗我尝试过使用 mclapply 但它不起作用根据OP的评论 fread来自data tab
用闪亮的 R 设计 DT 中的展开行按钮

我正在尝试设计 DT 中可用的展开行按钮的样式样式可用here https datatables net examples api row details html 我用于创建数据表的代码是 library DT datatable cb
根据随机选择的列生成随机天数

我有一个如下所示的数据框感谢 SO 社区在以下方面提供的帮助 df1 pd DataFrame person id 11 11 12 13 14 date birth 01 01 1961 12 30 1961 05 29 1967 01
如何使用 tidyr 将向量中字符串中的每个字符分隔到一列中

我想将向量中的每个字符串分成列但我做不到 library tidyr library dplyr df lt data frame x c abe bas dds eer df gt separate x c A B C sep 1 我想
粘贴两个 data.table 列

dt lt data table L 1 5 A letters 7 11 B letters 12 16 L A B 1 1 g l 2 2 h m 3 3 i n 4 4 j o 5 5 k p 现在我想粘贴列 A 和 B 以获得一个新
如何在knitr中安装软件包？

到目前为止我一直在使用这段代码来加载 R 包并编写 R 文件但我正在尝试使用knitr rm list ls all TRUE kpacks lt c ggplot2 install github devtools mapdata ne
访问动态创建的 Shiny 模块的返回值

我正在寻找构建一个闪亮的应用程序它动态创建返回简单表单的模块通过 callmodule 我有两个未解决的问题希望得到一些指导首先当向用户提供多个表单通过单击按钮时先前呈现的表单上的值将恢复为默认值如何停止这种行为以便值保
如何使用 grid.arrange 移动图例位置

我试图在一页中排列 4 个图将图例放在底部中心我用它来获取其中一个图的图例因为它们对于四个图来说是相同的 get legend lt function myggplot tmp lt ggplot gtable ggplot buil
如何在折线图中显示 Sep-12 格式的数据并抑制网格线和灰色背景？

我正在努力使日期格式正确数据已经是melt 格式数据中有四个变量碰巧共享相同的数据我只是想绘制一个简单的四线折线图每个变量作为一条单独的线并将 Sep 12 显示为最新数据点我正在使用旧的 ggplot 请随意我有两个问题第
svyby比例的置信区间

是否存在创建置信区间的现有函数从一个svyby比例对象在我的例子中是一个二进制项目的交叉表survey包裹我经常比较各组之间的比例如果有一个可以提取置信区间的函数使用调查函数svyciprop而不是confint 下面的示例显示
删除绘图轴值

我只是想知道是否有一种方法可以消除 r 图中的轴值分别是 x 轴或 y 轴我知道axes false将摆脱整个轴但我只想摆脱编号删除 x 轴或 y 轴上的编号 plot 1 10 xaxt n plot 1 10 yaxt n 如果

随机推荐

如何使用 javascript/jquery 设置 asp 面板元素可见/隐藏

我有一个asp Panel我的页面上的元素我可以在后面的代码中设置其可见性但我还需要通过 javascipt 隐藏它 My panel定义如下
使用 docker-client api 将镜像推送到 docker 注册表

在探索 docker client api java 时设置与虚拟机上运行的 docker 守护进程的连接到底需要哪些证书我在网上找到的代码 Create a client based on DOCKER HOST and DOCKER
Hibernate 单向一对多关联 - 为什么连接表更好？

在本文档中向下滚动到单向部分 http docs jboss org hibernate stable annotations reference en html single entity mapping association col
自动替换在 emacs 中输入的某些文本字符串

有一个小细节一直困扰着我一段时间即我经常打字 inclued代替 include 如果不是很明显的话我编写了大量 C 和 C 程序这个拼写错误破坏了无数的构建并消耗了本来可以用来喝咖啡或冲浪的时间当然 emacs 可以提供帮助并在我
当 ExceptionMapper 创建响应时，未遍历 RestEasy 后处理拦截器链

我正在使用 RestEasy 构建我的 Restful Web 服务我已经实现了 ExceptionMappers 来准备特定的异常响应我还实现了 MessageBodyWriterInterceptors 和几个 PostProces
EasyMock的使用方法

期望似乎对我不起作用 package com jjs caf library client drafting import static org junit Assert import org easymock EasyMock impor
用于从段落中删除所有属性的正则表达式

我知道正则表达式通常不应该用于解析 html 内容在我的特殊情况下我需要它们原因是我使用 rte 编辑器并且在粘贴到编辑器中时需要对段落属性进行一些替换我有类似的东西 p text blah blah p 我需要删除所有属性以
数组中的clear方法

我正在尝试创建一个清除方法来清除我拥有的数组我已经看到使用清除方法是我所需要的但我似乎无法使用它 list clear 我认为我必须做的 public void clear return doctors clear 顺便说一下医生是一
参数和属性之间的区别[重复]

这个问题在这里已经有答案了可能的重复 getAttribute 和 getParameter 之间的区别 https stackoverflow com questions 5243754 difference between getat
当我的 MySQL 表更新时，如何收到电子邮件？

您好我想知道 MySQL 中是否有一种方法可以在 MySQL 表中添加一行时自动向自己发送电子邮件实现这一目标的最佳方法是使用触发器和 cron 创建一个通知队列表并在将行插入所需表时使用触发器填充该表 eg CREATE TAB
如何在 R 中创建类似箱线图的分类散点图？

有谁知道如何创建散点图R创建像这样的情节these http graphpad com support faq graph tip how can i make a barcolumn graph that also shows the i
使用 zip4j 重命名 zip 中的文件

我在用着zip4j http www lingala net zip4j download php1 3 1 在我的应用程序中压缩文件现在我尝试重命名 zip 内的文件而不必重命名文件本身似乎有一种方法可以做到这一点但它不起作用我
将当前日期设置为在 Bootstrap 日期选择器中选择

我在用引导日期选择器 https github com eternicode bootstrap datepicker在我的代码中如何在 JavaScript 中选择当前日期并将其显示为已选择经过研究这是我正在使用的代码但当天没有显
本地 JS 文件的 Typescript 声明文件

当我们正在转换为 Typescript 的过程中我正在尝试为工作中的 Javascript 文件添加类型但是我无法识别声明文件这是我的文件结构 js Foo js typings Foo 索引 d ts index ts 包 jso
Symfony 4：JWT 和 Behat 的测试数据库

我将 API Platform 2 1 与 Symfony 4 结合使用并使用 LexikJWTAuthenticationBundle 进行身份验证并使用 Behat 进行测试我无法正确设置这是到目前为止我的配置 Feature
将使用 FPDF php 库创建的 PDF 保存在 MySQL blob 字段中

我需要创建一个 pdf 文件fpdf http www fpdf org库并将其保存在我的 MySQL 数据库的 blob 字段中问题是当我尝试从 blob 字段检索文件并将其发送到浏览器进行下载时下载的文件已损坏并且无法正确显示如
列出本地打印机

我使用此例程列出计算机上安装的本地打印机 var p pointer hpi PRINTER INFO 2A hGlobal cardinal dwNeeded dwReturned DWORD bFlag boolean i dword
是否有一个库可以将 java 命令行选项解析为关联数组？

我需要一个可以采用以下形式的命令行选项的库java jar aaa a bbb b ccc c并返回一个数组其值可以通过以下方式访问argsArray aaa argsArray bbb etc 有一些带有示例的库可以做到这一点吗 Jav
Lucene 上打开的文件太多错误

我正在进行的项目是对一定数量的数据长文本建立索引并将它们与每个时间间隔大约 15 到 30 分钟的单词列表进行比较一段时间后比如说第 35 轮在开始索引第 36 轮的新数据集时发生了此错误 ERROR 2011 06 01
在 data.frame 中有效地定位分组常量列

如何有效地从数据框中提取分组常量列我在下面包含了一个 plyr 实现以精确说明我想要做的事情但它很慢我怎样才能尽可能高效地做到这一点理想情况下根本不分割数据框 base lt data frame group 1 1000 a s

在 data.frame 中有效地定位分组常量列

在 data.frame 中有效地定位分组常量列 的相关文章

随机推荐

热门标签

在 data.frame 中有效地定位分组常量列的相关文章