R中数据帧中低频数据过滤的有效方法

2023-12-01

我有一个包含几列的 data.frame，想要根据变量的组合过滤低频数据。这个例子就像性别变量中的男性/女性和胆固醇变量中的高/低。那么我的数据框将是这样的：

set.seed(123)
Sex = sample(c('Male','Female'),size = 20,replace = TRUE)
Age = sample(c('Low','High'),size = 20,replace = TRUE)
Index = 1:20
df = data.frame(index = Index,Sex=Sex,Age=Age)
df


  index    Sex  Age
1      1   Male High
2      2 Female High
3      3   Male High
4      4 Female High
5      5 Female High
6      6   Male High
7      7 Female High
8      8 Female High
9      9 Female  Low
10    10   Male  Low
11    11 Female High
12    12   Male High
13    13 Female High
14    14 Female High
15    15   Male  Low
16    16 Female  Low
17    17   Male High
18    18   Male  Low
19    19   Male  Low
20    20 Female  Low

现在我想过滤频率高于3的性别/年龄组合

table(df[,2:3])
        Age
Sex      High Low
  Female    8   3
  Male      5   4

换句话说，我想保留女性高、男性低和男性高的指数。

Notice1）我的数据框有几个变量（不像上面的例子）和2）我有not want使用任何第三个 R 包并且 3) 我希望它速度快。

这是 R 基础上的一个简单方法：

lvls <- interaction(df$Sex, df$Age)
counts <- table(lvls)
df[lvls %in% names(counts)[counts > 3], ]

#   index    Sex  Age
#1      1   Male High
#2      2 Female High
#3      3   Male High
#4      4 Female High
#5      5 Female High
#6      6   Male High
#7      7 Female High
#8      8 Female High
#10    10   Male  Low
#11    11 Female High
#12    12   Male High
#13    13 Female High
#14    14 Female High
#15    15   Male  Low
#17    17   Male High
#18    18   Male  Low
#19    19   Male  Low

如果变量数量较多，可以将它们存储在向量中：

vars <- c("Age", "Sex") # add more
lvls <- interaction(df[, vars])
counts <- table(lvls)
df[lvls %in% names(counts)[counts > 3], ]

这是第二个基本 R 方法，使用ave:

subset(df, ave(as.integer(factor(Sex)), Sex, Age, FUN = "length") > 3)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

R中数据帧中低频数据过滤的有效方法的相关文章

如果条目出现次数少于 x 则删除数据框中的行

我有以下数据框称之为 df 它是由三个向量组成的数据框姓名年龄和邮政编码 df Name Age ZipCode 1 Joe 16 60559 2 Jim 20 60637 3 Bob 64 94127 4 Joe 23 9412
如何确定 R 包的作者？

如何确定包的作者是谁鉴于我们拥有这个广泛使用的代码库我认为参考我在分析中使用的软件是合适的有没有办法以编程方式检索作者和任何其他相关信息在伪代码中我想执行以下操作 references base 我怎样才能做到这一点为了能够引用
使用 ggplot 构面时增加闪亮的绘图大小

有没有办法增加绘图窗口的大小shiny取决于在一个中使用的面的数量ggplot图也许使用垂直滚动例如使用下面的示例当输入为 A 有三个方面情节看起来不错当选项 B 选择绘图数量会增加但绘图窗口保持相同大小导致绘图太小是否有
R 编程常用工具

如果已经以不同的方式问过这个问题我深表歉意但我找不到任何达到我想要的东西我真的是从其他软件包 SPSS 开始接触 R 的当我了解真正可以做什么时我意识到我还需要其他工具这让我想到了我的问题您有哪些用于开发 R 代码的设置我
在 igraph 中为社区分配颜色

我在 igraph 中使用 fastgreedy community 检测算法在 R 中生成社区代码返回 12 个社区但是在绘图时很难识别它们因为它返回的图的颜色数量有限我怎样才能用十二种不同的颜色绘制这个图表 l2 lt layo
如何在 R 中将字符串解析为层次结构或树

有没有办法将表示组的字符串解析为 R 中的层次结构假设我的小组结构如下 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 3 1 1 3 1 1 1 3 2 1 1 3 3 1 2 1 2 1 1 2 1 1 1 2 1 2 1
如何定义“f_n-chi-square”函数并使用“uniroot”求置信区间？

I want to get a 95 confidence interval for the following question 我已经写了函数f n在我的 R 代码中我首先使用 Normal 随机采样 100 个样本然后定义函数h
合并数据框而不重复行

我想合并两个数据框但如果有多个匹配项则不想重复行相反我想总结一下那天的观察结果来自合并提取两个数据框中与指定列匹配的行并将其连接在一起如果有多个匹配项则所有可能的匹配项各贡献一行这是一些示例代码 days lt as d
按特定样本前缀对列名称向量进行子集化

假设我有一个如下所示的数据框 ca01 lt c 1 10 ca02 lt c 2 11 ca03 lt c 3 12 stuff 1 lt rep test 10 other lt rep 9 10 data lt data frame
RStudio 如何确定控制台宽度，为什么它似乎总是出错？

我刚刚发现wid lt options width在 RStudio 中它似乎是我日常控制台使用中令人烦恼的根源或者更确切地说更接近根源我应该先说一下我目前使用的是 R 3 2 2 RStudio 0 99 491 Linux M
如何绘制堆积比例图？

我有一个数据框 x lt data frame id letters 1 3 val0 1 3 val1 4 6 val2 7 9 id val0 val1 val2 1 a 1 4 7 2 b 2 5 8 3 c 3 6 9 我想绘制一个
从 df 中提取具有两列的重叠行对

我想找出这两个表之间哪些对重叠 gt dput data1 structure list Name x c MDH1 MDH1 IDH2 IDH2 IDH2 IDH2 IDH2 IDH2 IDH2 SCOALB SCOALB CSY4 CS
对 data.table 中的列表列执行操作

假设我有一个data table 例如dt lt data table foo list 1 3 4 6 bar c 2 7 如何使用 dt 框架对 foo 向量列表执行操作操作可能是将 bar 添加到 foo 返回列表 3 5 11 1
一段 R 代码会影响 foreach 输出中的随机数吗？

我使用运行模拟foreach and doParallel并与随机数名为random在代码中简而言之我模拟一个足球联赛随机生成所有比赛的获胜者以及相应的结果在dt base没有比赛进行在dt ex1 and dt ex24场比赛
如何添加链接以从我的 R闪亮应用程序在新窗口中打开 pdf 文件？

我可以使用 a 从我的 Shiny 应用程序添加到外部站点的超链接 a google href http www google com 但如何创建一个链接来打开 pdf 或类似文件看起来应该很简单但我找不到任何例子我的问题与此类似
无法更新/编辑从 R 中的包（`gratia`）导出的 ggplot2 对象

我希望我在这里遗漏了一些令人痛苦的明显的东西我希望更新例如修复标题实验室等由生成的 ggplot 对象gratia draw 不太确定为什么我无法更新该对象有一个简单的解决方案吗 devtools install github
R、Rcpp 与 Armadillo 中矩阵 rowSums() 与 colSums() 的效率

背景来自 R 编程我正在扩展到 C C 形式的编译代码Rcpp 作为循环交换以及一般的 C C 效果的实践练习我实现了 R 的等效项rowSums and colSums 矩阵的函数Rcpp 我知道它们以 Rcpp 糖的形式存在并
R中的字典数据结构

在 R 中我有例如 gt foo lt list a 1 b 2 c 3 如果我输入foo I get a 1 1 b 1 2 c 1 3 我怎样才能看透foo仅获取键列表在这种情况下 a b c R 列表可以具有命名元素因此可
Quantmod 的简单功能不再起作用

我明天要交论文我收到了一条关于 quantmod 的非常奇怪的错误消息这是我在过去几周使用这个包时从未遇到过的我无法导入特定于道琼斯指数 DJI 的数据我收到以下错误消息 getSymbols DJI src yahoo from
R 闪亮仪表板中的动态重复条件面板

我正在尝试创建一个动态条件面板所以我的条件如下在用户界面中输入 selectInput inpt Input Number seq 1 50 1 selectize FALSE 我的条件面板 UI 输入是 conditionalPane

随机推荐

从 appsettings.json 获取 ConnectionString，而不是在 .NET Core 2.0 应用程序中硬编码

我在 NET Core2 0 应用程序中有以下课程 required when local database does not exist or was deleted public class ToDoContextFactory IDe
Magento 添加新产品事件观察者

管理员添加到目录的新产品的事件观察者是什么添加或更新新产品时我需要发送请求有可用的事件观察者吗您可以使用 catalog product new action catalog product edit action catalog p
Javascript：在画布上绘制矩形在 IE 上不起作用

我有一个网络应用程序您可以在画布上绘制一个矩形我使用两个画布元素一个用于绘图时预览另一个正好位于另一个画布元素下方用于绘制我遇到的问题是在 Internet Explorer 中 canvas2 width canvas2 wid
如何通过名称访问自定义组件属性？

我有一个自定义组件里面有几个复选框和一个文本框还有一个属性变量我称之为秒来存储时间在运行时此自定义控件会多次添加到位于嵌套另外两个 TabPage 内的 TabPage 每个控件都有一个连续的名称这些名称是在运行时创建
CSS网格布局最后一项中心[重复]

这个问题在这里已经有答案了我有一个网格布局共 2 列我有5 div my 5th div来吧left我想要我的5th div to be centered 我怎样才能使用任何实现这一点网格属性我的输出这就是我要的这是我的代码
使用 mono 从 C# 调用 IronPython 对象

我有以下 IronPython 代码 class Hello def init self pass def add self x y return x y 我需要从 C 调用它我想出了以下代码 using System using Iro
我在 main.m“线程 1：信号 SIGABRT”中出现错误，如何修复此问题？

我在main m文件中的代码如下从我开始编写这个应用程序以来我根本没有改变过它 import
FOSUserBundle 或 PUGXMultiUserBundle 有两个不同的用户配置文件 (Symfony2)

我对如何解决这个问题感到怀疑我针对此问题的 Symfony2 应用程序有两个不同的配置文件分别命名为卖方和买方目标是保留有关卖方的一系列属性另一方面保留有关买方的大量属性电子邮件和密码即可我意识到让两个不同的实体
在赛普拉斯信息面板中隐藏 URL

当我运行 Cypress 测试时每次测试执行某些操作时 URL 都会显示在左侧的信息面板中不幸的是该 URL 非常长导致信息面板无法读取有没有办法隐藏URL describe Test gt it load page gt cy
PHP filter_input() 剥离外部主机上的 $_SERVER 数据，但适用于本地主机

我正在运行 apache2 服务器在其中进行本地主机测试 PHP 5 5 但我的托管提供商有 PHP 5 3 我不知道这是否是一个问题但我提一下以防万一我的问题是这样的我试图记下几个 SERVER 变量但是filter input
石头剪刀布游戏，三胜一胜怎么结束？

我正在编写一个与计算机对战的石头 Sten 布 P se 剪刀 Sax 游戏它有效但我想在两局一胜三负时打破比赛但一直循环我对编程真的很陌生所以如果代码很混乱请原谅我是瑞典人所以代码是瑞典语希望你理解如果不明白请问我这
检测到“vccorlib_lib_should_be_specified_before_msvcrt_lib_to_linker”不匹配：值“1”与 msvcrtd.lib 中的值“0”不匹配

我有一个适用于 UWP 的 C 库项目有一些C文件正在调用CPP文件中定义的C WINRT函数它已成功编译并生成库文件 LIB 我正在使用更新 1 的 Visual Studio 2015 中进行编译目标平台是 10 0 10240
ModuleNotFoundError：没有名为“惊喜”的模块

我已经在Windows10中安装了scikit surprise C Users Cosmos Lord gt pip install scikit surprise 已满足要求 c users cosmos 中的 scikit surpr
在 vim/macvim 中更改 $PATH 以便找到正确的 ruby 二进制文件

在尝试协调 ZSH 会话和 shell 的 vim macvim 访问之间的环境时 which ruby从外壳显示 HOME rvm rubies ruby 1 9 3 bin ruby 这很好而从 vim macvim 内部 which
以枚举作为参数的 Qt 信号

我正在尝试将枚举作为值传递给程序中的插槽但遇到了一些问题在我的头文件中我创建了枚举 Q ENUMS button type enum button type button back button up button down butt
使用 scipy.fftpack 进行频域滤波，ifft2 没有给出期望的结果

我试图使用以下代码简单地在频域中的灰度输入 Lena 图像上应用高斯滤波器这是我得到的错误输出 from scipy import signal from skimage io import imread import scipy fft
在 PHP 中解析 Javascript 文件以提取其中定义的数组的最佳方法

我有一个 Javascript 文件它是从旧版应用程序自动生成的其中定义了一个巨大的数组以及一些其他函数和内容此 javascript 文件对内容执行搜索但随着时间的推移它已增长到超过 2Mb 这听起来可能不多但每次您想要使用
Python：Eclipse 中 PyDev 中 sqlite3 未解决的导入错误

导入 sqlite3 生成 Unused import sqlite3 Unresolved import sqlite3 sqlite3 Found at DatabaseTests import sqlite3 然而当使用 pytho
firebase云功能是否涉及实时数据库和firestore的成本？

每当更新 Firestore 文档时我都会运行云函数该函数读取文档获取用户 ID 然后从实时数据库中获取用户令牌 ID 并发送通知因此我们在这里读取了 1 个文档以及一些与实时数据库读取相关的下载开销我的问题是如果云函数读取
R中数据帧中低频数据过滤的有效方法

我有一个包含几列的 data frame 想要根据变量的组合过滤低频数据这个例子就像性别变量中的男性女性和胆固醇变量中的高低那么我的数据框将是这样的 set seed 123 Sex sample c Male Female siz

R中数据帧中低频数据过滤的有效方法

R中数据帧中低频数据过滤的有效方法 的相关文章

随机推荐

热门标签

R中数据帧中低频数据过滤的有效方法的相关文章