在 R 中操作变量以生成新数据集

2024-03-21

我是一个相对较新的 R 用户。如果对我的数据集有任何帮助，我真的很感激。

我有一个包含 2400 万行的数据集。数据集中有 3 个变量：患者姓名、药房名称以及该次就诊时从药房领取的药物数量。

有些患者多次出现在数据集中（即他们在不同时间点从不同药房领取药物）。

数据框如下所示：

df <- data.frame(name = c("Tom", "Rob", "Tom", "Tom",  "Amy"), 
                 pharmacy = c("A", "B", "B", "B", "C"), 
                 meds = c(3, 2, 5, 8, 2))

我想根据这些数据生成一个新的数据集，其中为每位患者提供一个药房。这家药房必须是患者领取药品数量最多的药房。

例如：对于 Tom 来说，他最常去的药房是 Pharmacy B，因为他从那里购买了 13 种药物（5+8 种药物）。我想生成的数据集：

data.frame(name = c("Tom", "Rob",  "Amy"), 
           pharmacy = c("B", "B", "C"), 
           meds = c(13, 2, 2))

有人可以帮我编写代码来执行此操作吗？我尝试过R中的各种功能，例如dplyr, tidyr, aggregate()没有成功。任何帮助将不胜感激。

非常感谢

Alex

你的问题无法重现。但这里有一种解决方案：

# create reproducible example of data 
dataset1 <- data.frame( 
name = c("Tom", "Rob", "Tom", "Tom", "Amy"), 
pharmacy = c("pharmacy_A", "pharmacy_B", "pharmacy_B", "pharmacy_B", "pharmacy_C"),  
meds_count = c(3, 2, 5, 8, 2))

library(dplyr) #load dplyr

dataset2 <- dataset1 %>% group_by(name, pharmacy) %>% # group by your grouping variables
                   summarise(meds_count = sum(meds_count)) %>% # sum no. of meds by your grouping variables
                   top_n(1, meds_count) %>% # filter for only the top 1 count
                   ungroup()

结果数据框：

> dataset2
# A tibble: 3 x 3
  name  pharmacy   meds_count
  <fct> <fct>           <dbl>
1 Amy   pharmacy_C       2.00
2 Rob   pharmacy_B       2.00
3 Tom   pharmacy_B      13.0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

tidyr

在 R 中操作变量以生成新数据集的相关文章

将分类变量重新编码为二进制 (0/1)

有人可以帮助我使用ifelse 我有一个data frame dat 具有称为 Q1 的分类变量因子 dat Q1 dat Q1编码为 1 2 3 或 4 我需要创建一个新列data new1基于以下规则 if dat Q1 3 then
用plotly创建丝带

我需要在散点图上绘制加速度与英里加仑的两个斜率轻型汽车一处斜坡重型汽车一处斜坡我创建了这个 cars light lt cars log cars log log weight lt log mean cars weight car
在 ggplot2 上绘制世界地图

我一直在尝试在 ggplot2 上绘制世界地图我跟踪了电子邮件的线索带 l 的 ggplot 地图 https stackoverflow com questions 9558040 ggplot map with l但我确实遇到了同样
rollapply用于累积窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我试图弄清楚如何在数据窗口上使用 R rollapply 该窗口从数据的开头累积扩展在时间 t 滚动应用应使用 1 t
ggarrange：合并多个图

附图来自以下文章正在使用 ggarrange 合并这些图 http www sthda com english articles 24 ggpubr publication ready plots 81 ggplot2 easy way
根据特定行中的值对列重新排序。

我在数据框中有以下数据 aa bb cc 1 3 4 5 2 5 4 3 3 7 8 6 100 33 63 55 我需要根据最后一行中的值对列重新排序这种转变的结果将是 bb cc aa 1 4 5 3 2 4 3 5 3 8 6 7
在 R 中，为什么 sum 与其他方法（例如 cumsum）相比如此慢？

我正在尝试实现一个需要非常快的函数主要是因为它一遍又一遍地处理巨大的数据帧 R 总是让我感到困惑为什么它有时有点慢而有时又慢得离谱不幸的是它从来都不快不管怎样我一直认为如果可能的话当以某种方式推入 apply sapply
安装 gplots 时出错

我正在 OSX v 10 9 2 上运行 R v 3 0 3 当尝试使用以下命令在 R studio 中安装 gplots 包时出现错误 gt library gplots Error in library gplots there is
R 中的 ddply：对于每个组，查找特定变量的出现百分比

我有一个数据集其中包含两列 user type 和滞后响应时间以天为单位 user type imp date lag Consumer 20130613 1 Consumer 20130612 2 Consumer 20130611
收集四列，其中两个键中包含值

已经提出了类似的问题但它们都涉及在一个关键列中收集多个列我需要两个键中的多个列这是我的数据框 ID measure A 1 measure A 2 measure B 1 measure B 2 1 8 25 23 5 4 5 2 8
tidyverse 干扰 ggplot2 吗？无法访问map_data

在控制台中运行这些命令输出为 gt cty0 ggplot2 map data county gt library tidyverse Loading tidyverse ggplot2 Loading tidyverse tibble
如何上下移动字符串并从中删除相似的字符串？

我问了一个可能不太清楚的问题所以我尝试用一种可以理解的方式来解释它这是我的数据我的数据看起来像这样看起来像这样 V1 V2 V3 1 Q9UNZ5 Q9Y2W1 2 Q9ULV4 Q6QEF8 3 Q9UNZ5 4 Q9H6F5
R中无法连接odbc数据库

我一直在尝试使用以下命令将我公司的 DMS 连接到 RodbcConnect命令但收到以下消息 myConn lt odbcConnect NZSQL uid cejacobson pwd password Warning message
如何更改 r 中的树状图标签

我在 R 中有一个树形图它基于使用 hclust 的分层聚类我正在对不同颜色的标签进行着色但是当我尝试使用以下命令更改树图的标签集群所基于的数据帧的行时dendrogram dendrogram gt set labels dat
在 R 中使用深度网络和 MNIST 数据读取手写数字第 3 部分

我尝试编写一个基于深度网络的程序来读取手写数字我在 Youtube 上找到了一个代码 https www youtube com watch v 5bso 5X7Zu4 https www youtube com watch v 5bso
data.table 的包装函数

我有一个已经使用 data frame 上下文编写的项目为了缩短计算时间我尝试利用 data table 的速度我的方法是构造包装函数读取帧将它们转换为表进行计算然后转换回帧这是一个简单的例子 FastAgg lt func
R中使用余弦距离的层次聚类

我想通过使用余弦相似度与 R 编程语言对文档语料库进行层次聚类但出现以下错误 if is na n n gt 65536L stop 大小不能为 NA 或超过 65536 需要 TRUE FALSE 时缺少值我应该怎么办为了重现它
R：（中缀）运算符的两个定义之间的冲突：如何指定包？

在 R 中每当两个包定义相同的函数时很容易指定要使用哪个包pkg foo 但是当冲突的功能是一个时你该怎么办 infix运算符即使用定义举个例子两者ggplot2 and crayon define 有没有一种方法可以让我默认
跨类别和列自动化卡方

我有一个调查数据框其中包含几个问题列编码为 1 同意 0 不同意受访者行根据年龄年轻中年老年地区东中西等指标进行分类大约有30个类别总共 3个年龄 3个地区 2个性别 11个职业等在每个指标中类别不重叠且
RMySQL fetch - 找不到继承的方法

使用 RMySQL 我想将数据从数据库加载到 R 中的数据帧中为此我使用以下代码 R连接数据库 con lt dbConnect MySQL user root password password dbname prediction h

随机推荐

iPhone：Facebook 注销功能不起作用

我正在使用 FBConnct 实现 Facebook 集成它工作正常但是当我想要从 Facebook 注销却行不通我的代码如下 IBAction logOutbuttonPressed id sender Facebook logo
log4j 记录器消息不显示在 JBoss Web 应用程序上

我使用 Jboss 6 和我的 static Logger logger Logger getLogger Foo class 什么也不显示尝试将 log4 添加到我的项目中将其删除将 log4j 文件放在我的 main resour
如何在C#中同时播放多个声音

我希望能够同时播放多种声音我尝试使用多线程但发现它们仍然会一个接一个地播放有没有办法让他们同时玩 static void Main string args Console WriteLine Hello World Thread th
无法执行目标 org.codehaus.mojo exec-maven-plugin

我有一个问题我花了5天没有解决执行时mvn exec java它无法正确解析配置参数引发以下错误 Failed to execute goal org codehaus mojo exec maven plugin 1 1 java
安装扩展后 Visual Studio 2015 中缺少图标

我跟着创建 Visual Studio 扩展的步骤 https msdn microsoft com en us library cc138589 aspx但是在VS2015中安装扩展后 Visual Studio在菜单的工具栏中不显示任何
如何禁用从互联网到 Jelastic 节点的入口？

默认情况下在 Jelastic 中创建的每个资源都会获得一个 dns 条目并且可以通过互联网进行访问对于许多服务例如数据库我不希望出现这种行为这是默认行为这似乎很不安全我只想从我的环境中的其他服务或通过 ssh 访问这些内容
使用.net正则表达式平衡匹配捕获内部项目

我找到了有关 net 正则表达式平衡匹配的以下资源 http weblogs asp net whaggard archive 2005 02 20 377025 aspx http weblogs asp net whaggard arc
Prometheus 为每个 pod 的多个指标端点抓取配置

我们有一个 Kubernetes Pod 它提供多个指标端点 3093 metrics and 9113 metrics 但它还有一个不提供任何指标的端口 80 TL DR 是否可以只刮掉端口3093 and 9113 我们正在使用示例配置
WPF ListViewItem 颜色不正确

我设置了一个非常基本的测试来解决我在使用 Visual Studio 2012 并在 Windows 8 1 上运行的针对 NET Framework 4 的 WPF 中遇到的颜色问题问题在于 IsSelected 和 IsMouseOv
Eclipse与tomcat——eclipse修改server.xml

我在使用 tomcat 安装模式下将 tomcat 与 eclipse 结合使用我的问题是 eclipse 每次都会覆盖 tomcats server xml 并删除我的 crossContext true 元素我应该使用自定义位置
如何在 VB 6 中检查对象的类型？ - 我不想使用“TypeOf”方法

如何在 VB 6 0 中检查对象的类型我们必须修改现有代码以使用 typeof 方法是否有任何方法例如将光标移动到对象变量上或像快速监视那样可以看到其类型我知道以下方法但我不想使用它 Set fs New Scripting Fi
向 MultiIndex DataFrame 添加一个空行

正如标题所暗示的我想在我的MultiIndex DataFrame 第一级索引需要有一个定义的索引值第二级索引需要是np nan 列中的值需要是np nan 考虑以下 import pandas as pd import numpy a
PyUsb USB 条码扫描器

我正在尝试在 Ubuntu 中使用 Honeywell USB 3310g 扫描仪从条形码或 qrcode 输出字符串我有 libusb 和一个名为 Metro usb 的库 http gitorious org other metro
Scheme/Racket有枚举操作吗？

Scheme Racket 是否有相当于 Haskell 中的 a b 表示法的枚举表示法在 Haskell 中 1 5 计算结果为列表 1 2 3 4 5 for list i in range 1 6 i sequence gt li
Spark流式批量查找数据

我需要从 HDFS 上的文件查找 Spark 流作业中的一些数据该数据由批处理作业每天获取一次有没有设计模式为了这样的任务如何在执行后立即重新加载内存中的数据哈希图每日更新当查找数据时如何连续服务流作业被抓取一种可能的方
电子如何创建增量文件

I use electron builder构建我的应用程序并成功构建第一个版本其中包含三个输出 foosetup exe foo 0 0 1 full nupkg 和 RELEASES 现在我想实现自动更新并且我已经部署了后端服务通过
Scala 中语法糖的所有实例是什么？

Scala 中语法糖的所有实例是什么它们很难搜索因为大多数全部都是纯粹的符号因此在不知道概念名称的情况下很难搜索 TODO 隐式转换匿名函数的语法其他我忘记的事情 Basics a b相当于a b a b c相当于a b c 除
如何在 PHP / XAMPP 中启用 cURL

如何在 PHP 中启用 cURL On Debian http en wikipedia org wiki Debian with Apache http en wikipedia org wiki Apache HTTP Server 2
使用按钮在 Chart.js 中切换图表

我是一名初学者开发人员我一直在尝试使用 ChartJS 将一些数据显示到屏幕上我希望能够单击一个按钮来生成另一组新的数据轴我一直在尝试遵循其他堆栈溢出答案但似乎没有一个对我有用请参见下文
在 R 中操作变量以生成新数据集

我是一个相对较新的 R 用户如果对我的数据集有任何帮助我真的很感激我有一个包含 2400 万行的数据集数据集中有 3 个变量患者姓名药房名称以及该次就诊时从药房领取的药物数量有些患者多次出现在数据集中即他们在不同时间点从不同

在 R 中操作变量以生成新数据集

在 R 中操作变量以生成新数据集 的相关文章

随机推荐

热门标签

在 R 中操作变量以生成新数据集的相关文章