如何用R中的频率表获得中位数？ [复制]

2024-04-25

Problem

我改变了问题的表述，因为似乎缺乏清晰度。

所以，我们有数千家医院。他们的患者年龄在 0 岁到 100 岁之间。对于每个年龄段，他们都有一定数量的患者，例如Hospital1 有 10 名 1 岁患者、12 名 2 岁患者、0 名 100 岁患者等。

上面的数据集是一个小而简化的示例，我的实际数据集包含数千家医院和数百万患者的数据。

寻求的结果

我想知道每家医院的患者年龄中位数。

到目前为止的解决方案

展开表格，使每个患者的年龄各占一行，然后取中位数。这将导致我的表有数亿行，因此是不可取的。

library(dplyr)

## table
hospital <- c(rep(1:3, each = 10))
patient_age <- c(rep(seq(0, 90, by = 10), 3))
number_patients <- round(runif(30, 0, 100),0)
df <- bind_cols(hospital, patient_age, number_patients)
colnames(df) <- c("hospital", "patient_age", "number_patients")

## my impractical solution
df1 <- filter(df, hospital == 1)
df1a <- rep(df1$patient_age, df1$number_patients)
median(df1a)

## there's no way I can repeat this for each hospital (there are 1000s)

EDIT:

以下是计算医院平均患者年龄的方法：

df %>%
  group_by(hospital) %>%
  summarise(
    mean_age = sum(patient_age*number_patients)/sum(number_patients)
    )

或者简单地：

df %>%
  group_by(hospital) %>%
  summarise(
    mean_age = mean(rep(patient_age,number_patients))
  )

这是中位数：

df %>%
  group_by(hospital) %>%
  summarise(
    median_age = sort(rep(patient_age,number_patients))[length(rep(patient_age,number_patients))/2]
  )

在这里，我们子集sort(rep(patient_age,number_patients))其中间值，即length(rep(patient_age,number_patients))/2

EDIT 2:

或者简单地：

df %>%
  group_by(hospital) %>%
  summarise(
    median_age = median(rep(patient_age,number_patients))
  )

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

Median

frequencytable

如何用R中的频率表获得中位数？ [复制] 的相关文章

如何将带有观察计数的标签添加到 stat_summary ggplot？

我有一个数据集例如 outcome lt c rnorm 500 45 10 rnorm 250 40 12 rnorm 150 38 7 rnorm 1000 35 10 rnorm 100 30 7 group lt c rep A
如何使用 sprintf 函数在字符中添加前导“0”而不是空格？

我正在尝试使用sprintf函数为字符添加前导 0 并使所有字符长度相同然而我得到的是领先空间 My code a lt c 12 123 1234 sprintf 04s a 1 12 123 1234 我试图得到什么 1 0012 0
使用 readHTMLTable 从 https 网页读取表格

我安装了 R 3 3 1 并使用 RStudio 0 99 903 我正在尝试从以下 URL 将表格读入 R https www fantasypros com nfl rankings consensus cheatsheets php
聚合日期时间以总结在特定条件下花费的时间

我很困惑我应该如何继续我下面有一些虚拟数据 Date lt as POSIXct c 2018 03 20 11 52 25 2018 03 22 12 01 44 2018 03 20 12 05 25 2018 03 20 12 10
在函数中使用 quit/q 会导致 RStudio 出现致命错误

更多的是好奇但当你使用时q or quit在 R studio 内的函数内部它会导致致命错误如下所示但 rgui 中的相同函数会导致 R 像往常一样停止并且仅使用q 在 RStudio 中按预期关闭 R 为什么q在函数中导致 RS
为每个因素级别添加日期时间序列

我有一个带有因子列的数据框 s lt data frame id 901 910 s id lt as factor s id 我有一个日期时间序列 library lubridate start lt now as difftime 2
在 R 中导入 csv 文件时如何保留前导零？

当我写一个 csv来自 R 的文件其中我的组名称以前导零值开头前导零被保留但是当我导入 csv前导零被删除组名称被转换为整数当我导入一个组时如何保留组名称中的前导零 csvR 中的文件 Example df lt data fr
如何使用autoconf重新生成配置文件？

我使用 autoconf 重新生成配置文件它有效但是当我执行生成的配置文件时 configure 有一些错误消息例如 configure line 3713 syntax error near unexpected token bla
根据 row_number() 过滤 data.frame

更新自从提出这个问题以来 dplyr 已经更新现在按照 OP 的要求执行我正在尝试获取第二行到第七行data frame using dplyr 我正在这样做 require dplyr df lt data frame id 1 1
空间数据xyz到矩阵

我有一个大数据框 100 000 行其中包含 LON LAT VALUE 我想将其转换为矩阵 EPSG 中的坐标 3035 我使用以下命令尝试了 reshape2 包 acast df lon lat value var value 效果
在 R 中使用逻辑 grep 抓取文本

下午好谢谢你帮我解答这个问题我有兴趣抓取一组超过 5000 个 URL 的列表我使用 lapply 和 readLines 使用下面的示例代码提取这些网页的文本 multipleURL lt c http dailymed nlm n
如何从数据框中删除少于 5 个观察值的个体 [重复]

这个问题在这里已经有答案了为了澄清这个问题我将简要描述数据中的每一行data frame是一个观察值列代表与该观察值相关的变量包括观察到什么个体观察时间观察地点等我想排除过滤观察值少于 5 个的个体换句话说如果 in
通过 Shiny 中的串扰将 Plotly 与 DT 结合使用

我正在编写一个应用程序来将 csv 文件读取为闪亮的并将散点图与 DT 表链接起来我几乎遵循了 Plotly 网站上 DT 数据表上的示例 https plot ly r datatable https plot ly r datatab
如果条目出现次数少于 x 则删除数据框中的行

我有以下数据框称之为 df 它是由三个向量组成的数据框姓名年龄和邮政编码 df Name Age ZipCode 1 Joe 16 60559 2 Jim 20 60637 3 Bob 64 94127 4 Joe 23 9412
如何确定 R 包的作者？

如何确定包的作者是谁鉴于我们拥有这个广泛使用的代码库我认为参考我在分析中使用的软件是合适的有没有办法以编程方式检索作者和任何其他相关信息在伪代码中我想执行以下操作 references base 我怎样才能做到这一点为了能够引用
汇总表中各列的字符值比例

在这种数据框中 df lt data frame w1 c A A B C A w2 c C A A C C w3 c C A B C B 我需要计算所有列中字符值的列内比例有趣的是以下代码适用于大型实际数据集但对上述玩具数据会引发错
更快的 %in% 运算符

The 快速匹配 https cran r project org web packages fastmatch index html包实现了更快的版本match对于重复匹配例如在循环中 set seed 1 library fastma
手动设置scale_fill_distiller()的比例

我正在尝试制作一系列图表进行比较举例来说我想使用iris数据集来制作这样的图其中我已过滤以仅查看 setosa 物种 library ggplot2 library dplyr iris gt filter Species setos
无法部署 ShinyApp：readTableHeader 在“raw”上发现不完整的最后一行（使用默认值：en_US）

我已经拼命尝试部署我的闪亮应用程序大约一周了但不幸的是我无法停止收到以下消息 Warning message Error detecting locale Error in read table file file header head
如何绘制大时间序列（数千次给药次数/药物剂量）？

我正在尝试绘制医院中如何开出单一药物的图解在这个虚拟数据库中我在 2017 年 1 月 1 日之后遇到了 1000 名患者绘图的目的是了解该药物的给药模式在接近入院出院或患者住院期间是否更频繁高剂量给药 Get random d

随机推荐

Fortran 03/08（gfortran 编译器）中使用无限多态类型进行数组操作

我想通过以下方式实现有用的数组操作添加元素删除元素通过可分配指针二叉树结构实现不同的实现 class 特征无限多态性我使用 gfortran 5 0 应该可以处理这样的功能我需要它以免为我使用的每种类型重复相同的代码这应
如何在 Django 中创建 unique_for_field slug？

姜戈有一个日期唯一 http docs djangoproject com en dev ref models fields unique for date您可以在将 SlugField 添加到模型时设置的属性这会导致 slug 仅对于您
像在eclipse中一样关闭intellij idea中未使用的模块

据我所知目前 intellij idea 中没有任何功能可以做到这一点我不知道为什么但他们不支持这样做至少这是我通过所有研究发现的结果也许我们中的一些人用不同的方式来解决这个问题如何在 intellij 中使用多个模块在处理多
如何从 USB 加载 LUKS 密码，然后返回键盘？

我想设置一台具有全磁盘加密功能的无头 Linux Debian Wheezy PC 能够使用 USB 驱动器或通过键盘输入密码来解锁磁盘我的起点是使用 Debian 安装程序中基本的整个磁盘加密选项进行全新安装该安装程序将 boot 之
如何在 Square MockWebServer 中使用 SSL？

我尝试启用 SSLSquare 的 MockWebServer https github com square okhttp tree master mockwebserver在测试下模拟我的 Android 应用程序中的所有 Web 服务
如何使用 PowerShell 递归合并/“展平”文件夹结构

我正在寻求帮助来重组许多子文件夹中的大量文件示例来源 folderX aaa txt bbb txt folderY ccc txt folderZ ddd txt eee txt 理想结果 folderX aaa txt folderX
自上一步以来进程或线程已更改

我正在 Visual Studio 上调试一些代码此代码属于我创建的自定义会话提供程序我正在 Web 应用程序启动时对其进行调试它开始初始化我的提供程序并且在该函数上我有一个第一次成功命中的断点但是同一断点再次被击中但它有一个
带有自定义离线页面的 Angular PWA

在 Angular 8 应用程序中我想添加一个自定义离线页面只是一个简单的 html 文件我已将我的应用程序设置为 PWA 使用 angular pwa并配置了一切以便它至少在在线时顺利工作然而我很难为 PWA 用户提供更新因
unsafePerformIO 和 FFI 库初始化

我正在为 C 中的库创建一个 FFI 模块该模块希望在执行其他操作之前调用一个一次性不可重入的函数这个调用是幂等的但是有状态的所以我可以在每个 Haskell 调用中调用它但它很慢并且由于不可重入可能会导致冲突那么现在是使
允许用户在 Android 应用程序中插入图像

我的问题是如何创建 imageButton 允许用户从手机上传图像并将其作为图片配置文件插入应用程序中例如像 Whatsapp 一样它允许用户从手机中选择图像并将其设置为图片配置文件 Thanks 我的 XML 文件
为什么 Func 与 Func> 不明确？

这个问题让我很困惑所以我想我会在这里问希望 C 大师可以向我解释一下为什么这段代码会产生错误 class Program static void Main string args Foo X the error is on this
Laravel 5.3 存储和读取文件目录

目前正在尝试处理文件但很难弄清楚将它们放在哪里以及如何在列表中读回它们我尝试过将一些测试文件放入 files array dir opendir asset files open the cwd also do an err check
如何使用 pyspark 从 s3 存储桶读取 csv 文件

我正在使用 Apache Spark 3 1 0 和 Python 3 9 6 我正在尝试从 AWS S3 存储桶读取 csv 文件如下所示 spark SparkSession builder getOrCreate file s3 b
不获取AudioListenerInterruptionEnd触发器

我对 OpenAl 和 MPMoviePlayerController 的组合有疑问我在 OpenAl 设置过程中注册了 AudioInterruptionLister 当我开始播放视频时侦听器会收到 AudioListenerInte
离子 3 角度 4 动画不起作用

我有一个组件我正在尝试为手风琴列表设置动画我已经进行了所有更改例如包括import BrowserModule from angular platform browser and import BrowserAnimationsMod
std::unordered_set 迭代器遍历的复杂性

我最近玩了一个std unordered set http en cppreference com w cpp container unordered set 我怀疑我的 STL 版本会跟踪某些 FILO 数据结构看起来像列表中的非空存
Android JSON解析并存储到数据库

我正在制作一个具有数据库的应用程序现在我正在尝试从中解析数据值
Kafka Streams - 减少大型状态存储的内存占用

我有一个拓扑见下文可以读取一个非常大的主题每天超过十亿条消息这个 Kafka Streams 应用程序的内存使用量相当高我正在寻找一些关于如何减少状态存储占用空间的建议更多详细信息如下 Note 我并不是想逃避国有商店我只是认
清除给定 iOS 应用程序的 cookie

我的应用程序连接到服务器并且基于 cookie 服务器将发出不同的响应是否无法以编程方式清除cookie存储以便服务器下次联系服务器时无法识别我的应用程序据我所知清除 Settings app 中的 Cookie 仅适用于 Saf
如何用R中的频率表获得中位数？ [复制]

这个问题在这里已经有答案了 Problem 我改变了问题的表述因为似乎缺乏清晰度所以我们有数千家医院他们的患者年龄在 0 岁到 100 岁之间对于每个年龄段他们都有一定数量的患者例如Hospital1 有 10 名 1 岁患者

如何用R中的频率表获得中位数？ [复制]

如何用R中的频率表获得中位数？ [复制] 的相关文章

随机推荐

热门标签