系列文章目录
实验一 R 语言数据结构、数据导入与数据处理
实验二 基本数据处理
实验三 数据可视化
实验四 数据分析
实验五 综合应用
实验数据
实验数据下载
1. hospital-data 数据集
数据是关于一些医院的基础信息,数据包含13个字段,包含的字段分别为:供应商编号、医院名、地址 1、地址2、地址3、所处城市、所处州、邮编、所处乡镇、电话、医院类型、医院所有权和是否提供急救服务。数据信息如下:
|
|
|
|
|
|
Provider Number |
供应商编号 |
Hospital Name |
医院名 |
Address 1 |
地址1 |
Address 2 |
地址2 |
Address 3 |
地址3 |
City |
所处城市 |
State |
所处州 |
ZIP Code |
邮编 |
County |
所处乡镇 |
Phone Number |
电话 |
Hospital Type |
医院类型 |
Hospital Ownership |
医院所有权 |
Emergency Services |
是否提供急救服务 |
|
|
|
|
2. death rate 数据集
选取人类死亡率数据库(HMD,2007),提供了 1951-2005 年瑞典人口信息。这是个多变量的数据集,变量描述如下表:
|
|
|
|
Year |
年份 |
Age |
年龄 |
Female_Exp |
女性生存人口数 |
Male_Exp |
男性生存人口数 |
q_female |
女性死亡率 |
q_male |
男性死亡率 |
Female_death |
女性死亡人数 |
Male_death |
男性死亡人数 |
L_female_exp |
对数女性生存人口数 |
L_male_exp |
对数男性生存人口数 |
3. outcome-of-care-measures 数据集
该数据是记录超过4000家医院关于心脏病、心力衰竭、肺炎的30天内的死亡率和重入院率。(这份数据变量解释,可参照Hospital_Revised_Flatfiles.pdf中的 Outcome of Care Measures.csv 的变量请参考第 17 页编号 19),数据信息如下:
|
|
|
|
Provider Number |
供应商编号 |
Hospital Name |
医院名 |
Address 1 |
地址1 |
Address 2 |
地址2 |
Address 3 |
地址3 |
City |
所处城市 |
State |
所处州 |
ZIP Code |
邮编 |
County |
所处乡镇 |
Phone Number |
电话 |
Hospital 30-Day Death (Mortality) Rates from Heart Attack |
医院心脏病发作30天死亡率-列出各医院的风险调整率(百分比) |
Comparison to U.S. Rate - Hospital 30-Day Death (Mortality) Rates from Heart Attack |
与美国死亡率的比较-心脏病发作的医院30天死亡率-列出医院所属的死亡率和再入院类别。数值为:优于美国全国平均值、与美国全国平均值无差异、低于美国全国平均值、病例数量太少 |
Lower Mortality Estimate - Hospital 30-Day Death (Mortality) Rates from Heart Attack |
较低的死亡率估计-心脏病发作的医院30天死亡率-列出各医院风险调整率的下限(区间估计) |
Upper Mortality Estimate - Hospital 30-Day Death (Mortality) Rates from Heart Attack |
死亡率上限估计-心脏病发作的医院30天死亡率-列出各医院风险调整率的上限(区间估计) |
Number of Patients - Hospital 30-Day Death (Mortality) Rates from Heart Attack |
患者人数-因心脏病发作住院30天死亡率-列出医院治疗心脏病发作的医疗保险患者人数 |
Footnote - Hospital 30-Day Death (Mortality) Rates from Heart Attack |
脚注-心脏病发作的医院30天死亡率-列出与医院护理的心脏病发作结果相关的适当脚注值 |
Heart Failure |
心力衰竭 |
Pneumonia |
肺炎 |
提示:以下是本篇文章正文内容
一、实验目的
在数据被组织成合适的形式后,开始使用图形探索数据,而下一步通常就是使用数值描述每个变量的分布,接下来则是两两探索所选择变量之间的关系。
- 描述性统计分析
- 频数表(列联表)
- 独立性检验
- 相关性检验
- t 检验
- 方差分析
- 组间差异的非参数检验
二、实验内容
题目1
- 通过读取“hospital-data.csv”将数据保存到 df 中,获取该数据的条数;查看数据中的前 5 条数据。
- 查看数据概况;求得邮编的范围。
- 我们默认电话号码是个数值,没有实际意义;应用 sapply 函数,通过调用用户自定义函数,返回电话号码的最大值,最小值,均值,中位数,标准差和方差。
- 利用 aggregate 求取各州的电话号码的中位数。
- 利用 by 求取各城市的电话号码的最大值和最小值;显示结果的前 3 条数据。
- 对所属州生成简单的频数统计表;并将这个频数表转化为比例值。
- 建立所属州和医院类型的二维列联表,命名为 mycontable;按列生成边际和。
- 利用 CrossTable 建立所属乡镇和是否提供急救服务字段的二维列联表,命名为 mycrosstable。
题目2
- 通过读取文件 death rate.csv 获取数据保存到 death 中,通过卡方检验来检验年龄与男性生存人口数(二级列联表)之间是否独立。
- 通过 assocstats 函数来度量年龄与男性的死亡率(二级列联表)之间的相关性。
- 计算年龄与男性的死亡率之间的 Pearson 和 Spearman 相关系数和 death 中所有变量的协方差。
题目3
通过读取文件 outcome-of-care-measures.csv 获取数据保存到 care_df 中,通过写一个名为 best 的函数,找到一个州中最好的医院,函数有两个参数,一个是有两个字母缩写的州名称,另一个是结果名称,包括(heart attack, heart failure, pneumonia),函数的返回结果为 30 天死亡率最低的医院名称。在处理排名的时候,如果出现死亡率相等的情况,将医院按照字母表顺序排序,取第一家医院。
自定义函数:best <- function(state, outcome){}。函数检查输入变量的有效性,如果输入一个无效的州名,函数停止程序,并提示”invalid state”,同样当输入的 outcome 参数有误时,提示”invalid outcome”
函数检验:best(“TX”, “heart failure”);best(“MD”, “heart attack”);best(“MD”, “pneumonia”);best(“BB”, “heart attack”);best(“NY”, “hert attack”)
三、实现过程与实验结果
题目1
1.通过读取“hospital-data.csv”将数据保存到df中,获取该数据的条数;查看数据中的前 5 条数据。
# 读取数据
df <- read.csv("R\\data\\ex4\\hospital-data.csv")
# 获取该数据的条数
nrow(df)
## [1] 4826
# 查看数据中的前5条数据
head(df, n = 5)
2.查看数据概况;求得