【R语言】实验四 数据分析

2023-11-14

系列文章目录

实验一 R 语言数据结构、数据导入与数据处理

实验二 基本数据处理

实验三 数据可视化

实验四 数据分析

实验五 综合应用


实验数据

实验数据下载

1. hospital-data 数据集
数据是关于一些医院的基础信息,数据包含13个字段,包含的字段分别为:供应商编号、医院名、地址 1、地址2、地址3、所处城市、所处州、邮编、所处乡镇、电话、医院类型、医院所有权和是否提供急救服务。数据信息如下:

Provider Number 供应商编号 Hospital Name 医院名 Address 1 地址1
Address 2 地址2 Address 3 地址3 City 所处城市
State 所处州 ZIP Code 邮编 County 所处乡镇
Phone Number 电话 Hospital Type 医院类型 Hospital Ownership 医院所有权
Emergency Services 是否提供急救服务

2. death rate 数据集
选取人类死亡率数据库(HMD,2007),提供了 1951-2005 年瑞典人口信息。这是个多变量的数据集,变量描述如下表:

Year 年份 Age 年龄
Female_Exp 女性生存人口数 Male_Exp 男性生存人口数
q_female 女性死亡率 q_male 男性死亡率
Female_death 女性死亡人数 Male_death 男性死亡人数
L_female_exp 对数女性生存人口数 L_male_exp 对数男性生存人口数

3. outcome-of-care-measures 数据集
该数据是记录超过4000家医院关于心脏病、心力衰竭、肺炎的30天内的死亡率和重入院率。(这份数据变量解释,可参照Hospital_Revised_Flatfiles.pdf中的 Outcome of Care Measures.csv 的变量请参考第 17 页编号 19),数据信息如下:

Provider Number 供应商编号 Hospital Name 医院名
Address 1 地址1 Address 2 地址2
Address 3 地址3 City 所处城市
State 所处州 ZIP Code 邮编
County 所处乡镇 Phone Number 电话
Hospital 30-Day Death (Mortality) Rates from Heart Attack 医院心脏病发作30天死亡率-列出各医院的风险调整率(百分比) Comparison to U.S. Rate - Hospital 30-Day Death (Mortality) Rates from Heart Attack 与美国死亡率的比较-心脏病发作的医院30天死亡率-列出医院所属的死亡率和再入院类别。数值为:优于美国全国平均值、与美国全国平均值无差异、低于美国全国平均值、病例数量太少
Lower Mortality Estimate - Hospital 30-Day Death (Mortality) Rates from Heart Attack 较低的死亡率估计-心脏病发作的医院30天死亡率-列出各医院风险调整率的下限(区间估计) Upper Mortality Estimate - Hospital 30-Day Death (Mortality) Rates from Heart Attack 死亡率上限估计-心脏病发作的医院30天死亡率-列出各医院风险调整率的上限(区间估计)
Number of Patients - Hospital 30-Day Death (Mortality) Rates from Heart Attack 患者人数-因心脏病发作住院30天死亡率-列出医院治疗心脏病发作的医疗保险患者人数 Footnote - Hospital 30-Day Death (Mortality) Rates from Heart Attack 脚注-心脏病发作的医院30天死亡率-列出与医院护理的心脏病发作结果相关的适当脚注值
Heart Failure 心力衰竭 Pneumonia 肺炎

提示:以下是本篇文章正文内容

一、实验目的

在数据被组织成合适的形式后,开始使用图形探索数据,而下一步通常就是使用数值描述每个变量的分布,接下来则是两两探索所选择变量之间的关系。

  1. 描述性统计分析
  2. 频数表(列联表)
  3. 独立性检验
  4. 相关性检验
  5. t 检验
  6. 方差分析
  7. 组间差异的非参数检验

二、实验内容

题目1

  1. 通过读取“hospital-data.csv”将数据保存到 df 中,获取该数据的条数;查看数据中的前 5 条数据。
  2. 查看数据概况;求得邮编的范围。
  3. 我们默认电话号码是个数值,没有实际意义;应用 sapply 函数,通过调用用户自定义函数,返回电话号码的最大值,最小值,均值,中位数,标准差和方差。
  4. 利用 aggregate 求取各州的电话号码的中位数。
  5. 利用 by 求取各城市的电话号码的最大值和最小值;显示结果的前 3 条数据。
  6. 对所属州生成简单的频数统计表;并将这个频数表转化为比例值。
  7. 建立所属州和医院类型的二维列联表,命名为 mycontable;按列生成边际和。
  8. 利用 CrossTable 建立所属乡镇和是否提供急救服务字段的二维列联表,命名为 mycrosstable。

题目2

  1. 通过读取文件 death rate.csv 获取数据保存到 death 中,通过卡方检验来检验年龄与男性生存人口数(二级列联表)之间是否独立。
  2. 通过 assocstats 函数来度量年龄与男性的死亡率(二级列联表)之间的相关性。
  3. 计算年龄与男性的死亡率之间的 Pearson 和 Spearman 相关系数和 death 中所有变量的协方差。

题目3

通过读取文件 outcome-of-care-measures.csv 获取数据保存到 care_df 中,通过写一个名为 best 的函数,找到一个州中最好的医院,函数有两个参数,一个是有两个字母缩写的州名称,另一个是结果名称,包括(heart attack, heart failure, pneumonia),函数的返回结果为 30 天死亡率最低的医院名称。在处理排名的时候,如果出现死亡率相等的情况,将医院按照字母表顺序排序,取第一家医院。

自定义函数:best <- function(state, outcome){}。函数检查输入变量的有效性,如果输入一个无效的州名,函数停止程序,并提示”invalid state”,同样当输入的 outcome 参数有误时,提示”invalid outcome”

函数检验:best(“TX”, “heart failure”);best(“MD”, “heart attack”);best(“MD”, “pneumonia”);best(“BB”, “heart attack”);best(“NY”, “hert attack”)


三、实现过程与实验结果

题目1

1.通过读取“hospital-data.csv”将数据保存到df中,获取该数据的条数;查看数据中的前 5 条数据。

# 读取数据
df <- read.csv("R\\data\\ex4\\hospital-data.csv")
# 获取该数据的条数
nrow(df)
## [1] 4826
# 查看数据中的前5条数据
head(df, n = 5)

2.查看数据概况;求得

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【R语言】实验四 数据分析 的相关文章

  • 一看就懂的网络协议五层模型(一)

    我们每天使用互联网 你是否想过 它是如何实现的 全世界几十亿台电脑 连接在一起 两两通信 上海的某一块网卡送出信号 洛杉矶的另一块网卡居然就收到了 两者实际上根本不知道对方的物理位置 你不觉得这是很神奇的事情吗 互联网的核心是一系列协议 总

随机推荐

  • 【VSCode远程调试】【Python】Linux/Ubuntu远程服务器使用plt.show()没有反应

    plt模块结合numpy数组的可视化的常见用法 import matplotlib pyplot as plt img np array 1 2 3 4 plt imshow img plt show 以上写法在linux或者ubuntu系
  • mysql重命名一个表

    使用rename table rename table table1 altered to table 这里的sql语句会将table1 altered 重命名为table rename语句还可以将表移到另一个数据库中 rename tab
  • 14. 函数返回值为引用?

    函数返回值可以是引用吗 当然可以 只是在函数返回引用的时候需要注意几点 以下给出讨论 函数在返回值的时候 会产生一个临时变量作为函数返回值的副本 而函数在返回引用的时候 不会产生副本 那么既然是引用 那么到底是引用谁呢 首先 我们知道要清楚
  • 解决dubbo注册zookepper服务IP乱入问题的三种方式

    最近做一个项目引入了dubbo zookepper的分布式服务治理框架 在应用的发布的时候出现一个怪问题 zookepper服务是起在开发服务器192 168 23 180上 本机起应用服务提供者注册到192 168 23 180上的dub
  • 第一课:k8s介绍安装

    第一课 k8s介绍安装 tags golang 2019尚硅谷 categories K8s 文章目录 第一课 k8s介绍安装 第一节 K8s发展流程 1 1 相关概念 1 2 K8s发展历史 1 3 K8s特点 1 4 课程架构 需要掌握
  • 【廖雪峰python入门笔记】list_倒序访问

    倒序访问list 我们还是用一个list按分数从高到低表示出班里的3个同学 L Adam Lisa Bart 这时 老师说 请分数最低的同学站出来 要写代码完成这个任务 我们可以先数一数这个 list 发现它包含3个元素 因此 最后一个元素
  • MySql中json类型数据的查询以及在MyBatis-Plus中的使用

    表结构和初始数据 新建表结构 CREATE TABLE json test id int NOT NULL AUTO INCREMENT roles json DEFAULT NULL COMMENT 角色 project json DEF
  • Java线程池中哪些事??

    需要提前把线程准备好 创建线程不是直接从系统申请 而是从池子里拿 等到线程不用了 也是还给池子 池子的目的是为了提高效率 线程的创建虽然比进程轻量 但是在频繁创建的情况下 开销也是不可忽略的 则希望还能进一步提高效率 那么 就需要用到线程池
  • gpio 上拉下拉

    每个gpio内部有三种状态 上拉 下拉 不拉 什么时候 需要选择上拉 下拉或不拉呢 1 如果是output 那个一般选择no pull 这样 引脚才能根据你的output数据 进行正确输出 2 如果是input 那么需要看具体应用的默认输入
  • printk函数的用法

    printk在内核源码中用来记录日志信息的函数 只能在内核源码范围内使用 用法和printf非常相似 printk函数主要做两件事情 第一件就是将信息记录到log中 而第二件事就是调用控制台驱动来将信息输出 1 日志级别 printk相比p
  • 设计模式(九)组合模式

    在数据结构中 有树这么一种结构 转换到设计模式中就是组合模式 组合模式的作用就是以统一的方式处理一组具有树形结构的对象 最典型的例子就是菜单项了 一个菜单下可能包括多个菜单项 每个菜单项都可能包含其他子菜单 下面我们来实现菜单项 由于每个菜
  • vector排序问题

    要对vector中的自定义类型进行排序 首先需要提供一个函数bool comp const Interval a const Interval b 来定义类型的排序准则 然后调用std sort intervals begin interv
  • linux下解压zip文件

    linux自带的unzip命令可以解压windows下的zip格式的压缩文件 unzip命令 语法 unzip 选项 压缩文件名 zip 各选项的含义分别为 x 文件列表 解压缩文件 但不包括指定的file文件 v 查看压缩文件目录 但不解
  • pycharm PyQt5报错 Process finished with exit code -1073740791 (0xC0000409) 解决方法

    在写python作业的时候他突然报错了 我觉得我是对的 想法没问题系列 界面也可以出来 是我想象中的样子 但是不能进行交互 所以我怀疑是环境问题或者是什么别的 反正不是我自身原因 蜜汁自信 然后我试了一下老师上课给的例子发现可以运行 我知道
  • GT1030和730哪个好?GT1030与GT730区别对比 (全文)

    对于显卡硬件厂商来说 当属NVIDIA可谓异常活跃 我们知道在游戏领域 N卡一直占据着绝大部分市场 旗下的显卡定位也非常明确 如最新的10系显卡 今年5月份NVIDIA低调发布了定位入门级显卡 GT1030 这款显卡上市之后立马引起了不少玩
  • android图片点击全屏显示,Android浏览图片,点击放大至全屏效果

    近期做一个项目类似于QQ空间 做到照片浏览的功能 对于QQ空间中点击图片放大至全屏 感觉效果非常赞 于是也做了个类似的效果 例如以下 我不知道QQ那个是怎么做的 我的思路例如以下 首先 从图片缩略界面跳转到图片详情页面 应该是从一个Acti
  • 概率论在实际生活的例子_概率论学习笔记

    一 从古典概型开始引入概率论的基本概念 古典概型 全称古典概率模型 也叫等可能模型 是人们最早研究的概率 也是学习概率论的起点 古典概型通过随机实验获得结果 而古典概率研究的问题有两个重要特点 结果有限 可能性一致 1 结果有限 指的是实验
  • C语言以字符形式读写文件

    一 字符读取函数 fgetc 一 函数介绍 fgetc 是 file get char 的缩写 意思是从指定的文件中读取一个字符 函数原型为 int fgetc FILE fp fp 为文件指针 fgetc 读取成功时返回读取到的字符 读取
  • Maven快速搭建GUI项目

    一 eclipse安装好maven插件 并将maven集成到eclipse之后 用maven的archetype 搭建好一个maven archetype queckstart项目的骨架 二 可执行jar文件分为两种 一种是可通过命令行ja
  • 【R语言】实验四 数据分析

    系列文章目录 实验一 R 语言数据结构 数据导入与数据处理 实验二 基本数据处理 实验三 数据可视化 实验四 数据分析 实验五 综合应用 实验数据 实验数据下载 1 hospital data 数据集 数据是关于一些医院的基础信息 数据包含