【统计模型】生存分析基本知识介绍

2023-11-09

目录

一、生存分析介绍

1.生存分析用途

2.传统方法在分析随访资料时的困难

(1)生存时间和生存结局都是我们关心的因素

(2)存在大量失访

(3)显然,将失访数据无论是算作死亡还是存活都不合理

3.生存分析的优劣势

(1)优势

(2)劣势

4.生存分析的主要研究内容

(1)描述生存过程(Kaplan-Meier方法)

(2)生存过程影响因素分析及结果预测(Cox回归法)

5.常用术语

(1)失效事件(Failure event)

(2)删失数据(截尾数据,Censored data)

(3)生存时间(Survival time)

(4)生存率(Survival rate)

6.生存分析方法分类

(1)参数法

(2)非参数法

(3)半参数法

二、Kaplan-Meier方法

三、Cox等比例风险模型

1.模型介绍

2.风险函数h(t)

四、加速失效模型


一、生存分析介绍

1.生存分析用途

        生存分析是一种常用于医学研究的方法,但该方法最早用于武器寿命的分析,如考虑炮弹存放一年后仍可正常使用的概率。该方法可用于其他很多领域,如:

(1)职员在公司任职的时间(员工在公司待k年的概率)

(2)产品的寿命预测(可靠性)

(3)治愈某疾病所需时间(使用药物k年后病人的存活率)

2.传统方法在分析随访资料时的困难

(1)生存时间和生存结局都是我们关心的因素

  • 除了生存结局之外,只要能让病人存活时间延长,这种药物也是有效的,即存活时间的延长也是我们关心的问题。
  • 如果将两者均作为因变量拟合多元模型,则生存时间分布不确定(肯定不呈正态分布,在不同情况下其分布规律也不同),生存结局是0-1分布,生存时间是连续型分布,将两者拟合多元模型很困难。

(2)存在大量失访

  • 失去连续(病人搬走,电话号码改变)
  • 无法观察到结局事件发生(死于其他原因)
  • 研究中止

(3)显然,将失访数据无论是算作死亡还是存活都不合理

3.生存分析的优劣势

(1)优势

        在针对总体生存时间都比较短的疾病的研究中,生存分析比考虑结局,不考虑时间因素的Logistic模型等方法的效率要高的多。

(2)劣势

        如果相应疾病的结局都非常好,比如几乎人人都可痊愈的感冒,生存分析的利用价值并不大,因为除非是特殊情况,感冒晚好两天对医生或病人来说并没有太大影响。

4.生存分析的主要研究内容

(1)描述生存过程(Kaplan-Meier方法)

  • 研究人群生存状态的规律
  • 研究生存率曲线的变动趋势
  • 是人寿保险业的基础(从加入保险开始,每年有多少理赔事件发生,公司收多少费用才能保证不赔)

(2)生存过程影响因素分析及结果预测(Cox回归法)

  • 了解哪些因素会影响生存过程
  • 对生存结局加以预测(如病人还能活多久):该方法在临床医学领域应用非常广泛

5.常用术语

(1)失效事件(Failure event)

        也被称为“死亡”事件或失败事件,表示观测到受访对象出现了我们所规定的结局。失效事件的认定是生存分析的重要环节,必须绝对准确。

        失效事件应当由研究目的而决定,并非一定是死亡(如研究灯泡寿命),而死亡也并非一定是发生了失效事件(如肺癌患者死于其他疾病)。

(2)删失数据(截尾数据,Censored data)

        终止随访不是由于失效时间发生,而是无法继续随访下去,常用符号“+”表示,如:

  • 生存但中途失访:包括拒绝访问、失去联系或中途退出试验。
  • 死于其它与研究无关的原因:如肺癌患者死于其他疾病,终止随访时间即为死亡时间。
  • 随访截止:随访研究结束时观察对象仍存活。

(3)生存时间(Survival time)

        随访观察持续的时间,按失效事件发生或失访前最后一次的随访事件记录,常用符号t表示。

        根据失效事件的定义不同,生存时间可能是各种类型的指标,甚至可能不是“时间”,如:

  • 设备从开始使用到失效的累计使用时间;
  • 汽车的累计行驶里程。

(4)生存率(Survival rate)

        生存率也称为生存函数S(t) ,指某个受访对象活过t时刻的概率,用S(t)=P(x>t) 表示,可见S(t)=1-F(t) ,其中F(t) 为生存时间的分布函数。

        根据不同研究问题定义的失效事件,生存率可以是产品有效率、可靠性等。

6.生存分析方法分类

(1)参数法

        首先要求观察的生存时间X 服从某一特定的分布,采用估计分布中参数的方法获得生存率P(X>t) 的估计值。

        生存时间的分布F(.) 可能为指数分布、weibull 分布、对数正态分布等,这些分布曲线都有相应的生存率函数形式。只需求得相应参数的估计值,即可获得P(X>t) 的估计值和曲线。

P(X>t)=1-F(t)

(2)非参数法

        实际工作中,多数生存时间的分布不符合上述常见的分布,就不宜用参数法进行分析,而应当用非参数法。

        这类方法的检验假设与以往所学的非参数法一样,原假设是两组或多组的总体生存率曲线分布相同(不论总体的分布形式和参数如何)。如检验服药组和对照组的生存曲线是否有显著差异,从而判断药物疗效。

        非参数法是生存数据的常用分析方法

(3)半参数法

        只规定了影响因素和生存状况间的关系,但是没有对事件(和风险函数h(t) )的分布情况加以限定。

        这种方法主要用于分析生存率的影响因素,属多因素生存分析方法,典型方法是Cox等比例风险模型。

二、Kaplan-Meier方法

        是最基本的一种生存分析方法,例如新药组与对照组疾病疗效的比较研究

三、Cox等比例风险模型

1.模型介绍

        Cox等比例风险模型属于半参数模型,与参数模型相比,该模型不能给出各时点的生存率,其对生存时间的分布无要求,可发掘在整个研究时段内对生存状况影响显著的因素,并估计出各因素对生存率的影响程度,因而应用范围更广。为了纪念Cox的贡献,统计学家把它称为Cox等比例风险模型(Cox回归模型)

2.风险函数h(t)

        生存到时刻t的观察对象在时刻t的瞬间死亡率称为风险函数(hazard function)。

        在比例风险模型中,假设在时点t个体出现观察结局的风险大小可以分解为两个部分:有一个基本风险量h0(t) ,代表没有任何自变量影响下的生存状况(反映病人不采取任何措施时的生存状况);第i个影响因素使得在任意一个时点t的死亡风险(风险函数值)从h0(t) 增加e(biXi) 倍,称为ht=h0(t)e(biXi)

        因此,如果在k各因素同时影响生存过程的情况下,在时点t的风险函数值就为:

上式取对数,移项得:

  • Rh(t) :k个因素影响下得新风险函数值与基本风险量之比。
  • h0(t) (基准风险函数):表示个体在时点t得基准生存状况(没有任何自变量影响下的风险函数)。
  • 两个人在某一特定时刻死亡风险比值如下:

  • bi :与以前相同,可直接理解为Xi 的回归系数;实际含义是,当变量Xi 改变一个单位时,引起的死亡风险改变倍数的自然对数值。
  • exp(bi) (相对危险度,Relative Risk):表示当变量Xi 改变一个单位时,前后两种情况下发病风险(风险函数值)之比RR=h(t,Xi+1)/h(t,Xi) ;如果RR>1则说明相应的自变量取值增加一个单位,会导致受访个体的发病/死亡风险增加若干倍;因此,RR在医学领域应用极为广泛,在该领域其使用价值高于优势比OR(odds ratio)。

四、加速失效模型

log(Z)=X'β+ε=β0+β1X1+β2X2+β3X3

其中,Z0=exp(ε) 称为基准生存时间,Z=Z0e(X'β) 。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【统计模型】生存分析基本知识介绍 的相关文章

  • 聚类算法(二)--层次聚类法

    本文主要介绍层次聚类法的基本原理 距离计算方法 算法的优缺点 以及R语言实战 一 概述 层次聚类 Hierarchical Clustering 试图在不同层次上对数据集进行划分 从而形成树形的聚类结构 数据集的划分可采用 自底向上 的聚合
  • R语言备忘录

    title dataclear rbase author MengKe date 2023 03 12 output html document 1 Load R packages library ggplot2 library tidyr
  • Navicat for MySQL客户端启动报missing required library libmysq_e.dll126 错误

    Navicat for MySQL客户端启动报missing required library libmysq e dll126 错误 是因为缺少libmysq e dll 文件所致 下载libmysq e dll 文件拷贝到到Navica
  • R语言 数据处理(一)

    数据合并 提取及降维处理 install packages dplyr 数据处理包dplyr library dplyr name1 lt c Bob Mary Jane Kim name2 lt c Bob Mary Kim Jane w
  • PCE投稿要求

    进入PCE的投稿网址 http mc manuscriptcentral com pce 查了一下 大家都建议创建ORCID号 于是按照指示创建了 蓝色笔圈起来的是一些投稿指导 于是打开Instructions Forms Instruct
  • R手册(Visualise)--GGally(ggplot2 extensions)

    本站已停止更新 查看最新内容请移至本人博客 Wilen s Blog 文章目录 GGally ggmatrix ggplot2矩阵 ggpairs ggplot2广义配对图 ggscatmat 纯粹定量变量的传统散点图矩阵 返回ggplot
  • R语言与机器学习中的回归方法学习笔记

    来源 http blog sina com cn s blog 62b37bfe0101hom5 html key word lars rpart randomForest cp svm data diabetes prune boosti
  • 第六章课后习题及答案

    第六章习题答案 转载于 https www cnblogs com hhdn archive 2007 05 27 761356 html
  • R语言中用于计算Rsquare的包rsq

    文章目录 理论介绍 线性模型情形 广义线性模型情形 函数介绍 rsq 的介绍 实例 rsq partial 的介绍 相关文献 pcor 函数介绍 vresidual 函数介绍 实例 理论介绍 线性模型情形 R squared 值范围 0 1
  • 统计学三大分布(卡方、t、F)即相应概率密度图的R语言实现

    三大统计分布 1 2 chi 2 2分布 设随机变量 X 1
  • R语言 write.xlsx() 写入同一excel,及同一sheet注意

    write xlsx x file sheetName Sheet1 col names TRUE row names TRUE append FALSE showNA TRUE 1 想要将data1写da xlsx的sheet1 data
  • 【数学建模笔记 24】数学建模的时间序列模型

    24 时间序列模型 定义 时间序列是按时间顺序排列的 随时间变化且相互关联的数据序列 分析时间序列的方法构成数据分析的一个重要领域 即时间序列分析 一个时间序列往往是以下几类变化形式的叠加 长期趋势变动 T t T t Tt 朝一定方向的变
  • 使用lattice包的bwplot函数绘制箱图比较多个模型在不同指标上的性能差异(R语言)

    使用lattice包的bwplot函数绘制箱图比较多个模型在不同指标上的性能差异 R语言 箱图是一种常用的数据可视化方法 用于表示一组数据的分布特征 包括中位数 四分位数 异常值等 在比较多个模型在多个指标上的性能差异时 箱图可以提供直观的
  • R----stringr包介绍学习

    1 stringr介绍 stringr包被定义为一致的 简单易用的字符串工具集 所有的函数和参数定义都具有一致性 比如 用相同的方法进行NA处理和0长度的向量处理 字符串处理虽然不是R语言中最主要的功能 却也是必不可少的 数据清洗 可视化等
  • 【干货】Chrome插件(扩展)开发全攻略(不点进来看看你肯定后悔)<转>

    干货 Chrome插件 扩展 开发全攻略 不点进来看看你肯定后悔 写在前面 我花了将近一个多月的时间断断续续写下这篇博文 并精心写下完整demo 写博客的辛苦大家懂的 所以转载务必保留出处 本文所有涉及到的大部分代码均在这个demo里面 h
  • 不同kNN模型在R语言中的比较

    不同kNN模型在R语言中的比较 k近邻 k Nearest Neighbors 简称kNN 是一种常见的机器学习算法 被广泛用于分类和回归问题 它基于一个简单的假设 与某个样本集中距离最近的k个样本具有相似的特征和标签 本文将探讨在R语言中
  • 14. Bayesian Networks With Examples in R的学习笔记(贝叶斯网络 bic打分相关)

    bnlearn官网推荐书目 Bayesian Networks With Examples in R 下载了英文版pdf学习了一下 书还是比较浅显易懂的 没有读多少 暂时把自己看的部分整理 翻译到这里留存 欢迎大家交流 pdf下载地址 ht
  • R语言实现推荐系统

    目录 1 理论基础 1 1 推荐系统 1 2 R语言 2 数据准备 2 1 数据获取 2 2 数据读取
  • R语言采集获取58商铺出租转让信息

    前两篇文章给我一个朋友分析出店铺商品以及地址房源信息 后来去看了下店铺房租有点贵 还是毛坯房 要自己装修 本着节约成本的原则 熬了个通宵 给他采集了一些转租商铺数据 因为数据比较多 过于先进不方便展示 我就将我爬虫程序的模版展示给大家观看
  • R语言——基本操作(二)

    目录 一 矩阵与数组 二 列表 三 数据框 四 因子 五 缺失数据 六 字符串 七 日期和时间 参考 一 矩阵与数组 matrix 创建矩阵 nrow 和 ncol 可以省略 但其值必须满足分配条件 否则会报错 只写一个值则自动分配 默认按

随机推荐

  • 非gui方式配置weblogic数据源和部署war

    weblogic配置Oracle数据源 1 编写脚本和配置文件 创建配置文件server properties domain name 7001 Domain admin url t3 localhost 7001 admin userNa
  • SpringCloud(17~21章):Alibaba入门简介、Nacos服务注册和配置中心、Sentinel实现熔断与限流、Seata处理分布式事务

    17 SpringCloud Alibaba入门简介 17 1 why会出现SpringCloud alibaba Spring Cloud Netflix项目进入维护模式 https spring io blog 2018 12 12 s
  • CUDA9.0 C++测试程序

    CUDA runtime 库 CUBLAS 库 include cuda runtime h include cublas v2 h include
  • 进程线程协程那些事儿

    转 https www cnblogs com zhang can p 7215506 html
  • python保存随机的user-agent到本地并使用

    user agent的数据使用的是github上fake useragent fake useragentgithub地址 https github com hellysmile fake useragent 数据网址 https fake
  • 【深度学习】【Atlas 200DK】YOLOv3和YOLOv5部署

    Atlas 200DK YOLOv3和YOLOv5部署 数据集介绍 开发板环境搭建 YOLOv3的部署 模型训练转换 服务器上的结果 开发板上的结果 python部署 c 部署 YOLOv5的部署 模型训练转换 服务器上的结果 开发板上的结
  • shiro拦截配置大全

    admins anon 表示该 uri 可以匿名访问 admins auth 表示该 uri 需要认证才能访问 admins authcBasic 表示该 uri 需要 httpBasic 认证 admins perms user add
  • 【文件I/O】(二)文件I/O

    文件I O 系统调用 一 文件I O基本概念 1 什么是文件I O 2 文件描述符 二 文件I O函数 head h 1 open close 打开 关闭文件 1 1open close函数API 1 2文件I O和标准I O文件打开方式对
  • [架构之路-181]-《软考-系统分析师》-19- 系统可靠性分析与设计 - 2-容错性: 软件容错技术

    目录 前言 1 9 4 软件容错技术 19 4 1 N 版本程序设计 1 与 通 常 软 件 开 发 过 程 的 区 别 2 其 他 需 要 注 意 的 问 题 19 4 2 恢复块方法 19 4 3 防卫式程序设计 预防性设计 广泛使用
  • HTML5移动开发常用meta标签

    html
  • 在IBM p6 570 LPAR之间动态切换磁盘机/光驱

    小机上的一些外设比如磁盘机和光驱平时用的不多 所以大多都是在一台小机的各LPAR之间共享使用的 这些IO设备在不同的LPAR之间使用时 只能被一个LPAR独占 所以必要的时候就必须要做切换 客户的一台p6 570 里面做了4个LPAR 需要
  • 回顾篇-mysql索引-读书笔记

    事务日志 事务日志可以帮助提高事务的效率 使用事务日志 存储引擎在修改表的数据时只需要修改其内存拷贝 再把该修改行为记录到持久在硬盘上的事务日志中 而不用每次都将修改的数据本身持久到磁盘 事务日志采用的是追加的方式 因此写日志的操作是磁盘上
  • STM32学习---时钟系统

    1 时钟树 STM32的时钟系统比较复杂 我们主要通过时钟树来了解单片机内部的时钟配置情况 时钟树可以从开发指南中找到 以f1为例 学习一下他的树 明确几个缩写定义 AHB 先进高速总线 APB1 先进设备总线1 APB2 先进设备总线2
  • ORM总结(单表,一对多,多对多)

    一 表记录的增删改查 单表操作 1 添加 时间的格式必须写成YYYY MM DD 2 删除 filter筛选多条记录 返回的是QuerySet集合对象 3 修改 这三种都是类 objects 4 查询 values是具体拿一个字段 不再拿整
  • Linux内核memcpy的不同实现

    目录 1 概述 2 高级SIMD和浮点寄存器介绍 2 NEON指令 2 1 VLDR 2 2 VLDM 2 3 VSTR 2 4 VSTM 3 ARM架构程序调用寄存器使用规则 3 1 ARM寄存器使用规则 3 2 NEON寄存器使用规则
  • 【Python】range函数

    range函数 Python3 range 函数返回的是一个可迭代对象 类型是对象 而不是列表类型 所以打印的时候不会打印列表 res range 6 print res gt gt gt range 0 6 打印出来的不是列表 Pytho
  • 2.1 主窗口

    Qt用QMainWindow和相关的类来管理主窗口 QMainWindow继承自QWidget类 以下介绍几种常用操作 1 close 关闭当前窗口 2 hide 隐藏当前窗口 相当于 setVisible false 设置窗口可见或是不可
  • CocosCreator3.0加载远程图片资源

    在微信小游戏平台 需要获取了微信头像 对于这个需求 需要这样来做 获取微信用户信息 得到微信小游戏头像的http地址 在Cocos引擎使用loadRemote来加载 这其中的问题在于 使用loadRemote加载时获得的对象和2 x的版本不
  • redis服务停止(NOAUTH Authentication required)问题处理

    redis服务停止报NOAUTH Authentication required错误 处理方法 命令处理 redis cli a 密码 p 6379 shutdown 脚本处理 进入脚本文件 stop命令增加密码 完整配置文件 bin ba
  • 【统计模型】生存分析基本知识介绍

    目录 一 生存分析介绍 1 生存分析用途 2 传统方法在分析随访资料时的困难 1 生存时间和生存结局都是我们关心的因素 2 存在大量失访 3 显然 将失访数据无论是算作死亡还是存活都不合理 3 生存分析的优劣势 1 优势 2 劣势 4 生存