【数据科学】肯德尔等级相关系数( Kendall's tau coefficient )

2023-11-06

在统计学中,Kendall等级相关系数,通常称为Kendall的tau系数(在希腊字母τ之后),是用于测量两个测量量之间的序数关联的统计量。甲tau蛋白测试是一种非参数假设检验用于基于所述tau蛋白系数统计依赖性。

它是衡量等级相关:数据的排序的相似度时排名由每个量。它以1938年开发的莫里斯·肯德尔命名,尽管古斯塔夫·费希纳在1897年的时间序列背景下提出了类似的措施。

直观地说,两个变量之间的Kendall相关将是高的,当观察具有类似的(或相同的为1的相关性)秩(变量内的观察,即相对位置标签:第一,第二,第三等)在两者之间变量,当观察结果与两个变量之间的排序不相似(或相关性完全不同)时,变量为低。

肯德尔都是\tau和斯皮尔曼的\rho可以表述为更一般的相关系数的特殊情况。

 

定义

令(1,  1),(2,  2),...,(n,  n)分别是联合随机变量XY的一组观察值,使得所有值(的)X_ {I})和(义})是独一无二的。任何一对观察{\ displaystyle(x_ {i},y_ {i})} 和 {\ displaystyle(x_ {j},y_ {j})},哪里 我置于<J,被认为是一致的,如果两个元件的行列(更精确地,由所述排序顺序X和由ÿ)同意:即,如果两个{\ displaystyle x_ {i}> x_ {j}} 和 {\ displaystyle y_ {i}> y_ {j}}; 或两者兼而有之{\ displaystyle x_ {i} <x_ {j}} 和{\ displaystyle y_ {i} <y_ {j}}。他们被认为是不和谐的,如果{\ displaystyle x_ {i}> x_ {j}} 和 {\ displaystyle y_ {i} <y_ {j}}; 或者如果{\ displaystyle x_ {i} <x_ {j}} 和{\ displaystyle y_ {i}> y_ {j}}。如果X_ {I} = X_ {Ĵ} 要么{\ displaystyle y_ {i} = y_ {j}},这对既不和谐也不矛盾。

肯德尔τ系数定义为:

{\ displaystyle \ tau = {\ frac {ï¼{\ text {ä¸è´å¯¹æ°}}ï¼ - ï¼{\ text {discordant pair}}}}} {nï¼n-1ï¼/ 2}}ã}

 

属性

分母是对组合的总数,所以系数一定要在范围-1≤  τ  ≤1。

  • 如果两个排名之间的一致性是完美的(即两个排名相同),则系数的值为1。
  • 如果两个排名之间的分歧是完美的(即,一个排名与另一个排名相反),则系数具有值-1。
  • 如果XY独立的,那么我们期望系数近似为零。
  • 肯德尔秩系数的显式表达式是{\ displaystyle \ tau = {\ frac {2} {n(n-1)}} \ sum _ {i <j} \ operatorname {sgn}(x_ {i} -x_ {j})\ operatorname {sgn} (Y_ {I} -y_ {Ĵ})}

 

假设检验

肯德尔秩系数通常用作统计假设检验中的检验统计量,以确定两个变量是否可被视为统计依赖性。该测试是非参数的,因为它不依赖于对X或Y的分布或(X,Y)的分布的任何假设。

在X和Y独立的零假设下,τ的采样分布具有零的预期值。精确分布不能用共同分布来表征,但可以精确计算小样本; 对于较大的样本,通常使用正态分布的近似值,均值为零和方差

{\ frac {2ï¼2n + 5ï¼} {9nï¼n-1ï¼}}

 

关系会计

一双{\ displaystyle \ {(x_ {i},y_ {i}),(x_ {j},y_ {j})\}}如果被认为是并列的X_ {I} = X_ {Ĵ} 要么 {\ displaystyle y_ {i} = y_ {j}}; 束缚既不协调也不矛盾。当数据中出现绑定对时,可以通过多种方式修改系数以使其保持在[-1,1]范围内:

Tau-a

牛头-统计测试协会的强度的的交叉表格。这两个变量都必须是有序的。Tau-a不会对关系进行任何调整。它被定义为:

\ tau _ {A} = {\ frac {n_ {c} -n_ {d}} {n_ {0}}}

其中ncndn0的定义如下一节所述。

 

Tau-b

与Tau-a不同,Tau-b统计数据可以对关系进行调整。[5] Tau-b的值范围从-1(100%负相关或完全反转)到+1(100%正相关或完全一致)。值为零表示没有关联。

Kendall Tau-b系数定义为:

\ tau _ {B} = {\ frac {n_ {c} -n_ {d}} {\ sqrt {(n_ {0} -n_ {1})(n_ {0} -n_ {2})}}}

参数:

{\ begin {aligned} n_ {0}&= n(n-1)/ 2 \\ n_ {1}&= \ sum _ {i} t_ {i}(t_ {i} -1)/ 2 \\ n_ {2}&= \ sum _ {j} u_ {j}(u_ {j} -1)/ 2 \\ n_ {c}&= {\ text {一致对数}} \\ n_ {d} &= {\ text {不一致对的数量}} \\ t_ {i}&= {\ text {} {}} {\ {​{​{​{第一个数量}} \\ u_ {j}&= {\ text {}中的绑定值数量}} j ^ {\ text {th}} {\ text {第二个数量的关系组}} \ end {aligned }}

请注意,某些统计软件包(例如SPSS)使用替代公式来提高计算效率,其中“常用”数量是一致和不一致对的两倍。

 

Tau-c 

Tau-c(也称为Stuart-Kendall Tau-c)比Tau-b更适合于基于非正方形(即矩形)列联表的数据分析。因此,如果两个变量的基础比例具有相同数量的可能值(排名前),则使用Tau-b,如果它们不同,则使用Tau-c。例如,一个变量可能在5分制(非常好,好,平均,差,非常差)上得分,而另一个可能基于更精细的10分制。

肯德尔Tau-c系数定义为:

{\ displaystyle \ tau _ {C} = {\ frac {2(n_ {c} -n_ {d})} {n ^ {2} {\ frac {(m-1)} {m}}}}}

参数:

{\ displaystyle {\ begin {aligned} n_ {c}&= {\ text {一致对数}} \\ n_ {d}&= {\ text {不和谐对数}} \\ r&= {\ text {行数}} \\ c&= {\ text {列数}} \\ m&= \ min(r,c)\ end {aligned}}}

 

算法

直接计算分子N_ {C} -n_ {d},涉及两个嵌套迭代,由以下伪代码表征:

numer := 0
for i:=2..N do
    for j:=1..(i-1) do
        numer := numer + sign(x[i] - x[j]) * sign(y[i] - y[j])
return numer

虽然快速实现,但这个算法是为O(n ^ {2})在复杂性和大样本变得非常慢。基于合并排序算法的更复杂的算法可用于计算分子O(n \ cdot \ log {n}) 时间。

首先按第一个数量排序您的数据点, X其次(在...中的关系)X)按第二数量,ÿ。通过这个初始订购,ÿ未排序,算法的核心包括计算冒泡排序将对此初始化进行排序所需的步数ÿ。增强的合并排序算法,带O(n \ log n) 复杂性,可用于计算掉期数量, S(y)的冒泡排序需要排序义}。那么分子为\ tau蛋白 计算如下:

N_ {C} -n_ {d} = N_ {0} -n_ {1} -n_ {2} + N_ {3} -2S(Y),

哪里 N_ {3} 算得像N_ {1} 和N_ {2},但关于联合关系X 和ÿ

一个归并排序划分的数据进行排序,ÿ 两个大致相等的一半,y _ {\ mathrm {left}} 和y _ {\ mathrm {right}},然后对每一半递归进行排序,然后将两个已排序的一半合并为一个完全排序的向量。数冒泡排序互换等于:

S(y)= S(y _ {\ mathrm {left}})+ S(y _ {\ mathrm {right}})+ M(Y _ {\ mathrm {left}},Y _ {\ mathrm {right}})

哪里是_ {\ mathrm {left}} 和 是_ {\ mathrm {right}} 是排序版本y _ {\ mathrm {left}} 和y _ {\ mathrm {right}},和M(\ cdot,\ cdot)表征合并操作的冒号排序交换等价物。M(\ cdot,\ cdot) 计算如下面的伪代码所示:

function M(L[1..n], R[1..m])
    i := 1
    j := 1
    nSwaps := 0
    while i <= n  and j <= m do
        if R[j] < L[i] then
            nSwaps := nSwaps + n - i + 1
            j := j + 1
        else
            i := i + 1
    return nSwaps

上述步骤的副作用是您最终得到的排序版本X 和一个排序版本ÿ。有了这些,因素T_ {I} 和U_ {}Ĵ 用来计算\ tau _ {B} 很容易在单个线性时间内通过排序数组获得。

 

参考文献:https://en.wikipedia.org/wiki/Kendall_rank_correlation_coefficient

 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【数据科学】肯德尔等级相关系数( Kendall's tau coefficient ) 的相关文章

  • MySQL Command Line 语句无效

    在cmd中输入sql语句回车后没反应 只有 gt 提示继续输入 如下图 原因 结尾未输入分号 以结束sql语句 在后面添加分号 英文输入法 即可
  • .NET开发必看资料53个+经典源码77个

    NET开发必看资料53个 经典源码77个 2012 07 01 23 12 4546人阅读 评论 1 收藏 举报 net asp net c java winform 编程 简单描述 为大家整理了下载中心 net资料 都是比较热的 好评率比
  • MIC—BIAS

    MIC BIAS为麦克的直流偏置电压 1 你说的mic bias应该说的是主板上麦克的偏置电压 偏置电压是由英文bias voltage翻译得到的 2 在电子技术课程中 我们知道 由三极管组成的放大电路能够放大一定范围的交流信号 但前提是需

随机推荐

  • 中望软件笔试

    文章目录 前言 一 判断一点是否在三角形中 题目简介 一 面积 代码实现 二 向量 代码实现 二 求矩阵中的最小步数 题目简介 代码实现 总结 前言 简单记录一下笔试情况 一 判断一点是否在三角形中 题目简介 输入四个二维坐标 前三个点表示
  • #vue# 接口封装!超详细超简单的请求接口方法

    在前端开发中 请求接口 是必不可少的一个环节 请求接口 通俗来说 就是我们通过请求服务器的数据 来达到响应式地渲染数据 那如何请求接口 才会更高效且简单呢 以下方法可以参考借鉴借鉴 一 接口文档目录位置 可以参考这个目录 进行文档的存放 二
  • C#报错: The maximum string content length quota (8192) has been exceeded while reading XML data

    C 客户端 调用别家的webservice 返回信息报错 摘取其中重要的如下 The maximum string content length quota 8192 has been exceeded while reading XML
  • MySQL索引数据结构hash解析

    Hash 对索引的key进行一次hash计算就可以定位出数据存储的位置 很多时候Hash索引要比B 树索引更高效 仅能满足 IN 不支持范围查询 哈希表这种结构适用于只有等值查询的场景 比如 Memcached 及其他一些 NoSQL 引擎
  • Jeecg-boot手把手基础部署教程(从零开始)【软件安装+环境安装idea版】

    这个是jeecg boot安装教程 现场排雷版 预计2020年4月1日完成整个部署及排雷 小白手把手专用 系统环境 x64的win10 虚拟机 virtualBox 因为紧急情况下 可以直接部署在vm主机上 基础技术要点 http jeec
  • 线程通讯(wait方法、notify方法、notifyAll方法)

    目录 1 方法介绍 2 wait使用 3 notify使用 4 notifyAll使用 5 注意事项 由于线程之间是抢占式执 的 因此线程之间执 的先后顺序难以预知 但是实际开发中有时候我们希望合理的协调多个线程之间的执 先后顺序 1 方法
  • ctfshow web2

    前言 本来是想做两道简单的ctf解压 结果写笔记的时候联想到练习使用sqlmap和sql注入getshell这两件事 因此有了这篇文章 手工注入 输入内容 打开burp抓包 直觉测试了下万能密码 能成 这里我们可以假设题目的sql语句为 w
  • linux下使用X2Go进行远程连接

    http www unixmen com x2go an open source remote desktop solution for linux About X2Go X2Go is an Open Source remote desk
  • openwrt上“DHCP packet received on ra0 which has no address”问题查找和解决

    在商场进行商业wifi布点的过程中 经常有用户反映说wifi连不上了 或者是连上了是一个叹号 分配不了IP 电脑设置了静态IP是可以接入的 check了logread发现打印里面有这么一句 DHCP packet received on r
  • 机器人学笔记(01):1.绪论

    1 机器人名称的由来 About Robot 机器人的英文名词叫Robot Robot一词最早出现在1920年捷克作家卡雷尔 卡佩克 Karel Capek 所写的一个剧本中 这个剧本的名字叫 Rossum s Universal Robo
  • 信息学奥赛一本通(c++):2024:【例4.10】末两位数

    一 题目 2024 例4 10 末两位数时间限制 1000 ms 内存限制 65536 KB 题目描述 求n个1992的乘积的末两位数是多少 输入 输入n 输出 如题述的末两位数 输入样例 3 输出样例 88 提示 数据范围 对于所有数据
  • GBase 8c 教程(十)分片基础操作

    在建表语句中加入分片操作 可以将数据以HASH分片的方式分配至每个DN节点 操作如下 1 建表 使用distribute by进行HASH分片操作 CREATE TABLE disttab c1 int c2 int c3 varchar
  • 深度学习笔记20235018

    使用深度神经网络 几十层 几百层的神经网络 从大规模数据中学习的过程就是深度学习 将输入的数据的异同点进行提取并且层层抽象 记录在神经网络的参数里就训练出来一个可以区分这些物体的深度神经网络 面向机器的知识图谱 是一个关联的知识网络 举一反
  • PCL求取三维点云模型每点曲率

    最近在做有关实验需要计算模型曲率 但是网上找了一圈也没找到满意的资料 最后发现PCL库可以很方便的求取模型中每一个点的曲率 但是我们要想将PCL库求得的曲率数据应用到自己的项目中需要将PCL库与我们的项目进行结合 并且在PCL求出曲率后存放
  • SSM框架之SpringMVC

    文章目录 SpringMVC MVC设计模式 springmvc框架 入门程序 配置前端控制器和处理器适配器 开发Handler 映射器和适配器 非注解的处理器映射器 非注解的处理器适配器 注解的处理器映射器和适配器 重点 源码分析 spr
  • 长短时记忆网络(LSTM)负荷预测项目(matlab)

    目录 1 LSTM介绍 2 数据集准备及预处理 3 LSTM模型搭建与训练 4 预测模型测试 1 LSTM介绍 长短期记忆网络 LSTM long short term memory 是 RNN 的一种变体 其核心概念在于细胞状态以及 门
  • 微信小程序宠物用品服务商城SSM-JAVA【数据库设计、论文、源码、开题报告】

    功能介绍 操作角色为管理员和用户 商家 管理员的功能为用户管理 商家管理 宠物分类管理 宠物信息管理 商品分类管理 宠物用品管理 项目类型管理 服务项目管理 宠物日志管理 订单管理等 用户的功能为购买宠物 商品 预约服务发表日志管理订单等
  • 美团西安美食部分爬虫(修改版)(python)

    美团美食 coding UTF 8 import requests import time from bs4 import BeautifulSoup import json import csv import random with op
  • 区块链100篇之fabric的网络搭建(一)

    好久没写博客了 今天开始写关于fabric相关的博客 包括网络的搭建 链码的编写以及sdk的封装 搭建网络 网络的搭建想分为三篇来写 第一篇写网络的搭建 这里是官方fabric samples的简化版 第二篇是关于yaml文件的编写 第三篇
  • 【数据科学】肯德尔等级相关系数( Kendall's tau coefficient )

    在统计学中 Kendall等级相关系数 通常称为Kendall的tau系数 在希腊字母 之后 是用于测量两个测量量之间的序数关联的统计量 甲tau蛋白测试是一种非参数假设检验用于基于所述tau蛋白系数统计依赖性 它是衡量等级相关 数据的排序