【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据

2023-11-08

 

介绍:

在统计理论中,肖维勒准则(以William Chauvenet命名)是评估一组实验数据(一组异常值)是否可能是虚假的一种手段。
 

肖维勒准则背后的想法是找到一个以正态分布的均值为中心的概率带,它应该合理地包含数据集的所有n个样本。通过这样做,来自位于该概率带之外的n个样本的任何数据点可以被认为是异常值,从数据集中移除,并且可以计算基于剩余值和新样本大小的新的均值和标准偏差。

这种异常值的识别将通过找到与平均值(max)周围的概率带边界相对应的标准偏差的数量并将该值与可疑异常值与平均值之间的差值的绝对值进行比较来实现。通过样本标准差。(公式1)

公式1:

{\displaystyle D_{max}\geq {\frac {|x-\mu |}{\sigma }}}

 

解释:

  • Dmax = 允许的最大偏差,
  • | . | = 绝对值,
  • x = 怀疑异常值,
  • μ = 样本均值,
  • σ = 样本标准差.

 

 

为了被认为包括样本中的所有n个观测值,概率带(以均值为中心)必须仅考虑n-\tfrac{1}{2}样本(如果n  = 3,则在概率带中必须仅考虑2.5个样本)。

实际上我们不能有部分样本,因此n-\tfrac{1}{2}n  = 3时为2.5 )约为  n。任何小于n-\tfrac{1}{2}的东西大约是n  - 1(如果n  = 3 则为2)并且无效,因为我们想要找到包含n个观测值的概率带,而不是n  - 1个样本。简而言之,我们正在寻找概率P,等于样本中的n-\tfrac{1}{2}(公式2)。

公式2:

p=1-(\frac{1}{2}n)

解释:

  • P =以样本均值为中心的概率带,
  • n =样本量。

 

 

数量\tfrac{1}{2n}对应于由正态分布的两个尾部表示的组合概率,其落在概率带  P之外。为了找到与P相关的标准偏差水平,由于其对称性,仅需要分析正态分布的尾部之一的概率(公式3)。

公式3:

P_{Z}=\frac{1}{4n}

解释:

  • z =由正态分布的一条尾部表示的概率,
  • n =样本量。

 

 

等式1类似于Z得分方程(公式4)。

公式4:

Z=\frac{(x-\mu )}{\sigma }

解释:

  • Z = z-score,
  • x =样本值,
  • μ = 0(标准正态分布的平均值),
  • σ = 1(标准正态分布的标准偏差)。

 

基于等式4,找到max(Eq.1)在z得分表中找到对应于z的z得分。 max等于z的z分数。使用此方法可以确定任何样本大小的max。在Excel中,可以使用以下公式找到max = ABS(NORM.S.INV(1/(4n))).(NORM.S.INV函数:返回标准正态累积分布函数的反函数值。 该分布的平均值为 0,标准偏差为 1。)

 

计算:

要应用Chauvenet标准,首先要计算观察数据的平均值标准差。根据可疑数据与平均值的差异,使用正态分布函数(或其表)确定给定数据点处于可疑数据点值的概率。将此概率乘以所采用的数据点数。如果结果小于0.5,则可以丢弃可疑数据点,即,如果从均值获得特定偏差的概率小于\tfrac{1}{2n},则可以拒绝读数。

 

示例:

例如,假设在若干试验中通过实验测量值为9,10,10,10,11和50.平均值为16.7,标准偏差为16.34。50与16.7相比有33.3,稍微超过两个标准偏差。从平均值获取数据超过两个标准偏差的概率大约为0.05。进行了六次测量,因此统计值(数据大小乘以概率)为0.05×6 = 0.3。因为0.3 <0.5,根据Chauvenet的标准,应该丢弃50的测量值(留下10的新均值,标准差为0.7)。

 

缺点:

删除异常值数据是一项备受争议的做法,许多科学家和科学教师不赞成这种做法。虽然Chauvenet的标准提供了一种客观和定量的数据拒绝方法,但它并没有使这种做法在科学上或方法上更合理,特别是在小型集合或无法假定正态分布的情况下。在实践领域中,拒绝异常值是更可接受的,其中正在测量的过程的基础模型和测量误差的通常分布是确信的。

 

参考:https://en.wikipedia.org/wiki/Chauvenet%27s_criterion#Example

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据 的相关文章

  • 作为一个上班族,有哪些Python兼职项目?兼顾练手和创收?

    普通人学Python有意义吗 Python作为一种跨平台的计算机程序设计语言 近些年来越来越受到企业和IT从业者的青睐 那么 普通人是否需要学习Python呢 学会Python有什么意义呢 今天小编就和大家聊一聊这个话题 Python有效提
  • matlab 层次聚类

    MATLAB的统计工具箱中的多元统计分析中提供了聚类分析的两种方法 1 层次聚类 hierarchical clustering 2 k means聚类 这里用最简单的实例说明以下层次聚类原理和应用发法 层次聚类是基于距离的聚类方法 MAT
  • 爬虫写得好,‘劳烦’吃得饱

    前言 提起 爬虫 总有一丝神秘色彩 大家都调侃 爬虫写得好 劳烦 吃得饱 虽然是 高危职业 但在大数据横行的年代 爬虫与反爬虫的需求却在猛烈增加 他们的关系就像矛与盾 越来越多的公司造 矛 发起攻势 获取数据 又或者在造 盾 封锁信息 这种
  • 主流ETL工具汇总

    一 kettle 说明 是国外开源ETL工具 支持数据库 FTP 文件 rest接口 hdfs hive等平台的灵敏据进行抽取 转换 传输等操作 Java编写跨平台 C S架构 不支持浏览器模式 特点 易用性 有可视化设计器进行可视化操作
  • 装上这10个插件,PyCharm才是无敌的存在

    pycharm是一款强大的python集成开发环境 带有一整套python开发工具 今天就给大家介绍几款非常好用的插件 首先插件的下载方法 进入File gt Settings gt Plugins 根据需要搜索插件名称 记得是在Marke
  • Python探索性数据分析畅销书

    探索性数据分析 探索性数据分析 EDA 是一种分析和调查数据集以了解数据特征的方法 数据集 查看数据集示例 有许多与 2009 年至 2019 年在销售的畅销书的标题和作者相关的信息 除了标题和作者之外 数据中还有其他元素 例如用户评分 评
  • Neo4j 快速入门

    Neo4j 快速入门 neo4j 官方文档 https neo4j com docs neo4j 中文社区 http neo4j com cn neo4j 开发者页面 https neo4j com developer Neo4j安装 a
  • Python和OpenCV视觉图像处理

    特点 OpenCV 3 是用于计算机视觉 机器学习和图像处理的原生跨平台库 OpenCV 方便的高级 API 隐藏了非常强大的内部结构 旨在提高计算效率 可以利用多核和 GPU 处理 学习如何通过操作像素来处理图像并使用直方图分析图像 展示
  • 时间序列分析教程(二):移动平均与指数平滑

    之前介绍了时间序列的基本概念和性质 现在就正式介绍一些处理时间序列的模型方法 第一个是移动平均法 移动平均法很简单 就是用最近的数据预测未来短时间内的数据 有简单移动平均法 真的很简单 就是用最近的一组数据 去平均 作为下一时刻的预测 S
  • R语言编程 R语言作业

    一 40 分 请使用 nycflight13 回答以下问题 1 请用 flights 表单找出出发时间没有延误 但是到达时间的所有航班 2 在 1 数据的基础上计算到达每个目的地的航班数量 平均飞行距离和平 均到达延误时间 3 在 2 的基
  • Python统计模型探索性数据分析(EDA)系统(单变量-双变量-相关性-缺失值)

    单变量分析 单变量分析旨在更深入地了解单个列 它创建该列的各种统计数据和可视化 例如 要深入了解 特征 year built 要计算year built 的最小值 最大值 不同计数 中值 方差 并创建一个箱线图来检查异常值 一个正常的 Q
  • 【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据

    介绍 在统计理论中 肖维勒准则 以William Chauvenet命名 是评估一组实验数据 一组异常值 是否可能是虚假的一种手段 肖维勒准则背后的想法是找到一个以正态分布的均值为中心的概率带 它应该合理地包含数据集的所有n个样本 通过这样
  • 干预分析模型- China GDP

    干预分析模型 GDP预测 加载pandas matplotlib等包 处理时间序列 import pandas as pd import numpy as np import matplotlib pylab as plt matplotl
  • 白手起家学习数据科学 ——梯度下降法之“优化步长和随机梯度下降篇”(六)

    选择正确的步长 Choosing the Right Step Size 虽然针对梯度移动的基本原理是清楚的 但是移动多少是不清楚的 的确 选择一个合适的步长是一门艺术 流行的选择包括 使用固定的步长 随时间逐步缩小步长 在每次迭代 选择最
  • Pandas 中DataFrame的groupby()计数、groupby()取样及reset_index()的使用

    什么是groupby 以下为对DataFrame对象按A进行分组操作 图片来源 内容 目的 DataFrame对象按照指定列 LNG LAT 分组计数 并将分组计数结果 包括指定列及计数值 写入csv文件中 过程 代码一 import pa
  • 全网最新首发:Python从入门到精通的完整学习路线图【附:全套Python学习资料】

    后台有很多粉丝朋友们留言问我 Python应该怎么学 爬虫和数据分析怎么学 机器学习怎么学 其实python的门槛不是特别高 但是很多朋友感觉很迷茫 学了一段时间还是不入流 很大一部分原因是你没有一个完整的知识体系 你不知道自己现在的进度
  • pandas学习笔记--取表格中特定行或列或特定位置元素

    先生成一个演示dataframe df pd DataFrame np random randn 5 5 columns A B C D E index a b c d e df 取前两行 df 0 2 取后两行 df 2 取倒数第二行 d
  • 互联网行业潜规则:宁花11k招新人,不花9k留老人

    最近一位互联网从业者发出这样的感慨 有些互联网公司 宁愿花11k招新人 也不愿意花9k留住老员工 为什么 对此 许多网友给出了答案 有的网友说 因为老员工的能量已经耗尽 再也不能为公司创造更高的价值 有的网友说 因为只要给一个老员工涨工资
  • 【数学建模】灰度预测之关联度求解

    灰度预测适用范围 在实际中 若得到的是离散的 规律性不强的数据 此时线性回归就不适用了 我们需要采用灰度预测的方法 灰度预测法则是一种对含有不确定因素的系统进行预测的方法 白色系统 黑色系统 灰色系统 白色系统 指一个系统的内部特征是完全已
  • 如何成长为一名机器学习工程师

    如何成长为一名机器学习工程师 经常有人这么问 而这篇文章就尝试回答这个问题 其中会谈到关于机器学习的方方面面 从简单的线性回归到最新的神经网络 你不仅将学习如何使用这些技术 还将学习如何从头开始构建它们 这个指南主要面向计算机视觉 CV 这

随机推荐

  • 常见算子使用_LaTeX系列笔记(4)-微分算子要不要写正体?

    上一篇笔记中介绍了数学运算符的使用 其中有一个问题是微分算子 是否应该是正体 孙孟越 LaTeX系列笔记 3 数学运算符 Math Operator zhuanlan zhihu com 这个问题是非常常见的 我们来分析一下 正体 斜体的优
  • 实时车辆行人多目标检测与跟踪系统(含UI界面,Python代码)

    算法架构 目标检测 yolov5 目标跟踪 OCSort 其中 Yolov5 带有详细的训练步骤 可以根据训练文档 训练自己的数据集 及其方便 另外后续 目标检测会添加 yolov7 yolox 目标跟踪会添加 ByteTrack deep
  • 剑指offer:数字序列中某一位的数字、把数字翻译成字符串、礼物的最大价值、最长不含重复字符的子串、丑数、第一个只出现一次的字符、数组中的逆序对、两个链表的第一个公共节点、在排序数组中查找数字

    数字序列中某一位的数字 题目 题解 代码 public int findNthDigit int n int digit 1 long start 1 long count 9 while n gt count n count start
  • 滤波电容的选择

    滤波电容的选择 1 电容数量 一般对于低频电路的话 一般为2个 一个用来滤除纹波 一个用来滤除高频信号 如果出现较大的瞬时电流 可以加一个大的钽电容 2 电容容量 通常都说大容值和小容值 其实是去耦和旁路 一般电路去耦的话0 1uF即可 考
  • 微服务网关

    1 微服务网关的概述 不同的微服务一般会有不同的网络地址 而外部客户端可能需要调用多个服务的接口才能完成一个业务需求 如果让客户端直接与各个微服务通信 会有以下的问题 客户端会多次请求不同的微服务 增加了客户端的复杂性 存在跨域请求 在一定
  • easyExcel实现excel文件上传和下载

    一 easyExcel简介 在工作中 经常需要把excel中的数据导入系统 亦或是把系统中符合筛选条件的数据通过excel的方式导出 Java解析 生成Excel比较有名的框架有Apache poi jxl 但他们都存在一个严重的问题就是非
  • linux replace \r\n to \n

    cat test log tr d r hexdump C tail 转载于 https www cnblogs com long123king p 3832986 html
  • springBoot整合Shiro(详细教程分析)

    目录 一 前言 二 SpringBoot整合Shiro 2 1 导入依赖 2 2 创建实体 2 3 配置Shiro 2 4 编写CustomRealm 2 5 编写相关的接口 2 6 业务实现代码 三 测试 四 参考文献 一 前言 1 1
  • 分布式爬虫理念

    目录 分布式爬虫理念 1 分布式爬虫框架 2 维护爬取队列 3 去重 4 防止中断 1 分布式爬虫框架 Scrapy中有一个本地爬取队列Queue 这个队列是利用depue模块实现的 新的Repuest生成就会被放到队列里 随后被调度器Sc
  • java 循环遍历字符串_Java 程序迭代遍历字符串中的每个字符

    Java 程序迭代遍历字符串中的每个字符 在本教程中 我们将学习遍历字符串的每个字符 要理解此示例 您应该了解以下Java编程主题 示例1 使用for循环遍历字符串的每个字符 示例class Main public static void
  • Python第三课

    枭 Python第三课 今天讲解了Python的 深浅复制 列表排序与逆序 随机数 列表推导式 深浅复制 浅复制 概念 浅复制是生成一个新的列表 把原列表的所有引用全复制到新列表中 切片返回的就是浅复制 在浅复制中 如若旧列表中包含有列表
  • 图的存储和遍历

    一 图的存储 因为图中既有节点 又有边 节点与节点之间的关系 因此 在图的存储中 只需要保存 节点和 边关系即可 节点保存比较简单 只需要一段连续空间即可 1 邻接矩阵 因为节点与节点之间的关系就是连通与否 即为0或者1 因此邻接矩阵 二维
  • 区块链应用到供应链上,有哪些好处?

    据中企通宝区块链技术研究中心的负责人介绍 使用区块链的最突出的优势之一 就是它可以让数据的交互性更强 由于这点 公司可以更容易地和制造商还有供应商等等来分享信息和数据 区块链的透明性可以帮助减少延迟 同时防止产品停滞在供应链 每个产品都能实
  • JWT 详解

    1 JWT是什么 JSON Web Token JWT 是一个开放标准 RFC 7519 它定义了一种紧凑的 自包含的方式 用于作为JSON对象在各方之间安全地传输信息 该信息可以被验证和信任 因为它是数字签名的 2 JWT和传统Sessi
  • 竞赛 Yolov安全帽佩戴检测 危险区域进入检测 - 深度学习 opencv

    1 前言 优质竞赛项目系列 今天要分享的是 Yolov安全帽佩戴检测 危险区域进入检测 学长这里给一个题目综合评分 每项满分5分 难度系数 3分 工作量 3分 创新点 4分 该项目较为新颖 适合作为竞赛课题方向 学长非常推荐 更多资料 项目
  • 用友U8+产品--操作系统、数据库、浏览器推荐支持一览表

    目录 业务场景 用友U8 各版本服务器安装 Windows 操作系统推荐一览表 用友U8 各版本客户端安装 Windows 操作系统推荐一览表 用友U8 各版本数据库安装 SQL Server 版本推荐一览表 用友U8 各版本WEB门户 浏
  • 物联网如何为智慧城市提供动力

    智慧城市可以创造一个基础设施顺畅 效率提升的乌托邦 改善城市地区的生活质量 促进当地经济发展 其影响意义重大 预计到 2024 年智慧城市基础设施的收入将超过 1000 亿美元 从改善公共交通到解决犯罪问题和提高能源效率 应有尽有 智慧城市
  • 基于卷积神经网络cnn的情感分析代码

    说先看一下这个图 它大体介绍了CNN的自然语言处理流程 1 首先每个单词对应一行 d 5表示分了5个维度 一般是分128维 300维之类的 这里为了方便 用d 5 这样的话矩阵就是7 5 2 然后第一步进行卷积的操作 分别使用了四行的卷积核
  • 机器学习面试笔记

    本文结合 百面机器学习 一书进行整理 1 为什么需要对数值类型的特征做归一化 对数值类型归一化可以将所有的特征都统一到一个大致相同的数值区间内 常用方法 1 线性函数归一化 对原始数据进行线性变换 使结果映射到 0 1 范围内 公式 2 零
  • 【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据

    介绍 在统计理论中 肖维勒准则 以William Chauvenet命名 是评估一组实验数据 一组异常值 是否可能是虚假的一种手段 肖维勒准则背后的想法是找到一个以正态分布的均值为中心的概率带 它应该合理地包含数据集的所有n个样本 通过这样