【数据异常校验】肖维勒准则（Chauvenet Criterion）处理异常数据

2023-11-08

介绍：

在统计理论中，肖维勒准则（以William Chauvenet命名）是评估一组实验数据（一组异常值）是否可能是虚假的一种手段。

肖维勒准则背后的想法是找到一个以正态分布的均值为中心的概率带，它应该合理地包含数据集的所有n个样本。通过这样做，来自位于该概率带之外的n个样本的任何数据点可以被认为是异常值，从数据集中移除，并且可以计算基于剩余值和新样本大小的新的均值和标准偏差。

这种异常值的识别将通过找到与平均值（D max）周围的概率带边界相对应的标准偏差的数量并将该值与可疑异常值与平均值之间的差值的绝对值进行比较来实现。通过样本标准差。（公式1）

公式1：

$D_{max}\geq {\frac {|x-\mu |}{\sigma }}$

解释：

Dmax = 允许的最大偏差,
| . | = 绝对值,
x = 怀疑异常值,
μ = 样本均值,
σ = 样本标准差.

为了被认为包括样本中的所有n个观测值，概率带（以均值为中心）必须仅考虑 $n-\tfrac{1}{2}$ 样本（如果n = 3，则在概率带中必须仅考虑2.5个样本）。

实际上我们不能有部分样本，因此 $n-\tfrac{1}{2}$ （n = 3时为2.5 ）约为 n。任何小于 $n-\tfrac{1}{2}$ 的东西大约是n - 1（如果n = 3 则为2）并且无效，因为我们想要找到包含n个观测值的概率带，而不是n - 1个样本。简而言之，我们正在寻找概率P，等于n 个样本中的 $n-\tfrac{1}{2}$ （公式2）。

公式2：

$p=1-(\frac{1}{2}n)$

解释：

P =以样本均值为中心的概率带，
n =样本量。

数量 $\tfrac{1}{2n}$ 对应于由正态分布的两个尾部表示的组合概率，其落在概率带 P之外。为了找到与P相关的标准偏差水平，由于其对称性，仅需要分析正态分布的尾部之一的概率（公式3）。

公式3：

$P_{Z}=\frac{1}{4n}$

解释：

P z =由正态分布的一条尾部表示的概率，
n =样本量。

等式1类似于Z得分方程（公式4）。

公式4：

$Z=\frac{(x-\mu )}{\sigma }$

解释：

Z = z-score，
x =样本值，
μ = 0（标准正态分布的平均值），
σ = 1（标准正态分布的标准偏差）。

基于等式4，找到D max（Eq.1）在z得分表中找到对应于P z的z得分。 D max等于P z的z分数。使用此方法可以确定任何样本大小的D max。在Excel中，可以使用以下公式找到D max = ABS(NORM.S.INV(1/(4n))).(NORM.S.INV函数：返回标准正态累积分布函数的反函数值。该分布的平均值为 0，标准偏差为 1。)

计算：

要应用Chauvenet标准，首先要计算观察数据的平均值和标准差。根据可疑数据与平均值的差异，使用正态分布函数（或其表）确定给定数据点处于可疑数据点值的概率。将此概率乘以所采用的数据点数。如果结果小于0.5，则可以丢弃可疑数据点，即，如果从均值获得特定偏差的概率小于 $\tfrac{1}{2n}$ ，则可以拒绝读数。

示例：

例如，假设在若干试验中通过实验测量值为9,10,10,10,11和50.平均值为16.7，标准偏差为16.34。50与16.7相比有33.3，稍微超过两个标准偏差。从平均值获取数据超过两个标准偏差的概率大约为0.05。进行了六次测量，因此统计值（数据大小乘以概率）为0.05×6 = 0.3。因为0.3 <0.5，根据Chauvenet的标准，应该丢弃50的测量值（留下10的新均值，标准差为0.7）。

缺点：

删除异常值数据是一项备受争议的做法，许多科学家和科学教师不赞成这种做法。虽然Chauvenet的标准提供了一种客观和定量的数据拒绝方法，但它并没有使这种做法在科学上或方法上更合理，特别是在小型集合或无法假定正态分布的情况下。在实践领域中，拒绝异常值是更可接受的，其中正在测量的过程的基础模型和测量误差的通常分布是确信的。

参考：https://en.wikipedia.org/wiki/Chauvenet%27s_criterion#Example

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

【数据异常校验】肖维勒准则（Chauvenet Criterion）处理异常数据的相关文章

作为一个上班族，有哪些Python兼职项目？兼顾练手和创收？

普通人学Python有意义吗 Python作为一种跨平台的计算机程序设计语言近些年来越来越受到企业和IT从业者的青睐那么普通人是否需要学习Python呢学会Python有什么意义呢今天小编就和大家聊一聊这个话题 Python有效提
matlab 层次聚类

MATLAB的统计工具箱中的多元统计分析中提供了聚类分析的两种方法 1 层次聚类 hierarchical clustering 2 k means聚类这里用最简单的实例说明以下层次聚类原理和应用发法层次聚类是基于距离的聚类方法 MAT
爬虫写得好，‘劳烦’吃得饱

前言提起爬虫总有一丝神秘色彩大家都调侃爬虫写得好劳烦吃得饱虽然是高危职业但在大数据横行的年代爬虫与反爬虫的需求却在猛烈增加他们的关系就像矛与盾越来越多的公司造矛发起攻势获取数据又或者在造盾封锁信息这种
主流ETL工具汇总

一 kettle 说明是国外开源ETL工具支持数据库 FTP 文件 rest接口 hdfs hive等平台的灵敏据进行抽取转换传输等操作 Java编写跨平台 C S架构不支持浏览器模式特点易用性有可视化设计器进行可视化操作
装上这10个插件，PyCharm才是无敌的存在

pycharm是一款强大的python集成开发环境带有一整套python开发工具今天就给大家介绍几款非常好用的插件首先插件的下载方法进入File gt Settings gt Plugins 根据需要搜索插件名称记得是在Marke
Python探索性数据分析畅销书

探索性数据分析探索性数据分析 EDA 是一种分析和调查数据集以了解数据特征的方法数据集查看数据集示例有许多与 2009 年至 2019 年在销售的畅销书的标题和作者相关的信息除了标题和作者之外数据中还有其他元素例如用户评分评
Neo4j 快速入门

Neo4j 快速入门 neo4j 官方文档 https neo4j com docs neo4j 中文社区 http neo4j com cn neo4j 开发者页面 https neo4j com developer Neo4j安装 a
Python和OpenCV视觉图像处理

特点 OpenCV 3 是用于计算机视觉机器学习和图像处理的原生跨平台库 OpenCV 方便的高级 API 隐藏了非常强大的内部结构旨在提高计算效率可以利用多核和 GPU 处理学习如何通过操作像素来处理图像并使用直方图分析图像展示
时间序列分析教程（二）：移动平均与指数平滑

之前介绍了时间序列的基本概念和性质现在就正式介绍一些处理时间序列的模型方法第一个是移动平均法移动平均法很简单就是用最近的数据预测未来短时间内的数据有简单移动平均法真的很简单就是用最近的一组数据去平均作为下一时刻的预测 S
R语言编程 R语言作业

一 40 分请使用 nycflight13 回答以下问题 1 请用 flights 表单找出出发时间没有延误但是到达时间的所有航班 2 在 1 数据的基础上计算到达每个目的地的航班数量平均飞行距离和平均到达延误时间 3 在 2 的基
Python统计模型探索性数据分析(EDA)系统(单变量-双变量-相关性-缺失值)

单变量分析单变量分析旨在更深入地了解单个列它创建该列的各种统计数据和可视化例如要深入了解特征 year built 要计算year built 的最小值最大值不同计数中值方差并创建一个箱线图来检查异常值一个正常的 Q
【数据异常校验】肖维勒准则（Chauvenet Criterion）处理异常数据

介绍在统计理论中肖维勒准则以William Chauvenet命名是评估一组实验数据一组异常值是否可能是虚假的一种手段肖维勒准则背后的想法是找到一个以正态分布的均值为中心的概率带它应该合理地包含数据集的所有n个样本通过这样
干预分析模型- China GDP

干预分析模型 GDP预测加载pandas matplotlib等包处理时间序列 import pandas as pd import numpy as np import matplotlib pylab as plt matplotl
白手起家学习数据科学 ——梯度下降法之“优化步长和随机梯度下降篇”(六)

选择正确的步长 Choosing the Right Step Size 虽然针对梯度移动的基本原理是清楚的但是移动多少是不清楚的的确选择一个合适的步长是一门艺术流行的选择包括使用固定的步长随时间逐步缩小步长在每次迭代选择最
Pandas 中DataFrame的groupby()计数、groupby()取样及reset_index()的使用

什么是groupby 以下为对DataFrame对象按A进行分组操作图片来源内容目的 DataFrame对象按照指定列 LNG LAT 分组计数并将分组计数结果包括指定列及计数值写入csv文件中过程代码一 import pa
全网最新首发：Python从入门到精通的完整学习路线图【附：全套Python学习资料】

后台有很多粉丝朋友们留言问我 Python应该怎么学爬虫和数据分析怎么学机器学习怎么学其实python的门槛不是特别高但是很多朋友感觉很迷茫学了一段时间还是不入流很大一部分原因是你没有一个完整的知识体系你不知道自己现在的进度
pandas学习笔记--取表格中特定行或列或特定位置元素

先生成一个演示dataframe df pd DataFrame np random randn 5 5 columns A B C D E index a b c d e df 取前两行 df 0 2 取后两行 df 2 取倒数第二行 d
互联网行业潜规则：宁花11k招新人，不花9k留老人

最近一位互联网从业者发出这样的感慨有些互联网公司宁愿花11k招新人也不愿意花9k留住老员工为什么对此许多网友给出了答案有的网友说因为老员工的能量已经耗尽再也不能为公司创造更高的价值有的网友说因为只要给一个老员工涨工资
【数学建模】灰度预测之关联度求解

灰度预测适用范围在实际中若得到的是离散的规律性不强的数据此时线性回归就不适用了我们需要采用灰度预测的方法灰度预测法则是一种对含有不确定因素的系统进行预测的方法白色系统黑色系统灰色系统白色系统指一个系统的内部特征是完全已
如何成长为一名机器学习工程师

如何成长为一名机器学习工程师经常有人这么问而这篇文章就尝试回答这个问题其中会谈到关于机器学习的方方面面从简单的线性回归到最新的神经网络你不仅将学习如何使用这些技术还将学习如何从头开始构建它们这个指南主要面向计算机视觉 CV 这

随机推荐

常见算子使用_LaTeX系列笔记(4)-微分算子要不要写正体？

上一篇笔记中介绍了数学运算符的使用其中有一个问题是微分算子是否应该是正体孙孟越 LaTeX系列笔记 3 数学运算符 Math Operator zhuanlan zhihu com 这个问题是非常常见的我们来分析一下正体斜体的优
实时车辆行人多目标检测与跟踪系统（含UI界面，Python代码）

算法架构目标检测 yolov5 目标跟踪 OCSort 其中 Yolov5 带有详细的训练步骤可以根据训练文档训练自己的数据集及其方便另外后续目标检测会添加 yolov7 yolox 目标跟踪会添加 ByteTrack deep
剑指offer：数字序列中某一位的数字、把数字翻译成字符串、礼物的最大价值、最长不含重复字符的子串、丑数、第一个只出现一次的字符、数组中的逆序对、两个链表的第一个公共节点、在排序数组中查找数字

数字序列中某一位的数字题目题解代码 public int findNthDigit int n int digit 1 long start 1 long count 9 while n gt count n count start
滤波电容的选择

滤波电容的选择 1 电容数量一般对于低频电路的话一般为2个一个用来滤除纹波一个用来滤除高频信号如果出现较大的瞬时电流可以加一个大的钽电容 2 电容容量通常都说大容值和小容值其实是去耦和旁路一般电路去耦的话0 1uF即可考
微服务网关

1 微服务网关的概述不同的微服务一般会有不同的网络地址而外部客户端可能需要调用多个服务的接口才能完成一个业务需求如果让客户端直接与各个微服务通信会有以下的问题客户端会多次请求不同的微服务增加了客户端的复杂性存在跨域请求在一定
easyExcel实现excel文件上传和下载

一 easyExcel简介在工作中经常需要把excel中的数据导入系统亦或是把系统中符合筛选条件的数据通过excel的方式导出 Java解析生成Excel比较有名的框架有Apache poi jxl 但他们都存在一个严重的问题就是非
linux replace \r\n to \n

cat test log tr d r hexdump C tail 转载于 https www cnblogs com long123king p 3832986 html
springBoot整合Shiro（详细教程分析）

目录一前言二 SpringBoot整合Shiro 2 1 导入依赖 2 2 创建实体 2 3 配置Shiro 2 4 编写CustomRealm 2 5 编写相关的接口 2 6 业务实现代码三测试四参考文献一前言 1 1
分布式爬虫理念

目录分布式爬虫理念 1 分布式爬虫框架 2 维护爬取队列 3 去重 4 防止中断 1 分布式爬虫框架 Scrapy中有一个本地爬取队列Queue 这个队列是利用depue模块实现的新的Repuest生成就会被放到队列里随后被调度器Sc
java 循环遍历字符串_Java 程序迭代遍历字符串中的每个字符

Java 程序迭代遍历字符串中的每个字符在本教程中我们将学习遍历字符串的每个字符要理解此示例您应该了解以下Java编程主题示例1 使用for循环遍历字符串的每个字符示例class Main public static void
Python第三课

枭 Python第三课今天讲解了Python的深浅复制列表排序与逆序随机数列表推导式深浅复制浅复制概念浅复制是生成一个新的列表把原列表的所有引用全复制到新列表中切片返回的就是浅复制在浅复制中如若旧列表中包含有列表
图的存储和遍历

一图的存储因为图中既有节点又有边节点与节点之间的关系因此在图的存储中只需要保存节点和边关系即可节点保存比较简单只需要一段连续空间即可 1 邻接矩阵因为节点与节点之间的关系就是连通与否即为0或者1 因此邻接矩阵二维
区块链应用到供应链上，有哪些好处？

据中企通宝区块链技术研究中心的负责人介绍使用区块链的最突出的优势之一就是它可以让数据的交互性更强由于这点公司可以更容易地和制造商还有供应商等等来分享信息和数据区块链的透明性可以帮助减少延迟同时防止产品停滞在供应链每个产品都能实
JWT 详解

1 JWT是什么 JSON Web Token JWT 是一个开放标准 RFC 7519 它定义了一种紧凑的自包含的方式用于作为JSON对象在各方之间安全地传输信息该信息可以被验证和信任因为它是数字签名的 2 JWT和传统Sessi
竞赛 Yolov安全帽佩戴检测危险区域进入检测 - 深度学习 opencv

1 前言优质竞赛项目系列今天要分享的是 Yolov安全帽佩戴检测危险区域进入检测学长这里给一个题目综合评分每项满分5分难度系数 3分工作量 3分创新点 4分该项目较为新颖适合作为竞赛课题方向学长非常推荐更多资料项目
用友U8+产品--操作系统、数据库、浏览器推荐支持一览表

目录业务场景用友U8 各版本服务器安装 Windows 操作系统推荐一览表用友U8 各版本客户端安装 Windows 操作系统推荐一览表用友U8 各版本数据库安装 SQL Server 版本推荐一览表用友U8 各版本WEB门户浏
物联网如何为智慧城市提供动力

智慧城市可以创造一个基础设施顺畅效率提升的乌托邦改善城市地区的生活质量促进当地经济发展其影响意义重大预计到 2024 年智慧城市基础设施的收入将超过 1000 亿美元从改善公共交通到解决犯罪问题和提高能源效率应有尽有智慧城市
基于卷积神经网络cnn的情感分析代码

说先看一下这个图它大体介绍了CNN的自然语言处理流程 1 首先每个单词对应一行 d 5表示分了5个维度一般是分128维 300维之类的这里为了方便用d 5 这样的话矩阵就是7 5 2 然后第一步进行卷积的操作分别使用了四行的卷积核
机器学习面试笔记

本文结合百面机器学习一书进行整理 1 为什么需要对数值类型的特征做归一化对数值类型归一化可以将所有的特征都统一到一个大致相同的数值区间内常用方法 1 线性函数归一化对原始数据进行线性变换使结果映射到 0 1 范围内公式 2 零
【数据异常校验】肖维勒准则（Chauvenet Criterion）处理异常数据

介绍在统计理论中肖维勒准则以William Chauvenet命名是评估一组实验数据一组异常值是否可能是虚假的一种手段肖维勒准则背后的想法是找到一个以正态分布的均值为中心的概率带它应该合理地包含数据集的所有n个样本通过这样

【数据异常校验】肖维勒准则（Chauvenet Criterion）处理异常数据

介绍：

计算：

示例：

缺点：

【数据异常校验】肖维勒准则（Chauvenet Criterion）处理异常数据 的相关文章

随机推荐

热门标签

【数据异常校验】肖维勒准则（Chauvenet Criterion）处理异常数据的相关文章