机器学习-Anomaly Detection

2023-05-16

Problem Motivation

异常检测(Anomaly detection)是机器学习算法的一个常见应用。这种算法的一个有趣之处在于:它虽然主要用于非监督学习问题,但从某些角度看,它又类似于一些监督学习问题。

假想你是一个飞机引擎制造商,当你生产的飞机引擎从生产线上流出时,你需要进行 QA
(质量控制测试),而作为这个测试的一部分,你测量了飞机引擎的一些特征变量,比如引擎运转时产生的热量,或者引擎的振动等等。
在这里插入图片描述
在这里插入图片描述
这里的每个点、 每个叉, 都是你的无标签数据。这样,异常检测问题可以定义如下:我
们假设后来有一天,你有一个新的飞机引擎从生产线上流出,而你的新飞机引擎有特征变量xtest。
给定数据集 x(1),x(2),…,x(m),我们假使数据集是正常的,我们希望知道新的数据 xtest 是不是异常的,即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据该测试数据的位置告诉我们其属于一组数据的可能性 p(x)。
这种方法称为密度估计,表达如下:
在这里插入图片描述
模型 p(x) =我们其属于一组数据的可能性
通过 p(x)<ε 检测非正常用户。
异常检测主要用来识别欺骗。例如在线采集而来的有关用户的数据,一个特征向量中可
能会包含如:用户多久登录一次,访问过的页面,在论坛发布的帖子数量,甚至是打字速度等。尝试根据这些特征构建一个模型,可以用这个模型来识别那些不符合该模式的用户。
再一个例子是检测一个数据中心,特征可能包含:内存使用情况,被访问的磁盘数量,
CPU 的负载,网络的通信量等。根据这些特征可以构建一个模型,用来判断某些计算机是不是有可能出错了。


Gaussian Distribution

高斯分布,也称为正态分布。
通常如果我们认为变量 x 符合高斯分布 x~N(μ,σ2)则其概率密度函数为:
在这里插入图片描述

利用已有的数据来预测总体中的 μ 和 σ2 的计算方法如下:
在这里插入图片描述
在这里插入图片描述
高斯分布样例:
在这里插入图片描述
注:机器学习中对于方差我们通常只除以 m 而非统计学中的(m-1)。 这里顺便提一下,在实际使用中,到底是选择使用 1/m 还是 1/(m-1)其实区别很小,只要你有一个还算大的训练集,在机器学习领域大部分人更习惯使用 1/m 这个版本的公式。这两个版本的公式在理论特性和数学特性上稍有不同,但是在实际使用中,他们的区别甚小,几乎可以忽略不计。

Algorithm

用高斯分布开发异常检测算法。
异常检测算法:
对于给定的数据集 x(1),x(2),…,x(m) ,我们要针对每一个特征计算 μ 和 σ2 的估计值。
在这里插入图片描述
在这里插入图片描述
一旦我们获得了平均值和方差的估计值,给定新的一个训练实例,根据模型计算 p(x):
在这里插入图片描述
当 p(x)<ε 时,为异常
下图是一个由两个特征的训练集,以及特征的分布情况:
在这里插入图片描述
下面的三维图表表示的是密度估计函数, z 轴为根据两个特征的值所估计 p(x)值:
在这里插入图片描述
我们选择一个 ε,将 p(x)=ε 作为我们的判定边界,当 p(x)>ε 时预测数据为正常数据,否则则为异常。

Developing and Evaluating an Anomaly Detection System

异常检测算法是一个非监督学习算法,意味着我们无法根据结果变量 y 的值来告诉我
们数据是否真的是异常的。我们需要另一种方法来帮助检验算法是否有效。当我们开发一个异常检测系统时,我们从带标记(异常或正常)的数据着手,我们从其中选择一部分正常数据用于构建训练集,然后用剩下的正常数据和异常数据混合的数据构成交叉检验集和测试集。

例如:我们有 10000 台正常引擎的数据,有 20 台异常引擎的数据。 我们这样分配数
据:
6000 台正常引擎的数据作为训练集
2000 台正常引擎和 10 台异常引擎的数据作为交叉检验集
2000 台正常引擎和 10 台异常引擎的数据作为测试集

具体的评价方法如下:

  1. 根据测试集数据,我们估计特征的平均值和方差并构建 p(x)函数
  2. 对交叉检验集,我们尝试使用不同的 ε 值作为阀值,并预测数据是否异常,根据 F1
    值或者查准率与查全率的比例来选择 ε
  3. 选出 ε 后,针对测试集进行预测,计算异常检验系统的 F1 值, 或者查准率与查全
    率之比

Anomaly Detection vs. Supervised Learning

注意这里构建的异常检测系统也使用了带标记的数据,与前面监督学习的方式有些相似。
在这里插入图片描述
通常来说,正样本的数量很少,甚至有时候是 0,也就是说,出现了太多没见过的不同的异常类型,那么对于这些问题,通常应该使用的算法就是异常检测算法。

Choosing What Features to Use

对于异常检测算法,我们使用的特征是至关重要的,下面谈谈如何选择特征:
异常检测假设特征符合高斯分布,如果数据的分布不是高斯分布,异常检测算法也能够
工作,但是最好还是将数据转换成高斯分布,例如使用对数函数: x = log(x+c),其中 c 为非负常数; 或者 x=xc, c 为 0-1 之间的一个分数,等方法。
在这里插入图片描述

**一个常见的问题:**一些异常的数据可能也会有较高的 p(x)值,因而被算法认为是正常的。这种情况下误差分析能够帮助我们,我们可以分析那些被算法错误预测为正常的数据,观察能否找出一些问题。我们可能能从问题中发现我们需要增加一些新的特征,增加这些新特征后获得的新算法能够帮助我们更好地进行异常检测。
comparable 相关的。
在这里插入图片描述
我们通常可以通过将一些相关的特征进行组合,来获得一些新的更好的特征(异常数据
的该特征值异常地大或小)。
例如,在检测数据中心的计算机状况的例子中,我们可以用 CPU负载与网络通信量的比例作为一个新的特征,如果该值异常地大, 便有可能意味着该服务器是陷入了一些问题中。


Multivariate Gaussian Distribution

假使我们有两个相关的特征,而且这两个特征的值域范围比较宽,这种情况下,一般的
高斯分布模型可能不能很好地识别异常数据。其原因在于,一般的高斯分布模型尝试的是去同时抓住两个特征的偏差,因此创造出一个比较大的判定边界。
下图中是两个相关特征,洋红色的线(根据 ε 的不同其范围可大可小)是一般的高斯分
布模型获得的判定边界,很明显绿色的 X 所代表的数据点很可能是异常值,但是其 p(x)值却仍然在正常范围内。多元高斯分布将创建像图中蓝色曲线所示的判定边界.
在这里插入图片描述
在一般的高斯分布模型中,我们计算 p(x)的方法是: 通过分别计算每个特征对应的几
率然后将其累乘起来,在多元高斯分布模型中,我们将构建特征的协方差矩阵,用所有的特征一起来计算 p(x)。
我们首先计算所有特征的平均值,然后再计算协方差矩阵:
在这里插入图片描述
在这里插入图片描述
注:其中 μ 是一个向量,其每一个单元都是原特征矩阵中一行数据的均值。最后我们计
算多元高斯分布的 p(x):
在这里插入图片描述
|Σ|是定矩阵,在matlab 中用 det(sigma)计算
Σ1 是逆矩阵, 下面我们来看看协方差矩阵是如何影响模型的:
在这里插入图片描述
上图是 5 个不同的模型,从左往右依次分析:

  1. 是一个一般的高斯分布模型;
  2. 通过协方差矩阵,令特征 1 拥有较小的偏差,同时保持特征 2 的偏差;
  3. 通过协方差矩阵,令特征 2 拥有较大的偏差,同时保持特征 1 的偏差;
  4. 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的正相关
    性;
  5. 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的负相关
    性;

可以证明的是,原本的高斯分布模型是多元高斯分布模型的一个子集,即像上图中的第
1、 2、 3, 3 个例子所示,如果协方差矩阵只在对角线的单位上有非零的值时,即为原本的高斯分布模型了.
原高斯分布模型和多元高斯分布模型的比较:
在这里插入图片描述
原高斯分布模型被广泛使用着,如果特征之间在某种程度上存在相互关联的情况,我们
可以通过构造新新特征的方法来捕捉这些相关性。如果训练集不是太大,并且没有太多的特征,我们可以使用多元高斯分布模型。


Anomaly Detection using the Multivariate Gaussian Distribution

关于多元高斯分布,当你改变参数(μ和Σ),可以建立各种分布模型。
多元高斯分布和多元正态分布:
在这里插入图片描述
分布有两个参数,μ和Σ。其中μ这一个 n 维向量和Σ的协方差矩阵,是一种 n 乘 n 的矩阵。而这里的公式 X 的概率,如按μ和参数化Σ,和你的变量μ和Σ,你可以得到一个范
围的不同分布一样,你知道的,这些都是三个样本,那些我们在以前的视频看过了。
因此,让我们谈谈参数拟合或参数估计问题:
在这里插入图片描述
是一个 n 维向量,我想我的样本来自一个多元高斯分布。我如何尝试估计我的参数μ和Σ以及标准公式?
估计他们是你设置μ是你的训练样本的平均值。
在这里插入图片描述
在这里插入图片描述
这其实只是当我们使用 PCA 算法时候,有Σ时写出来。所以你只需插入上述两个公式,
这会给你你估计的参数μ和你估计的参数Σ。所以,这里给出的数据集是你如何估计μ和Σ。
让我们以这种方法而只需将其插入到异常检测算法。那么,我们如何把所有这一切共同开发一个异常检测算法?
在这里插入图片描述
在这里插入图片描述
如图, 该分布在中央最多,越到外面的圈的范围越小。
并在该点是出路这里的概率非常低。
原始模型与多元高斯模型的关系如图:
其中:协方差矩阵Σ 为:
在这里插入图片描述
在这里插入图片描述
原始模型和多元高斯分布比较如图:
在这里插入图片描述

参考文献:黄海广博士学习笔记。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习-Anomaly Detection 的相关文章

  • 百度2014移动研发笔试题目

    答案仅供参考 一 简答题 1 简述计算机的存储系统分为哪几个层次 xff0c 为什么这样的分层能够提高程序的执行效率 所谓存储系统的层次结构 xff0c 就是把各种不同存储容量 存取速度和价格的存储器按层次结构组成多层存储器 xff0c 并
  • 横屏layout-land失效的细节问题 以及谈谈不同设置模式的优缺点

    android configChanges 61 34 orientation keyboardHidden screenSize 34 设置之后手机可以识别横屏布局 xff0c 但是不会重建 xff0c 但是pad不识别 xff0c 头疼
  • 数学公式汇总

    高等数学公式篇 平方关系 xff1a sin 2 43 cos 2 61 1 tan 2 43 1 61 sec 2 cot 2 43 1 61 csc 2 积的关系 xff1a sin 61 tan cos cos 61 cot sin

随机推荐

  • KEIL ARM 6.12 compiler 编译__ASM 错误的解决方法

    1 问题 KEIL compiler 设置为 use default compiler version 5 可以正确编译以下汇编和C混合代码 xff0c 更改编译器为V6 12后不识别 ASM关键字 xff0c 并对汇编语法报错 替换为 A
  • 面试题:从给定的N个正数中选取若干个数之和最接近M

    这道题跟捞鱼问题一样 xff0c 都是刚进实验室新生培训那会儿做过的题目 xff0c 不过这个是一师姐当时找工作的面试题 如题 xff0c 并输出该子序列 测试用例 xff1a 2 xff0c 9 xff0c 5 xff0c 7 xff0c
  • 贝叶斯最优分类器

    贝叶斯常常有两个问题 xff1a xff08 1 xff09 给定训练数据 xff0c 最可能的假设是什么 xff1f xff08 2 xff09 给定训练数据 xff0c 对新实例的最可能分类是什么 xff1f 第一个问题用最大后验概率
  • 奇异值分解SVD应用—LSI/LSA

    原文 xff1a http blog csdn net abcjennifer article details 8131087 xff08 有看不懂的地方 xff0c 原文评论有点解答 xff09 潜在语义索引 xff08 Latent S
  • EAGAIN、EWOULDBLOCK、EINTR与非阻塞 长连接

    EAGAIN EWOULDBLOCK EINTR与非阻塞 长连接 EWOULDBLOCK用于非阻塞模式 xff0c 不需要重新读或者写 EINTR指操作被中断唤醒 xff0c 需要重新读 写 在Linux环境下开发经常会碰到很多错误 设置e
  • WebSocket 实战

    本文介绍了 HTML5 WebSocket 的由来 xff0c 运作机制及客户端和服务端的 API 实现 xff0c 重点介绍服务端 xff08 基于 Tomcat7 xff09 及客户端 xff08 基于浏览器原生 HTML5 API x
  • FreeRTOS系列|FreeRTOS简介

    FreeRTOS简介 1 RTOS简介 RTOS全称为 Real Time Operation System xff0c 即实时操作系统 RTOS强调的是实时性 xff0c 又分为硬实时和软实时 硬实时要求在规定的时间内必须完成操作 xff
  • makefile 编写之32 or 64位机器

    一 Makefile 判断 64位机器 ARCH 61 shell uname m BIT32 61 i686 BIT64 61 x86 64 all clean ifeq ARCH BIT64 64 echo x86 64 make Su
  • linux多行注释

    1 多行注释 xff1a 1 首先按esc进入命令行模式下 xff0c 按下Ctrl 43 v xff0c 进入列 xff08 也叫区块 xff09 模式 2 在行首使用上下键选择需要注释的多行 3 按下键盘 xff08 大写 xff09
  • linux多线程信号处理

    在linux下 xff0c 每个进程都有自己的signal mask xff0c 这个信号掩码指定哪个信号被阻塞 xff0c 哪个不会被阻塞 xff0c 通常用调用sigmask来处理 同时每个进程还有自己的signal action xf
  • Mysql的row_format

    问题描述 xff1a You have an error in your SQL syntax check the manual that corresponds to your MySQL server version for the r
  • MetricsSystem

    Metrics xff0c 我们听到的太多了 xff0c 熟悉大数据系统的不可能没听说过metrics xff0c 当我们需要为某个系统某个服务做监控 做统计 xff0c 就需要用到Metrics 举个例子 xff0c 一个图片压缩服务 x
  • Hazelcast集群服务(1)——Hazelcast介绍

    https www cnblogs com hunter 56213 p 6230442 html Hazelcast是什么 分布式 集群服务 网格式内存数据 分布式缓存 弹性可伸缩服务 这些牛逼闪闪的名词拿到哪都是ITer装逼的不二之选
  • 小议同步IO :fsync与fdatasync

    对于提供事务支持的数据库 xff0c 在事务提交时 xff0c 都要确保事务日志 xff08 包含该事务所有的修改操作以及一个提交记录 xff09 完全写到硬盘上 xff0c 才认定事务提交成功并返回给应用层 一个简单的问题 xff1a 在
  • 阿里云 李博

    机器学习基础知识 业务架构 xff1b 算法代替人类思考 xff0c 实现生产力飞跃 xff0c xff1b 大部分开源工具封装了算法 xff1b 无需算法开发以及算法的公式推导 xff1b 如何使用算法解决自身的应用场景 xff1b 业务
  • thinkphp中display调用模板文件详…

    模板变量赋值后就需要调用模板文件来输出相关的变量 xff0c 模板调用通过display方法来实现 我们在操作方法的最后使用 xff1a this gt display 就可以输出模板 xff0c 根据前面的模板定义规则 xff0c 因为系
  • 遥控器与电调相关知识点整理

    一 xff0c 电调的控制方法 PWM 单片机输出1ms 2ms的方波脉冲 xff0c 根据航模标准 xff0c PWM信号线的频率应该是50Hz xff0c 对应的每个周期总时长是20ms xff0c 输出到电调的油门线 xff08 控制
  • FreeRTOS系列|开发环境

    开发环境搭建 1 硬件开发环境 FreeRTOS系列所使用的硬件为STM32F103ZET6开发板 2 软件开发环境 2 1 Keil MDK ARM软件简介及安装 2 1 1 Keil MDK ARM简介 Keil MDK xff0c 也
  • 陀螺仪加速度计MPU6050

    转载自 xff1a http www crazepony com wiki mpu6050 html 陀螺仪 陀螺仪 xff0c 测量角速度 xff0c 具有高动态特性 xff0c 它是一个间接测量角度的器件 它测量的是角度的导数 xff0
  • 机器学习-Anomaly Detection

    Problem Motivation 异常检测 Anomaly detection 是机器学习算法的一个常见应用 这种算法的一个有趣之处在于 xff1a 它虽然主要用于非监督学习问题 xff0c 但从某些角度看 xff0c 它又类似于一些监