isolation forest在MATLAB和python上的简单应用

2023-11-14

1 问题描述

数据中的异常值的检测

异常点,也称为离群点。离群点检测算法主要看到了isolation forest算法和local outlier factor(LOF)算法。

LOF算法的具体原理在 LOF离群因子检测算法及python3实现 中讲得很清楚,简单来说就是如果节点距离它周围k个节点的距离很远,他就有可能是离群点。

isolation forest算法主要看了 iForest (Isolation Forest)孤立森林 异常检测 入门篇Python机器学习笔记:异常点检测算法——Isolation Forest 两篇文章,简单来说,isolation forest就是把随机选择一个维度,随机生成一个阈值将数据分成两组,一直分下去直到每个组只有一个数据,异常值会比较早被分完。

在这里插入图片描述

2 isolation forest

在这里插入图片描述

其中,E(h(x))是节点x在多棵孤立树上的路径长度h(x)的期望值。c(n)根据二叉搜索树的失败查找的平均搜索长度得到。
s(x,n)就是节点x的异常分数,越大越有可能是异常点。

在这里插入图片描述

3 MATLAB实现isolation forest

iForest (Isolation Forest)孤立森林 异常检测 入门篇的作者提供了MATLAB语言实现的iForest算法

输入的数据data=load(‘breastw_683.csv’)最后一列为标签。
Score为节点异常分数,但没有经过归一化,可以在MATLAB里对score进行归一化。

score = mapminmax(Score',0,1)';

4 python实现isolation fores

在网上看到了很多讲sklearn中的isolation和LOF算法的文章,但不太懂python的我都看不懂,这里列出我用到的几个功能。

很多例子为了展示这一算法,首先用numpy生成数据,在里面添加异常,再异常检测。我的数据都是用MATLAB生成的,存在csv里。

// 孤立森林
import numpy as np
from sklearn.ensemble import IsolationFores
import matplotlib.pyplot as plt

#data前两列是数据,第三列是标签
data = np.loadtxt(open("data_919.csv","rb"),delimiter=",",skiprows=0)
#clf就是分类器,采样值设为256,异常概率为0.01
clf = IsolationForest(max_samples=256,contamination=0.01#训练分类器
clf.fit(data[:,0:2])
#计算异常分数
score = clf.score_samples(data[:,0:2])
#-------------------------------------结束!!!!!


#----------------画图表示结果---------------------------------------------------------
plt.figure()
#xx,yy就是一些模拟的数据,Z是模拟数据放入分类器里得到的异常分数,contourf就是画等高线图

xx, yy = np.meshgrid(np.linspace(2,10,70),np.linspace(-0.2, 2.7,50))
Z = clf.decision_function(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape) 
plt.contourf(xx, yy, Z, camp=plt.cm.Blues_r)

#前14个节点是异常值
#r1画被检测出来的异常值,b1画标签为0的值也就是普通点,b2画异常点

r1 = plt.scatter(data[np.argsort(-score)[0:14],0,],data[np.argsort(-score)[0:14],1],
                 c='white',s=100, edgecolor='red')

b1 = plt.scatter(data[np.argwhere(ADLabel==0),0],data[np.argwhere(ADLabel==0),1],
                 c='white',s=20, edgecolor='k')
                 
b2 = plt.scatter(data[np.argwhere(ADLabel==1),0],data[np.argwhere(ADLabel==1),1],
                 c='red',s=20, edgecolor='k')

plt.legend([b1, b2, r1],
           ["regular observations", "abnormal observations","detected outlier"],
           loc="upper left",fontsize=fs-2)

plt.title('Isolation Tree')
plt.xlabel('Gen  power')
plt.ylabel('Line  Loss')
plt.savefig('isolation forest.png', dpi=200,bbox_inches = 'tight')#指定分辨率
plt.show()

在这里插入图片描述

5 遇到的问题

异常分类的结果用什么指标评价?
PR、ROC、AUC等分类的指标不是很合适

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

isolation forest在MATLAB和python上的简单应用 的相关文章

随机推荐

  • python游戏编程培训

    准备好了吗 我们即将开始激动人心的游戏编程之旅 或许你之前学习过一点编程 但若是你从没接触过游戏编程 那么你仍然会对游戏程序的运行感到不解 游戏程序不像计算一个公式或谜题 得到答案之后程序就结束了 游戏程序一直是处于运行中的 只要你不主动退
  • 递归行为时间复杂度计算:master公式

    master公式 T N a T N b O N d 公式解释 N是初始问题的负责度 a是次数的意思 也就是调用相同规模的递归次数 b是递归的划分 也就是将原问题划分成相同规模的b份 O N d d是除去递归代码外的其他运算的时间复杂度 例
  • python爬虫系列6--模拟登陆相关

    方式原理 爬虫爬取数据时 有些数据并不能让游客访问到 这时候就需要进行登录 再爬取数据 登录后再爬取的手段很多 但核心都是通过cookie的方式来记录身份信息 因此模拟登录的核心在于对cookie的使用 参考链接 https www cnb
  • Android Kotlin的学习

    1 kotlin简介 Kotlin是一种在Java虚拟机上运行的静态类型编程语言 它也可以被编译成为JavaScript源代码 它主要是由俄罗斯圣彼得堡的JetBrains开发团队所发展出来的编程语言 其名称来自于圣彼得堡附近的科特林岛 3
  • 【CLIP速读篇】Contrastive Language-Image Pretraining

    CLIP速读篇 Contrastive Language Image Pretraining 0 前言 Abstract 1 Introduction and Motivating Work 2 Approach 2 1 Natural L
  • 从元宇宙角度看社交出海产品新体验

    提到社交产品 不可避免的会涉及元宇宙方向 那么元宇宙距离落地还有哪些问题 解决这些问题是否会是新的产品机会 社交作为元宇宙赛道的细分领域之一 如何在未来几年向元宇宙产品发展 打造产品新体验 实现用户增长 本文整理自拍乐云行业解决方案专家奚振
  • 《普林斯顿微积分》读书笔记

    写在前面 并不完整 只有零散的记忆 二 三刷的时候再补充吧 一些初等函数的导数 例如 x n n x n 1 sin x cos x 积分等于反导数 其他 待补充
  • games101 作业3

    遇到的问题 1 项目才打开时无法运行 解决方法 切换成c 17 解决方法引用 Games101 作业3 环境问题 知乎 注 知乎里面的关于越界限制的控制不适用 虽然可以解决部分作业的问题 但是在bump里面依然会出现越界错误 应该用以下大佬
  • VS2022+OpenCV4.6.0+MFC环境配置

    一 环境安装 OpenCV Releases OpenCVhttps opencv org releases VS2022 Visual Studio 面向软件开发人员和 Teams 的 IDE 和代码编辑器Visual Studio 开发
  • 【selenium3+JAVA】界面自动化测试教程(六)——元素查找和操作

    一 前言 元素查找为selenium的基础操作 基本上大部分操作都是基于元素的 故此部分为必须掌握内容 方法包括通过名称 id tagName xpath等方法 下面会详细介绍这些方法 二 元素查找 下面一一介绍这些方法 无论哪种查找方式
  • IC验证工程师工作一周年的体会

    转眼之间自己已经工作一周年了 作为一名验证工程师 这一年里面感觉自己虽然有了一定的成长 但是成长的还是比较缓慢的 接下来从个人的角度说说我现在对从IC验证的一些体会 一 要养成良好的工作习惯 1 自己在工作中发现很多时候都是可以偷懒的 有时
  • Docker网络模式

    目录 Docker 网络 Docker 网络图解 Docker 四种网络模式 Host 模式 Container模式 None模式 Bridge模式 Docker 网络自定义 查看网络列表 自定义网络固定IP 暴露端口 在宿主机环境执行容器
  • 软件测试新手入门小知识点,一定要牢记

    引言 最近有很多朋友来问我做测试难不难 需要注意哪些 接下来就给大家讲讲软件测试新手入门需要了解的小知识点 这些软件测试常识你必须牢记 一 软件测试 软件测试存在的意义 1 发现程序中的错误而执行程序的过程 2 检验产品是否符合用户需求 3
  • Prometheus 监控mysql

    目录 下载安装mysqld exporter 在mysql中创建监控用户并赋权 启动mysqld exporter 添加到系统服务 浏览器访问服务器9104端口 在prometheus定义job来监控mysqld 运行prometheus并
  • Linux系统查看硬盘空间的常用命令!

    在Linux系统中 查看硬盘空间使用情况可以使用命令来完成 其中比较常见的命令有 df和du 那么它们具体如何使用呢 本文为大家详细介绍一下 快来学习吧 查看磁盘空间 df df命令以磁盘分区为单位查看文件系统中磁盘空间的使用情况 选项 h
  • VS2019 + Qt5.12 配置完成后,无法打开 Qt 源文件解决方案(非常实用)

    注 本文主要是解决 VS 无法打开 Qt 源文件问题 关于 VS Qt 配置问题 网上一搜一大堆 各个版本都有 这里就不做详细阐述了 最近自己在使用 VS2019 建立 Qt 工程的时候 遇到了无法打开 Qt 源文件问题 在网上阅读了大量的
  • 每天一个设计模式之 -- 组合模式

    组合模式 组合模式 Composite Pattern 又叫部分整体模式 是用于把一组相似的对象当作一个单一的对象 组合模式依据树形结构来组合对象 用来表示部分以及整体层次 这种类型的设计模式属于结构型模式 它创建了对象组的树形结构 这种模
  • 基于TCP的Socket网络编程

    前言 Socket通信是基于TCP IP协议的通信 在工作和做项目中应用非常广 下面来介绍下Socket网络编程 Socket的介绍 首先 在Socket网络编程中我们要了解两个重要的东西 ip和端口号 一台拥有IP地址的主机可以提供许多服
  • HttpContext在一般程序中无法引用

    刚刚写代码的时候 发现在类库的程序中无法直接使用HttpContext 经过学习发现 只要在引用上右击弹出下面界面 然后点击程序集 直接在搜索框中搜web 然后选用System Web 确定 再在你的cs文件中using System We
  • isolation forest在MATLAB和python上的简单应用

    isolation forest在MATLAB和python上的简单应用 1 问题描述 2 isolation forest 3 MATLAB实现isolation forest 4 python实现isolation fores 5 遇到