孤立森林的简要记录

2023-11-19

20200920 -

0. 引言

在之前的时候，进行一些任务分类的时候，使用过孤立森林来实现一些代码，但是也没有具体来深究原理，只知道这个跟随机森林有些像，都是决策树的一种集成方式，最近正好看到了这部分内容，就正好记录一下，本部分内容主要是有文章[1]中阅读后记录。

1. 孤立森林的理论背景

1.1 孤立森林是什么

孤立森林可以用于异常点检测
孤立森林是一种无监督学习方法
孤立森林是一种集成学习方法

1.2 孤立森林所使用的假设

异常点在整个实例中的数量上占比比较小
他们的某些属性与正常点有差别

以上的说法，透露出来的一个意思就是，异常是少量的，同时也是带有不同属性的。

思考：那么这个比例，是不是可以通过参数进行控制，这个控制的过程是什么样子？但是这个比例是自己设置嘛？还是怎么样？还有，如果我的数据集中没有异常呢，他也会强行把这个东西给列举出来吗？

1.3 孤立森林的简单描述

孤立森林是很多个二叉树的集成算法，而异常点相对于正常点来说，他们的点在树上的路径会更短，或者说是最短的。
那么整体的算法就是这个样子：构造一个树，然后通过集成算法构造一个森林，然后度量每个点在每个树中距离，最后决定这个点是不是异常。

2. 代码设计

前文中已经说明了，孤立森林主要是三个部分：
1）构造一个隔离树
2）利用集成算法构造一个森林
3）度量每个点在每个树上的距离，最后得出一个类似异常分数的数值，最后分析出来是不是异常点

那么具体代码我就不粘贴了，直接去原文看就好了，下面简单说一下一些细节。

2.1. 构造隔离树

构造过程中，分割属性是随机选取的；而属性的分割点也是随机生成的（random），他提供的代码是仅仅适用于数值类型的。

2.2. 构造隔离森林

直接根据树的个数进行构造。

2.3. 测量路径

直接将所有的实例点都带入到隔离森林中；他这部分代码提供的方式是所有的树的路径然后取平均。当然也有其他的方法来测试。

3. 思考

在前面的说法中，我一开始以为可以填充异常的比例（因为我之前的时候实验好像就是这么实验，不过我也记不清了，不知道是不是sklearn中的实现是可以实现的，这个后续可以进行考究。）
我的想法就是，是不是数据集中一定要有异常呢？但是我实现也不知道比例，他们应该是怎么知道的呢？这个很关键，他怎么把控这个输出的比例呢？

参考

[1]Isolation Forest from Scratch

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

python

人工智能

孤立森林的简要记录的相关文章

如何计算总和的平方和？

我有一笔款项需要加快处理速度在一种情况下是 S x y k l Fu ku Fv lv Fx kx Fy ly 另一种情况是 S x y S k l Fu ku Fv lv Fx kx Fy ly 2 注意 S indices 是这些索引
如何将一组重叠范围划分为不重叠范围？

假设您有一组范围 0 100 一 0 75 b 95 150 c 120 130 d 显然这些范围在某些点上重叠您将如何剖析这些范围以生成不重叠范围的列表同时保留与其原始范围相关的信息在本例中为范围后面的字母例如运行算法后的上述
“初始化 MCI 时出现问题”播放声音问题

我正在尝试使用 Playsound 播放代码文件夹中的文件但是每次运行代码时它似乎都能够调用该文件但我总是收到以下输出 playsound PlaysoundException Error 277 for command open p
有没有办法清理 jinja2 生成的 html？

我们使用 jinja2 来创建 html 但是由于我们在 jinja 中执行许多循环和其他操作来生成 html 所以 html 看起来很丑注意这只是为了美观我们可以做些什么来清理 html 吗除了清理我们的 jinja2 代码之
在 pandas 数据框中按列应用 Seaborn 热图

我试图在枢轴熊猫数据帧上使用seaborn的热图就像在超链接中一样有效 df pd DataFrame np random randint 1 100 size 3 2 df columns A B df sns heatmap df a
如何为 apscheduler 指定“记录器”

我正在尝试学习如何使用 Python 的 apscheduler 包但它会定期抛出以下错误 No handlers could be found for logger apscheduler scheduler 该消息似乎与计划作业中的错
SQLAlchemy+pymysql 错误：sqlalchemy.util.queue.Empty

尝试使用 Eclispse 在 Ubuntu 上运行 Python 2 SQLAlchemy 0 8 和 MySQL5 2 但我不断收到以下错误我使用 pymysql 实际上是 pymysql3 引擎模块监视器 from sqlalch
如何使用 tweepy 仅提取主题标签中的文本？

我想为我的情感分析项目提取主题标签但是我得到了一个字典列表其中包含所有主题标签及其在推文中的索引我只想要文字我的代码 data tweepy Cursor api search q since a i until b i items
Flask-Mail - 基于 Flask-Cookiecutter 异步发送电子邮件

我的烧瓶项目基于烧瓶饼干切割机 https github com sloria cookiecutter flask我需要异步发送电子邮件发送电子邮件的功能由以下配置米格尔的教程 https blog miguelgrinberg com
self.assertRaises 作为上下文管理器，但 msg 参数未按预期工作

请检查以下代码 import unittest CORRECT MESSAGE Correct message WRONG MESSAGE Wrong message def fn raise KeyError CORRECT MESSAG
在 LINUX 上使用 Python 连接到 OLAP 多维数据集

我知道如何在 Windows 上使用 Python 连接到 MS OLAP 多维数据集嗯至少有一种方法通常我使用 win32py 包并调用 COM 对象进行连接 import win32com client connection wi
通过Python通过蓝牙发送消息或数据

如何通过 python 通过蓝牙发送消息而无需输入数字等密钥身份验证我用过 pybluez 但我收到了这个错误 File send line 12 in
Jupyter 笔记本中未显示绘图

我正在尝试为 Anscombe 数据集创建 2x2 图加载数据集并分离数据集中的每个类 import seaborn as sns import matplotlib pyplot as plt anscombe sns load dat
Pandas：将 DataFrame 列值转换为新的 Dataframe 索引和列

我有一个如下所示的数据框 a b c 0 1 10 1 2 10 2 2 20 3 3 30 4 1 40 4 3 10 上面的数据帧作为默认索引 0 1 2 3 4 我想将其转换为如下所示的数据框 1 2 3 0 10 0 0 1 0 1
仅获取图像中的外部轮廓

我有这段代码可以在图像中绘制轮廓但我只需要外部轮廓 import cv2 import numpy as np camino C Users Usuario Documents Deteccion de Objetos 123 jpg
按最小值分组并用另一列中的值填充 NA

我有一个如下所示的示例数据框 df pd DataFrame data uid 1 1 1 2 2 3 pagename home blah blah home blah blah startpage NA NA NA home home
如何在 VS Code 宏中将焦点返回到编辑器，将 Python 文本发送到调试控制台？

我尝试按键绑定宏以将 python 文本发送到调试控制台并将焦点返回到 Visual Studio Code 中的编辑器这是我尝试过的安装了vscode python https marketplace visualstudio com
获取 pandas 中最后一次出现特定值之后的所有行

我的数据框看起来像 ID colA 1 B 1 D 2 B 2 D 2 C 我已返回每组中事件 B 最后一次出现后的所有行输出将是 ID colA 1 D 2 D 2 C 我试过 a df colA str contains B grou
使 flake8 区分未定义函数和星型导入

我有一个相当大的项目我试图在发布之前清理它但是当我运行 flake8 时我得到了大量的 F405
为什么 Python ggplot 返回名称“aes”未定义？

当我使用以下命令时 p ggplot aes x DTM y TMP1 data data 我收到以下错误 NameError name aes is not defined 你可以帮帮我吗你需要导入aes from ggplot imp

随机推荐

linux awk数组操作详细介绍

用awk进行文本处理少不了就是它的数组处理那么awk数组有那些特点一般常见运算又会怎么样呢我们先看下下面的一些介绍结合例子我们会讲解下它的不同之处在 awk 中数组叫做关联数组 associative arrays 因为下标记可
win10 禁止自动更新（修改注册表）

如果需要在win10上做开发禁止更新可能带来很多麻烦参考 https blog csdn net qq 40833810 article details 89045074 depth 1 utm source distribute pc
sql 2008服务器响应慢,SQL Server 2008中使用链接服务器的查询速度缓慢。我可以看什么？...

我重新写你的查询 WITH ledger detail AS SELECT pld fiscal year pld financial deptid AS DEPTID pld fund code pld class fld AS CLAS
androd源码编译

下载完android 7 0 0 r1后用du sh 查看一下大概111G 再看看各个目录的情况下面开始源码的编译 1 source build envsetup sh 编译环境变量设置包括一些参数和方法 2 lunch aosp
JDBC的实现步骤

一 JDBC的实现步骤 1 加载驱动程序 Class forName DriverClass 2 使用驱动管理类获得数据库连接 Connection conn DriverManager getConnection URL USER PA
Python自动化测试之自定义日志及其封装

前言在软件测试的日常工作中日志是个非常重要的模块对于测试来说日志的作用主要有以下四点 1 调试程序 2 了解系统程序运行的情况是否正常 3 系统城西运行故障分析和问题定位 4 用来做用户行为分析和数据统计因此在编写自动化测试脚本和
【GoLang】go入门：go语言执行过程分析 && 常见数据类型(基本数据类型)

1 go语言执行过程分析 1 执行流程分析通过 go build 进行编译运行上一步生成的可执行文件通过 go run 命令直接运行 2 上述两种执行流程的区别在编译时编译器会将程序运行时依赖的库文件包含在可执行文件中所以可执行
Linux命令学习之nslookup

比如我想查看一个IP地址的域名的话可以用nslookup这个命令 test test nslookup ip address 参考 http roclinux cn p 2441 nslookup何许人 nslookup命令是Linu
给出两个非空的链表用来表示两个非负的整数。其中，它们各自的位数是按照逆序的方式存储的，并且它们的每个节点只能存储一位数字。如果，我们将这两个数相加起来，则会返回一个新的链表来表示,,,

题目介绍给出两个非空的链表用来表示两个非负的整数其中它们各自的位数是按照逆序的方式存储的并且它们的每个节点只能存储一位数字如果我们将这两个数相加起来则会返回一个新的链表来表示它们的和您可以假设除了数字 0 之外
昨晚，谷歌发布了一个可怕的人工智能！

昨晚谷歌召开了一年一度的Google I O大会没有太多废话谷歌CEO劈柴直接抛出了这次大会的主题 AI人工智能 AI能做什么其实黑友们每天都在使用它比如Siri或X爱助手我们可以这样问讲个笑话 1 1是多少今天星期几天
成功解决Unable to allocate xxx MiB for an array with shape (xxxx, xxxx)

原因数据量太大导致cpu内存不足导致的解决方法换个性能更好的电脑 numpy 在定义数组的时候采用更低的精度从float64降低为float32 array np zeros 10000 10000 dtype float32
【Neo4j】第 1 章：图数据库

大家好我是Sonhhxg 柒希望你看完之后能对你有所帮助不足请指正共同学习交流个人主页 Sonhhxg 柒的博客 CSDN博客欢迎各位点赞收藏留言系列专栏机器学习 ML 自然语言处理 NLP 深度学习 DL fore
Git安装与仓库配置（附带）

Git的安装与仓库配置前期准备安装与配置安装Git 注册账户环境配置配置用户名与邮箱生成SSH 添加SSH 配置仓库仓库建立初始化仓库提交文件操作 Git 的基本语法总结总结小话前期准备下载Git安装包根据需求不同
oracle bitmap join index

下面是官网对于位图联合索引的说明 Use the bitmap join index clause to define a bitmap join index A bitmap join index is defined on a sing
centos6.5下php添加pdo_mysql扩展

我的Mysql是用RPM方式安装的 PHP5 5是用源码编译安装的查看phpinfo 后发现没有pdo mysql扩展进去到php的源码包的ext中 root linux php cd usr local src php 5 5 18
最常用的五大算法

一贪心算法贪心算法又称贪婪算法是指在对问题求解时总是做出在当前看来是最好的选择也就是说不从整体最优上加以考虑他所做出的仅是在某种意义上的局部最优解贪心算法不是对所有问题都能得到整体最优解但对范围相当广泛的许多问题他能产
tomcat发布必须配置JAVA_HOME,但可以不配置CATALINA_HOME

在同一台服务器上使用tomcat 发布多个应用是经常的事情经常出现的问题 1 就是tomcat多个应用之间不能使用同一个端口今天又遇到一个问题纠结上好长时间记录之前发布第一个应用的时候按照网上的java开发的配置把CATAL
printk()和printf()的比较

1 前言 print函数和printf函数是对孪生兄弟在功能作用上几乎是一样的在使用上有一些区别 1 printk 和printf 之间的一个显著区别在于printk 允许通过指定一个标志来设置优先级从而决定这条打印是否需要打印出来
STM32 GPIO的学习

1 GPIO的作用目前我使用的是STM32F0xx系列参考数据手册Memory Map处可以看到ST所有的外设寄存器均处于Peripherals处地址范围为0x40000 0000 0x48001800 其中包含了APB1 APB2
孤立森林的简要记录

20200920 0 引言在之前的时候进行一些任务分类的时候使用过孤立森林来实现一些代码但是也没有具体来深究原理只知道这个跟随机森林有些像都是决策树的一种集成方式最近正好看到了这部分内容就正好记录一下本部分内容主要是有文章

热门标签