异常点检测的应用场景与检测方法(含代码实操案例)

2023-05-16

异常点检测概述

这里常说的异常点,目前并没有具体的严格定义,大多数来讲,检测异常点都是按照数据分布与业务逻辑结合进行主观判断是否属于异常点。关注金科应用研院,回复“CSDN”,领取风控资料合集。更多关于量化风险管理、贷前策略、贷中管理、额度授信、定价等信息,请关注金科应用研院。

图片

举一个例子,例如我们无法直接区分出图1中的蓝点和红点,哪一个点是异常点。但把它们放在图2的数据环境里面后,只有一个点是红色,其余的点都是蓝色,那么根据数据分布的规则,就能判断出的红点是一个异常点。

所以,数据集汇总的异常数据通常被认为是异常点、离群点或孤立点,特点是这些数据的特征与大多数数据不一致,呈现出"异常"的特点,检测这些数据的方法称为异常检测。识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题,针对的是少数的事件。

异常点检测的应用

异常值/离群值检测的应用比较广泛,例如:

  1. 欺诈检测,即检测信用卡或电话卡的欺诈性事件;

    贷款申请处理,检测欺诈性申请或潜在问题客户;

    入侵检测,检测计算机网络中未经授权的访问;

    活动监视,通过监视电话活动或股票市场中的可疑交易来检测手机欺诈;

    网络性能,监视计算机网络的性能,例如检测网络瓶颈;

    故障诊断,检测例如航天飞机上的电动机、发电机、管道或太空仪器中的故障;

    结构缺陷检测,检测生产线中的缺陷瑕疵;

    卫星图像分析,识别新颖特征或分类错误的特征;

    检测图像中的新颖性,用于机器人整形或监视系统;

    运动分割,检测独立于背景移动的图像特征;

    时间序列监视,监视安全关键应用,例如钻孔或高速铣削;

    医疗状况监控,例如心率监控器;

    药物研究,确定新的分子结构;

    检测文本中的新颖性,检测新闻事件的出现,进行主题检测和跟踪,或让交易者查明股票、商品、外汇交易事件,表现出色或表现不佳的商品;

    检测数据库中的意外记录,用于数据挖掘以检测错误、欺诈或有效但异常的记录;

    在训练数据集中检测标签错误的数据。

异常点检测算法使用场景

什么时候我们需要异常点检测算法呢?常见的有三种情况。

  1. 做数据预处理的时候需要对异常的数据做过滤,防止对归一化等处理的结果产生影响; 对没有标记输出的特征数据做筛选,找出异常的数据;
    对有标记输出的特征数据做二分类时,由于某些类别的训练样本非常少,类别严重不平衡,此时也可以考虑做异常点检测。

检测异常点的方式

图片

如果整体的数据环境变成图3,你还会认为红点是一个异常点吗?很明显不会,因为图3的每个点都都是由奇奇怪怪的形状构成的,反而是蓝点和红点都是圆形,那么我们极有可能会认为蓝点和红点是同一类别下的数据。

所以这时候数据的异常链检测,除了根据数据单个点的本身之外,还需要根据本身的数据环境与业务逻辑进行判断。我认为检测异常点,一定是从数据角度和业务角度两方面相结合,并且需要做大量的数据分析对其进行分类和总结,提取最有价值的信息,最终有效判断异常点。

如何从数据角度把异常点找出来,这里我给大家推荐一个我认为比较好的检测异常点方法:孤立森林 Isolation Forest(iForest)

孤立森林是用于异常检测的机器学习算法。这是一种无监督学习算法,巧妙的利用决策树分裂来寻找离群样本,通过隔离数据中的离群值识别异常,因为异常点和大多数的正常样本差距较大所以会被孤立出来。

孤立森林的算法公式:

图片

孤立森林的代码示例:

数据集为同一个商品在不同商店的价格,共20个数据,看看其中哪些商品存在异常值。

在这里插入图片描述
在这里插入图片描述

我们可以看到,发现了5个异常的数据。

孤立森林算法的有点在于海量数据处理的高效性,具有内存占用少、计算速度快的优势。同时,其参数数量少,因此易用性很强。

但是其适用条件苛刻,异常点少且需要特征明显,而且不适合高维数据。

在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

异常点检测的应用场景与检测方法(含代码实操案例) 的相关文章

  • VMware虚拟机

    文章目录 VMware虚拟机联网三种网络连接方式桥接模式联网原理NAT模式联网原理NAT模式配置手动配置网络关于apt命令关于ifconfig命令简介命令格式命令参数使用实例显示网络设备信息 激活状态的 开启 禁用网络 虚拟机内核与逻辑处理
  • 智能无障碍轮椅——ESP8266总体介绍及ESP-01S入门调试

    文章目录 一 ESP8266 介绍二 ESP8266的多种型号1 DT 062 ESP 01和ESP 01S 左边ESP 01S xff0c 右边ESP 01 3 ESP 12F 三 两种开发方式1 AT指令开发方式2 SDK开发方式 四
  • ROS操作系统快速入门

    文章目录 一 简介模块化 分布式的系统设计 二 安装虚拟机与ROS系统安装虚拟机的缺点安装ubuntu20 04 三 ROS系统安装切换镜像源视频教程 四 ROS应用商城APT源简介与指令介绍案例ros应用商城介绍 五 GIthub建立如下
  • Proteus 仿真8086+8255,运行时错误的解决

    要实现的功能 xff1a 通过开关控制流水灯的显示方式 电路原理图 xff1a 汇编源程序 xff1a CODE SEGMENT ASSUME CS CODE START MOV AL 90H OUT 36H AL AGAIN IN AL
  • 7年程序员项目经历归纳总结

    工作五年 xff0c 敲代码7年 xff0c 科研院所 国企 私企都有过经历 xff0c 发现项目的开发过程总是那么的相似 xff0c 过程举例如下 xff08 事实上画个流程图可能更好 xff0c 但是懒得画了 xff09 xff1a 1
  • Ubuntu20.04+ros(noetic)+RealsenseT265+ORB_SLAM3(一)

    noetic安装的很顺利 xff0c 照着官方文档来就行 xff1b Kalibr的编译 xff1a 一开始参考了 Ubuntu16 04 43 RealsenseT265跑通VINS Fusion IATBOMSW的博客 CSDN博客 x
  • 如何开启英伟达TX2的所有USB3.0口

    TX2新烧完系统之后 xff0c 默认只有一个USB3 0口使能了 xff0c 实际上TX2最多可以使能3个USB3 0口 xff0c 在TX2的design guide中 xff0c 可以找到相应的配置说明 xff0c 见下图 TX2默认
  • Ubuntu20.04+ros(noetic)+RealsenseT265+ORB_SLAM3(二)

    终于编译kalibr成功了 xff0c 可以标定t265了 标定分为三个步骤 xff0c 分别是IMU xff0c 双目和联合标定 xff0c 标定过程仍然参考了Ubuntu16 04 43 RealsenseT265跑通VINS Fusi
  • ADRC控制系统离散形式的稳定性证明

    1 引言 这个问题是最近课题组一个师兄的SCI控制论文的一部分 xff0c 应师兄之邀 xff0c 博主贡献了控制系统稳定性的数学证明 博主目前的研究方向跟控制领域毫无关联 xff0c 只负责其中的系统收敛性证明 师兄的控制系统是一个较为一
  • 固定翼无人机的自主降落-Simulink纵向控制仿真

    本项目来源于一项课程设计 xff0c 用于简单固定翼模型的降落 需要模型的请点击下载链接 xff0c 通过积分获取 https download csdn net download nudt zrs 12454986 练习过固定翼飞行的 x
  • 找工作笔试中的常见考点

    1 Java程序初始化执行顺序 xff1a 父类静态变量 父类静态代码块 子类静态变量 子类静态代码块 父类非静态变量 父类非静态代码块 父类构造函数 子类非静态变量 子类非静态代码块 子类构造函数 2 程序运行结果是多少 xff1f pu
  • eclipse修改后无法正常保存文件解决办法

    ctrl 43 s保存修改的代码时报错 window gt Preferences gt General gt Content Types gt Text gt 选中出现保存问题的文件类型 xff08 如JSP xff09 在底部出现 39
  • Ubuntu18.04+ros-melodic (包括Ubuntu16.04+ros-kinetic)乐视奥比中光相机在nano、tx2、PC等设备上的安装与使用,并解决无法显示rgb信息的问题

    2020 12 25修改 xff1a 本文底部所说的无法显示rgb的情况 xff0c 如果你买的是乐视就按照这个来绝对ok 如果你买的是奥比中光的原装正版 xff0c 直接启动launch文件就行了 xff0c 无须再修改端口号 本来用Ki
  • 数据库单表查询教师班级学生信息表

    单表查询实例 以下为单表查询小实验 xff0c 由于没有教师表和学生表数据库文件 xff0c 因此没有运行截图 xff0c 若有语法错误还望大佬们指正 1 查询学生信息表 info student 中的班级信息 Select 班级 span
  • 在用于 GROUP BY 子句分组依据列表的表达式中,不能使用聚合或子查询。

    在用于 GROUP BY 子句分组依据列表的表达式中 不能使用聚合或子查询 示例题目 原因分析 解决方案 示例题目 查询所有学生的平均成绩 显示字段为学号 姓名 平均成绩 题目 查询所有学生的平均成绩 显示字段为学号 姓名 平均成绩 报错情
  • 在查询中进行统计,分组统计,分开统计

    在查询中进行统计 按角色分组算出每个角色按有办公室和没办公室的统计人数 列出角色 xff0c 数量 xff0c 有无办公室 注意一个角色如果部分有办公室 xff0c 部分没有需分开统计 xff09 span class token cons
  • vscode在哪里配置git

    一 安装Git管理工具 xff0c 可上官网安装 xff0c 安装路径https git scm com xff0c 安装路径默认C Program Files Git xff0c 可自行修改 xff0c 这里我是安装在D Program
  • macOS下的串口调试助手——CoolTerm的使用

    很多希望在 macOS 下做嵌入式开发的朋友都苦于没有合适的串口调试软件 xff0c 今天我来介绍分享一下 CoolTerm 这款跨平台串口调试助手 1 下载安装 首先到 CoolTerm 的官方网站 http freeware the m
  • vscode怎么关掉/禁用源代码管理

    问题描述 运行项目时源代码管理自动运行 有时还报错实在不便 而运行本地项目时往往不用进行版本控制 xff0c 也就不需要vscode的源代码管理 解决方法 在设置中搜索GIT Enabled xff0c 将其关闭即可 如果求稳可以一并把gi
  • ‘com.baomidou.mybatisplus.extension.plugins.PaginationInterceptor‘ 已经过时了导致出现返回total总为0的问题

    在配置类中去掉原有的依赖 他已经过时了 去掉之后 添加这个功能更多更新的Bean对象 64 Configuration span class token keyword public span span class token keywor

随机推荐

  • UnsatisfiedDependencyException: Error creating bean with name ‘subjectServiceImpl‘: Unsatisfied depe

    背景 看xml所在的路径不舒服 任性改资源路径 以为idea会帮我更新引用就以身试险了哈哈哈 报错信息是bean出现了创建错误 查了网上大部分的博客 一一排除后还是报错 网上大部分建议总结如下 1 先去排查service实现层有没有添加注解
  • Web server failed to start. Port 9020 was already in use./window环境

    Web server failed to start Port 9020 was already in use Web服务器无法启动 端口9020已在使用中 解决思路 xff1a 端口被占用了 xff0c 需要我们去杀死相应的进程 xff0
  • 怎么删除存在表关联的原有数据库表空间?

    怎么删除原有数据库表空间 xff1f 1 xff1a 查询所有的表空间 select tablespace name from sys dba tablespaces 2 xff1a 删除 普通删除 DROP TABLESPACE MESA
  • oracle数据库还原/finalshell/删除表空间/用户名冲突

    数据库10 0 1 131还原 1 首先进行数据库finalshell的配置 账号 xff1a mesadmin 密码 xff1a 2 加载oracle配置文件 sudo su su oracle source etc profile 3
  • C++中的数据类型及其所占字节

    1 整型 包括 xff1a short xff08 短整型 xff09 xff0c 占2个字节 xff1b int xff08 整型 xff09 xff0c 占4个字节 xff1b long xff08 长整型 xff09 xff0c 占4
  • C语言中的关键字

    C语言共有32个关键字 关键字不能作为常量名 变量名或其他标识符名称 根据关键字的作用 xff0c 可将关键字分为 xff1a 数据类型关键字 控制语句关键字 存储类型关键字和其它关键字这四类 数据类型关键字 xff08 12个 xff09
  • C语言字符串和字符串结束标志

    1 在C语言中 xff0c 是将字符串作为字符数组来处理的 2 C语言规定了一个 字符串结束标志 xff0c 以字符 0 作为结束标志 如果字符数组中存有若干字符 xff0c 前面九个字符都不是空字符 xff08 0 xff09 xff0c
  • C语言字符数组的输入和输出

    字符数组的输入输出有两种方法 xff1a xff08 1 xff09 逐个字符输入输出 用格式符 c 输入或输出一个字符 例如 span class token keyword int span span class token funct
  • android手机开启IPv6(电信)

    安卓手机开启IPv6 xff08 电信 xff09 系统设置找到移动网络 接入点 接入点选择CTNET 接入设置点进去可以找到APN协议 xff0c 选择IPv4 IPv6即可 实测手机这样设置后开热点笔记本 xff0c 能稳定获得ipv6
  • C语言 怎样定义函数

    1 定义函数 C语言要求 xff0c 在程序中用到的所有函数必须要 先定义 xff0c 后使用 定义函数应包括以下几个内容 xff1a xff08 1 xff09 指定函数的名字 xff0c 以便以后按名调用 xff08 2 xff09 指
  • C语言 函数的返回值

    通过函数调用使主调函数能得到一个确定的值 xff0c 这就是函数值 xff08 函数的返回值 xff09 1 函数的返回值是通过函数中的return语句获得的 return语句将被调用函数中的一个确定值带回到主调函数中去 如果需要从被调函数
  • C语言 函数的嵌套调用

    C语言的函数定义是互相平行 独立的 xff0c 也就是说 xff0c 在定义函数时 xff0c 一个函数内不能再定义另一个函数 xff0c 即不能嵌套定义 xff0c 但可以嵌套调用函数 xff0c 即 xff0c 在调用一个函数的过程中
  • C语言 Hanoi(汉诺)塔问题,用递归解决

    问题 古代有一个梵塔 xff0c 塔内有3个座A xff0c B xff0c C 开始时A座上有64个盘子 xff0c 盘子大小不等 xff0c 大的在下 xff0c 小的在上 有一个老和尚想把64个盘子从A作移到C座 xff0c 但规定每
  • C语言 数组元素的指针

    1 一个变量有地址 xff0c 一个数组包含若干个元素 xff0c 每个数组元素都在内存中占用存储单元 xff0c 它们都有相应的地址 2 指针变量既然可以指向变量 xff0c 当然也可以指向数组元素 xff08 把某一元素的地址放入一个指
  • Python 实验三 控制语句

    1 从键盘接收整数的一百分制成绩 xff08 0到100 xff0c 要求输出其对应的成绩等级A E 其中 xff0c 90分 xff08 包含 xff09 以上为A xff0c 80 89 xff08 均包含 xff09 分为B xff0
  • Python 实验四 常用数据结构(1)

    1 从键盘输入一个正整数列表 xff0c 以一1结束 xff0c 分别计算列表中奇数和偶数的和 n span class token operator 61 span span class token builtin int span sp
  • Python 实验四 常用数据结构(2)

    6 某企业为职工发放奖金 xff1a 如果入职超过5年 xff0c 且销售业绩超过15000元的员工 xff0c 奖金比例为0 2 xff1b 销售业绩超过10000元的员工 xff0c 奖金比例为0 15 xff1b 销售业绩超过5000
  • JavaScript之入门4篇(DOM节点操作)

    学习记录 xff1a 学习视频链接https www bilibili com video BV1Sy4y1C7ha p 61 194 amp spm id from 61 pageDriver 1 节点操作 xff1a 1 利用DOM提供
  • Please wait while Jenkins is getting ready to work (jenkins)

    如果界面提示Jenkins正在启动 请稍后 或者提示 Please wait while Jenkins is getting ready to work 解决方法 1 需要你进入jenkins的工作目录 xff0c 打开 hudson m
  • 异常点检测的应用场景与检测方法(含代码实操案例)

    异常点检测概述 这里常说的异常点 xff0c 目前并没有具体的严格定义 xff0c 大多数来讲 xff0c 检测异常点都是按照数据分布与业务逻辑结合进行主观判断是否属于异常点 关注金科应用研院 xff0c 回复 CSDN xff0c 领取风