【论文阅读】Ultrafast Local Outlier Detection from a Data Stream with Stationary Region Skipping

2023-10-26

【论文阅读】Ultrafast Local Outlier Detection from a Data Stream with Stationary Region Skipping

论文来源:SIGKDD 2020

原文地址:https://dl.acm.org/doi/abs/10.1145/3394486.3403171

ABSTRACT

ABSTRACT

数据流中实时检测异常值是一个越来越重要的问题,尤其是由于物联网的普及和数字孪生的出现,传感器生成的数据流在许多应用程序中比比皆是。已经提出了几种基于密度的方法来解决这个问题,但可以说它们都不够快,无法满足实际应用程序的性能需求。本文基于一项新颖的观察,即在数据空间的许多区域中,数据分布几乎不会跨窗口滑动发生变化。我们提出了一种新算法,STARE,它识别数据分布几乎没有变化的局部区域,然后跳过更新这些区域中的密度——这个概念称为静止区域跳跃。两种技术,数据分布近似和基于累积净变化的跳过(cumulative net-change-based skip),被用来高效和有效地实现这个概念。使用合成和真实数据流的大量实验以及案例研究表明,STARE比现有算法快几个数量级,同时实现相当或更高的精度。

Main Idea

这项工作利用了真实数据流中的一个重要特性,它可以潜在地为异常值检测节省大量工作:数据点被倾斜到数据空间中的多个局部区域,并且数据分布在这些区域中几乎是静止的(即变化不显着)特定时间段内的区域。这种观察在窗口流处理中更为明显,因为窗口通常以窗口大小的一小部分滑动,因此,窗口滑动中的过期或新数据点对整个窗口中的数据分布的影响有限(参见图 1) ).

image-20221214142737685

从图中可以看出,随着窗口的滑动,数据的分布有一定的变化,但是整体分布变化不大。利用这一点,本文采取了基于局部密度的方法,找出与其他数据点存在显著不同的数据点标记为异常值。如果点的密度低于其邻居,基于密度的方法能够通过标记数据来有效地找到此类局部异常值,则该点作为异常点,其中数据点的密度由其局部区域的数据分布决定

目前,已经提出了几种基于密度的算法来检测数据流中的局部异常值 [13-16],它们需要估计数据点的密度。现有算法忽略了密度平稳性,每次窗口滑动时都会重复更新窗口中所有数据点的密度;整个数据空间中的这种密度估计会导致二次时间复杂度 [2, 6],这会由于延迟过大而影响及时的异常值检测。我们解决这个问题的关键思想是跳过数据点密度几乎没有变化的局部区域的密度更新,即静止区域。

image-20221214143232314

如上图所示,在前一个窗口(图2a)中有两个离群值

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【论文阅读】Ultrafast Local Outlier Detection from a Data Stream with Stationary Region Skipping 的相关文章

随机推荐

  • hadoop遇到的问题: org.apache.hadoop.ipc.Client: Retrying connect to server异常的解决

    今天在用pig脚本在hadoop运行时 出现如下错误 前提 hadoop能正常启动 pig的参数也正常配置好了 但是运行脚本就出现org apache hadoop ipc Client Retrying connect to server
  • 中国开源走向第二梯队!

    作者 彭慧中 责编 屠敏 出品 CSDN ID CSDNnews 开源已成为迄今为止最先进 最广泛 最活跃的协同创新模式 近年来 中国开源的发展已成为全球最快 中国在国际社区中的贡献度日益提升 在国际开源生态中的影响力日渐增强 在蓬勃发展之
  • 蒙特卡洛量化分析方法

    蒙特卡洛方法主要思想 对于一个随机系统 输出随输入变化是随机的 那么通过重复采样的方法可以得到输出的具体分布 进而再对输出分布形式进行分析 大数定律 当在试验不变的条件下 重复试验多次 随机事件的频率近似于它的概率 将上述思想用于量化分析
  • 常见国内镜像源地址

    常见国内镜像源地址 常见的pip后面的镜像源地址 常见国内镜像源地址 常见的pip后面的镜像源地址 清华大学 https pypi tuna tsinghua edu cn simple 阿里云 http mirrors aliyun co
  • ABAP:ONCHANGEOF的坑

    以下文章来源于ABAPer孙亮 作者孙小亮 ABAPer孙亮 绝对 有用 实用 的ABAP与Excel 原创 干货 不定期发布 可加vx 286503700交流 1 7 背景 由于AT NEW field会判断field和它前面的所有字段
  • 靠营销出圈的拉面说,会是下一个黄太吉吗?

    乘着 宅经济 一人食 的东风 方便速食这一餐饮细分赛道愈发火热 CBNData发布的 2021方便速食行业洞察报告 数据显示 方便速食行业近年来规模增长稳健 预估国内市场规模超2500亿元 而线上市场近一年的增长率更是超过了70 广阔的市场
  • DataGrip汉化设置

    左上角file settings plugins搜chinese如下图搜索结果 选择第二个官方汉化插件安装即可
  • 构造函数的初始化列表

    构造函数初始化列表以一个冒号开始 接着是以逗号分隔的数据成员列表 每个数据成员后面跟一个放在括号中的初始化式 例如 include
  • 【科普】一分钟看懂WINDOWS系统、LINUX系统和苹果操作系统到底有什么区别?

    转自 首先 不管是WINDOWS操作系统 LINUX系统还是苹果操作系统 甚至包括操作系统的鼻祖UNIX操作系统 最早都是用C语言编写的 实际上UNIX操作系统和C语言都是由贝尔实验室的汤普森 Ken Thompson 和丹尼斯 里奇 De
  • RFC文档(中文翻译版本)

    RFC文档官方在线阅读地址 https tools ietf org rfc index 以下是部分中文翻译的文档连接 RFC文档目录 RFC1 主机软件 RFC2 主机软件 RFC3 文档规范 RFC4 网络时间表 RFC6 与 Bob
  • Jmeter导出测试报告

    不管是测接口还是性能 测试完毕之后我们总是希望有所产出 能看的更直观 Jmeter就提供了导出测试报告的功能 一起看看怎么玩 如果细心留意的话 会看到在启动jmeter时 dos窗口会有一行命令 实际上这个命令就阔以帮助我们导出测试报告 我
  • 强制Vue重新渲染组件的最佳方式(亲测完美解决问题)

    有时候 依赖 Vue 响应方式来更新数据是不够的 相反 我们需要手动重新渲染组件来更新数据 或者 我们可能只想抛开当前的DOM 重新开始 那么 如何让Vue以正确的方式重新呈现组件呢 强制 Vue 重新渲染组件的最佳方法是在组件上设置 ke
  • MySQL 使用两种方式清空表,删除表中的所有数据

    假设要删除book表中的所有数据 DELETE FROM book 或 TRUNCATE TABLE book 两者的区别在于 如果book表的主键Id设置为自增的整型 那么 第一次新建一条数据不指定Id Id自动赋值为1 如果使用Dele
  • 刷脸支付项目成本低是创业投资首选

    人工智能技术的改革 还可以说刷脸支付的应用开启了人工智能技术的改革 在以往的人工智能技术的应用而言还不是十分普及 而人工智能技术的在商业化的落地 对于全国店家而言还可以得到广泛的应用 随着各方从业人员的推广以及技术的不断更新 人工智能技术和
  • 打印杨辉三角

    要打印杨辉三角 我们首先要观察杨辉三角中数的规律 1 1 1 1 2 1 1 3 3 1 1 4 6 4 1 1 5 10 5 1 如图 我们可以把杨辉三角中前面的空格先省掉 观察数的规律 可以把这些数看做一个二维数组 1 二维数组第一列的
  • 一文了解 Redis

    Redis 简介 Redis Remote Dictionary Server 是一个开源的高性能键值对存储数据库 最初由 Salvatore Sanfilippo 开发 它在内存中存储数据 并提供了持久化功能 可以将数据保存到磁盘中 是一
  • 基于 树莓派4 + STM32H7 构建支持云端应用的嵌入式系统平台 【一】

    基于 树莓派4 STM32H7 构建支持云端应用的嵌入式系统平台 一 一 想法概述 1 想法由来 2 系统架构 3 系统选型 4 开发语言 5 涉及到的框架 6 开发工具 7 功能实现 二 环境搭建 1 MCU开发环境 2 树莓派开发环境
  • 下载试用华秋DFM,让鹏老师恰口饭!

    赚W嘛 就大大方方的 不寒碜 华秋DFM简介 华秋DMF是一个PCB文件分析工具 可以在生产前分析设计好的PCB文件中可能存在的生产风险 从而提高PCB生产及后期贴片 装配的良品率 华秋DMF还集成及PCB下单功能 每个账号没月可免费在华秋
  • VMware虚拟机 Centos7网络配置 ping:www.baidu.com:未知的名称或服务 ping不通

    代码操作 右击打开终端 cd etc sysconfig network scripts ll ll less 看到第一行 rw r r 1 root root 279 11月 8 01 35 ifcfg ens33 vim ifcfg e
  • 【论文阅读】Ultrafast Local Outlier Detection from a Data Stream with Stationary Region Skipping

    论文阅读 Ultrafast Local Outlier Detection from a Data Stream with Stationary Region Skipping 论文来源 SIGKDD 2020 原文地址 https dl