数据噪声以及去噪

2023-10-29

数据挖掘中的噪声简介

实际数据是数据挖掘算法的输入,它受多个组件的影响。其中,噪声的存在是关键因素。噪声是不可避免的问题,它会影响数据挖掘应用程序中经常发生错误的数据收集和数据准备过程。噪声有两个主要来源:隐式错误由测量工具引入;以及批处理或专家在收集数据时(例如在文档数字化过程中)引入的随机错误。

在这种情况下建立的分类器的性能(我们通常希望最大化)将在很大程度上取决于训练数据的质量,而且还取决于分类器本身的抗噪声能力。

噪声种类

1.类别噪音(label噪音)。当示例的标签不正确时,就会发生这种情况。类别噪声可归​​因于多种原因,例如在标记过程中的主观性,数据输入错误或用于标记每个示例的信息不足。可以区分两种类型的类别噪声:

矛盾的示例:重复的示例有不同之处类标签。在上面的图中,两个示例(0.25,红色,类别=正)和(0.25,红色,类别=负)是相互矛盾的示例,因为它们具有相同的属性值和不同的类别。

错误分类:被标记为与真实的。在示例上方的图中(0.99,greee,class =否定)是标签错误的示例,因为其类标签错误,并且将是“正”。

2.属性噪声。这是指一个或多个属性的值损坏。属性噪声的示例包括:

属性值错误。在上图中,示例(1.02,绿色,类别=正)具有第一个带有噪点的属性,因为其值错误。

缺少或未知的属性值。在上图中,由于我们不知道第二个属性的值,因此示例(2.05,?,class = negative)具有属性噪波。

属性不完整或“无关”值。在上图中,示例(=,绿色,类别=正)具有属性噪声,因为第一个属性的值不会影响示例的其余值,包括示例的类。

检查噪声数据对分类器学习算法性能的影响对于提高分类器学习算法的可靠性是必要的,并已激发了如何生成噪声并将噪声引入数据的研究。噪声的产生可以通过三个主要特征来表征:

  1. 引入噪音的地方。噪声可能会影响输入属性或输出类别,从而损害学习过程和结果模型。
  2. 噪音分布。产生噪声的方式可以是例如均匀或高斯的。
  3. 生成的噪声值的大小。噪声影响数据集的程度可以相对于每个属性的每个数据值,或者相​​对于每个属性的最小,最大和标准偏差。

在现实世界的数据集中,存在的噪声的初始数量和类型是未知的。因此,无法对基本噪声的类型和水平做出任何假设。因此,这些数据集被认为是无噪声的,因为没有将可识别的噪声引入其中。为了控制每个数据集中的噪声量并检查其如何影响分类器,在文献中以有监督的方式将噪声引入到每个数据集中。在文献中,使用四种不同的噪声方案对考虑的两种类型的噪声,即类别噪声和属性噪声进行了建模。以这种方式,这些类型的噪声的噪声水平x%的存在将使人们能够在以下情况下模拟分类器的行为:

  1. 类噪声通常发生在类的边界上,这些示例可能具有相似的特性-尽管它可以在域的任何其他区域中发生。在文献中,使用统一的类噪声方案(随机破坏示例的类标签)和成对类噪声方案(使用第二多数类标记大多数类的示例)引入类噪声。考虑到这两种方案,分别模拟了影响任何一对类别且仅影响两个多数类别的噪声。

    均匀的类噪声。 x%的示例已损坏。这些示例的类标签被其他类中的另一个随机替换。

    成对类噪声。假设X为多数类,Y为第二多数类,带有标签X的示例有x / 100的概率被错误地标记为Y。

  2. 属性噪声可能来自多种来源,例如传输限制,传感器设备故障,采样不规则和转录错误。错误的属性值可能是完全不可预测的,即随机的,或暗示相对于正确值的较小变化。为了分别模拟每种可能性,我们使用统一属性噪声方案和高斯属性噪声方案。我们根据属性之间相互作用弱的假设引入属性噪声。结果,引入每个属性的噪声与引入其余属性的噪声具有低相关性。

    均匀的属性噪声。数据集中每个属性的x%的值已损坏。为了破坏每个属性Ai,选择数据集中x%的示例,并从属性Ai的域Di中为它们的Ai值分配一个随机值。均匀分布用于数值或名义属性。

    高斯属性噪声。此方案类似于统一属性噪声,但是在这种情况下,Ai值被破坏,在均值= 0和标准偏差=(max-min)/ 5的高斯分布下为它们添加一个随机值,即max和最小属性域的限制。名义属性被视为统一属性噪声的情况。

使用噪音过滤器以减少噪音的影响
鉴于噪声造成的精度损失,以前的工作已经证明了对处理这种噪声的技术的需求(在专业文献中,已提出了几种方法来减轻噪声产生的影响:

编辑最近邻居(ENN) 该算法以FS = TR开始。 然后,如果FS中的每个实例与其k个最近邻居中的大多数不一致,则将其删除。
全kNN(AllKNN) All kNN技术是ENN的扩展。 最初,FS = TR。 然后将NN规则应用k次。 在每次执行中,NN规则都会在1到k之间改变邻居的数量。 如果一个实例被NN规则错误分类,则将其注册为可从FS删除。 然后,所有符合条件的对象将被立即删除。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据噪声以及去噪 的相关文章

  • 手把手教你使用vue2搭建微前端micro-app

    简述 本文主要讲述新手小白怎么搭建micro app 几乎是每一步都有截图说明 上手应该很简单 研究背景 这段时间在网上找了很多有关微前端相关的知识 起初本来是想着先搭建一个single spa 但是奈何网上能找到的内容都是千篇一律 我也是

随机推荐

  • 时钟芯片DS1302的原理及使用

    一 描述 DS1302时钟芯片是由美国DALLAS公司推出的具有涓细电流充电能力的低功耗实时时钟芯片 它可以对年 月 日 周 时 分 秒进行计时 且具有闰年补偿等多种功能 DS1302芯片包含一个用于存储实时时钟 日历的 31 字节的静态
  • Installing with get-pip.py

    本文转载至 https pip readthedocs io en stable installing 由于 Mac OS X 下默认没有安装 pip 可以使用如上的脚本来安装 pip 安装方法很简单 1 下载 get pip py htt
  • libtorch编译C++版本

    libtorch编译C 版本 一 下载pytorch源码 git clone https github com pytorch pytorch git cd pytorch git submodule sync git submodule
  • 如何配置Kubernetes仪表板dashboard支持http方式并使用ingress-nginx代理访问实践

    公众号关注 WeiyiGeek 设为 特别关注 每天带你玩转网络安全运维 应用开发 物联网IOT学习 本章目录 配置 Kubernetes dashboard 以支持 http 方式访问 原文地址 https blog weiyigeek
  • centos6、centos7 脚本管理rsync服务状态

    1 环境准备 centos6 虚拟机 centos7 虚拟机 2 centos6 编写脚本 分析脚本管理的逻辑 centos6中管理 服务的脚本都是在 etc init d 目录下的 我们要在此目录下创建一个管理的脚本 centos系统是通
  • kafka配置之service.properties文件

    Server Basics 唯一标识一个broker broker id 1 Socket Server Settings 绑定服务监听的地址和端口 要填写hostname i 出来的地址 否则可能会绑定到127 0 0 1 produce
  • SQL-labs的第32关——union联合查询攻击 宽字节注入(Get)

    绕过向危险字符添加斜杠的自定义筛选器 注意只要出现危险字符就会自动添加斜杆 这里的危险字符只有单引号 所以只要写了单引号 就要干扰斜杠 1 判断闭合方式 输入语句 id 1 返回页面如下 按理来说 它这次是无法正常返回内容的 但是它正常返回
  • 全面解析Web3社交:深层次的链上社交将成为可能

    Web3是什么 Web3是一个没有既定定义的总括性术语 这个词包含了由社区和用户所有权驱动的去中心化的想法和愿景 Him Gajria写的一篇关于Web3 0的文章说得很好 Web1是只读的 网络托管内容 人们可以消费内容 但不能分享 We
  • matlab高代求商与余式,matlab求商取余remmod区别

    当除数和被除数同为正时 gt gt rem 10 91 ans 10 gt gt mod 10 91 ans 10 当除数和被除数同为负时 gt gt rem 10 91 ans 10 gt gt mod 10 91 ans 10 当除数和
  • 数字一阶低通滤波器立体解析

    一阶惯性环节 一个独立储能元件和一个耗能元件的组合 就可以构成一个惯性环节 下图就是一个常见的电路 一阶滤波电路 也可以叫一阶惯性环节 为什么叫一阶惯性环节呢 是因为当输入信号发生突变的时候 输出信号不能突变 只能按照指数规律逐渐变化 是不
  • react基础05--react-router 路由

    react基础05 react router 路由 1 介绍 2 方法 案例 react router 路由的基本使用 路由传参 Switch 路由匹配 嵌套路由 3 注意事项 4 说明 1 介绍 react基础04 redux 管理数据
  • jQuery实现各种轮播图

    目录 无限循环滚动 百叶窗 轮播一 轮播二 轮播三 无限循环滚动 margin 0 padding 0 div width 1120px height 300px border 1px solid 000 margin 100px auto
  • 推荐5个非常强大的ChatGPT浏览器插件|你的生产力提高工具

    近期 ChatGPT变得越来越热门 为此 许多浏览器插件也随之问世 这些基于ChatGPT的浏览器插件大大提高了ChatGPT的能力 使得我们能够更高效地在平时的上网 工作和学习中获得帮助 从而节省了大量时间 今天我来给大家介绍几款非常好用
  • .asp中.cs文件路径在哪_ASP.NET实战007:MVC解决跨域请求问题详解

    前面刚说到Vue实战057 前端解决跨域问题详解 今天顺便把ASP NET MVC的跨域解决方案也分享下 什么是跨域问题这里就不在复述了 前面已经解释了很多次了 需要了解的可以参考Vue实战057 前端解决跨域问题详解 这里主要说下在ASP
  • 史上最强多线程面试47题(含答案),建议收藏

    点击上方 Java之间 选择 置顶或者星标 你关注的就是我关心的 来源 java互联网架构 上一篇 天天吹微服务 单体应用有啥不好 金九银十快到了 即将进入找工作的高峰期 最新整理的最全多线程并发面试47题和答案总结 希望对想进BAT的同学
  • windows下docker的安装

    1 打开官网 https www docker com products docker desktop 看了一下官网这个页面是有些变化的 但是只要你认识windows这个单词 基本上下个windows版本的docker安装包是没问题的 2
  • ruoyi框架解决单个账户并发登录,限制多个浏览器或同一浏览器登录同个一账号

    ruoyi框架解决单个账户并发登录 限制多个浏览器或同一浏览器登录同个一账号 今天突然要解决限制一个账号多个浏览器登录问题 系统用的是若依框架 实现思路如下 application yml配置 这里在配置文件里面设置是否限制 如果以后不需要
  • 深入“自自顶向下,逐步求精”——面向过程程序设计方法

    文章转自 http blog csdn net sxhelijian article details 7303605 程序设计初学者常常受困于不会想问题 不知道让计算机解决这个问题该如何做 其实 程序员的一个基本功是 能够将复杂的问题分解开
  • 基于Vue实现一个有点意思的拼拼乐小游戏

    笔者去年曾写过一个类似的拼拼乐小游戏 技术栈采用自己的Xuery框架和原生javascript实现的 脚手架采用gulp来实现 为了满足对vue的需求 笔者再次使用vue生态将其重构 脚手架采用比较火的vue cli 前言 为了加深大家对v
  • 数据噪声以及去噪

    数据挖掘中的噪声简介 实际数据是数据挖掘算法的输入 它受多个组件的影响 其中 噪声的存在是关键因素 噪声是不可避免的问题 它会影响数据挖掘应用程序中经常发生错误的数据收集和数据准备过程 噪声有两个主要来源 隐式错误由测量工具引入 以及批处理