数据挖掘技术（一）预处理

2023-11-09

1、数据预处理

数据预处理技术包括：聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。

属性的类型：标称（定性的）（值仅仅是不同的名字，即只提供足够的信息以区分对象，如雇员ID，性别）、序数（定性的）（值提供足够信息确定对象的序，，如成绩，街道号码）、区间（定量的）（值之间的差别是有意义的，即存在测量单位如日历日期，摄氏和华氏温度）、比率（定量的）（差和比率都是有意义的如：年龄，长度，电流）。时序数据（也叫时间数据）是对记录数据的扩充，其中，每个记录包含一个与之相关联的时间。序列数据是一个数据集合，它是个体项的序列，如词或字母的系列，处没有时间戳之外，它与时序数据非常相似。时间序列数据是一种特殊的时序数据，其中每个记录都是一个时间序列，即一段时间的测量序列。

聚集：将两个或多个对象合并成单个对象。如将表的两列并成一列（删除属性），将表的多行并成一行。将按天的记录并成按月的记录（这种聚集常用于联机分析处理OLAP）。聚集动机：（1）导致需要较小的内存和处理时间；（2）通过高层而不是低层数据视图，聚集起到了辖域和标度转换的作用；（3）对象或属性群的性质通常比单个对象或属性的性质更加稳定；（4）缺点是：丢失有趣的细节。
抽样：分层抽样：从预先指定的组开始抽样。在最简单的情况下，尽管每组的大小不同，但是从每组抽取的对象个数相同。另一种变形是从每一组抽取的对象的数量正比于该组的大小。合适的样本容量可能很难确定，因此有时需要使用自适应和渐进抽样的方法：从一个小样本开始，然后增加样本容量直至得到足够容量的样本。
二元化：发现关联模式的算法要求数据是非对称的二元属性（只有属性的出现才是重要的）。一种分类属性二元化的技术如下：如果有m个分类值，将每个原始值唯一地赋予区间[0,m-1]中的一个整数。如果属性是有序的，则赋值必须保持序关系。然后，将这m个整数的每一个都变换成一个二进制数。由于需要个二进制位表示这些整数，使用n个二元属性表示这些二进制数。但是该方法不适合于非对称的二元属性，对于它必须为每一个分类值引入一个二元属性。
非监督离散化：连续属性的离散化：等宽（等宽区间）、等频或等深（每个区间的点一样多）、使用（诸如K均值等）聚类后的结果来离散化。

监督离散化：一种概念上的方法是以极大化区间纯度的方式确定分割点。然而，实践中这种方法可能需要任意确定区间纯度和最小化的区间大小。为了解决这一问题，一些基于统计学的方法用每个属性值来分割区间，并通过合并类似于根据统计检验的相邻区间来创建较大的区间。如果一个区间只包含一个类的值（该区间非常纯），则其熵为0，如果一个区间中的值类出现的频率相等（该区间尽可能不纯），则其熵最大。

一种划分连续属性的简单方法是：开始，将初始值切分成两个部分，使得两个结果区间产生最小熵。该技术只需要把每个值看作可能的分割点，因为假定区间包含有序值的集合。然后，取一个区间，通常选取具有最大熵的区间，重复分割过程，知道区间的个数达到用户指定的个数，或满足终止条件。OLAP的分析功能集中在从多维数据数组中创建汇总表的各种方法。 OLAP技术包括在不同的维上或在不同的属性上聚集数据。
众数：具有最高频率的数。对于多元数据，每个属性的散布可以独立于其他属性。数据的散布更多地用协方差矩阵表示。两个属性的协方差矩阵是两个属性一起变化并依赖于变量大小的度量。协方差接近于0表明两个变量不具有（线性）关系。
用多维数组表示数据需要两个步骤：维的识别和分析所关注的属性的识别。
从表形式表示的数据集创建多维数据表示的过程：首先确定用作维的分类属性以及用作分析目标的定量属性（目标属性是定量的，因为多维数据分析的关键目标是观察聚集量，如总和和平均值），然后将表的每一行（对象）映射到多维数据的一个单元，单元的下标由被选作维的属性的值指定，而单元的值是目标属性的值，假定没有被数据定义的单元的值为0。
从多维角度看待数据的主要动机就是需要以多种方式聚集数据。计算聚集总合涉及固定某些属性（维）的值，在其余属性（维）的所有可能的值上求和。数据的多维表示，连同所有可能的总和（聚集）称作数据立方体（尽管叫立方体，每个维的大小（属性的个数）却不必相等，此外，数据立方体可能多余或少于三个维）。数据立方体是称为交叉表的统计学技术的推广。转轴：在除两个维之外的所有维上聚集，结果是一个二维交叉表，只有两个指定的维作为留下的维；切片：通过对一个或多个维指定特定的值，从整个多维数组中选择一组单元。切块：通过指定属性区间选择单元子集，这等价于由整个数组定义子数组；上卷：如将按天的数据按月聚集；下钻：按月的数据分解为按天的。上卷和下钻与聚集有关，然而不同于其他聚集，它是在一个维内聚集单元，而不是在整个维上聚集。多维数据分析将数据看作多维数组，并聚集数据，以便更好地分析数据的结构。
1.1、维规约
维规约可以删除不相关的特征并降低噪声。术语维规约通常用于这样的技术：通过创建新属性，将一些旧属性合并在一起来降低数据集的维度。通过选择旧属性的子集得到新属性称为特征子集选择或特征选择。维规约的一些常用的方法是使用线性代数的技术，将数据由高维空间投影到低维空间，特别是对于连续数据。主成分分析（PCA）是一种用于连续属性的线性代数技术，并且捕获数据的最大变差。奇异值分解是一种线性代数技术，它与PCA有关，并且也用于维规约。
1.2、特征子集选择
降低维度的另一种方法是近使用特征的一个子集。特征现在的理想方法是：将所有可能的特征子集作为感兴趣的数据挖掘算法的输入，然后选取产生最好结果的子集。这种方法在大部分情况下行不通，所以有三种标准的特征选择方法：嵌入、过滤和包装。嵌入方法：特征选择作为数据挖掘算法的一部分自然地出现。特殊地，在数据挖掘算法运行期间，算法本身决定使用哪些属性和忽略哪些属性。过滤方法：使用某种独立于数据挖掘任务的方法，在数据挖掘算法运行前进行特征选择。例如：我们可以选择属性的集合，它的属性对之间的相关度尽可能低。包装方法：将目标数据挖掘算法作为黑盒，使用类似于前面介绍的理想算法的方法，但通常不枚举所有可能的子集来找出最佳属性子集。过滤方法和包装方法的唯一不同是它们使用了不同的特征子集评估方法。对于包装方法，子集评估使用目标数据挖掘算法；对于过滤方法，子集评估技术不同于目标数据挖掘算法。特征子集产生的结果将比所有特征产生的结果更好，或者至少几乎一样好。
1.3、特征创建
常常可以由原来的属性创建新的属性集，更有效的捕获数据集中的重要信息。此外，新属性的数目可能比原属性少。三种创建新属性的相关方法：特征提取、映射数据到新的空间和特征构造。特征提取：由原始数据创建新的特征集称作特征提取。最常使用的特征提取技术都是高度依赖于特定领域的。所以，一旦数据挖掘用于一个相对较新的领域，一个关键的任务就是开发新的特征和特征提取方法。映射数据到新的空间：通过对时间序列实施傅里叶变换，将它转换成频率信息明显的表示，就能检测到这些模式。除傅里叶变换外，对于时间序列和其他类型的数据，已经证实小波变换也是非常有用的。特征构造：原始数据集的特征具有必要的信息，但其形式不适合数据挖掘算法。在这种情况下，一个或多个由原始特征构造的新特征可能比原始特征更有用。尽管有一些努力试图通过考察已有特征的简单数字组合来自动地进行特征构造，但是最常见的方法还是使用专家意见构造特征。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘技术（一）预处理的相关文章

js 判断变量类型（完整版），包括ES6 新类型Symbol

欢迎来到Altaba的博客相信大家在开发中遇到需要判断变量类型的问题 js变量按存储类型可分为值类型和引用类型值类型包括Undefined String Number Boolean 引用类型包括object Array Functio
股票和期货的区别（股指期货1个点赚多少钱）

股票和期货的辨别股票的最后含意即是说不妨表明你购置了这家公司的股子而期货则是买卖两边按照各自对目标物的将来价钱预期以此刻的价钱签署的合约观念既是仍旧领会了那咱们就再领会一下这几个的辨别 1 目标物目标物也即是买卖东西菜商场里
【深度学习】SETR：基于视觉 Transformer 的语义分割模型

Visual Transformer Author louwill Machine Learning Lab 自从Transformer在视觉领域大火之后一系列下游视觉任务应用研究也随之多了起来基于视觉Transformer的语义分割正
OpenMMLab AI实战营第二期（2）MMPose初体验

根据MMPose的官方文档学习一下 MMPose文档地址 https mmpose readthedocs io zh CN latest index html 文章目录 1 概述 2 安装 2 1 创建conda环境并激活 2 2 安装p
mysql锁

想要了解锁必须要知道mysql事务以及mysql事务产生的并发问题数据库中的事务隔离级别以及数据展示華同学的博客 CSDN博客 1 Mysql锁的介绍锁是计算机协调多个线程或进程并发访问某一资源的机制除传统的计算机资源 C
sentencepiece原理与实践

1 前言前段时间在看到XLNET Transformer XL等预训练模式时看到源代码都用到sentencepiece模型当时不清楚经过这段时间实践和应用觉得这个方法和工具值得NLP领域推广和应用今天就分享下sentencepi
Vscode + php + xdebug 单步调试

1 确认xdebug已打开 php ini xdebug remote enable 1 xdebug remote autostart 1 xdebug remote host localhost xdebug remote port 9
win32汇编基础概念

一关于寄存器寄存器有EAX EBX ECX EDX EDI ESI ESP EBP等似乎IP也是寄存器但只有在CALL RET在中会默认使用它其它情况很少使用到暂时可以不用理会 EAX是WIN32 API 默认的返回值存放处 E
深入理解机器学习与极大似然之间的联系

似然函数事件A的发生含着有许多其它事件的发生所以我就把这些其它事件发生的联合概率来作为事件A的概率也就是似然函数数据类型的不同离散型和连续性就有不同的似然函数极大似然极大似然估计方法 Maximum Likelihood Es
sqli-labs：less-27（过滤select和union）

div div
eosjs v20 如何通过jsonrpc连接到主网节点

用eosjs连接主网节点很简单只需要在创建JsonRpc对象时指定要连接主网节点的地址就可以了例如下面的代码将创建一个使用eosnewyork io节点RPC旳JsonRpc 对象然后使用get info 方法获取网络总体信息
拆分Nim游戏

拆分Nim游戏给定n堆石子两位玩家轮流操作每次操作可以取走其中的一堆石子然后放入两堆规模更小的石子新堆规模可以为0 且两个新堆的石子总数可以大于取走的那堆石子数最后无法进行操作的人视为失败问如果两人都采用最优策略先手是否必胜
顺序主子式

设有矩阵 a b c d e f g h i 则一阶顺序主子式 a 二阶顺序主子式 a b d e 三阶顺序主子式 a b c d e f g h i 若n阶方阵A的顺序主子式均 0 则A的LU分解A LU存在且唯一转载于 https
微软Xbox One无线手柄控制机器人

ROS中的joy包提供了游戏手柄的驱动并且包含joy node节点这一节点可以发布包含手柄按钮和轴信息的Joy消息在终端中输入下面命令安装joy包 sudo apt get install ros kinetic joy Confi
A卡2023最新AI画图教程：3A主机安装ROCm运行Stable Diffusion画图

硬件平台 3A主机内存16G 显卡 AMD RX6700 XT 12GB 华擎幻影电竞处理器 AMD R5 3500X 6C6T 主板华硕TUF B450M PRO GAMING 安装Ubuntu22 04 2 LTS系统更换系统源
MySQL的索引

MySQL 的索引 1 索引的使用 1 1 什么是索引 1 2 如何创建索引 1 2 1 ALTER TABLE 1 2 2 CREATE INDEX 1 2 3 CREATE TABLE 1 2 4 创建索引的注意事项 1 3 索引类型
Python数据分析-房价预测及模型分析

摘要 Python数据分析房价的影响因素图解https blog csdn net weixin 42341655 article details 120299008 spm 1001 2014 3001 5501 上一篇OF讲述了房价
SpringBoot +Hadoop3.0.3 mapreduce 实例

第一步编码过程项目结构 pom xml 依赖jar文件
Linux 实操篇-实用指令

Linux 实操篇实用指令指定运行级别基本介绍运行级别说明 0 关机 1 单用户找回丢失密码 2 多用户状态没有网络服务 3 多用户状态有网络服务 4 系统未使用保留给用户 5 图形界面 6 系统重启常用运行级别是3 和5 也可

随机推荐

第二节：数据类型——number和string

上节回顾 undefined为window的属性有些程序会在函数开始置定义一个var undefined 这是因为undefined是window的一个属性当你判断某一个东西是不是undefined的时候计算机会到window中整体去
Oracle 创建、暂停、更改、删除定时任务job

oracle job 用来在数据库层面定时执行存储过程或者是 SQL 语句创建暂停修改删除 job 查询当前库中运行的 job SELECT t FROM dba jobs t 创建一个定时任务 job declare job
【Django快速开发实战】（52~76）使用Django创建一个基础应用：职位管理系统

52 生产环境要注意哪些事项生产环境的应用部署单元测试老师的testcase test views py from django test import TestCase from django test import Client
卷积神经网络原理简述

1 CNN原理卷积神经网络主要应用在图像识别领域中是指非某类网络的集合其中包含了多种不同类型的结构不同网络结构其性能一般也会有所不同通过对CNN几种典型架构的研究我们可以发现这些网络创造者们极富创意其中许多架构十分精巧他们
Java从入门到实战总结-4.1、数据库基础

Java从入门到实战总结 4 1 数据库基础文章目录 Java从入门到实战总结 4 1 数据库基础第一章数据库简介 1 1 简介 1 2 常见数据库管理系统 1 3 三大范式规范 1 4 MySQL安装和卸载 1 4 1 windo
使用cisco 2500路由器实现ADSL接入

使用cisco 2500路由器实现ADSL接入此案例配置共分7步第一步配置vpdn vpdn enable 启用路由器的虚拟专用拨号网络 d vpdn group office 建立一个vpdn组 request dialin 初始化
【Causality】结构因果下的反事实基本框架

在之前博主整理了因果关系之梯第二层干预的定义意义用法详见以下链接但干预的目标是找到研究中处理的某个总效应或者在某些样本群体中的效应平均因果效应到目前为止我们无法在特定时间谈论个性化的因果关系而在实际的任务中我们通过训练集
echart 图谱_vue + echarts 实现有层级关系图的图谱

因为接下来要做的事是一个关系图的东西所以自己先写一个小demo 特次记录一下主要实现的点有如下节点的颜色的更改自定义提示框配置以及在里面的点击事件提示框中的点击事件可以获取到vue实例图列的自定义先上效果图截屏2020 1
记录一些IDEA常用的快捷键和技巧二（界面布局）

创建项目会开启一个进入默认布局界面如下图左边依次为 Project视图 Favorites视图以及Structure视图其中主要关注Project视图创建Package要注意将project 右上角齿轮勾选 Flatten Pa
小白入门级知识点：移动app安全测试怎么做？

随着科技时代的进步和智能手机的普及现代人离不开手机已经是常态化一旦手机不在身边便会失去安全感提到安全一词我们在使用手机app软件时安全至关重要软件里包含的个人信息资料等等都和安全挂钩那么在软件测试中移动app安全测试应该怎么
python实现线程池

参照c 的线程池使用python的threading库实现线程池 import threading import time 线程池的任务包含一个可调用对象和一个参数数组 class ThreadTask object def init
[uC/OS-III] 22. 互斥量

1 互斥量的基本概念互斥量又称互斥信号量本质也是一种信号量不具备传递数据功能是一种特殊的二值信号量它和信号量不同的是它支持互斥量所有权递归访问以及防止优先级翻转的特性用于实现对临界资源的独占式处理任意时刻互斥量的状态只有两
Linux常用基本命令

目录 1 帮助命令 man 获取帮助信息 type 查看命令是内置命令还是外部命令 help 获取帮助信息 2 文件目录类 pwd 显示当前目录的绝对路径 ls 列出目录中的内容 cd 进入相对应的目录中 mkdir 创建文件夹子 rmdi
安全与加密

1 使用对称加密算法实现敏感数据加密 1 1 什么是对称加密 Symmetric encryption
（Qt Installer Framework）程序简易打包教程

Qt Installer Framework 程序简易打包教程 Qt Installer Framework程序简易打包教程第一步下载Qt Installer Framework 第二步打包程序安装和环境变量的配置第三步准好要打包的程
C/C++中this指针作用

this 指针是一个隐含于每一个成员函数中的特殊指针它指向正在被该成员函数操作的那个对象当对一个对象调用成员函数时编译程序先将对象的地址赋给 this 指针然后调用成员函数每次成员函数存取数据成员时由隐含使用 this 指针当
Umi + React + Ant Design Pro 项目实践（六）—— ProLayout 应用

打开 umirc ts 文件 import defineConfig from umi export default defineConfig plugins umijs plugins dist react query reactQuer
Linux增加swap空间的方法

windows下有虚拟内存 Linux下有swap 如果在安装linux时没有分配足够的swap 可以在Linux下进行增加具体有两种方法 1 建立一个swap分区 2 建立一个swap文件一建立一个swap分区可以利用磁盘的还未分
使用Torch nngraph实现LSTM

什么是RNN RNN 多层反馈RNN Recurrent neural Network 循环神经网络神经网络是一种节点定向连接成环的人工神经网络这种网络的内部状态可以展示动态时序行为不同于前馈神经网络的是 RNN可以利用它内部的记忆来
数据挖掘技术（一）预处理

1 数据预处理数据预处理技术包括聚集抽样维规约特征子集选择特征创建离散化和二元化变量变换属性的类型标称定性的值仅仅是不同的名字即只提供足够的信息以区分对象如雇员ID 性别序数定性的值提供足够信息确定对象的序

数据挖掘技术（一）预处理

数据挖掘技术（一）预处理 的相关文章

随机推荐

热门标签

数据挖掘技术（一）预处理的相关文章