数据分析 数据规约

2023-10-27

一.概念

"数据规约"(Data Reduction)是指在尽可能保持数据原貌的前提下,最大限度地精简数据集.数据规约又分为2:"属性规约""数值规约"

二.属性规约
1.概念:

"属性规约"(Attributes Reduction)是指通过减少数据集中的属性来精简数据集,目的是减少系统资源的消耗并降低无效/错误数据的影响.这相当
于降低表示成向量的数据的维度,因此又称"数据降维".由于不同属性包含了不同的信息量,需要选择舍弃哪些属性才能最小化信息损失.降维方法有2大
类:"特征选择""特征提取"

2.特征选择
(1)概念:

"特征选择"(Feature Selection)是指从原始特征集中选出1组最具统计意义的特征,以降低数据集中的属性数,不会改变原特征空间

(2)方法:

"决策树"(Decision Tree)
"分支定界法"(Branch and Bound)
"序列前向选择"(Sequential Forward Selection)
"序列后向选择"(Sequential Backward Selection)
"模拟退火"(Simulated Annealing)
"竞技搜索"(Tabu Search)
"遗传算法"(Genetic Algorithms)

3.特征提取
(1)概念:

"特征提取"(Feature Extraction)是指将原始特征转换为1组具有明显物理或统计意义的特征,以降低数据集中的属性数.其和特征选择的区别在于
特征提取会通过转换原有特征得到新的特征,因而会改变原特征空间.方法主要包括PCA,LDA,SVD,ICA

(2)主成分分析:

参见 机器学习.主成分分析 部分

(3)线性判别分析:

参见 机器学习.线性判别分析 部分

(4)独立成分分析:

"独立成分分析"(Independent Component Analysis;ICA)

三.数值规约
1.概念:

"数值规约"(Numerosity Reduction)是指通过减少数据集中的数据量来精简数据集.数值规约方法有2大类:"有参数方法""无参数方法"

2.有参数方法
(1)概念:

"有参数方法"是指使用参数模型来近似原数据,最后只需要存储参数

(2)方法:

"回归"(Regression)
  "多元回归"(Multivariable Regression)
  "线性回归"(Linear Regression)
"对数线性模型"(Logarithmic Linear Model)用于近似离散属性集中的多维概率分布

3.无参数方法
(1)概念:

"无参数方法"是指使用1个较少的数据集来近似原数据,需要存放实际数据

(2)方法:

"直方图"(Histogram)使用数据在多个互不相交的子集(称为"分箱"(Bin))中的分布来近似原数据分布
"聚类"(Cluster)将记录分入不同的"簇"(Cluster),再用簇来近似实际数据
"抽样"(Sampling)使用从原数据集中按一定规则抽取的1个子集(称为"样本"(Specimen))来近似原数据集
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析 数据规约 的相关文章

随机推荐

  • Qt基础之五:使用invokeMethod异步调用函数

    在主线程中如果执行比较耗时的任务 但是又不想单独开子线程来处理 不妨试试Qt中提供QMetaObject invokeMethod方法 该方法支持函数的异步调用 这样就会在界面显示后去执行 而不会卡主主界面 QMetaObject invo
  • [linux-sd-webui]图生文,blip/deepbooru

    GitHub pharmapsychotic clip interrogator Image to prompt with BLIP and CLIPImage to prompt with BLIP and CLIP Contribute
  • 【hadoop学习之路】Spark-SQL 实验报告 RDD转DataFrame

    1 Spark SQL 基本操作 1 1 需求 将下列JSON格式数据复制到Linux系统中 并保存命名为employee json id 1 name Ella age 36 id 2 name Bob age 29 id 3 name
  • Pandas处理日期数据

    一 pandaas日期处理的作用 将2018 01 01 1 1 2018等多种日期格式映射成统一的格式对象 在该对象上提供强大的功能支持 几个概念 1 pd to datetime pandas的一个函数 能将字符串 列表 series变
  • 数据结构——个人学习笔记

    系列目录 数据结构第一章绪论 数据结构第二章线性表 文章目录 系列目录 2 1线性表的定义和特点 2 2线性表的操作定义 2 3线性表的顺序表示和实现 线性表的重要基本操作 1 初始化线性表 参数用指针 2 插入 新增 3 取值 4 查找
  • easy modbus tcp

    public static void Main string args ModbusClient modbusClient new ModbusClient 190 201 100 100 502 Ip Address and Port o
  • Android组件化和插件化的概念,android快速开发框架

    开发单个模块时可以共享资源和工具类 可以针对单个模块测试 开发调试时不需要对整个项目进行编译 多人合作时可以只关注自己的业务模块 把某一业务当成单一项目来开发 可以灵活的对业务模块进行组装和拆分 4 组件化开发的主要思路 就是将一个Modu
  • c++求行列式的值(全排列法)

    用全排列的方式求行列式的值 递归体现在全排列中 上代码 f函数是求行列式的值 include
  • flink中通过jdbc查询结果集使用 flink table api 创建临时视图

    1 maven依赖
  • [转]QNX_HMI_crank工程的系统移植

    如果你认为本系列文章对你有所帮助 请大家有钱的捧个钱场 点击此处赞助 赞助额0 1元起步 多少随意 声明 本文只用于个人学习交流 若不慎造成侵权 请及时联系我 立即予以改正 锋影 email 174176320 qq com 开发软件 Cr
  • python如何输出多个星号_如何使用python输出连续星号?

    小编依稀记得 自己初学编程时候 第一节课 老师就给我们演示了输出连续星号内容 那时候真感叹python的神奇 重温一遍这个内容 入门小伙伴们可以来看下啦 有关语法 用嵌套打印小星星 需求 在控制台连续输出五行 每一行星号的数量依次递增 使用
  • 如何从配置文件中获取属性

    在项目中添加了一个腾讯云的短信业务 领导说要我把这个项目整合到原本的业务中去 业务那么多 怎么搞 继续询问后得知 是整合到原本的短信业务中 原本用的短信业务是短信猫来发短信 问 需要前端加传的参数吗 答 不允许 继续询问得知 是要在配置文件
  • [转]Tangram框架应用开发的一般模式

    框架其实就是一种开发模式 用tangram框架开发应用程序意味着选择一种面向接口 模块化的开发方式 这和传统的Delphi应用程序开发方式有一定区别 对于刚刚接触框架的童鞋可能不知道如何下手 因此有必要把框架的一般开发方式说明一下 不过框架
  • 深入分析HBase Compaction机制

    Compaction介绍 Compaction是buffer gt flush gt merge的Log Structured Merge Tree模型的关键操作 主要起到如下几个作用 1 合并文件 2 清除删除 过期 多余版本的数据 3
  • 二叉树算法

    每日一句 少年就是少年 他们看春风不喜 看夏蝉不烦 看秋风不悲 看冬雪不叹 看满身富贵懒察觉 看不公不允敢面对 只因他们是少年 目录 用递归和非递归两种方式实现二叉树的先序 中序 后序遍历 递归方法 非递归方法 如何完成二叉树的宽度优先遍历
  • 报文摘要算法

    1 报文摘要算法 报文摘要算法是一种将任意长度报文转换成固定长度的报文摘要算法 它具有以下六个特点 能够作用于任意长度的报文 产生有限位数的标识信息 易于实现 具有单向性 具有抗碰撞性 具有高灵敏性 1 1 MD5 1 1 1 添加填充位
  • Pytorch —— nn.Module类(nn.sequential)

    对于前面的线性回归模型 Logistic回归模型和神经网络 我们在构建的时候定义了需要的参数 这对于比较小的模型是可行的 但是对于大的模型 比如100 层的神经网络 这个时候再去手动定义参数就显得非常麻烦 所以 PyTorch 提供了两个模
  • STM32CubeMX+Keil5+Proteus实现按键控制LED灯(入门篇)

    嵌入式HAL库实战项目 本文说明 STM32CubeMX安装和使用 Keil实现按键控制LED亮灭 Proteus仿真 补 Proteus连线问题 总结 本文说明 学生党 之前学习过嵌入式的课程 跟着正点原子的视频一步一步地构建项目的工程
  • nodejs日志管理 log4js使用详解

    一 首先是在项目中安装 log4js npm install log4js save 注 log4js日志级别 分别为 lt 权值从小到大 gt all lt trace lt debug lt info lt warn lt error
  • 数据分析 数据规约

    一 概念 数据规约 Data Reduction 是指在尽可能保持数据原貌的前提下 最大限度地精简数据集 数据规约又分为2类 属性规约 和 数值规约 二 属性规约 1 概念 属性规约 Attributes Reduction 是指通过减少数