数据挖掘与机器学习——数据挖掘概述

2023-11-11

挖掘是从大量的、不完全的、有噪声的、模糊的、随机的应用数据中,提取潜在且有用的信息的过程。
分析分析处理(On-Line Analytical Processing ,OLAP)

数据分析过程
确定知识发现的目标:确定知识发现的目的。
数据采集:数据采集可以是从网络爬取的数据,也可以是从数据库中直接导出的数据,还可以是常见的CSV文件等数据。数据质量决定挖掘的上限,而算法仅仅是逼近这个上限。
数据探索:可视画(画各种散点图);相关性。
数据预处理:数据处理主要包括数据清理、数据集成、数据规约、数据变换和离散化等几个部分。数据归约——维归约的含义是将原先高维的数据合理地压缩成低维数据,从而减少数据量常用的方法为特征的提取,如线性判别分析(LDA)和主成分分析(Principal Component Analysis,PCA)。LDA是基于有监督的降维,PCA是基于方差的聚类降维,都可以对高维数据进行降维。数据归约技术采用维归约和数据量归约等方式。数据的变换是将原始的特征数据进行归一化和标准化的操作。
数据挖掘(模型选择)算法
视频,骨膜,视频故事对数据挖掘结果的评价,常用的评价指标有精度、召回率等。
数据挖掘的功能与应用领域
电信行业:推荐系统
金融行业:信用卡勘测
医疗行业
社会网络:人的变迁情况

数据挖掘应用面临的问题
数据源的多样性
数据挖掘算法的改进:部分算法就需要基于分布式计算和云计算进行改进。
数据隐私保护:个人隐私被暴露
 
数据挖掘的模型
数据挖掘任务可以分为描述和预测两大类。描述性挖掘任务描述数据中数据的一般性质;预测性挖掘任务对当前数据进行推断,以做出预测。数据挖掘的任务主要集中在回归、分类、预测、关联、聚类、异常检测六个方面。

回归
回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
按照回归分类中自变量的数量,可将回归分析分成一元回归和多元回归分析。
如果回归分析只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,则这种回归分析被称为一元线性回归分析。
常见的回归算法包括线性回归、逻辑回归(逻辑回归实际上做的是分类的任务)、多项式回归、逐步回归、岭回归、Lasso回归、ElasticNet回归。

分类
回归可用于预测连续的目标变量,分类可用于预测离散的目标变量。
常见的分类算法包括逻辑回归、决策树、神经网络、贝叶斯、K近邻算法、支持向量机(SCM)等。

预测
预测算法可分为定性预测和定量预测。
定量预测相对准确,因果关系分析法有回归方法、计量经济模型、神经网络预测法、灰色预测法、马尔科夫预测法等。

聚类
前提:没有先验知识
原则:较高的类内相似度和较低的类间相似度。
K-Means、层次聚类、神经网络聚类、DBSCAN聚类等。

异常检测
离群点检测的算法大致可分为以下几类:包括基于统计学或模型的方法、基于距离或邻近度的方法、基于偏差的方法、基于密度的方法和基于聚类的方法。

数据挖掘的数据类型
非结构化数据往往要经过数据预处理等环节转换成结构化数据。
数据库
联机事务处理(OLTP)数据库增、删、改、查、读、写,对象一般数据库管理员。
数据仓库
ET L:从外部数据抽取、转换、装载到DW中。

其他数据类型
数据流、空间数据、工厂设计数据、超文本和多媒体数据、图和网状数据和万维网。
数据挖掘不需要机器自动学习,机器学习需要机器自动学习。
数据挖掘的交叉学科
统计分析包括最大值、最小值、平均值、方差、四分位、个数、概率分配等。
数据库与数据仓库
ETL(提取-转换-加载)
 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘与机器学习——数据挖掘概述 的相关文章

随机推荐

  • 【死磕 Java 基础】— 我同事一个 select 分页语句查出来了 3000W 条数据

    大家好 我是大明哥 某天我正在工位上听着 Victory 愉快地敲着 hello world 这感觉就像我写的代码能征服世界 突然运维给我打了一个电话 说我们某台服务器 OOM 了 要我过去看下 这感觉就像 xxx 你懂的 去运维室 登录服
  • 【HBZ分享】ElasticSearch读写数据的原理 以及 路由策略原理-【短而精悍,易于理解】

    ElasticSearch分布式工作原理 是如何进行读写数据的 1 简单介绍ES 首先es是分布式的 只要我们启动相应数量的节点 并且这些节点分配相同的cluster name 那他们就对属于同一个集群了 创建索引的时候 只需要指定对应的主
  • js的继承的实现与代码编写

    js的继承的实现与代码编写 一 继承 对象的一个类可以从现有的类中派生 并且拥有现有的类的方法或是属性 这和过程叫做继承 被继承的类叫做父类或是基类 继承的类叫做子类 一个对象拥有另一个对象的属性和方法 在 JavaScript 中 是没有
  • QVariant类及QVariant与自定义数据类型转换的方法

    这个类型相当于是Java里面的Object 它把绝大多数Qt提供的数据类型都封装起来 起到一个数据类型 擦除 的作用 比如我们的 table单元格可以是string 也可以是int 也可以是一个颜色值 那么这么多类型怎么返回呢 于是 Qt提
  • 性能测试连载 (10)-数据错误率分析

    概述 性能测试脚本跑完了之后 我们除了要收集瓶颈数据 还有分析错误数据 通常一套脚本跑完 错误类型不止一种 但是jmeter只会在聚合报告里面给出一个总体的错误率 错误率 jmeter里的错误率是如何统计的 在返回的数据里面 只要succe
  • Maven项目中出现红色波浪线的解决过程

    一 问题分类 对于Maven项目出现红色波浪线可以首先对报错情况进行分析 我遇到的两种表现形式 还有其他的形式 请多多指教 形式一 所用文件均出现红色波浪线 此问题可能是配置问题 形式二 maven项目 Plugins Dependenci
  • Element-Ui

    安装环境搭建 Element Ul是饿了么前端团队推出的一款基于Vue js 2 0 的桌面端UI框架 一套为开发者 设计师和产品经理准备的基于 Vue 2 0 的桌面端组件库 手机端有对应框架是Mint UI 中文文档 http elem
  • 蓝桥杯 奇数倍数

    蓝桥杯 奇数倍数 题目 请你找到最小的整数 X 同时满足 1 X 是 2019 的整倍数 2 X 的每一位数字都是奇数 思路 1 先找2019倍数 2 判断它的每一位是否是奇数 Java代码 public class 奇数倍数 public
  • 2022跨年烟花代码(一)Canvas绘制3D烟花动画特效

    Canvas绘制3D烟花动画特效 html代码
  • Knife4j+gateway动态路由聚合微服务API

    概述 knife4j的聚合API 其实官网有现成的例子 但包括其他能搜索到的资料都是基于静态网关的配置 我们现有的都是结合nacos实现动态网关配置 基于此留下这篇完整的教程文档 说明 本文假定你有一定的springcloud等相关知识 如
  • 树莓派安装配置syncthing

    下载 从这里下载软件 下载后解压 把二进制文件放到 usr local bin 目录 在命令行输入syncthing version命令 能打印出版本即可 自动启动 Unit Description Syncthing Open Sourc
  • struts2验证框架的两种方式

    第一种 在action同目录下建立 action validation xml
  • 关于JavaScript的浅拷贝和深拷贝

    关于JavaScript的浅拷贝和深拷贝 在 JS 中有一些基本类型像是Number String Boolean 而对象就是像这样的东西 name Larry skill Node js 对象跟基本类型最大的不同就在于他们的传值方式 基本
  • logging的使用python3

    以时间命名输出日志 def init logging t str time strftime Y m d H M time localtime filename log s txt t logging basicConfig level l
  • 刷题 3.10

    目录 1 约瑟夫环 蓝桥231 2 排它平方数 蓝桥712 3 买不到的数目 蓝桥213 思维题 思路 因为有解 两个数一定互质 不能拼成的最大数是xy x y 4 回文日期 1 约瑟夫环 蓝桥231 题目描述 n 个人的编号是 1 n 如
  • handsontable使用及遇到的坑--公式计算(思路)

    公式 公式的计算可使用堆栈的思想将运算符后置 如 C1 A1 A2 5 B1可以变换成 A1 A2 5 B1 计算过程为 假设A1 1 A2 2 B1 3 C1 A1 A2 5 B1 A1 A2 5 B1 1 2 5 3 3 5 3 15
  • 腾讯三面(hr面)之轻松过关

    腾讯二面之细节大曝光中最后提到 22号晚上11 00先后分别收到邮件 短信与电话通知 腾讯邀请你于4月23号16点到珞珈山国际酒店3楼2号会议室参加软件开发类面试 请携带简历提前5分钟到达 腾讯科技 23号上午 同样在旅馆查询资料 虽然很多
  • 【华为提前批】笔试 测评 面试 全流程(结构与材料工程师)

    目录 提前批流程 笔试 性格测试 专业面试1 2 主管面 终面 最后 祝各位旗开得胜 提前批流程 一般综合测评会在笔试之后发放 可选择之后再做 流程里面是安排在两轮技术面之后的 笔试 7 12 性格测试 7 14 专业面试1 7 24 专业
  • flutter 路由插件fluro配置及其使用

    flutter 路由插件fluro配置及其使用 pubspec yaml 引入插件 dependencies flutter sdk flutter fluro 1 6 3 1 首先创建一个router handler dart文件 定义路
  • 数据挖掘与机器学习——数据挖掘概述

    挖掘是从大量的 不完全的 有噪声的 模糊的 随机的应用数据中 提取潜在且有用的信息的过程 分析分析处理 On Line Analytical Processing OLAP 数据分析过程 确定知识发现的目标 确定知识发现的目的 数据采集 数