数据挖掘应用实例_手把手教你做数据挖掘 !(附教程&数据源)

2023-11-09

作者:宋莹

本文长度为10427字,建议阅读20+分钟

本文为你介绍数据挖掘的知识及应用。

引言最近笔者学到了一个新词,叫做“认知折叠”。就是将复杂的事物包装成最简单的样子,让大家不用关心里面的细节就能方便使用。作为数据科学领域从业者,我们所做的事情就是用数学模型来解决实际的商业决策问题,最后包装成客户能看懂的简单图表。

笔者利用碎片化时间对“数据挖掘”这一领域知识进行了“折叠”。希望在这个碎片化的时代,对数据科学领域感兴趣的读者能够用最少的时间来学习最精华的东西。

图一:数据挖掘思维导图

一、什么是数据挖掘

简单地说,数据挖掘是指从大量数据中提取或“挖掘”知识,也叫做数据中的知识发现。

二、为什么需要数据挖掘

随着互联网工具的发展,分享和协作的成本大大降低。我们每天用手机聊天、购物、刷短视频、看新闻等日常的不经意动作给互联网行业提供了体量庞大的数据。这些数据通常被收集、存放在大型数据存储库中,没有强有力的工具,理解它们已经远远超出了我们的能力。而数据挖掘技术的出现解决了这一问题。它可以从海量的数据中提取出有价值的信息,从而作为决策的重要依据。

三、演化过程

柏拉图曾说过“需要是发明之母”,每一项新技术的诞生都是顺应了这个时代的发展。数据挖掘”也是信息技术自然演化的结果。如下表格展示了该演化过程。

四、数据挖掘的具体步骤
许多人把数据挖掘视为“数据中的知识发现”,以下是其具体的步骤:

  • 数据清理(消除噪声和不一致数据)
  • 数据集成(不同来源与格式的数据组合到一起)
  • 数据选择(挖掘所需的数据)
  • 数据变换(数据变换成适合挖掘的形式,如汇总,聚集操作)
  • 数据挖掘(方法,建模)
  • 模式评估(结果模型)
  • 知识表示(可视化)

五、数据挖掘的系统结构

图二:数据挖掘系统结构图

六、对何种数据进行挖掘

原则上讲,数据挖掘可以应用于任何类型的信息存储库及瞬态数据(如数据流),如数据库、数据仓库、数据集市、事务数据库、空间数据库(如地图等)、工程设计数据(如建筑设计等)、多媒体数据(文本、图像、视频、音频)、网络、数据流、时间序列数据库等。

七、挖掘任务

数据挖掘功能用于指定数据挖掘任务要找的模型类型。一般而言,数据挖掘任务可以分为两类:描述和预测。描述性挖掘任务描述数据库中数据的一般性质。预测性挖掘任务对当前数据进行推断,以做出预测。其中描述类任务包含:特征化和区分等。

针对“特征化”,我们来举一个简单的例子:数据挖掘系统应当能够产生数据挖掘工程师特征的汇总描述,作为对该职位招聘的依据。结果可能是符合该职位的一般轮廓,如计算机相关专业、熟悉常用的数据挖掘算法、会使用统计分析工具、大数据开发经验等。那么,什么又是“区分”呢?继续之前的例子,数据挖掘系统应当能够描述出优秀数据挖掘工程师与一般数据挖掘工程师的轮廓。

优秀的数据挖掘工程师:超强的讲故事的能力、逻辑思维强、终身学习、喜欢用数学模型解决实际的问题。一般的数据挖掘工程师:了解常用数据挖掘算法、对工作能够积极完成、对挖掘结果无法清晰描述给相关人、不会主动学习该行业知识、从事此行业只是为了赚钱。这两个轮廓将作为我们评判优劣的依据。预测类任务为:关联分析、分类和预测、聚类分析、孤立点分析和趋势和演变分析等。下面章节的实例将介绍其中某些预测类模型。在这里就不再赘述。

八、挖掘什么模式的数据

1.易于理解的。

2. 在某种程度上,对于新的或检验数据是有效的。

3. 潜在有用的。

4. 新颖的。

5. 客观度量(支持度,置信度)。

6. 用户想要了解的,对用户有价值的。


九、数据挖掘的局限性

数据科学家吴军老师在《数学之美》一书中强调数学之所以美,是因为数学的简单性。我们的计算机基础就是布尔代数,其运算元素只由0,1组成。虽然数学如此简单,但其在各个领域的作用却不容忽视。它可以帮助我们发现仅凭经验无法发现的规律,找到仅凭经验无法总结出来的办法。因此在这个大数据时代,以数学为基础的数据挖掘领域常常会被大家神话。

认为现在的数据体量足够大,支持的异构数据种类越来越多,信息的数据化程度越来越完善,分布式的框架也给大数据的深度挖掘提供了有力支持,数据挖掘结果也就会越来越精准。其实不然,虽然这些有力条件提高了数据预测能力,但是毕竟还有很多事物暂时还无法数据化。比如人的思维,同时还有互联网没有采集到的人们的日常活动等。这些未被采集的信息,会导致我们挖掘的结果有偏差,甚至完全不可用。并且单一化的数学工具挖掘出的结果通常都比较片面。因此就需要我们建立多元化思维,在进行挖掘的时候要按照“T”型结构。

所谓“T”型结构就是利用现如今的有利条件进行纵向深度挖掘,同时也要横向扩展多学科知识。未来的数据挖掘领域,绝不是单一的数学一门单一学科就能搞定,而是多学科结合,综合考虑得出结论。

十、数据挖掘实例

1.准备工作

为了让大家更直观的了解数据挖掘的整个流程,我将该实例中需要用到的软件,以及如何安装、配置的过程整理出来,作为实例开始前的准备工作。我选取的是数据挖掘工具Rapidminer。之所以选择此工具,是由于它的便捷性,用拖拽的方式就可以进行分析挖掘,而本篇文章的侧重点是想展示数据挖掘的整个流程。这个工具无疑是最好的选择。

  • 1.1Rapidminer工具简介

Rapidminer是一款预测性分析和数据挖掘软件。它的特点是拖拽操作,无需编程,运算速度快,有开源版和商业版。它具有丰富数据挖掘分析和算法功能。常用于解决各种的商业关键问题。如营销响应率、客户细分、客户忠诚度及终身价值、资产维护、资源规划、预测性维修、质量管理、社交媒体监测和情感分析等典型商业案例。解决方案覆盖了各个领域,包括汽车、银行、保险、生命科学、制造业、石油和天然气、零售业及快消行业、通讯业、以及公用事业等各个行业。

编程:

https://baike.baidu.com/item/%E7%BC%96%E7%A8%8B

  • 1.2Rapidminer安装

我们需要登录rapidminer的官网来下载这个数据挖掘工具,如下是该网址:https://rapidminer.com/get-started/

登录后我们会看见如下所示的下载界面,在此页面上填写个人邮箱信息等信息,然后点击download按钮。

图三:rapidminer下载界面

在downloads页面,选择适合自己操作系统的安装包即可下载。下载后直接点击安装即可。

图四:不同操作系统的不同安装包

  • 1.3Rapidminer配置

rapidminer软件安装成功后,点击桌面的软件图标,即可打开该软件,由于我们的实例要进行数据库的读写操作。因此,我们需要创建一个数据库连接,笔者提前在电脑上安装了mysql数据库,数据库的安装过程超出了此文章的范围,读者需要提前安装一个数据库,不限于mysql。

如下所示,我们在界面左侧的数据库连接处进行数据库连接的创建。并填写数据库信息,

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘应用实例_手把手教你做数据挖掘 !(附教程&数据源) 的相关文章

  • [原创]基于EDFlib/C++实现脑电数据EDF标准格式读写

    一 关于EDF European Data Format 格式的介绍 欧洲数据格式 EDF 是一种用于交换和存储多通道生物和物理信号的简单而灵活的格式 它是由几位在哥本哈根举行的1987年国际睡眠大会上首次会见的欧洲 医疗 工程师开发的 E
  • 关于openwrt的802.11w 管理帧保护使用

    目录 关于openwrt的802 11w 管理帧保护使用 802 11w技术说明 背景 技术概述 新的密钥管理方式 802 11w技术总结 openwrt中的应用 openwrt中界面上的提示 实际遇到的问题 802 11w应用总结 关于o
  • cocos creator小人碰撞墙壁效果

    1 给小人添加刚体组件 添加组件 gt 物理组件 gt collider gt Box 去掉Allow Sleep 必须去掉 否则只检测一次碰撞 Fixed Rotation勾选 禁止墙壁旋转 将gravity scale设置为0 去掉重力
  • Rose画状态图

    一 何谓状态图 1 状态图的概念 状态图由 状态 转换 事件 活动和动作5部分 组成 1 状态指的是对象在其生命周期中的一种状况 处于某个特定状态中的对象必然会满足某些条件 执行某些动作或者是等待某些事件 一个状态的生命周期是一个有限的时间
  • servlet服务器端和android端json交互

    今天尝试用servlet编写服务器端代码 返回json数据格式给服务器端 1 google提供的gson fromJson 和toJson方法 2 服务器端servlet url中使用的方法 知道怎么在web xml中配置 3 get 和p
  • 修改标准程序的GUI_STATUS

    用户提出需求 要求PO与PR可以增加按钮进行与OA系统的集成 最终效果如下 首先在类CL COMPOSITE SCREEN VIEW MM中的方法EXCLUDING FUNCTIONS中加入GUI STATUS的替代 创建一个空的程序Z M
  • 手机随机数字抽奖器_用Excel制作随机抽奖器,只需2步轻松搞定

    大家在一些节目中应该经常会看到抽奖环节 在海量的手机号码中随便抽出一个来 今天 小汪老师就来用Excel仿制一个简易的抽奖器 制作起来非常简单 大家今后如果做抽奖活动的话 也可以用上一用 效果演示 按住F9键不松 即可开始抽奖 松开后会随机
  • XMLHttpRequest: 网络错误 0x80070005, 拒绝访问 解决办法

    我使用的是vue element ui 开发后台管理系统 之前在ie中都可以正常执行操作 今天在编辑一个页面后报错 新建功能是可以正常提交数据的 但当我新建好了数据再点编辑进去修改内容后提交时就会报错 这个错仅在ie中出现 我使用的是ie1
  • oracle使用PLsql查询

    oracle查询当前用户名下所有表 TEST为用户名 用户名必须是大写 select from all tables where owner TEST 查看当前登录的用户的表 select table name from user tabl
  • latex中的对与错(对号√与叉号×)、空格

    转载 LaTeX 对号和错号 Xovee的博客 CSDN博客 latex对号错号 转载 LaTeX中的空格汇总 AXYZdong的博客 CSDN博客 latex空格符号怎么打出来 空格 对号 错号 代码 documentclass arti
  • c语言字符指针初始化赋值,C语言_指针变量的赋值与运算,很详细详解

    指针变量的赋值 指针变量同普通变量一样 使用之前不仅要定义说明 而且必须赋予具体的值 未经赋值的指针变量不能使用 否则将造成系统混乱 甚至死机 指针变量的赋值只能赋予地址 决不能赋予任何其它数据 否则将引起错误 在 语言中 变量的地址是由编
  • 基于K8S的CI&CD--安装部署zookeeper

    安装部署zookeeper 主机名 角色 IP node7 11 host com zk1 10 4 7 11 node7 12 host com zk2 10 4 7 12 node7 21 host com zk3 10 4 7 21
  • Unity场景导出GLTF格式的文件方法

    最近需要在Unity中解析GLTF文件 以及能够导出Unity的场景信息 经过查询 最后决定使用UnitGLTF这个开源库 1 首选下载代码 git clone https github com KhronosGroup UnityGLTF
  • java并发编程(7) 共享模型之工具 - 自定义线程池

    文章目录 前言 1 线程池 2 线程池自定义 步骤1 自定义拒绝策略接口 步骤2 自定义任务队列 1 任务队列参数定义 2 任务队列获取任务 3 任务队列添加任务 4 任务队列其他方法 5 任务队列全部代码 步骤3 自定义线程池 1 线程池
  • Qt多进程间通信方式——共享内存

    正文 Windows平台下进程间通信常用方式有管道 文件映射 Socket通信和共享内存等 这里详细介绍一下Qt的共享内存机制 Qt官方例子 Qt官方的例子主要是一个客户端加载图片后 将图片存储到共享内存中 另一个客户端从共享内存中获取图片
  • duboo使用zookeeper连接的单机及集群配置方式

    1 单机配置
  • Spring Boot中使用WebSocket 【第一部分】

    简介 所谓WebSocket 类似于Socket 它的作用是可以让Web应用中的客户端和服务端建立全双工通信 在基于Spring的应用中使用WebSocket一般可以有以下三种方式 使用Java提供的 ServerEndpoint注解实现
  • 关于maven项目中Tomcat10与JSTL问题汇总(Debug亲身经历)

    文章目录 问题描述与解决方法 问题1 无法在web xml或使用此应用程序部署的jar文件中解析绝对uri http java sun com jsp jstl core 问题2 java lang NoClassDefFoundError
  • java 调用cmd_java打开本地应用程序(调用cmd)---Runtime用法详解

    有时候我们需要借助java程序打开电脑自带的一些程序 可以直接打开或者借助cmd命令窗口打开一些常用的应用程序或者脚本 在cmd窗口执行的命令都可以通过这种方式运行 例如 packagecn xm exam test importjava

随机推荐

  • 爱情与婚姻的区别(多种说法)

    在生活中 爱情与婚姻的话题 总是被人们不停的讨论着 有人说婚姻是爱情的坟墓 也有人说婚姻是爱情的延续 可我却认为 爱情是浪漫的 而婚姻是现实的 在现实中没有一个人敢说自己真正的懂得爱情 或是看透了婚姻 而至于婚姻是爱情的延续也好 或婚姻是爱
  • html5 css3教案,认识CSS3和HTML5

    内容简介 认识CSS3和HTML5 内容节选 共100页 本文写于2006年1月 当时IE7 IE8和Firefox3还未发行 文中所有说的浏览器支持均未包括这三个版本的浏览器 在IE8和Firefox3中 文中的大部分选择符已经被支持 d
  • android 实现GridView多选效果

    在使用 GridView的时候 有时需要多选上面显示的类容 比如批量删除上面显示的图片 批量上传图片等 这个时候我们可以使用层叠图来实现 效果如下 点击图片后 上面会显示出一个打钩的图片 如图 再点击选中图片 勾消失 转存失败重新上传取消
  • 基于均匀分布总体的样本及其概率密度函数的数据分析

    基于均匀分布总体的样本及其概率密度函数的数据分析 在数据分析中 我们经常遇到从某个总体中获取的样本数据 本文将讨论一个由均匀分布总体生成的样本 并使用R语言来演示相关的数据分析技术 首先 让我们了解均匀分布总体及其概率密度函数 均匀分布是一
  • 动态数据锚点定位

    锚点定位 左侧点击右侧锚点定位样式一 div class left a href book time a a href search a a href search flow a div div class right div div di
  • Java算法LC刷(3.无重复字符的最长子串)

    无重复字符的最长子串 package com core doc LeetCode public class T3 public static void main String args int map lengthOfLongestSubs
  • DeprecationWarning: find_element_by_* commands are deprecated. Please use find_element() instead

    问题描述 使用find element by id时报错 DeprecationWarning find element by commands are deprecated Please use find element instead
  • php组件缓冲区溢出漏洞,一个缓冲区溢出漏洞的简易教程

    这篇文章类似于 傻瓜系列之利用缓冲区溢出 在这类漏洞中 我们的做法是利用网络 程序控制器 输入等等 发送超大的数据缓冲区给程序 覆盖程序内存的重要部分 在这些缓冲区覆盖程序内存之后 我们可以重定向程序的执行流并运行注入代码 首先 我们需要做
  • 财务用计算机在成本核销,《初级会计电算化》精选题库附答案解析(五)

    初级会计电算化 练习题五 含答案解析 1 当月的记账凭证必须全部记账 如有未记账的当月凭证 系统将 TopSage A 不能结账 B 继续结账 C 放到下月 答案 A 2 往来账管理的往来客户档案的设置其最主要内容是 TopSage A 客
  • 关于 IDEA创建Spring项目时出现Cannot resolve plugin XXX的解决办法

    在创建spring项目时候Plugins文件夹下面出现许多的红色波浪报错 如下 org apache maven plugins maven clean plugin 2 5 org apache maven plugins maven c
  • 前端 - js - 编程题23 - 两数之和

    给定一个整数数组 nums 和一个目标值 target 请你在该数组中找出和为目标值的那 两个 整数 并返回他们的数组下标 你可以假设每种输入只会对应一个答案 但是 你不能重复利用这个数组中同样的元素 示例 给定nums 2 7 11 15
  • Windows系统如何查看占用的端口

    Windows系统如何查看占用的端口 在有些时候 我们需要知道Windows系统占用了那些端口 比如 需要在服务器上部署一个应用程序时 需要给这个应用程序提供空闲端口用来通信 除了一些约定俗成的端口外 例如 HTTP服务占用80端口 FTP
  • Java多线程列子

    问题如下 两个线程 线程A 线程B 一个固定容量为50的队列List
  • 解决Spring boot 工程console打印太多信息

    resources下添加配置文件 logback xml 添加下面代码
  • 决策树(Decision Tree)

    一 简介 决策树 decision tree 是一种基本的分类与回归方法 本章主要讨论用于分类的决策树 决策树模型呈树形结构 在分类问题中 表示基于特征对实例进行分类的过程 它可以认为是if then规则的集合 也可以认为是定义在特征空间与
  • SpringBoot实战——个人博客项目

    目录 一 项目简介 二 项目整体架构 数据库模块 后端模块 前端模块 三 项目具体展示 四 项目的具体实现 1 一些准备工作 数据库 数据表的创建 设置数据库和MyBatis的配置 将前端项目引入到当前项目中 2 登录注册模块 实体类的创建
  • 【手写一个Tomcat】SimpleTomcat-01

    目录 前言 实现 http TomcatRequest http TomcatResponse http TomcatServlet SimpleTomcat servlet FirstServlet servlet SecondServl
  • 常用数据库validationQuery检查语句

    validationQuery是用来验证数据库连接的查询语句 这个查询语句必须是至少返回一条结果的SELECT语句 每种数据库都有各自的验证语句 下表中从网上收集了几种常见数据库的validationQuery 数据库 validation
  • 搭建服务注册与发现中心

    使 Spring Cloud Netflix 中的 Eureka 搭建服务注册与发现中 创建SpringBoot应 添加依赖 spring web eureka server 配置服务注册与发现中心 设置服务注册与发现中 的端 server
  • 数据挖掘应用实例_手把手教你做数据挖掘 !(附教程&数据源)

    作者 宋莹 本文长度为10427字 建议阅读20 分钟 本文为你介绍数据挖掘的知识及应用 引言最近笔者学到了一个新词 叫做 认知折叠 就是将复杂的事物包装成最简单的样子 让大家不用关心里面的细节就能方便使用 作为数据科学领域从业者 我们所做