数据挖掘知识点总结

2023-11-19

1.数据挖掘产生的背景?驱动力是什么?
四种主要技术激发了人们对数据挖掘技术的开发、应用和研究的兴趣:
超大规模数据库的出现,如商业数据仓库和计算机自动收集数据记录手段的普及
先进的计算机技术,如更快和更大的计算能力和并行体系结构
对海量数据的快速访问,例如分布式数据存储系统的应用
统计方法在数据处理领域应用的不断深入
大量信息给人们带来方便的同时也带来一大堆问题:
信息冗余、信息真假难以辨识、信息安全难以保证、信息形式不一、难以统一处理等。“数据过剩”、“信息爆炸”和“知识贫乏”等现象相继产生。
数据挖掘首次出现在1989年举行的第十一届国际联合人工智能学术会议上。数据挖掘思想来自于机器学习、数据库系统、模式识别和统计。需要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。
驱动力:DRIP(Data Rich Information Poor)

2.大数据的特点是什么?
high-volume,high-veclocity,high-variety
高容量、高覆盖率、高品种

3.什么是数据挖掘?
数据->知识(规律)
数据挖掘是从数据中发现知识,从大量的数据中挖掘那些令人感兴趣的,有用的,隐含的、先前的、未知的、和可能有用的模式或知识。数据挖掘并非全自动的过程,在各个环节都可能需要人为参与。
数据挖掘可以从技术和商业两个层面上定义。从技术层面上看,数据挖掘就是从大量数据中,提取潜在有用的信息和知识的过程。从商业层面看,数据挖掘就是一种商业信息处理技术,其主要特点是对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据。

4、数据挖掘一般流程是什么?以及业界数据整合&分析的过程是什么?举例数据挖掘在各个领域的应用。
一般流程:
在这里插入图片描述
业界数据整合&分析的过程:
在这里插入图片描述
如医疗、交通、公共安全、个性化医疗、社交网络、精准消费。

5、数据挖掘的四大主要任务?他们的区别是什么?
1.分类预测:根据一组对象和其类标签,构建分类模型,并用于预测另一组对象的类别标签-有监督
2.聚类分析:聚类是将一组样本分配到子集(簇),这样同一簇中的样本在某种意义上是相似的-无监督
聚类和分类的区别在于聚类不依赖与预先定义的类标签-聚类是一种无监督的数据挖掘任务。
3.关联分析:给定的一组记录,其中每个记录都包含来自给定集合的若干项,关联规则是:生成依赖关系(规则),通过规则预测某一项是否发生。
4.异常检测:发现与正常行为的显著偏差,利用聚类、分类分析的结果
分类:

6、结合分类,介绍数据挖掘中常见的概念
分类边界:能够将问题空间的区域划分开来的超曲面
过拟合:模型复杂度高于实际问题,模型在训练集上表现很好,但在测试集上却表现很差。模型对训练集"死记硬背"(记住了不适用于测试集的训练集性质或特点),没有理解数据背后的规律,泛化能力差。
混淆矩阵:
在这里插入图片描述

  1. TP(True Positive):将正类预测为正类数,真实为0,预测也为0
  2. FN(False Negative):将正类预测为负类数,真实为0,预测为1
  3. FP(False Positive):将负类预测为正类数, 真实为1,预测为0
  4. TN(True Negative):将负类预测为负类数,真实为1,预测也为1
    代价敏感学习:代价敏感的学习方法是机器学习领域中的一种新方法,它主要考虑在分类中,当不同的分类错误会导致不同的惩罚力度时如何训练分类器。例如在医疗中,“将病人误诊为健康人的代价”与“将健康人误诊为病人的代价”不同;

7、介绍数据对象与数据属性
属性类型:离散和连续,离散属性以符号、整数作为属性值,注意:二进制属性是离散属性,连续属性,以实数作为属性值,通常表示为浮点变量
非对称属性:只重视少部分非零属性值才有意义,称该属性为非对称属性。

8、什么是维度灾难?如何解释该现象?如何避免维度灾难?
维数是数据集中属性的数目,分析高维数据时容易陷入维度灾难。维度灾难是当增加更多特征维度时,模型的效果反而下降的现象。
解释现象:随着维数的增加,数据在特征空间中越来越稀疏。在高维特征空间中,容易学习到高维线性分类器,高维线性分类器降维变成了低维非线性分类器,分类器学习了噪声和异常值,方法泛化性低,过拟合。
如何避免维度灾难:训练数据的量:理论上说,训练样本无限多,维数灾难就不会发生。也就是说,随着维度增加,训练样本的数量要求随指数增加。模型的类型:非线性决策边界的分类器,如神经网络,KNN,决策树,分类效果好,但是泛化能力差,因此,使用这些分类器时数据维度不能太高,而是需要增加数据量。而如果是泛化能力好的分类器,如贝叶斯,线性分类器,可以使用更多的特征。

9、数据集的一般特性
维数:是数据集中属性的数目,分析高维数据时容易陷入维度灾难,数据预处理的一个重要动机就是减少维度,及时规约。
稀疏性:有的数据集如非对称属性的数据集,非零项还不到1%,这样可以仅存储非零值,将大大减少计算时间和存储空间。有算法专门针对稀疏数据(稀疏矩阵)进行处理。
分辨率:不同采集频率可以获得不同分辨率的数据,例如:几米分辨率的数据,地球很不平坦,但若数十公里分辨率的数据,却相对平坦。数据模式依赖于分辨率。分辨率太小,模式可能不出现。分辨率太大,模式可能看不出。

10.数据集的类型
记录数据(数据矩阵,交易数据,文本数据)
文本数据的编码,词袋模型:每个文档表达为词向量
每个词为向量的一个分量,每个分量的值为该词在文档中出现的次数。
图数据(万维网,分子结构)
序列数据(空间数据,时间序列,图像数据,视频数据)
数据集的常用标准形式是:数据矩阵

11、数据质量
数据质量差会对许多数据处理工作产生负面影响

12、常见数据质量问题
噪声:是无关的数据对象
异常值:是数据对象,但其特征与数据集中大多数对象有显著不同。
重复值:数据来源不同导致数据重复
不一致数据:同一属性的格式编码不一致
不均衡数据:值分类任务中不同类别的训练样例数目差别很大的情况。

13、数据相似性和相异性的度量
相似性度量-[0,1]
相异性度量-[0,+]
二元属性是标称属性的一种,只有两个类别或状态:0或1,其中0通常表示该属性不出现,1表示出现。
二元向量相似度(SMC、Jaccard系数)
在这里插入图片描述

多元向量间的相似度余弦相似度
在这里插入图片描述
相关性-皮尔逊相关系数
在这里插入图片描述
在这里插入图片描述
马氏距离
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
14、为什么要进行数据预处理以及数据预处理的主要任务?
数据预处理是数据挖掘中最为艰巨的任务,主要任务:数据清理,数据集成,数据规约,数据变换和离散化。

15、数据清洗
数据清洗包括处理无关数据,冗余属性,缺失数据,异常数据。
缺失数据的方法:忽视,手动填补,自动填补缺失值(平均值或中位数,模型预测或估计,例如贝叶斯公式,决策树)。
异常数据,如何平滑异常值:分箱,回归,聚类

16、数据变换
属性类型:连续型、离散型、序数型、标称型、字符串型等
离散化:连续型->离散型
无监督离散化:等宽离散化、等频率离散化、k-均值离散化
有监督离散化

17、采样
采样就是按照某种规则从数据集中挑选样本数据。通常应用场景数据样本过大,抽取少部分样本来训练或验证,不仅可以节约计算机资源,在特定情况下也会提升实验效果。
下采样、上采样、边缘采样
直接对数据集里数量多的类别样例进行欠采样,去除一些类别多的样例使得各个类别的样例数据接近。
欠采样若随机丢弃样例,可能丢失一些重要信息。
对训练集里数量少的样例进行过采样,即增加一些数量少的类别样例使得各个类别样例的数目接近。
过采样不能简单地对初始(数量少的类别)样本进行重复采样,否则会导致严重的过拟合。

18、什么是不平衡数据集?会产生什么弊端?如何规避?
不平衡数据集指的是数据集各个类别的样本数目相差巨大。以二分类问题为例,假设正类的样本数量远大于负类的样本数量,这种情况下的数据称为不平衡数据。
如果训练集的90%的样本是属于同一个类的,而我们的分类器将所有的样本都分类为该类,在这种情况下,该分类器是无效的,尽管最后的分类准确度为90%。所以在数据不均衡时,准确度(Accuracy)这个评价指标参考意义就不大了。实际上,如果不均衡比例超过4:1,分类器就会偏向于大的类别。
针对不平衡数据, 最简单的一种方法就是生成少数类的样本, 这其中最基本的一种方法就是: 从少数类的样本中进行随机采样来增加新的样本。与过采样相反,欠采样是从多数类样本中随机选择少量样本,再合并原有少数类样本作为新的训练数据集。
随机欠采样有两种类型分别为有放回和无放回两种,无放回欠采样在对多数类某样本被采样后不会再被重复采样,有放回采样则有可能。

19、如何判断属性的好坏呢?
定性:类别柱状图(离散型属性)、类别分布图(连续型属性)
定量:熵、信息增益

20、特征子集选择的方法有那些?
穷举
分支定界
贪婪算法:最优的K个单独的属性、顺序正向选择、顺序逆向选择
优化算法

21.两个具有代表性的特征提取方法(降维方法):
PCA(主成分分析)
LDA(线性判别分析)

22.分类概述
从数据中推导函数的技术,一种有监督的方法
基本方法包括:最近邻、决策树、贝叶斯、支持向量机、神经网络
集成方法:Boosting、随机森林

23.k-最近邻
原理:类比学习
超参数有那些?如何调节超参数?交叉验证?
超参数包括K,距离函数,调节超参数的方法:将数据划分为训练集和测试集,选择在测试集上效果最好的参数。将训练集中划分小部分作为验证集,来帮助我们选择合适的参数。
交叉验证:在训练数据较少的情况下,将训练集划分为多叠,可以通过迭代不同的验证集来获得一个更好的k值,每次选择一叠作为验证集,其余的作为训练集,得到多个准确率最后取平均值。

24.决策树
决策树的特点和优点:自顶向下的树状结构,可以很容易地从构建的树中提取出来规则,一个数据集, 可能生成很多颗树, ID3要造最短的树.
ID3生成树的基本流程?
如何通过剪枝防止过拟合?
属性选择的标准是什么?

25.贝叶斯分类器的前提假设?贝叶斯分类器的计算公式?
前提假设:条件独立
在这里插入图片描述
26.SVM
在这里插入图片描述
硬间隔:对于完全线性可分的数据集,分类全部准确,没有错误,此时的线性分类器的核心思想就是找到最大分类间隔。
软间隔:实际工作中的数据没有那么干净,划分数据集时容许一定量的分类错误,此时的分类间隔为软间隔。
对于非线性可分的数据集,引入了核函数,核函数将数据集投射到更高纬的空间,使得数据集线性可分。
SVM三大宝贝:间隔,对偶,核技巧

27.神经网络
在这里插入图片描述
28.分类方法总结
在这里插入图片描述
29.什么是聚类?与分类的区别?
聚类:寻找一组对象,使得一组中的对象彼此相似,与其他组对象无关,簇内距离最小化,簇间距离最大化。
无监督学习,没有标签,数据驱动去生成不同的簇
聚类需要解决的问题是将已给定的若干无标记的模式聚集起来使之成为有意义的聚类,聚类是在预先不知道目标数据库到底有多少类的情况下,希望将所有的记录组成不同的类或者说聚类,并且使得在这种分类情况下,以某种度量(例如:距离)为标准的相似性,在同一聚类之间最小化,而在不同聚类之间最大化

30.聚类评价标准
误差平方和(SEE):
在这里插入图片描述
剪影(Silhouette)
在这里插入图片描述
31.K-means聚类
在这里插入图片描述
在这里插入图片描述
二分K-means,不易受初始化问题的影响

在这里插入图片描述
32.层次聚类和DBSCAN
凝聚和分裂
在这里插入图片描述

核心点,边界点,噪声点
抗噪,易受超参影响,MinPts,Eps

33.关联规则
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘知识点总结 的相关文章

  • mysql+关掉密码过期

    mysql 关掉密码过期 要在MySQL中关闭密码过期功能 可以按照以下步骤进行操作 登录到MySQL服务器 使用管理员账户 如root 连接到数据库 mysql uroot ppassword 运行以下命令来查看当前的密码过期设置 SHO
  • 【计算机开题报告】图书管理系统

    一 选题依据 简述国内外研究现状 生产需求状况 说明选题目的 意义 列出主要参考文献 国内外研究现状 国外研究现状 在很多发达国家 图书管理系统的应用和技术发展已经相对完善 并且还建立了数字图书馆 各方面的情况也非常成熟 而图书管理的应用价
  • 如何在CentOS安装SQL Server数据库并通过内网穿透工具实现公网访问

    文章目录 前言 1 安装sql server 2 局域网测试连接 3 安装cpolar内网穿透 4 将sqlserver映射到公网 5 公网远程连接 6 固定连接公网地址 7 使用固定公网地址连接 前言 简单几步实现在Linux cento
  • 实时获取建材网商品数据:API实现详解与代码示例

    一 引言 随着电子商务的快速发展 实时获取商品数据对于企业决策 市场分析以及数据驱动的营销策略至关重要 建材网作为国内知名的建材信息平台 提供了API接口 使得第三方开发者可以方便地获取商品数据 本文将详细介绍如何使用 建材网的API接口
  • 进程间通信

    进程间通信 进程间通信介绍 进程间通信目的 数据传输 一个进程需要将它的数据发送给另一个进程 资源共享 多个进程之间共享同样的资源 通知事件 一个进程需要向另一个或一组进程发送消息 通知它 它们 发生了某种事件 如进程终止 时要通知父进程
  • AntDB内存管理之内存上下文之如何使用内存上下文

    5 如何使用内存上下文 使用内存上下文之前 我们需要先对其进行创建 AntDB启动时已经创建并初始化好了部分内存上下文 例如 TopMemoryContext 这个TopMemoryContext是所有内存上下文的父节点或者祖先节点 一般我
  • 6 - 数据备份与恢复|innobackupex

    数据备份与恢复 innobackupex 数据备份与恢复 数据备份相关概念 物理备份与恢复 逻辑备份 推荐 使用binlog日志文件实现对数据的时时备份 使用日志 恢复数据
  • 【Mysql】InnoDB 引擎中的页目录

    一 页目录和槽 现在知道记录在页中按照主键大小顺序串成了单链表 那么我使用主键查询的时候 最顺其自然的办法肯定是从第一条记录 也就是 Infrimum 记录开始 一直向后找 只要存在总会找到 这种在数据量少的时候还好说 一旦数据多了 遍历耗
  • 【计算机毕业设计】个人日常事务管理系统

    进入21世纪网络和计算机得到了飞速发展 并和生活进行了紧密的结合 目前 网络的运行速度以达到了千兆 覆盖范围更是深入到生活中的角角落落 这就促使 管理系统的发展 管理系统可以实现远程处理事务 远程工作信息和随时追踪工作的状态 网上管理系统给
  • 【计算机毕业设计】航空信息管理系统

    传统信息的管理大部分依赖于管理人员的手工登记与管理 然而 随着近些年信息技术的迅猛发展 让许多比较老套的信息管理模式进行了更新迭代 飞机票信息因为其管理内容繁杂 管理数量繁多导致手工进行处理不能满足广大用户的需求 因此就应运而生出相应的航空
  • 【计算机毕业设计】基于web的山东红色旅游信息管理系统

    有效的处理想要的相关信息和如何传播有效的信息 一直是人类不断探索的动力 人类文明火种的传承都是通过了多种媒介作为载体 也是随着社会生产力的发展不断的更新 随着互联网的到来 信息传播与管理都上升了一个新的台阶 并且方便应用的同时也要考虑信息传
  • 【计算机毕业设计】学生就业管理系统

    如今社会上各行各业 都喜欢用自己行业的专属软件工作 互联网发展到这个时候 人们已经发现离不开了互联网 新技术的产生 往往能解决一些老技术的弊端问题 因为传统学生就业信息管理难度大 容错率低 管理人员处理数据费工费时 所以专门为解决这个难题开
  • 【计算机毕业设计】Java图书馆智能选座系统

    现代经济快节奏发展以及不断完善升级的信息化技术 让传统数据信息的管理升级为软件存储 归纳 集中处理数据信息的管理方式 本图书馆智能选座系统就是在这样的大环境下诞生 其可以帮助使用者在短时间内处理完毕庞大的数据信息 使用这种软件工具可以帮助管
  • 软件测试/测试开发/全日制/测试管理丨Redis内存数据库

    Redis是一种开源 内存中的数据结构存储系统 它提供了高性能 灵活性和丰富的数据结构 以下是Redis内存数据库的基本介绍 键值存储 Redis基于键值对的存储模型 其中每个键都与一个特定的值相关联 这种简单的数据模型使其易于使用和理解
  • 基于java的饮食分享平台系统设计与实现

    基于java的饮食分享平台系统设计与实现 I 引言 A 研究背景和动机 近年来 随着人们生活水平的提高和健康意识的增强 饮食健康已经成为越来越多人的关注焦点 因此 一个方便快捷的饮食分享平台就显得尤为重要 基于Java的饮食分享平台系统设计
  • 深入了解 Python MongoDB 操作:排序、删除、更新、结果限制全面解析

    Python MongoDB 排序 对结果进行排序 使用 sort 方法对结果进行升序或降序排序 sort 方法接受一个参数用于 字段名 一个参数用于 方向 升序是默认方向 示例 按名称按字母顺序对结果进行排序 import pymongo
  • 【计算机毕业设计】电影播放平台

    电影播放平台采用B S架构 数据库是MySQL 网站的搭建与开发采用了先进的java进行编写 使用了springboot框架 该系统从两个对象 由管理员和用户来对系统进行设计构建 主要功能包括 个人信息修改 对用户 电影分类 电影信息等功能
  • 【计算机毕业设计】北工国际健身俱乐部

    本系统为会员而设计制作北工国际健身俱乐部 旨在实现北工国际健身俱乐部智能化 现代化管理 本北工国际健身俱乐部管理自动化系统的开发和研制的最终目的是将北工国际健身俱乐部的运作模式从手工记录数据转变为网络信息查询管理 从而为现代管理人员的使用提
  • 【计算机毕业设计】白优校园社团网站的设计与实现

    近些年 随着中国经济发展 人民的生活质量逐渐提高 对网络的依赖性越来越高 通过网络处理的事务越来越多 随着白优校园社团网站的常态化 如果依然采用传统的管理方式 将会为工作人员带来庞大的工作量 这将是一个巨大考验 需要投入大量人力开展对社团
  • Mysql中设置只允许指定ip能连接访问(可视化工具的方式)

    场景 Mysql中怎样设置指定ip远程访问连接 Mysql中怎样设置指定ip远程访问连接 navicat for mysql 设置只有某个ip可以远程链接 CSDN博客 前面设置root账户指定ip能连接访问是通过命令行的方式 如果通过可视

随机推荐

  • 云原生服务更换二进制调测方法

    当前我们开发的服务基本都是云原生的服务 都跑在容器中 在开发过程中 想更换二进制文件调测就相当麻烦了 今天写了一个脚本 供大家参考 bin bash set ex appName testApp appPath home appName c
  • SpringBoot整合Druid-Mybatis&SpringSecurity使用

    SpringBoot整合JDBC 创建springBoot项目时首先需要导入JDBC的支持 以及MySQL驱动
  • Vim编辑器常用命令

    Vim编辑器常用命令 Vim三种工作模式 命令模式 输入模式和编辑模式 Vim打开文件 Vim快捷方向键和以单词为单位移动 Vim插入文本 Vim查找文本 Vim替换文本 Vim删除文本 vim复制和粘贴文本 Vim保存退出文本 Vim光标
  • timestamp相减的函数 java_DB2中TIMESTAMP字段的计算

    以下内容是对 DB2 基础 日期和时间的使用 的内容进行的摘要与精练 遗憾的是 本文参考的原文已经被IBM DeveloperWorks删掉了 暂时还没找到 1 在SQL中使用DB2中的寄存器获取数据库服务器当前时间戳SELECT curr
  • 如何用ps把蓝底照片换成白色的

    用ps把蓝底照片换成白色的的具体步骤为 1 打开换白底的照片 菜单栏 调整 替换颜色 打开这个工具 2 认真看下图的圆圈所指的地方 点一下这个结果色块 我们选择一个白色色彩 3 有一个关键的一个点 就是一定要保证明度是100的 这样才会出现
  • 学习笔记-Spark环境搭建与使用

    一 20 04 Ubuntu安装 清华源ISO源 https mirrors tuna tsinghua edu cn ubuntu releases 20 04 下载链接 https mirrors tuna tsinghua edu c
  • 【整理八】

    1 说说你对Event Loop的理解 Eventloop 是一种在编程语言中常用的编程模型 用于处理任务队列中的事件 它可以被用来处理各种任务 包括网络事件 文件读写 定时器 用户界面事件等Eventloop 的工作原理是 它会按顺序处理
  • 通过进入单用户模式解决linux中的rc.local修改后无法启动的问题

    问题 本想将teamviewer这个软件随linux自启动 所以将其启动命令放在rc local中 但是重启后发现linux启动不起来了 系统前面都是正常启动的 就是无法进入帐户登陆界面 无法输入root帐号密码 不能登陆到系统 按了ctr
  • ROS系列报错与解决方法

    6 28 一 问题描述 ROS运行roscore命令后发现提示log文件 日志文件 大小超过1G 需要清理 Checking log directory for disk usage This may take awhile Press C
  • MYSQL 查看最大连接数和修改最大连接数

    MySQL查看最大连接数和修改最大连接数 1 查看最大连接数 show variables like max connections 2 修改最大连接数 set GLOBAL max connections 200 以下的文章主要是向大家介
  • 2021年 centos7.2 openssl3安装全过程

    安装关联软件包和编译工具包 yum install perl ExtUtils CBuilder perl ExtUtils MakeMaker 官网下载 https www openssl org source wget https ww
  • C++里有哪几种数据类型

    C 里有哪几种数据类型 1 基本类型 布尔型 布尔型 即bool 它的取值只能是true 真 或者false 假 分别代表非零与零 对布尔型的赋值可以直接用true或者false进行赋值 也可以用整型常量对其进行赋值 只不过整型常量赋值给布
  • vue加载ElementUI的el-image图片时不能使用相对路径问题

    Vue官方提供的图片控件el image 在加载相对路径时会出现加载失败现象
  • boost中boost::uint32_t和一般的uint32_t的区别

    using boost int8 t using boost uint8 t using boost int16 t using boost uint16 t using boost int32 t using boost uint32 t
  • word格式问题——英文单词间距太大、文本中嵌入公式导致行距太大、单双栏排版

    1 英文单词直接间距太大 1 全选 右击鼠标 选 段落 中文版式 勾选 允许西文在单词中间换行 如果不勾选此项 可目测换行位置 按住Shift打回车 手动换行 2 选择左对齐 然后用 连接被分割的单词 2 文本中嵌入公式导致行距太大 在段落
  • php的$_SERVER['HOSTNAME']

    一 前言 在最新一次更新代码后 发现代码中出现了 SERVER HOSTNAME 这个东西 关键是 SERVER HTTP HOST 和 SERVER SERVER NAME 我们经常用到 一般是用来获取服务器上的相关参数 唯独这个HOST
  • 写需求分析必须牢记的5大要点

    需求验证的5大要点 要做好需求验证 必须在思想 方法 语言 人员 内容5个要点上做好相应的工作 否则就会产生很多负面的影响 1 思想 前面已经说过 由于Review被翻译成 评审 导致很多人将其与中国人常说的评审相混淆 其实它们之间是有区别
  • CSDN博文显示图片的方法

    感觉官方应该出一个教程的 不然新手第一次发博文十有八九会发现自己的博文发表之后没有图片 既然官方不给 那么自己摸索咯 参考 http blog csdn net cherish cx article details 52782644 1 编
  • 利用Mybatis拦截器对数据库水平分表

    首先你要知道在哪些sql上面要处理分表 你可能需要一个注解 java view plain copy package com dusk domyself stock common split import java lang annotat
  • 数据挖掘知识点总结

    1 数据挖掘产生的背景 驱动力是什么 四种主要技术激发了人们对数据挖掘技术的开发 应用和研究的兴趣 超大规模数据库的出现 如商业数据仓库和计算机自动收集数据记录手段的普及 先进的计算机技术 如更快和更大的计算能力和并行体系结构 对海量数据的