数据挖掘基础之数据库

2023-11-09

最近出现的一种数据库结构是数据仓库(1.3.2 小节)。这是一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库

技术包括数据清理、数据集成和联机分析处理(OLAP)。OLAP 是一种分析技术,具有汇总、合并和聚集功能,以及从不同的角度观察信息的能力。尽管 OLAP 工具支持多维分析和决策,对于深层次的分析,如数据分类、聚类和数据随时间变化的特征,仍然需要其它分析工具。

许多人把数据挖掘视为另一个常用的术语“数据库中知识发现”或 KDD 的同义词。而另一些人只是把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程如图 1.4 所示,由以下步骤组成:

1. 数据清理(消除噪音或不一致数据)

2. 数据集成(多种数据源可以组合在一起)1

3. 数据选择(从数据库中提取与分析任务相关的数据)

4. 数据变换(数据变换或统一成适合挖掘的形式;如,通过汇总或聚集操作)

5. 数据挖掘(基本步骤,使用智能方法提取数据模式)

6. 模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式;1.5 节)

7. 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。

 

典型的数据挖掘系统具有以下主要成分:

1 数据库、数据仓库、或其它信息库:这是一个或一组数据库、数据仓库、展开的表、或其它类型的信息库。可以在数据上进行数据清理和集成。

2 数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据。

3知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。这种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。用户确信方面的知识也可以包含在内。可以使用这种知识,根据非期望性评估模式的兴趣度。领域知识的其它例子有兴趣度限制或阈值和元数据(例如,描述来自多个异种数据源的数据)。

4数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成,用于特征、关联、分类、聚类分析、演变和偏差分析。

5模式评估模块:通常,该部分使用兴趣度度量(1.5 节),并与挖掘模块交互,以便将搜索聚焦在有趣的模式上。它可能使用兴趣度阈值过滤发现的模式。模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现。对于有效的数据挖掘,建议尽可能地将模式评估推进到挖掘过程之中,以便将搜索限制在有兴趣的模式上。

6图形用户界面:该模块在用户和挖掘系统之间通讯,允许用户与系统交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。此外,该成分还允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化。

 

关系数据库

数据库系统,也称数据库管理系统(DBMS),由一组内部相关的数据,称作数据库,和一组管理和存取数据的软件程序组成。软件程序涉及如下机制:数据库结构定义,数据存储,并行、共享或分布的数据访问,面对系统瘫痪或未授权的访问,确保数据的一致性和安全性。

关系数据库是表的集合,每个表都赋予一个唯一的名字。每个表包含一组属性(列或字段),

并通常存放大量元组(记录或行)。关系中的每个元组代表一个被唯一关键字标识的对象,并被一

组属性值描述。语义数据模型,如实体-联系(ER)数据模型,将数据库作为一组实体和它们之间的联系进行建模。通常为关系数据库构造 ER 模型。

 

数据仓库

数据仓库是一个从多个数据源收集的信息存储,存放在一个一致的模式下,并通常驻留在单个站点。数据仓库通过数据清理、数据变换、

数据集成、数据装入和定期数据刷新构造。

通常,数据仓库用多维数据库结构建模。其中,每个维对应于模式中一个或一组属性,每个单元存放聚集度量,如 count sales_amount。数据仓库的实际物理结构可以是关系数据存储或多维数据方。它提供数据的多维视图,并允许快速访问预计算的和汇总的数据。

数据仓库收集了整个组织的主题信息,因此,它是企业范围的。另一方面,数据集市是数据仓库的一个部门子集。它聚焦在选定的主题上,是部门范围的。

通过提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理(OLAP)。OLAP操作使用数据的领域背景知识,允许在不同的抽象层提供数据。这些操作适合不同的用户。OLAP操作的例子包括下钻和上卷,它们允许用户在不同的汇总级别观察数据,如图 1.8(b)所示。例如,可以对按季度汇总的销售数据下钻,观察按月汇总的数据。类似地,可以对按城市汇总的销售数据上卷,观察按国家汇总的数据。

 

事务数据库

一般地,事务数据库由一个文件组成,其中每个记录代表一个事务。通常,一个事务包含一个唯一的事务标识号(trans_ID),和一个组成事务的项的列表(如,在商店购买的商品)。事务数据库可能有一些与之相关联的附加表,包含关于销售的其它信息,如事务的日期、顾客的 ID 号、销售者的 ID 号、销售分店,等等。

 

高级数据库系统和高级数据库应用

关系数据库系统广泛地用于商务应用。随着数据库技术的发展,各种先进的数据库系统已经出现并在开发中,以适应新的数据库应用需要。

新的数据库应用包括处理空间数据(如地图)、工程设计数据(如建筑设计、系统部件、集成

电路)、超文本和多媒体数据(包括文本、图象和声音数据)、时间相关的数据(如历史数据或股

票交换数据)和万维网(Internet 使得巨大的、广泛分布的信息存储可以利用)。这些应用需要有效的数据结构和可规模化的方法,处理复杂的对象结构、变长记录、半结构化或无结构的数据,文本和多媒体数据,以及具有复杂结构和动态变化的数据库模式。

响应这些需求,开发了先进的数据库系统和面向特殊应用的数据库系统。这些包括面向对象和对象-关系数据库系统、空间数据库系统、时间和时间序列数据库系统、异种和遗产数据库系统、基于万维网的全球信息系统。

虽然这样的数据库或信息存储需要复杂的机制,以便有效地存储、提取和更新大量复杂的数据,它们也为数据挖掘提供了肥沃的土壤,提出了挑战性的研究和实现问题。本节,我们将介绍上面列举的每种高级数据库系统。

面向对象数据库

向对象数据库基于面向对象程序设计范例。用一般术语,每个实体被看作一个对象。对于AllElectronics 例子,对象可以是每个雇员、顾客、商品。涉及一个对象的数据和代码封装在一个单元中。每个对象关联:

1  一个变量集,它描述数据。这对应于实体-联系和关系模型的属性。

2    一个消息集,对象可以使用它们与其它对象,或与数据库系统的其它部分通讯。

3   一个方法集,其中每个方法存放实现一个消息的代码。一旦收到消息,方法就返回一个响应值。例如,消息 get_photo(employee)的方法将提取并返回给定雇员对象的照片。

共享公共特性集的对象可以归入一个对象类。每个对象都是其对象类的实例。对象类可以组成/子类层次结构,使得每个类代表该类对象共有的特性。例如,类 employee 可以包含变量 name, address birthdate。假定类 sales_person employee 的子类。一个 sales_person 对象将继承属于其超类 employee 的所有变量。此外,它还具有作为一个销售员特有的所有变量(如,commission)。这种类继承特性有利于信息共享。

对象-关系数据库

对象-关系数据库基于对象-关系数据模型构造。该模型通过提供处理复杂对象的丰富数据类型和对象定位,扩充关系模型。此外,它还包含关系查询语言的特殊构造,以便管理增加的数据类型。

通过增加处理复杂数据类型、类层次结构和如上所述的对象继承,对象-关系模型扩充了基本关系模型。对象-关系数据库在工业和应用正日趋流行。

在面向对象和对象-关系系统中的数据挖掘具有某些类似性。与关系数据挖掘相比,需要开发新的技术,处理复杂对象结构、复杂数据类型、类和子类层次结构、特性继承以及方法和过程。

时间数据库和时间序列数据库

时间数据库和时间序列数据库都存放与时间有关的数据。时间数据库通常存放包含时间相关属性的数据。这些属性可能涉及若干时间标签,每个都具有不同的语义。时间序列数据库存放随时间变化的值序列,如,收集的股票交易数据。

数据挖掘技术可以用来发现数据库中对象演变特征或对象变化趋势。这些信息对于决策和规划

是有用的。例如,银行数据的挖掘可能有助于根据顾客的流量安排银行出纳员。可以挖掘股票交易

数据,发现可能帮助你制订投资策略的趋势(例如,何时是购买 AllElectronics 的股票的最佳时机?)。通常,这种分析需要定义时间的多粒度。例如,时间可以按财政年、学年或日历年分解。年可以进一步分解成季度或月。

文本数据库和多媒体数据库

文本数据库是包含对象文字描述的数据库。通常,这种词描述不是简单的关键词,而是长句子

或短文,如产品介绍、错误或故障报告、警告信息、汇总报告、笔记或其它文档。文本数据库可能

是高度非规格化的(如,万维网上的网页)。有些文本数据库可能是半结构化的(如 email 消息和一些 HTML/XML 网页),而其它的可能是良结构化的(如图书馆数据库)。通常,具有很好结构的文本数据库可以使用关系数据库系统实现。

“文本数据库上的数据挖掘可以发现什么?”说到底,可以发现对象类的一般描述,以及关键词或内容的关联和文本对象的聚类行为。为做到这一点,需要将标准的数据挖掘技术与信息提取技术和文本数据特有的层次构造(如字典和辞典),以及面向学科的(如化学、医学、法律或经济)术语分类系统集成在一起。

多媒体数据库存放图象、音频和视频数据。它们用于基于图内容的提取、声音传递、录像点播、万维网和识别口语命令的基于语音的用户界面等方面。多媒体数据库必须支持大对象,因为象视频这样的数据对象可能需要数十亿字节的存储。还需要特殊的存储和检索技术,因为视频和音频数据需要以稳定的、预先确定的速率实时检索,防止图象或声音间断和系统缓冲区溢出。这种数据称为连续媒体数据。

对于多媒体数据库挖掘,需要将存储和检索技术与标准的数据挖掘方法集成在一起。有前途的方法包括构造多媒体数据方、多媒体数据的多特征提取和基于相似的模式匹配。

异种数据库和遗产数据库

异种数据库由一组互连的、自治的成员数据库组成。这些成员相互通讯,以便交换信息和回答查询。一个成员数据库中的对象可能与其它成员数据库中的对象很不相同,使得很难将它们的语义吸收进一个整体的异种数据库中。

许多企业需要遗产数据库,作为信息技术长时间开发(包括使用不同的硬件和操作系统)的结果。遗产数据库是一组异种数据库,它将不同的数据系统组合在一起。这些数据系统如关系或对象 -关系数据库、层次数据库、网状数据库、电子表格、多媒体数据库或文件系统。遗产数据库中的异种数据库可以通过网内或网间计算机网络连接。

这种数据库的信息交换是困难的,因为需要考虑发散的语义,制定从一种表示到另一种表示的精确转换规则。例如,考虑不同学校之间学生学业情况数据交换问题。每个学校可能有自己的计算机系统和课程与评分体系。一所大学可能采用学季系统(每学期三个月——译注),开三门数据库课程,并按由 A+ F 评定成绩;而另一所可能采用学期系统,开两门数据库课程,并按由 1 10评定成绩。很难制定这两所大学的课程-成绩转换精确的规则,使得信息交换很困难。通过将给定的数据转换到较高的、更一般的概念层(对于学生成绩,如不及格、良好或优秀),数据挖掘技术可以对此问题提供有趣的解,使得数据交换可以更容易地进行。

万维网

万维网和与之关联的分布信息服务(如,美国在线,Yahoo!, Alta Vista, Prodigy)提供了丰富的、世界范围的联机信息服务;这里,数据对象被链接在一起,便于交互访问。用户通过链接,从一个对象到另一个,寻找有趣的信息。这种系统对数据挖掘提供了大量机会和挑战。例如,理解用户的访问模式不仅能够帮助改进系统设计(通过提供高度相关的对象间的有效访问),而且还可以引导

更好的市场决策(例如,通过在频繁访问的文档上布置广告,或提供更好的顾客/用户分类和行为分析)。在这种分布式信息环境下,捕获用户访问模式称作挖掘路径遍历模式。

尽管网页看上去好看并且信息丰富,但它们实际上是非结构化的并且缺乏预定义的模式、类型和格式。这样,对于系统地进行信息提取和数据挖掘,计算机很难理解各种网页的语义并把它们以有组织的形式结构化。提供基于关键字的搜索服务,而不理解特定网页的上下文,只能给用户提供有限的帮助。例如,基于单个关键字的网搜索可能返回数以百计的指针,指向包含该关键字的网页,而其中大部分与用户期望的查找无关。数据挖掘可以提供比网搜索服务更多的帮助吗?数据挖掘能够帮助我们学习网上信息的一般分布、网页特征和不同网页之间的关联吗?能够帮助我们找到特定主题的权威网页吗?这些问题对高级的数据挖掘提出了新的挑战。

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘基础之数据库 的相关文章

  • 基于鲸鱼算法改进支持向量机SVM的多分类研究,woa-svm

    目录 背影 支持向量机SVM的详细原理 SVM的定义 SVM理论 鲸鱼算法的原理及步骤 SVM应用实例 鲸鱼算法改进SVM的多分类研究 代码 结果分析 展望 背影 传统的支持向量机只能进行二分类 本文调用libsvm工具箱 并用鲸鱼算法改进

随机推荐

  • 算法编程7:一个四位数 abcd,满足 abcd * 4 = dcba,求这个数

    描述 一个四位数 abcd 满足 abcd 4 dcba 求这个数 编程实现1 for i in list range 1000 2500 num2 i 4 a i 1000 b i 1000 100 c i 1000 100 10 d i
  • 序列化错误小结:SerializationFailedException

    公司项目 不提供具体代码 仅提供思路 问题描述 错误报告MultipartRequest无法实现序列化 问题解决1 发生SerializationFailedException时 第一时间根据错误报告定位错误类 发现MultipartReq
  • 分布式事务专题之9、分布式事务解决方案之最大努力通知型

    目录 1 支付宝充值案例 假如我们自己有一个电商系统 支持用户使用支付宝充值 流程如下 2 用户支付流程 是一个同步的过程 用户在浏览器发起充值请求 gt 电商服务 电商服务生成充值订单 状态为0 待支付 0 待支付 100 支付成功 20
  • 软件产品质量模型

    ISO IEC 9126是国际标准组织 ISO 制订的用于评估软件质量的国际标准1 ISO IEC 9126标准由6个特性和27个子特性组成 是评价软件质量的国际标准1 ISO IEC 9126已经被ISO IEC 25010取代 后者是国
  • STM32刷Micropython固件参考指南

    STM32刷Micropython固件指南 其实刷固件和普通的程序下载烧录无多大的差异 主要是其他因数的影响导致刷固件或刷完固件无法运行的情况和相关问题 刷固件教程 固件下载 目前所支持的stm32型号有这些 stm32f0 stm32f4
  • linux进阶05——Makefile(二)

    1 源代码 main c int main printf hello world n fun1 fun2 fun1 c void fun1 printf this is fun1 n fun2 c void fun2 printf this
  • BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

    BERT 个人翻译 并不权威 paper https arxiv org pdf 1810 04805 pdf BERT Pre training of Deep Bidirectional Transformers for Languag
  • sql语句大全+实例讲解

    1 创建3张表 学生表创建 CREATE table student Sno CHAR 9 PRIMARY KEY Sname CHAR 20 UNIQUE Ssex char 2 Sage SMALLINT Sdept char 20 课
  • LCD 驱动

    LCD的型号是 CM162 4 有U1 U2 外形尺寸 L W H mm 80 36 12 点数 mm 5 8 内藏控制器 SPLC 780 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 GND VDD VO
  • vue3+element-plus+js 对列表查询/重置条件 组件简单封装

    在写后台管理的时候会有很多列表 列表上面一般会有查询条件 对列表进行搜索查询 所以就想封装成为组件 就不需要每个页面写一堆的代码 直接循环出来进行遍历即可 1 封装子组件searchForm组件
  • 利用Bat命令批量修改文件名

    因为科研需求 需要把文件名规范统一命名 整体思路 先获得原始文件名字 带后缀 再导到excel里搞好新名字 构建好Bat的ren函数 完成修改 具体措施 1 读取原本文件名称 在相应的文件目录下 新建一个文本文件 并且打开输入 dir b
  • 移动端物理像素和设备独立像素

    https blog csdn net aiolos1111 article details 51880223 https www cnblogs com samwu p 5341056 html http www softwhy com
  • ifconfig命令详解

    在CU论坛里看到一个关于google面试的帖子 当中提到的一个面试题就是ifconfig命令的用法 所以今天就趁些机会在网上找了一些关于ifconfig的文章 转到这边来 大家一起学习 以下转自 http www photox cn IT
  • linux之date命令

    date 命令用于 显示 或 设置系统的时间或日期 格式 date 参数 日期格式 注意 date后面有一个空格 否则无法识别命令 shell对空格是很严格的 1 Linux date命令参数 日期时间格式符号 H 小时 以00 23来表示
  • x = torch.cat((x1, x2), dim=1) dim是什么意思,决定什么变量

    在这个例子中 x torch cat x1 x2 dim 1 意思是将 x1 和 x2 按照第一维拼接起来 得到新的 tensor x 变量 dim 1 决定了拼接的维度
  • re学习(29)攻防世界-CatFly(复原反汇编)

    因为这是一个 dll文件 在Linux上运行一下 找到主要函数 以及由上面三部分对应的代码部分 int64 fastcall main int a1 char a2 char a3 size t v3 rbx int16 v5 4 rsp
  • Docker安装Elasticsearch 8.x 、Kibana 8.x等

    这里我使用的是8 2 0版本 同时内容会介绍ik分词和elastic head的安装 elasticsearch java的配置 1 下载ik分词器插件 下载地址 https github com medcl elasticsearch a
  • 年轻人 vs 存款

    近日 有调查称 大概五分之一的年轻人存款在一万元以内 10万元存款是一个 坎 存款超过10万就会超过53 7 的人 年轻人 存款 两个词碰撞在一起 引来了广泛的关注和讨论 你认为年轻人存款难吗 可以从以下几个角度发表你的看法 存款 角度一
  • Redis入门之一

    设置后台进程 进入redis conf中的136行改成 yes 设置后台进程 修改bind 改成qianfeng01 改密码 找到第500行左右 requorepass 改成123456 登录的代码 查看 ps ef grep redis
  • 数据挖掘基础之数据库

    最近出现的一种数据库结构是数据仓库 1 3 2 小节 这是一种多个异种数据源在单个站点以统一的模式组织的存储 以支持管理决策 数据仓库 技术包括数据清理 数据集成和联机分析处理 OLAP OLAP 是一种分析技术 具有汇总 合并和聚集功能