《数据挖掘基础》习题一

2023-11-04

7. 数据（data）、信息（information）和知识（knowledge）是人们认识和利用数据的三个不同阶段，数据挖掘技术是如何把它们有机的结合在一起的？
数据是形成知识的源泉，不断的利用知识来获得信息，具体表现如下：
客观世界—（收集）—》数据—（分析）—》信息—（深入分析）—》知识—（决策与行动）—》客观世界。

11. 你认为应该如何来理解KDD和Data mining的关系？说明理由？
在某些时候可以认为Data mining就是KDD，KDD在人工智能界更流行，而Data mining在数据库界使用更多，但Data mining所包含的范围相对比较小一点。Data mining简单地讲就是从大量数据中挖掘或抽取出知识，而KDD是一个更广义的范畴，它是一个从大量数据中抽取挖掘出未知的，有价值的模式或规律等知识的复杂过程。

12. 解释Data mining理解为KDD整个过程的一个关键步骤的合理性？
数据挖掘是KDD中通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。KDD是一个更广义的范畴，它包括数据清洗、数据集成、数据选择、数据转换、数据挖掘、模式生成及评估等一系列步骤，而数据挖掘则是这个系统中的一个关键的部分。源数据经过清洗和转换等成为适合于挖掘的数据集，数据挖掘在这种具有固定形式的数据集上完成知识的提炼，最后以合适的知识模式用于进一步分析决策工作。将数据挖掘作为KDD的一个重要步骤看待，可以使我们更容易聚焦研究重点，有效解决问题。

15. 粗糙集的知识形成主要是基于什么思想的？简述粗糙集理论中的信息系统、近似空间、下近似、上近似、约简等概念。
粗糙集的知识形成基于不精确、不确定性知识数学问题的研究，粗糙集的知识形成思想可以概括为：一种类别对应于一个概念(类别一般表示为外延即集合，而概念常以如规则描述这样的内涵形式表示)，知识由概念组成;如果某知识中含有不精确概念，则该知识不精确。
粗糙集把客观世界抽象为一个信息系统，一个信息系统S是一个四元组，S=<U,A,V,f>：
U是对象（或事例）的有限集合，记为U={ x 1 , x 2 , ⋯ , x n x_1,x_2,⋯,x_n x1,x2,⋯,xn}；
A是属性的有限集合，记为A={ A 1 , A 2 , ⋯ , A n A_1,A_2,⋯,A_n A1,A2,⋯,An}；
V是属性的值域集，记为V={ V 1 , V 2 , ⋯ , V n V_1,V_2,⋯,V_n V1,V2,⋯,Vn}，其中是 V i V_i Vi属性 A i A_i Ai的值域；
f是信息函数，即f:U×A→V，f: ( x i , A j ) ∈ V j (x_i,A_j)∈V_j (xi,Aj)∈Vj。
近似空间由一个二元组<U,R(B)>给出：
U是对象（或事例）的有限集合，记为U={ x 1 , x 2 , ⋯ , x n x_1,x_2,⋯,x_n x1,x2,⋯,xn}；
B是A的一个属性集，R(B)是U上的二元等价关系，即： R ( B ) R(B) R(B)={ ( x 1 , x 2 ) ∣ f ( x 1 , b ) = f ( x 2 , b ) (x_1,x_2)|f(x_1,b)=f(x_2,b) (x1,x2)∣f(x1,b)=f(x2,b)} , b ∈ B ,b∈B ,b∈B
对任意一个概念（或集合）O，B是A上的一个子集，对其进行如下定义：
O的下近似定义为： B ‾ O = x ∈ U | [ x ] R ( B ) ⊂ O \left. \underline{B}O = x \in U \middle| \lbrack x\rbrack_{R(B)} \subset O \right. BO=x∈U∣∣[x]R(B)⊂O
O的上近似定义为： B ‾ O = x ∈ U | [ x ] R ( B ) ∩ O ≠ ∅ \left. \overline{B}O = x \in U \middle| \lbrack x\rbrack_{R(B)} \cap O \neq \varnothing \right. BO=x∈U∣∣[x]R(B)∩O=∅，其中， [ x ] R ( B ) \lbrack x\rbrack_{R(B)} [x]R(B)表示 x x x在 R ( B ) R(B) R(B)上的等价类。
设有两个属性集 B 1 B_1 B1、 B 2 B_2 B2， B 1 B_1 B1是 B 2 B_2 B2的真子集，如果 R ( B 1 ) = R ( B 2 ) R(B_1 )=R(B_2) R(B1)=R(B2)，则称 B 2 B_2 B2可归纳为 B 1 B_1 B1。如果属性集B不可进一步归纳，则称B是U的一个约简或归纳子。

16. 简述粗糙集知识形成的主要过程。为什么说它和数据挖掘技术在解决问题空间上有很大的重合性？
1982年，以波兰数学家Pawlak为代表的研究者首次提出了粗糙集理论，并于1991年出版第一本关于粗糙集的专著，接着1992年Slowinski R 主编论文集的出版，推动了国际上对粗糙集理论与应用的深入研究。1992年在波兰Kiekrz召开了第一届国际粗糙集合研讨会。这次会议着重讨论了集合近似定义的基本思想及其应用和粗糙集合环境下的机器学习基础研究，从此每年都会召开一次以粗糙集理论为主题的国际研讨会，从而推动了粗糙集理论的拓展和应用。我国RS研究起步较晚，所能搜索到的最早发表的论文时间是1990年，直到1998年由曾黄麟教授编著了国内最早的RS专著。粗糙集理论已成为国内外人工智能领域中一个较新的学术热点，引起了越来越多科研人员的关注。
粗糙集在数据挖掘中是一个有用的理论和技术，从KDD的角度来看，粗糙集方法中的决策表可以视为关系型数据库中的关系表。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

《数据挖掘基础》习题一的相关文章

让CHAT介绍下V2ray

CHAT回复 V2Ray是一个网络工具主要用于科学上网和保护用户的网络安全它的名字源自Vmess Ray 光线通过使用新的网络协议为用户提供稳定且灵活的代理服务下面是一些V2Ray的主要特性 1 多协议支持 V2Ray 提供了大量
链上繁荣,合作不断,外媒热议波场 TRON 2023 年度成绩

近日权威外媒Theblock 美联社和Decrypt等就波场 TRON 2023大事件进行了年度盘点报道指出波场TRON网络在2023年取得了一系列的发展和合作提升了其在Web3领域的地位其中波场TRON网络账户数量增加了 54
电商数据api接口商品评论接口接入代码演示案例

电商数据API接口商品评论接口接入入口提高用户体验通过获取用户对商品的评论商家可以了解用户对商品的满意度和需求从而优化商品和服务提高用户体验提升销售业绩用户在购买商品前通常会查看其他用户的评论以了解商品的实际效果和质量商
【计算机毕业设计】二手家电管理平台

时代在飞速进步每个行业都在努力发展现在先进技术通过这些先进的技术来提高自己的水平和优势二手家电管理平台当然不能排除在外二手家电管理平台是在实际应用和软件工程的开发原理之上运用java语言以及前台VUE框架后台SpringBoot
【计算机毕业设计】微信小程序反诈科普平台

相比于以前的传统手工管理方式智能化的管理方式可以大幅降低反诈科普平台的运营人员成本实现了反诈科普平台的标准化制度化程序化的管理有效地防止了反诈科普平台的随意管理提高了信息的处理速度和精确度能够及时准确地查询和修正反诈科普一
【计算机毕业设计】宝鸡文理学院学生成绩动态追踪系统

研究开发宝鸡文理学院学生成绩动态追踪系统的目的是让使用者可以更方便的将人设备和场景更立体的连接在一起能让用户以更科幻的方式使用产品体验高科技时代带给人们的方便同时也能让用户体会到与以往常规产品不同的体验风格与安卓 iOS相比较起来
【计算机毕业设计】OA公文发文管理系统_xtv98

近年来人们的生活方式以网络为主题不断进化 OA公文发文管理就是其中的一部分现在无论是大型的还是小型的网站都随处可见不知不觉中已经成为我们生活中不可或缺的存在随着社会的发展除了对系统的需求外我们还要促进经济发展提高工作效率
做大模型也有1年多了，聊聊这段时间的感悟！

自ChatGPT问世以来做大模型也有1年多了今天给大家分享这一年后的感悟过去一年应该是AI圈最万千瞩目的一年了大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注以至于有一年的时间好像经
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
AI在保护环境、应对气候变化中的作用

对于AI生命周期数据领域的全球领导者而言暂时搁置我们惯常的AI见解和AI生命周期数据内容产出来认识诸如世界地球日这样的自然环境类活动日似乎是个奇怪的事情我们想要知道数据是否真的会影响我们的地球环境简而言之是确实如此但作为一
AI在广告中的应用——预测性定位和调整

营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前从而增加他们购买的可能性随着时间的推移营销人员能够深入挖掘越来越精准的客户细分市场他们不仅具备了实现上述目标的能力而且这种能力还在呈指数级提升在AI技术帮助下现在的营销
30天精通Nodejs--第二十天：express-操作mysql

目录前言安装依赖并配置MySQL连接安装mysql2库配置连接信息在Express应用中使用MySQL 结合Express路由实现CRUD操作整合到主应用结语前言在Node js中使用Expre
毕业设计：基于python人脸识别系统 LBPH算法 sqlite数据库（源码）✅

博主介绍全网粉丝10W 前互联网大厂软件研发集结硕博英豪成立工作室专注于计算机相关专业毕业设计项目实战6年之久选择我们就是选择放心选择安心毕业感兴趣的可以先收藏起来点赞关注不迷路毕业设计 2023 2024年计算机毕业
温室气体排放更敏感的模型（即更高的平衡气候敏感性（ECS））在数年到数十年时间尺度上也具有更高的温度变化（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Python代码数据
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
温室气体排放更敏感的模型（即更高的平衡气候敏感性（ECS））在数年到数十年时间尺度上也具有更高的温度变化（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Python代码数据
深度学习(5)--Keras实战

一 Keras基础概念 Keras是深度学习中的一个神经网络框架是一个高级神经网络API 用Python编写可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计用户友好性模块化和可扩
每日变更的最佳实践

在优维公司内部我们采用发布单的方式进行每天的应用变更管理这里给各位介绍优维的最佳实践变更是需要多角色合作的而且他是整体研发流程的一部分在优维内部我们坚持每日变更打通开发环节到最终发布上线的全过程在保证质量的前提下尽可能提升
AI 赋能绿色制冷，香港岭南大学开发 DEMMFL 模型进行建筑冷负荷预测

近年来城市化进程加速所带来的碳排放量骤增已经严重威胁到了全球环境多个国家均已给出了碳达峰碳中和的明确时间点一场覆盖全球全行业的绿色革命已经拉开序幕在一众行业中建筑是当之无愧的能耗大户其中又以暖通空调 Heating
Python 使用 NoSQL 数据库的优选方案

NoSQL 数据库因其高性能可扩展性和灵活性而风靡一时然而对于 Python 程序员而言选择合适的 NoSQL 数据库可能会令人困惑因为有多种选择可供选择那么哪种 NoSQL 数据库最适合 Python 呢 2 解决方案根据

随机推荐

金山卫士开源软件之旅(四) netmon下FwProxy工程的解析---接口实现及接口使用方法

转载请标明是引用于 http blog csdn net chenyujing1234 上一篇文章 lt lt 金山卫士开源软件之旅三 netmon下FwProxy工程的解析 COM组件的管理模式 gt gt 中讲到如何去实现CFwPro
中小企业数字化转型难?为什么不试试“企业级”无代码平台

首先让我们思考一下中小企业为什么要进行数字化转型随着全球经济的数字化趋势日益明显中小企业作为经济的重要组成部分其数字化转型已成为推动经济高质量发展的关键数字技术可以帮助中小企业提高生产效率降低成本提升产品质量和创新能力从而
基于matlab实现的水果识别系统设计

水果识别摘要本项目针对多种常见水果混合的图像利用 Matlab 软件对水果的识别进行研究根据水果和背景的差别选取阈值对去噪增强对比度后的图像进行二值化处理再对图像进行边缘检测选定连通区域标记后再对不同种水果的颜色形状大
【机器学习】机器学习实验二：支持向量机（详细代码展示）

文章目录一项目地址二实验二的详细代码一项目地址 https mbd pub o bread ZJWampxx 二实验二的详细代码手动调参
Mysql递归查询子级（父子级结构）&从子级ID查询所有父级（及扩展知识）

文章目录 1 建表及插入数据 2 递归查询子级包括or不包括自己递归查询子级sql 可能存在的问题处理这个存在的问题可借鉴的扩展参考重要 mysql根据父节点递归查询所有子节点根据一个父节点查询所有子节点包含自身根据多个父节
React 项目怎么引入自定义组件、传递参数到组件

1 首先需要在使用组件的页面引入自定义组件 src index js 是一个入口文件我们也可以在这里引用 import React Suspense Component from react 引入自定义组件 import ReactDOM
Python番外篇：用Pygame制作一场漂亮的流星雨

hello 大家好我是wangzirui32 今天我们来学习如何用Pygame制作一场漂亮的流星雨开始学习吧文章目录前言 1 素材图片 2 项目结构 3 编写代码 3 1 Star类 3 2 主项目demo py 4 效果展示写在
详解linux下的串口通讯开发

串行口是计算机一种常用的接口具有连接线少通讯简单得到广泛的使用常用的串口是RS 232 C接口又称EIA RS 232 C 它是在1970年由美国电子工业协会 EIA 联合贝尔系统调制解调器厂家及计算机终端生产厂家共同制定的用于
【UE4】纯蓝图实现数据表(DataTable)的写入存储

前言 UE4可以方便的实现表格的读取通常是将csv表格文件按对应表头结构体导入后作为引擎内的DataTable类型文件再进行使用读取DataTable的操作可以通过GetDataTableRowNames和GetDataTableR
简单介绍使用图片 base64 编码的优点和缺点。

base64 编码是一种图片处理格式通过特定的算法将图片编码成一长串字符串在页面上显示的时候可以用该字符串来代替图片的 url 属性使用 base64 的优点是 1 减少一个图片的 HTTP 请求使用 base64 的缺点是 1
采用定时器指令和比较指令控制多台电动机顺序起动、逆序停止

实验要求在一些机械的生产过程中经常需要到要求多台电动机的起动和停止按照一定的顺序进行例如要求三台电动机M1 M2 M3在按下起动开关时电动机顺序启动起动的顺序为M1 M2 M3 顺序起动时时间的间隔为60秒启动完毕后电动机正常工
Python练习之选择与循环

目录 1 编写程序运行后用户输入4位整数作为年份判断其是否为闰年提示如果年份能被400整除则为闰年如果年份能被4整除但不能被100整除也为闰年 2 编写程序用户从键盘输入小于 1000 的整数对其进行因式分解例如 10 2
你好，语义分割（二）

在你好语义分割一中我们介绍了语义分割的概念数据的准备过程和模型设计并且使用数据加载器对数据进行训练集验证集和测试集的拆分接下来我们使用训练集对模型进行训练用来学习理想的参数 2 3 训练 Train 2 3 1 学习准
2019中科实数杯（ Q1内存镜像取证分析、Q4加密磁盘分析）

文章目录题目 Q1 内存取证 Q4 加密容器题目 Q1 内存取证 Q4 加密容器
pppoe路由桥混合模式_为什么宽带账号分路由模式和桥接模式？

我看了下他人的回答都是说的猫是怎么回事宽带连接相关的和这个问题根本不沾边的都在说光猫设备与宽带账号的设置根据我所知道的回答一下这个问题家庭的光猫大部分由路由模式和桥接模式无线路由器的WAN接口的连接方式由桥接模式 PPPOE拨
Spark原理-SparkSql框架优化策略

有了SparkCore为什么还要有SparkSql呢有两大原因一是SparkCore只能用Api 这就把很多SqlBoy拒之门外 Spark就无法发扬光大了二是使用Api时用户编写的函数作为一个个闭包被序列化后分发到Executor执
kubesphere devops使用

一创建项目 1 创建项目企业管理员切换到相应企业空间租户创建项目 k8s集群会创建一个相同名字的namespace 如下图所示管理员创建一个ipaas devops项目 2 创建镜像拉取密钥信息进入项目如ipaas devops
elasticsearch7.0 通过api 分页查询产生的问题

Result window is too large from size must be less than or equal to 10000 but was 44232 See the scroll api for a more eff
用mapreduce来操作hbase的两点优化

用mapreduce来操作hbase的两点优化用MR来对hbase的表数据进行分布式计算有两点配置可以优化操作提升性能它们分别是 1 scan setCacheBlocks false 然后调用下面这句来初始化map任务 Table
《数据挖掘基础》习题一

7 数据 data 信息 information 和知识 knowledge 是人们认识和利用数据的三个不同阶段数据挖掘技术是如何把它们有机的结合在一起的数据是形成知识的源泉不断的利用知识来获得信息具体表现如下客观世界收集数据

《数据挖掘基础》习题一

《数据挖掘基础》习题一 的相关文章

随机推荐

热门标签

《数据挖掘基础》习题一的相关文章