Rattle :基于R的数据挖掘工具(3):载入数据

2023-10-30

数据

数据是进行数据挖掘工作的基础,要是没有数据,那也就没什么可挖的了。当今时代,数据的丰富超乎想象,它可以是数字,也可以是文本,图像,声音,视频等各种形式的存在。但是要把数据变成知识和信息,并不是一件简单的事。

关于数据的一般术语:
一个数据集由变量(列)的各个观测(行) 构成,其中变量可分为输入变量和输出变量,这些变量可以是数值的也可以是属性的(categoric variables)。
为了完成数据挖掘工作,首先需要把数据保存在各种系统中。要把形式和格式各异的数据组织成我们挖掘工作所需的形式。数据的收集,整理,存储和访问是一项重要的工作

载入数据

数据会从不同的来源,以不同的形式进入我们的项目。借助于R的数据处理能力,Rattle可以载入多种来源的数据。

(1)csv数据
csv数据是一种很简单普通的逗号分隔型取值格式,一种纯文本的数据存储格式。在csv中,数据的字段由逗号分开,程序通过读取文件重新创建正确的字段。csv数据可以说是R当中(当然也是Rattle当中)输入数据的首选格式。csv文件可以在电子表格和各种数据库之间输入输出,包括LibreOffice Calc, Gnumeric,, Microsoft Excel, SAS/Enterprise Miner, Teradata, Netezza等等。

在Rattle里载入csv数据
使用Data标签的Sprasdsheet选项,这个选项可以载入csv,txt,和execl数据文件。选中Sprasdsheet后,点击Filename,选择相关数据文件,最后按执行按钮。

 



在Rattle里有三个作为例子的csv数据集

 



来选择weather.csv,看看数据载入的结果。

 



在界面上会给出数据集的变量的名称和内容,也就是基本的数据汇总。

在载入数据文件的时候,用到了Rattle界面的两个参数,Separator 和 Header。Separator表示文件中字段的分割形式,如csv文件是逗号而txt文件是使用tab键,在Separator中应用 \\t。 选中Header参数会给出变量名(列名)。如果你的csv文件中不包含变量名,不要选这一项,否则会误把第一行作为变量名读入。

载入weather.csv数据还有一种简易方式,执行--- 弹窗选是即可。


(2)其它的数据类型
ARFF 数据:Attribute-Relation File Format,是一种文本格式的文件。本质上来说,ARFF格式其实就是带有元数据(关于数据格式的信息)的CSV格式。weather示例数据也有ARFF格式版本提供。

ODBC 数据:The Open Database Connectivity (ODBC) standard,这是在数据库中访问数据的一般方法,这是基于SQL语言的技术。通过ODBC来访问数据需要通过DSN给出数据来源。

 



R 数据集和其它的数据来源,包括SPSS数据,XML数据等,把它们转化为数据框即可用于Rattle中。注意这些数据要被放入Rattle的库里边。在R的安装目录下可以读取一般的R数据。

Library:很多R包都提供了示例数据集,Rattle也可以读入它们。

语料库(Corpus)和脚本数据(Script)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Rattle :基于R的数据挖掘工具(3):载入数据 的相关文章

  • STM32超声波模块测距

    特别注意 单独t link只能提供3 3v电压 模块接5v电压只能收到3 3V 供电的时候请接上micro口 模块介绍 HC SR04超声波模块可提供2cm 400cm的距离感测功能 测量精度可以达到3mm 通过声音340m s t 2可以

随机推荐

  • TCP3次握手连接协议和4次握手断开连接协议

    TCP IP 状态机 如下图所示 在TCP IP协议中 TCP协议提供可靠的连接服务 采用三次握手建立一个连接 如图1所示 SYN包表示标志位syn 1 ACK包表示标志位ack 1 SYN ACK包表示标志位syn 1 ack 1 1 第
  • 关于stm32f429的MDA2D的M2M模式

    LTDC的使用问题 可参考官方例程的配置 需要注意的是 它只是一个LCD控制器 需要定义缓存的地址 可以设置在flash里 但是不便于操作 一般还是建议设置外部SDRAM里 LTDC中DMA2D的使用问题 429中LTDC的2D加速功能还比
  • 记Tomcat删除war包问题

    由于不清楚tomcat部署原理 误认为tomcat部署完成之后 可以把war删除 然后以后每次部署 只需要增量部署就行了 然后还怕由于war包的存在 增量部署的内容会被覆盖掉 不清楚war包什么时候会自动重新部署 于是 rm rf mm w
  • Python将.py文件打包成.exe可执行文件

    1 安装Pyinstaller库 pip install pyinstaller 2 在 py文件的所在文件夹Shift 右键 打开后输入pyinstaller F 要打包的文件名称 例如Mqtt py F参数表示覆盖打包 如果有旧的会覆盖
  • [电路设计]按键方案

    电路设计 按键方案 本文记录和介绍几种按键解决方案 包括普通按键 按键编码电路 ADC按键的工作原理 1 普通按键 一般使用的按键原理图如下图所示 由按键 上拉电阻和消抖滤波电容组成 按键断开时 K e y I i n
  • 级数求和公式

    级数求和公式是用于求解有限的或无限的等差 等比数列的总和 它的一般形式为 Sn a1 a2 a3 an 其中 a1 为该级数的首项 an 为该级数的末项 Sn 表示该级数的和 1 如果是有限等差数列 其求和公式为 Sn n a1 an 2
  • Spring Cloud Eureka注册中心组件搭建

    第一步 Idea 新建spring boot项目 选中Cloud 中 Eureka Server 第二部 配置文件 将application application 后缀改为application yml 也可以不修改 我是用的yml 粘贴
  • 计算机指令格式

    计算机的指令格式与机器的字长 存储器的容量及指令的功能都有很大的关系 从便于程序设计 增加基本操作并行性 提高指令功能的角度来看 指令中应包含多种信息 但在有些指令中 由于部分信息可能无用 这将浪费指令所占的存储空间 并增加了访存次数 也许
  • idea中处理依赖注入爆红问题

    1 这是idea里的编译异常 这里会出现依赖注入爆红的情况 有以下两种方式 1 1 方式一 在进行注入的时候 并没有UserMapper这个接口 所以爆异常 解决方式 需要创建一个UserMapper接口并交给Spring容器管理 1 2
  • 【转】伺服电机三环控制的原理(位置环,运动环,电流环)

    运动伺服一般都是三环控制系统 从内到外依次是电流环速度环位置环 1 首先电流环 电流环的输入是速度环PID调节后的那个输出 我们称为 电流环给定 吧 然后呢就是电流环的这个给定和 电流环的反馈 值进行比较后的差值在电流环内做PID调节输出给
  • 剑指offer(C++版本)

    剑指offer c 版本 二维数组查找 替换空格 从尾到头打印链表 重建二叉树 用两个栈实现队列 旋转数组的最小数字 斐波那契数列 跳台阶 矩阵覆盖 二进制1的个数 数值的整数次方 调整数组顺序使奇数位于偶数前面 链表中倒数第k个结点 反转
  • 【ANN预测】基于遗传算法优化 ANN附matlab代码

    作者简介 热爱科研的Matlab仿真开发者 修心和技术同步精进 matlab项目合作可私信 个人主页 Matlab科研工作室 个人信条 格物致知 更多Matlab仿真内容点击 智能优化算法 神经网络预测 雷达通信 无线传感器 电力系统 信号
  • qt在windows下交叉编译arm架构程序

    1
  • 《Kubernetes部署篇:Ubuntu20.04基于二进制安装安装kubeadm、kubelet和kubectl》

    一 背景 由于客户网络处于专网环境下 使用kubeadm工具安装K8S集群 由于无法连通互联网 所有无法使用apt工具安装kubeadm kubelet kubectl 当然你也可以使用apt get工具在一台能够连通互联网环境的服务器上下
  • 单淘汰赛制两队相遇算法

    对于这种单循环赛制acm也是常遇到这样的题那么 对于这样的比赛我们要怎么模拟所有的可能是一个问题 我们如何判断两个队在某一轮是否会遇到呢 我们其实可以利用二进制的性质 设某一轮比赛为i 求j和k两只队伍是否能比赛 下面我们用二进制来表示队伍
  • vp8-vp9-ivf文件格式

    经常遇到ivf格式 下面看看它的头 typedef struct ivf header 0 3 固定的 DKIF 字符串 4 5 version 应该为0 6 7 header的字节长度 8 11 编码器的FourCC e g VP80 1
  • 在内嵌窗口中调用父窗口的javascript代码

    noname1 html noname2 html
  • 【原创】【硬件电路】AltiumDesigner18规则检查含义

    文章首发于同名微信公众号 DigCore 欢迎关注同名微信公众号 DigCore 及时获取最新技术博文 Layout时最常用的错误检查 这需要在布局布线前做好规则设置 所谓磨刀不误砍柴工 尤其是在Layout时 如果违反规则 就会亮起绿色
  • vue.config.js配置详解

    1 vue inspect rule 命令获取vue config js中的chainWebpack配置项 2 vue inspect rule svg 筛选配置项 const path require path function reso
  • Rattle :基于R的数据挖掘工具(3):载入数据

    数据 数据是进行数据挖掘工作的基础 要是没有数据 那也就没什么可挖的了 当今时代 数据的丰富超乎想象 它可以是数字 也可以是文本 图像 声音 视频等各种形式的存在 但是要把数据变成知识和信息 并不是一件简单的事 关于数据的一般术语 一个数据