R语言数据集的学习

2023-11-15

一、数据集的概念

按照个人要求的格式来创建含有研究信息的数据集,这是任何数据分析的第一步。在R中,这个任务包括以下两步:
    ·选择一种数据结构来存储数据;
    ·将数据输入或导入到这个数据结构中。
数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量
R可以处理的数据类型(模式)【区别数据结构】包括数值型、字符型、复数型和原生型。R将实例标识符称为rownames(行名),将类别型(包括名义型和有序型)变量称为因子(factors)。

二、数据结构

  • R语言有许多用于存储数据的对象类型,包括标量、向量、矩阵、数组、数据框和列表,它们在存储数据类型、创建方式、结构复杂度、以及用于定位和访问其中个别元素的标记等方面均有所不同。

1.向量

向量是用于存储数据型、字符型或逻辑型数据的一维数组。执行组合功能的函数c()用来创建向量。
注意:单个向量中的数据必须拥有相同的类型或模式(数值型、字符型或逻辑型),同一向量中无法混杂不同模式的数据。

在这里插入图片描述
rep()重复一个对象,格式1:

rep(x,times)

x是要重复的对象,times为对象中每个元素重复的次数
例向量c(1,2,3),times=c(2,2,3)是将向量c的1重复2次,2重复2次,3重复3次。

在这里插入图片描述

格式2:
rep(x,each=n)
重复x元素n次,

在这里插入图片描述

rnorm()函数随机产生正态分布向量
格式:rnorm(个数,均差,方差)

在这里插入图片描述

2.矩阵

矩阵是一个二维数组,只是每个元素都拥有相同的模式(数值型、字符型或逻辑型)。可通过matrix()函数创建。(在矩阵中,默认按列填充)
matrix (data ,nrow ,ncol ,byrow ,dimnames )
data:是将要转为矩阵元素的输入向量
nrow:矩阵的行数,默认为1;
ncol:矩阵的列数,默认为1;
byrow:一个逻辑线索。 如果为TRUE,则输入向量元素按行排列,默认按列;
dimnames:以字符型向量表示的行名及列名。

在这里插入图片描述
在这里插入图片描述

3.数组

在R语言中,数组与矩阵类似,它将矩阵扩展到2维以上。R数组元素的类型也是单一的,可以是数值型,逻辑型,字符型或复数型等。

1)数组的创建

array( data, dim =length, dimnames)
data为创建数组的元素;
dim为数组的维数,是数值型向量;
dimnames是各维度中名称标签列表。

在这里插入图片描述
在创建数组时也可以给数组的每一维的每个水平取名字:
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

4. 数据框

当有多种模式(数值型、字符型或逻辑型)的数据时,可以使用数据框。因为数据框的本质是由一堆向量或者因子构成的列表,其中的每一个向量或者因子代表了一列。(注意每一列的数据类型必须相同。)

1)创建数据框——data.frame()函数
格式:data.frame(col1,col2,col3…)其中col1,col2,col3…可为任何类型。每一列的名称可由函数name指定。

data.frame(, row.names = NULL, check.rows = FALSE, check.names = TRUE, stringsAsFactors = default.stringsAsFactors())

row.name用于指定各行的名称,默认没有名称,使用从1开始自增的序列来标识每一行;check.rows用于用来检查行的名称和数量是否一致,默认为FALSE;check.names来检查变量(列)的名称是否唯一且符合语法,默认为TRUE;用来描述是否将字符型向量自动转换为因子,默认转换,若不改变的话使用stringsAsFactors = FALSE来指定即可。

例:关于病人的数据框创建
在这里插入图片描述

数据框的每一列数据的模式必须唯一,可以将多个模式的不同列放到一起组成数据框。由于数据框与分析人员通常设想的数据集的形态较为接近,我们在讨论数据框时将交替使用术语**

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

R语言数据集的学习 的相关文章

随机推荐

  • Nuxt3打包部署到Linux(node+pm2详细安装运行步骤)

    小聊 最近写了一个项目 需要打包部署 过程还是比较繁琐的 因为需要先配置运行环境 准备采用 pm2 管理项目运行 需要在服务器安装 pm2 而安装 pm2 的话用 npm 命令最方便 所以还要下载 node 环境 那么 就让我们一步步的完成
  • Nmap扫描原理与用法

    Nmap扫描原理与用法 2012年6月16日 1 Nmap介绍 Nmap扫描原理与用法PDF 下载地址 Nmap是一款开源免费的网络发现 Network Discovery 和安全审计 Security Auditing 工具 软件名字Nm
  • ‘mvn‘ 不是内部或外部命令,也不是可运行的程序 或批处理文件——解决方法(详解,亲测有效)

    错误原因 配置Maven环境变量出现问题 解决方法 以windows 10为例子 步骤一 此电脑 属性 高级系统设置 环境变量 系统变量 新建 变量名 M2 HOME 变量值 D install maven apache maven 3 5
  • jq和vue的区别

    1 从jquery到vue的转变是一个思想想的转变 就是将原有的直接操作dom的思想转变到操作数据上去 2 传统前端开发模式中是以jq为核心的 而vue是现在一个兴起的前端js库 是一个精简的MVVM 3 jQuery是使用选择器 选取DO
  • spring boot定时任务方式

    一 定时任务实现的几种方式 Timer jdk util自带的Timer类 可以调度一个java util TimerTask任务 只能设定任务按照某个频度执行 但不能按设定时间运行 ScheduledExecutorService jdk
  • 使用Python进行测试驱动开发

    作者 Jason Diamond 译者 吴海燕 原文发表日期 12 02 2004 翻译日期 2 17 2005 原文件位置 http www onlamp com pub a python 2004 12 02 tdd pyunit ht
  • 微信小程序使用npm引入三方包详解

    目录 1 前言 2 微信小程序npm环境搭建 2 1 创建package json文件 2 2 修改 project config json 2 3 修改project private config json配置 2 4 构建 npm 包
  • sharepoint 2010 列表数据分页控件介绍 pagination UserControl

    这里主要是介绍下最近开发的一个sharepoint列表或者文档库的分页控件 并且把它包装成一个可以支持自定义列表 Custom list 文档库 Document library 讨论板 Discussion 资源库 Assets libr
  • 创建vue项目-vue2&vue3

    1 安装node 网址 下载 Node js 中文网 可以下载最新版本 也可以点击下方按钮下载其他版本 安装时全部选择默认 点击下一步 完成之后打开cmd命令窗口 检查node js是否安装成功 再查看npm是否安装成功 2 安装vue脚手
  • Redis-事务与持久化

    目录 事务 事务命令 事务的实现 事务的开始 命令入队 事务队列 执行事务 WATCH命令 不监视的情况下 监视的情况下 事务的ACID特性 A 原子性 C 一致性 I 隔离性 D 持久性 持久化 RDB持久化 Redis DataBase
  • 搜狐畅游2018年9月15日校招真题(2)

    通过该道题目 题目描述 示例代码 include
  • 苹果的「AI 建筑师」GAUDI:根据文本生成 3D 场景

    作者 李梅 编辑 陈彩娴 转载自 AI科技评论 aitechtalk 如今 每隔一段时间就有新的文本生成图像模型释出 个个效果都很强大 每每惊艳众人 这个领域已经是卷上天了 不过 像 OpenAI 的 DALL E 2 或谷歌 的 Imag
  • devops之gcp core infrastructure fundamental,应用云;开发、部署、监控

    最后更新2022 02 09 应用云 下面来看看GCP提供什么应用PaaS服务 app engine是提供标准API的 预安装 application 自动部署 自动扩展 经济 免费每日额度 基于使用的计费 SDK 满足开发 测试 部署要求
  • 微信小程序是如何上传文件以及下载文件

    微信小程序可以使用wx uploadFile API来上传文件 使用wx downloadFile API来下载文件 上传文件的步骤如下 1 创建一个选择文件的按钮 2 用户点击按钮后 调用wx chooseImage 方法来选择文件 3
  • 【IoC】Spring IoC容器生命周期内容梳理

    Spring ApplicationContext Lifecycle 前言 关于Spring源码介绍的版本是 5 2 2 REALEASE 如果有流程不一致的地方 可以看下版本是否一致 一 本文概览 Spring IoC容器生命周期整体看
  • PyTorch grad 与 Optimizer(params) 区别

    目录 PyTorch grad 与 Optimizer params 区别 PyTorch grad 与 Optimizer params 区别 Tensor 可以设置属性 requires grad True False 说明其是否进行梯
  • windows构建环境 MSYS2 安装与配置

    1 说明 MSYS2 是提供了bash shell等linux环境 版本控制软件 git hg 和MinGW w64工具链软件 是MSYS的一个升级版 集成了pacman和Mingw w64的Cygwin升级版 一般用于构建windows
  • 西门子、三菱指令大全

    一 西门子PLC编程指令 1 位逻辑指令 1 1 常开接点 地址 1 2 常闭接点 地址 1 3 XOR 位异或 1 4 NOT 信号流反向 1 5 输出线圈 1 6 中间输出 1 7 R 线圈复位 1 8 S 线圈置位 1 9 RS 复位
  • 数据可视化平台理论与实践

    前面说完了大数据开发平台的核心组件 作业调度系统 接下来讨论一下大数据开发平台的脸面之一 数据可视化平台 和调度系统一样 这又是一个很多公司可能想要自己造一个轮子的系统 数据可视化平台是什么 不过 慢着 先等一下 什么是数据可视化平台 我们
  • R语言数据集的学习

    创建数据集 一 数据集的概念 二 数据结构 1 向量 2 矩阵 3 数组 4 数据框 一 数据集的概念 按照个人要求的格式来创建含有研究信息的数据集 这是任何数据分析的第一步 在R中 这个任务包括以下两步 选择一种数据结构来存储数据 将数据