分类算法的R语言实现案例

2023-11-15

最近在读《R语言与网站分析》,书中对分类、聚类算法的讲解通俗易懂,和数据挖掘理论一起看的话,有很好的参照效果。

然而,这么好的讲解,作者居然没提供对应的数据集。手痒之余,我自己动手整理了一个可用于分类算法的数据集(下载链接:csdn下载频道搜索“R语言与网站分析:数据集样例及分类算法实现”),并用R语言实现了朴素贝叶斯、SVM和人工神经网络分类。

数据集记录的是泰坦尼克号乘客的存活情况。数据集包括乘客的等级(class)、年龄(age)、性别(sex)和存活情况(survive),最终希望通过分析乘客的等级、年龄和性别建立模型,对乘客是否能够存活进行分类。

以下是使用read.table()函数读取的数据集情况,可以看到class的3/4分位数和最大值、age的最小值和1/4分位数以及sex的1/4分位数和中位值分别相等,判断数据集可能已经离散化。

> data <- read.table("./titanic_s.txt", header = TRUE, sep = ",")
> summary(data)
     class                 age                 sex                survive       
 Min.   :-1.8700000   Min.   :-0.228000   Min.   :-1.9200000   Min.   :-1.0000  
 1st Qu.:-0.9230000   1st Qu.:-0.228000   1st Qu.: 0.5210000   1st Qu.:-1.0000  
 Median : 0.0214000   Median :-0.228000   Median : 0.5210000   Median :-1.0000  
 Mean   :-0.0007595   Mean   : 0.000202   Mean   :-0.0002494   Mean   :-0.3539  
 3rd Qu.: 0.9650000   3rd Qu.:-0.228000   3rd Qu.: 0.5210000   3rd Qu.: 1.0000  
 Max.   : 0.9650000   Max.   : 4.380000   Max.   : 0.5210000   Max.   : 1.0000 


将数据全部转换为因子类型。可以看到经过转换后,class有四类(贵族、高、中、低)、age有两类(孩子和成人)、sex有两类(男和女)、survive有两类(存活和未存活)。

> data$class <- as.factor(data$class)
> data$age <- as.factor(data$age)
> data$sex <- as.factor(data$sex)
> data$survive <- as.factor(data$survive)
> summary(data)
    class         age          sex       survive  
 -1.87 :325   -0.228:2092   -1.92: 470   -1:1490  
 -0.923:285   4.38  : 109   0.521:1731   1 : 711  
 0.0214:706                                       
 0.965 :885


 
使用table()函数可查看未存活和存活人数分别为1490人、711人,二者数据量相差较大;如果用这样的数据集建模,可能影响分类结果。 

> table(data$survive)

  -1    1 
1490  711


 

为此,对数据量较少的存活人员样本进行重抽样,使得二者的样本数量一致。

> balance <- function(data,yval) {
+   y.vector <- with(data,get(yval))
+   index.0 <- which(y.vector==-1)
+   index.1 <- which(y.vector==1)
+   index.1 <- sample(index.1, length(index.0), replace = TRUE)
+   result <- data[sample(c(index.0,index.1)),]
+   result
+ }
> 
> sdata <- balance(data, "survive")
> table(sdata$survive)

  -1    1 
1490 1490


将重抽样后的数据分为训练数据集和样本数据集,比例默认按7:3分配。

> apart.data <- function(data, percent = 0.7) {
+   train.index <- sample(c(1:nrow(data)),round(percent*nrow(data)))
+   data.train <- data[train.index,]
+   data.test <- data[-c(train.index),]
+   result <- list(train = data.train, test = data.test)
+   result
+ }
> p.data <- apart.data(sdata)
> data.train <- p.data$train
> data.test <- p.data$test

数据准备妥当后,可以开始采用不同的分类算法构建模型,并使用测试数据集对模型的分类效果进行评估。要构建的模型是关于存活情况survive与class、age以及sex之间的关系,可用如下公式表示。

> mod.formula <- as.formula("survive~class+age+sex")</span>

分类算法1:朴素贝叶斯分类,注意要加载e1071库。应用测试数据集对效果进行评估,结果真正率tpr(也就是“预测活着也真活着的人数”/“实际活着的人数”)为57%,真负率tnr(也就是“预测没活也真没活的人数”/“实际没活的人数”)84%。看来预测“没活”的情况比较准。

> install.packages("e1071")
> library(e1071)
> nb.sol <- naiveBayes(mod.formula, data.train);nb.sol
> nb.predict <- predict(nb.sol, newdata = data.test)
> tb <- table(nb.predict, data.test$survive)
> tpr <- tb[2,2]/(tb[2,2]+tb[1,2]);tpr
[1] 0.5735608
> tnr <- tb[1,1]/(tb[1,1]+tb[2,1]);tnr
[1] 0.8447059

分类算法2:支持向量机(SVM)分类。应用测试数据集对效果进行评估,结果也是真正率tpr较低,真负率tnr较高。

> svm.sol <- svm(mod.formula, data.train);svm.sol
> svm.predict <- predict(svm.sol, data.test)
> tb <- table(svm.predict, data.test$survive)
> tpr <- tb[2,2]/(tb[2,2]+tb[1,2]);tpr
[1] 0.5095949
> tnr <- tb[1,1]/(tb[1,1]+tb[2,1]);tnr
[1] 0.9152941


分类算法3:人工神经网络(ANN)分类,注意加载nnet包。应用测试数据集对效果进行评估,结果也是真正率tpr较低,真负率tnr较高。

> library(nnet)
> nnet.sol <- nnet(mod.formula, data.train, size =7, maxit = 1000);nnet.sol
> pred.prob <- predict(nnet.sol, data.test)
> pred.class <- ifelse(pred.prob>0.5, 1,0)
> table(pred.class, data.test$survive)
> tb <- table(pred.class, data.test$survive)
> tpr <- tb[2,2]/(tb[2,2]+tb[1,2]);tpr
[1] 0.5095949
> tnr <- tb[1,1]/(tb[1,1]+tb[2,1]);tnr
[1] 0.9152941

通过对具体的数据集进行数据的重抽样、划分训练数据集和测试数据集,以及最终实施相应的分类算法,可以加深对于R语言分类分析过程和方法的理解。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

分类算法的R语言实现案例 的相关文章

  • 使用R语言进行数据对象获取的mget函数实战

    使用R语言进行数据对象获取的mget函数实战 在R语言中 我们经常需要获取由多个数据对象组成的列表 为了高效地获取这些对象 R提供了一个非常方便的函数 即mget函数 mget函数可以根据给定的对象名称 在当前环境中查找并返回相应的数据对象
  • R语言实现文本情感分析

    在本博客中 我们将介绍如何使用R语言进行文本情感分析 我们将介绍如何处理文本数据 构建模型 训练模型并进行情感预测 这里我们将使用IMDb电影评论数据集进行示例分析 数据准备 首先 我们需要下载并加载IMDb电影评论数据集 可以从这里下载数
  • R语言学习笔记:分析学生的考试成绩

    孩子上初中时拿到过全年级一次考试所有科目的考试成绩表 正好可以用于R语言的统计分析学习 为了不泄漏孩子的姓名 就用学号代替了 感兴趣可以下载测试数据进行练习 num class chn math eng phy chem politics
  • 独家

    作者 Damir Yalalov 翻译 陈超 校对 赵茹萱 本文约1100字 建议阅读5分钟 本文介绍了ChatGPT如何解决简单的机器学习任务并给出了鸢尾花分类和城市预测两个案例 一句话概括 ChatGPT可以帮助你完成简单的机器学习任务
  • R语言聚类分析

    本文首发于公众号 医学和生信笔记 完美观看体验请至公众号查看本文 文章目录 系统聚类 层次聚类 Hierarchical clustering 快速聚类 划分聚类 partitioning clustering K means聚类 围绕中心
  • 【python数据挖掘课程】二十七.基于SVM分类器的红酒数据分析

    这是 Python数据挖掘课程 系列文章 前面很多文章都讲解了分类 聚类算法 这篇文章主要讲解SVM分类算法 同时讲解如何读取TXT文件数据并进行数据分析及评价的过程 文章比较基础 希望对你有所帮助 提供些思路 也是自己教学的内容 推荐大家
  • 使用lattice包的bwplot函数绘制箱图比较多个模型在不同指标上的性能差异(R语言)

    使用lattice包的bwplot函数绘制箱图比较多个模型在不同指标上的性能差异 R语言 箱图是一种常用的数据可视化方法 用于表示一组数据的分布特征 包括中位数 四分位数 异常值等 在比较多个模型在多个指标上的性能差异时 箱图可以提供直观的
  • 机器学习分类模型-线性回归Linear regression

    Linear regression module from collections import Counter import numpy as np import pandas as pd from imblearn over sampl
  • Coding and Paper Letter(六十一)

    2019独角兽企业重金招聘Python工程师标准 gt gt gt 资源整理 1 Coding 1 航拍影像的土地覆盖分类 CAS机器学习人工智能2019 ZHAW 中ML DL分配的仓库 ml dl assignment 2019 2 跨
  • chatgpt赋能python:用Python对图片进行分类

    用Python对图片进行分类 在如今的数字时代 图片分类是一个越来越常见的任务 特别是在搜索引擎优化中 图片分类可以让搜索引擎更容易地找到特定类型的图片 并在相关的搜索中以更高的排名显示它们 在本文中 我们将介绍如何使用Python来分类图
  • R语言实现RMF模型

    RMF模型说明 RMF模型是客户管理中 常被用来衡量客户价值和客户创利能力的重要方法 它主要考量三个指标 最近一次消费 Recency 近期购买的客户倾向于再度购买 消费频率 Frequency 经常购买的客户再次购买概率高 消费金额 Mo
  • R语言实现推荐系统

    目录 1 理论基础 1 1 推荐系统 1 2 R语言 2 数据准备 2 1 数据获取 2 2 数据读取
  • 主成分分析R语言实现

    主成分分析是一种常见的降维统计方法 它通过适当的变量替换 使得新变量成为原变量的线性组合 并且新变量间彼此独立 从而可从错综复杂的关系中寻求主要成分信息 揭示变量内在关系 本次主要分享的是该方法的R语言实现 目录 数据集展示 一 计算相关系
  • 基于GWO-BP灰狼算法优化BP神经网络多维分类预测研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码 数据 讲解文档
  • 目标检测YOLO系列从入门到精通技术详解100篇-【图像处理】图像分类

    目录 前言 知识储备 图像分类基础知识 1 具体领域划分 2 图像分类问题的3层境界
  • 软件测试/测试开发/人工智能丨分类,二分类和回归问题的对应场景与区别

    分类 二分类和回归问题是机器学习中常见的三种任务类型 它们分别适用于不同的场景 具有不同的目标和输出 1 分类问题 Classification 场景 适用于将数据点分到不同的类别或标签中的问题 每个类别代表一种离散的类别或状态 例子 判断
  • 【最新】2023年30米分辨率土地利用遥感监测数据

    改革开放以来 中国经济的快速发展对土地利用模式产生了深刻的影响 同时 中国又具有复杂的自然环境背景和广阔的陆地面积 其土地利用变化不仅对国家发展 也对全球环境变化产生了深刻的影响 为了恢复和重建我国土地利用变化的现代过程 更好地预测 预报土
  • 基于ResNet模型微调的自定义图像数据分类

    Import necessary packages import torch import torch nn as nn from torchvision import datasets models transforms from tor
  • 【状态估计】电力系统状态估计中的异常检测与分类(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及详细文
  • 【状态估计】电力系统状态估计中的异常检测与分类(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及详细文

随机推荐

  • 科目1基础知识快速入门精简

    科目1 4 科目一 又称科目一理论考试 驾驶员理论考试 学习道路交通安全法律 法规和相关知识学习 考试内容包括驾车理论基础 道路安全法律法规 地方性法规等相关知识 再加地方性法规 考试形式为上机考试 100道题 90分及以上过关 科目二 又
  • linux文件编程(1)—— open、write、read、lseek、阻塞问题(ps文件操作/文件描述符/重定向原理/缓冲区/标准错误)

    参考 linux文件编程 1 常用API之open write read lseek 作者 丶PURSUING 发布时间 2021 04 08 22 19 28 网址 https blog csdn net weixin 44742824
  • SpringBoot通过QRCode生成二维码

    一 添加依赖
  • vue实现多页面应用开发,包含项目之间跳转

    需求 在一个vue项目工程下 需要部署两个项目甚至多个项目 实现思路 第一步 在vue config js文件中配置两个项目的入口 module exports pages index页面是必须的 作为主项目的入口页面 index entr
  • YARN的产生背景和架构剖析

    hadoop1存在的问题 1 单点故障 可靠性低 JobTracker采用了master slave结构 是集群事务的集中处理点 存在单点故障 2 单点瓶颈 扩展性差 需要完成的任务太多 JobTracker兼顾资源管理和作业控制跟踪功能跟
  • 基于计算机视觉的米粒计数检测——Matlab源码实现

    基于计算机视觉的米粒计数检测 Matlab源码实现 计数是现代生产和科研领域中的重要问题之一 在粮食收获领域 以小麦为例 正确地评估小麦产量对于农业生产和市场供应至关重要 然而 目前的计数方法多数是通过人工或半自动方式 难以快速 准确地完成
  • 小程序和网页的区别

    小程序和网页有什么区别呢 下面我们拿微信小程序来举例 运行环境 网页 在浏览器中运行 微信小程序 在微信中运行 开发环境 网页 代码编辑器 vscode 网页浏览器 chrome 微信小程序 代码编辑器 vscode 微信模拟器 微信开发者
  • mfc140.dll丢失怎样修复-由于找不到mfc140.dll无法继续执行代码的解决方法

    mfc140 dll是电脑文件中的dll文件 动态链接库文件 如果计算机中丢失了某个dll文件 可能会导致某些软件和游戏等程序无法正常启动运行 并且导致电脑系统弹窗报错 在电脑随便打开一个浏览器然后在顶部输入 dll修复程序 site 按下
  • Linux系统下安装jdk及环境配置(两种方法)

    这里介绍两种linux环境下jdk的安装以及环境配置方法 在windows系统安装jdk以及环境配置 相信大家都会 这里就不做赘述了 这里主要讲讲linux下的jdk安装以及环境配置 第一种属于傻瓜式安装 一键安装即可 yum安装 第二种手
  • 指针和引用 , 指针空值nullptr

    引用和指针 1 引用概念 引用不是新定义一个变量 而是给已存在变量取了一个别名 编译器不会为引用变量开辟内存空间 它和它引用的变量共用同一块内存空间 使用方式和普通变量相同 当原变量来对待 比如 李逵 在家称为 铁牛 江湖上人称 黑旋风 底
  • 不同岛屿的数量

    694 不同岛屿的数量 这道题要给出不同岛屿的数量 最直观的想法就是对发现的不同岛屿进行序列化 然后把序列化结果存到HashSet 那怎么序列化呢 其实比较类似于二叉树的序列化 记录遍历顺序 方向 这里用 1 2 3 4 代表上下左右 1
  • 全网最详细网络安全学习路线!手都给我码酸了!

    零基础小白 学完掌握可就业 入门到入土的网安学习路线 在各大平台搜的网安学习路线都太粗略了 看不下去了 我把自己报班的系统学习路线 整理拿出来跟大家分享了 本文为纯干货纯文字内容 需要详细学习路线图以及配套资料的同学可留言或者后台踢我免费分
  • 什么是计算机视觉

    计算机视觉 让计算机 看懂 和视频 这是什么场景 画面里都有什么 人 车和房子在什么位置 目标在做什么 目标间有什么关系 视觉是自然智能不可思议的结晶 猕猴的大脑皮层中视觉部分占据大约50 人脑中有关视觉的部分所占比重大 人类大脑对视觉进行
  • Linux下EC20实现ppp拨号

    硬件描述 EC20模块封装成标准的PCIe接口 和系统之家通讯主要通过usb通讯 系统描述 此处使用的是Linux 3 0 1 一 驱动支持 首先需要对Linux内核驱动做一定的修改 使操作系统能够支持EC20 1 Add VID add
  • Windows 无法启动MySql服务 (位于 本地计算机上)错误2: 系统找不到指定的文件

    错误 Windows 无法启动MySql服务 位于 本地计算机上 错误2 系统找不到指定的文件 错误原因 服务的路径与安装的路径不一致 之前安装过mysql后卸载重装容易出现这样的问题 解决方法 修改windows注册表 windows r
  • DC-DC升压电路

    目录 实验目的 课程条件 原理框图和实验思路 实验原理图 电路图分析
  • memcached server LRU 深入分析

    Memcached 人所皆知的remote distribute cache 不知道的可以javaeye一下下 或者google一下下 或者baidu一下下 但是鉴于baidu的排名商业味道太浓 从最近得某某事件可以看出 所以还是建议jav
  • 【Java基础】异常

    文章目录 1 基本信息 2 Throwable 体系 2 1 Exception 2 2 Error 2 3 常见的 Exception 和 Error 3 异常的处理 3 1 抛出异常throw 3 2 捕获异常try catch fin
  • OpenAI API(ChatGPT)接口地址https://api.openai.com/v1/chat网络问题无法访问Error: connect ECONNREFUSED ETIMEDOUT

    https api openai com v1 chat是openAI的API接口地址 因为长城的原因 23年年初一次更新后便无法访问 访问接口会提示Error connect ETIMEDOUT等网络相关的问题 解决办法有三种 本文只做方
  • 分类算法的R语言实现案例

    最近在读 R语言与网站分析 书中对分类 聚类算法的讲解通俗易懂 和数据挖掘理论一起看的话 有很好的参照效果 然而 这么好的讲解 作者居然没提供对应的数据集 手痒之余 我自己动手整理了一个可用于分类算法的数据集 下载链接 csdn下载频道搜索