分类算法的R语言实现案例

2023-11-15

最近在读《R语言与网站分析》，书中对分类、聚类算法的讲解通俗易懂，和数据挖掘理论一起看的话，有很好的参照效果。

然而，这么好的讲解，作者居然没提供对应的数据集。手痒之余，我自己动手整理了一个可用于分类算法的数据集（下载链接：csdn下载频道搜索“R语言与网站分析：数据集样例及分类算法实现”），并用R语言实现了朴素贝叶斯、SVM和人工神经网络分类。

数据集记录的是泰坦尼克号乘客的存活情况。数据集包括乘客的等级（class）、年龄（age）、性别（sex）和存活情况（survive），最终希望通过分析乘客的等级、年龄和性别建立模型，对乘客是否能够存活进行分类。

以下是使用read.table()函数读取的数据集情况，可以看到class的3/4分位数和最大值、age的最小值和1/4分位数以及sex的1/4分位数和中位值分别相等，判断数据集可能已经离散化。

> data <- read.table("./titanic_s.txt", header = TRUE, sep = ",")
> summary(data)
     class                 age                 sex                survive       
 Min.   :-1.8700000   Min.   :-0.228000   Min.   :-1.9200000   Min.   :-1.0000  
 1st Qu.:-0.9230000   1st Qu.:-0.228000   1st Qu.: 0.5210000   1st Qu.:-1.0000  
 Median : 0.0214000   Median :-0.228000   Median : 0.5210000   Median :-1.0000  
 Mean   :-0.0007595   Mean   : 0.000202   Mean   :-0.0002494   Mean   :-0.3539  
 3rd Qu.: 0.9650000   3rd Qu.:-0.228000   3rd Qu.: 0.5210000   3rd Qu.: 1.0000  
 Max.   : 0.9650000   Max.   : 4.380000   Max.   : 0.5210000   Max.   : 1.0000

将数据全部转换为因子类型。可以看到经过转换后，class有四类（贵族、高、中、低）、age有两类（孩子和成人）、sex有两类（男和女）、survive有两类（存活和未存活）。

> data$class <- as.factor(data$class)
> data$age <- as.factor(data$age)
> data$sex <- as.factor(data$sex)
> data$survive <- as.factor(data$survive)
> summary(data)
    class         age          sex       survive  
 -1.87 :325   -0.228:2092   -1.92: 470   -1:1490  
 -0.923:285   4.38  : 109   0.521:1731   1 : 711  
 0.0214:706                                       
 0.965 :885

使用table()函数可查看未存活和存活人数分别为1490人、711人，二者数据量相差较大；如果用这样的数据集建模，可能影响分类结果。

> table(data$survive)

  -1    1 
1490  711

为此，对数据量较少的存活人员样本进行重抽样，使得二者的样本数量一致。

> balance <- function(data,yval) {
+   y.vector <- with(data,get(yval))
+   index.0 <- which(y.vector==-1)
+   index.1 <- which(y.vector==1)
+   index.1 <- sample(index.1, length(index.0), replace = TRUE)
+   result <- data[sample(c(index.0,index.1)),]
+   result
+ }
> 
> sdata <- balance(data, "survive")
> table(sdata$survive)

  -1    1 
1490 1490

将重抽样后的数据分为训练数据集和样本数据集，比例默认按7:3分配。

> apart.data <- function(data, percent = 0.7) {
+   train.index <- sample(c(1:nrow(data)),round(percent*nrow(data)))
+   data.train <- data[train.index,]
+   data.test <- data[-c(train.index),]
+   result <- list(train = data.train, test = data.test)
+   result
+ }
> p.data <- apart.data(sdata)
> data.train <- p.data$train
> data.test <- p.data$test

数据准备妥当后，可以开始采用不同的分类算法构建模型，并使用测试数据集对模型的分类效果进行评估。要构建的模型是关于存活情况survive与class、age以及sex之间的关系，可用如下公式表示。

> mod.formula <- as.formula("survive~class+age+sex")</span>

分类算法1：朴素贝叶斯分类，注意要加载e1071库。应用测试数据集对效果进行评估，结果真正率tpr（也就是“预测活着也真活着的人数”/“实际活着的人数”）为57%，真负率tnr（也就是“预测没活也真没活的人数”/“实际没活的人数”）84%。看来预测“没活”的情况比较准。

> install.packages("e1071")
> library(e1071)
> nb.sol <- naiveBayes(mod.formula, data.train);nb.sol
> nb.predict <- predict(nb.sol, newdata = data.test)
> tb <- table(nb.predict, data.test$survive)
> tpr <- tb[2,2]/(tb[2,2]+tb[1,2]);tpr
[1] 0.5735608
> tnr <- tb[1,1]/(tb[1,1]+tb[2,1]);tnr
[1] 0.8447059

分类算法2：支持向量机（SVM）分类。应用测试数据集对效果进行评估，结果也是真正率tpr较低，真负率tnr较高。

> svm.sol <- svm(mod.formula, data.train);svm.sol
> svm.predict <- predict(svm.sol, data.test)
> tb <- table(svm.predict, data.test$survive)
> tpr <- tb[2,2]/(tb[2,2]+tb[1,2]);tpr
[1] 0.5095949
> tnr <- tb[1,1]/(tb[1,1]+tb[2,1]);tnr
[1] 0.9152941

分类算法3：人工神经网络（ANN）分类，注意加载nnet包。应用测试数据集对效果进行评估，结果也是真正率tpr较低，真负率tnr较高。

> library(nnet)
> nnet.sol <- nnet(mod.formula, data.train, size =7, maxit = 1000);nnet.sol
> pred.prob <- predict(nnet.sol, data.test)
> pred.class <- ifelse(pred.prob>0.5, 1,0)
> table(pred.class, data.test$survive)
> tb <- table(pred.class, data.test$survive)
> tpr <- tb[2,2]/(tb[2,2]+tb[1,2]);tpr
[1] 0.5095949
> tnr <- tb[1,1]/(tb[1,1]+tb[2,1]);tnr
[1] 0.9152941

通过对具体的数据集进行数据的重抽样、划分训练数据集和测试数据集，以及最终实施相应的分类算法，可以加深对于R语言分类分析过程和方法的理解。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

分类算法的R语言实现案例的相关文章

使用R语言进行数据对象获取的mget函数实战

使用R语言进行数据对象获取的mget函数实战在R语言中我们经常需要获取由多个数据对象组成的列表为了高效地获取这些对象 R提供了一个非常方便的函数即mget函数 mget函数可以根据给定的对象名称在当前环境中查找并返回相应的数据对象
R语言实现文本情感分析

在本博客中我们将介绍如何使用R语言进行文本情感分析我们将介绍如何处理文本数据构建模型训练模型并进行情感预测这里我们将使用IMDb电影评论数据集进行示例分析数据准备首先我们需要下载并加载IMDb电影评论数据集可以从这里下载数
R语言学习笔记：分析学生的考试成绩

孩子上初中时拿到过全年级一次考试所有科目的考试成绩表正好可以用于R语言的统计分析学习为了不泄漏孩子的姓名就用学号代替了感兴趣可以下载测试数据进行练习 num class chn math eng phy chem politics
独家

作者 Damir Yalalov 翻译陈超校对赵茹萱本文约1100字建议阅读5分钟本文介绍了ChatGPT如何解决简单的机器学习任务并给出了鸢尾花分类和城市预测两个案例一句话概括 ChatGPT可以帮助你完成简单的机器学习任务
R语言聚类分析

本文首发于公众号医学和生信笔记完美观看体验请至公众号查看本文文章目录系统聚类层次聚类 Hierarchical clustering 快速聚类划分聚类 partitioning clustering K means聚类围绕中心
【python数据挖掘课程】二十七.基于SVM分类器的红酒数据分析

这是 Python数据挖掘课程系列文章前面很多文章都讲解了分类聚类算法这篇文章主要讲解SVM分类算法同时讲解如何读取TXT文件数据并进行数据分析及评价的过程文章比较基础希望对你有所帮助提供些思路也是自己教学的内容推荐大家
使用lattice包的bwplot函数绘制箱图比较多个模型在不同指标上的性能差异（R语言）

使用lattice包的bwplot函数绘制箱图比较多个模型在不同指标上的性能差异 R语言箱图是一种常用的数据可视化方法用于表示一组数据的分布特征包括中位数四分位数异常值等在比较多个模型在多个指标上的性能差异时箱图可以提供直观的
机器学习分类模型-线性回归Linear regression

Linear regression module from collections import Counter import numpy as np import pandas as pd from imblearn over sampl
Coding and Paper Letter（六十一）

2019独角兽企业重金招聘Python工程师标准 gt gt gt 资源整理 1 Coding 1 航拍影像的土地覆盖分类 CAS机器学习人工智能2019 ZHAW 中ML DL分配的仓库 ml dl assignment 2019 2 跨
chatgpt赋能python：用Python对图片进行分类

用Python对图片进行分类在如今的数字时代图片分类是一个越来越常见的任务特别是在搜索引擎优化中图片分类可以让搜索引擎更容易地找到特定类型的图片并在相关的搜索中以更高的排名显示它们在本文中我们将介绍如何使用Python来分类图
R语言实现RMF模型

RMF模型说明 RMF模型是客户管理中常被用来衡量客户价值和客户创利能力的重要方法它主要考量三个指标最近一次消费 Recency 近期购买的客户倾向于再度购买消费频率 Frequency 经常购买的客户再次购买概率高消费金额 Mo
R语言实现推荐系统

目录 1 理论基础 1 1 推荐系统 1 2 R语言 2 数据准备 2 1 数据获取 2 2 数据读取
主成分分析R语言实现

主成分分析是一种常见的降维统计方法它通过适当的变量替换使得新变量成为原变量的线性组合并且新变量间彼此独立从而可从错综复杂的关系中寻求主要成分信息揭示变量内在关系本次主要分享的是该方法的R语言实现目录数据集展示一计算相关系
基于GWO-BP灰狼算法优化BP神经网络多维分类预测研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据讲解文档
目标检测YOLO系列从入门到精通技术详解100篇-【图像处理】图像分类

目录前言知识储备图像分类基础知识 1 具体领域划分 2 图像分类问题的3层境界
软件测试/测试开发/人工智能丨分类，二分类和回归问题的对应场景与区别

分类二分类和回归问题是机器学习中常见的三种任务类型它们分别适用于不同的场景具有不同的目标和输出 1 分类问题 Classification 场景适用于将数据点分到不同的类别或标签中的问题每个类别代表一种离散的类别或状态例子判断
【最新】2023年30米分辨率土地利用遥感监测数据

改革开放以来中国经济的快速发展对土地利用模式产生了深刻的影响同时中国又具有复杂的自然环境背景和广阔的陆地面积其土地利用变化不仅对国家发展也对全球环境变化产生了深刻的影响为了恢复和重建我国土地利用变化的现代过程更好地预测预报土
基于ResNet模型微调的自定义图像数据分类

Import necessary packages import torch import torch nn as nn from torchvision import datasets models transforms from tor
【状态估计】电力系统状态估计中的异常检测与分类（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及详细文
【状态估计】电力系统状态估计中的异常检测与分类（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及详细文

随机推荐

科目1基础知识快速入门精简

科目1 4 科目一又称科目一理论考试驾驶员理论考试学习道路交通安全法律法规和相关知识学习考试内容包括驾车理论基础道路安全法律法规地方性法规等相关知识再加地方性法规考试形式为上机考试 100道题 90分及以上过关科目二又
linux文件编程（1）—— open、write、read、lseek、阻塞问题(ps文件操作/文件描述符/重定向原理/缓冲区/标准错误)

参考 linux文件编程 1 常用API之open write read lseek 作者丶PURSUING 发布时间 2021 04 08 22 19 28 网址 https blog csdn net weixin 44742824
SpringBoot通过QRCode生成二维码

一添加依赖
vue实现多页面应用开发,包含项目之间跳转

需求在一个vue项目工程下需要部署两个项目甚至多个项目实现思路第一步在vue config js文件中配置两个项目的入口 module exports pages index页面是必须的作为主项目的入口页面 index entr
YARN的产生背景和架构剖析

hadoop1存在的问题 1 单点故障可靠性低 JobTracker采用了master slave结构是集群事务的集中处理点存在单点故障 2 单点瓶颈扩展性差需要完成的任务太多 JobTracker兼顾资源管理和作业控制跟踪功能跟
基于计算机视觉的米粒计数检测——Matlab源码实现

基于计算机视觉的米粒计数检测 Matlab源码实现计数是现代生产和科研领域中的重要问题之一在粮食收获领域以小麦为例正确地评估小麦产量对于农业生产和市场供应至关重要然而目前的计数方法多数是通过人工或半自动方式难以快速准确地完成
小程序和网页的区别

小程序和网页有什么区别呢下面我们拿微信小程序来举例运行环境网页在浏览器中运行微信小程序在微信中运行开发环境网页代码编辑器 vscode 网页浏览器 chrome 微信小程序代码编辑器 vscode 微信模拟器微信开发者
mfc140.dll丢失怎样修复-由于找不到mfc140.dll无法继续执行代码的解决方法

mfc140 dll是电脑文件中的dll文件动态链接库文件如果计算机中丢失了某个dll文件可能会导致某些软件和游戏等程序无法正常启动运行并且导致电脑系统弹窗报错在电脑随便打开一个浏览器然后在顶部输入 dll修复程序 site 按下
Linux系统下安装jdk及环境配置（两种方法）

这里介绍两种linux环境下jdk的安装以及环境配置方法在windows系统安装jdk以及环境配置相信大家都会这里就不做赘述了这里主要讲讲linux下的jdk安装以及环境配置第一种属于傻瓜式安装一键安装即可 yum安装第二种手
指针和引用 , 指针空值nullptr

引用和指针 1 引用概念引用不是新定义一个变量而是给已存在变量取了一个别名编译器不会为引用变量开辟内存空间它和它引用的变量共用同一块内存空间使用方式和普通变量相同当原变量来对待比如李逵在家称为铁牛江湖上人称黑旋风底
不同岛屿的数量

694 不同岛屿的数量这道题要给出不同岛屿的数量最直观的想法就是对发现的不同岛屿进行序列化然后把序列化结果存到HashSet 那怎么序列化呢其实比较类似于二叉树的序列化记录遍历顺序方向这里用 1 2 3 4 代表上下左右 1
全网最详细网络安全学习路线！手都给我码酸了！

零基础小白学完掌握可就业入门到入土的网安学习路线在各大平台搜的网安学习路线都太粗略了看不下去了我把自己报班的系统学习路线整理拿出来跟大家分享了本文为纯干货纯文字内容需要详细学习路线图以及配套资料的同学可留言或者后台踢我免费分
什么是计算机视觉

计算机视觉让计算机看懂和视频这是什么场景画面里都有什么人车和房子在什么位置目标在做什么目标间有什么关系视觉是自然智能不可思议的结晶猕猴的大脑皮层中视觉部分占据大约50 人脑中有关视觉的部分所占比重大人类大脑对视觉进行
Linux下EC20实现ppp拨号

硬件描述 EC20模块封装成标准的PCIe接口和系统之家通讯主要通过usb通讯系统描述此处使用的是Linux 3 0 1 一驱动支持首先需要对Linux内核驱动做一定的修改使操作系统能够支持EC20 1 Add VID add
Windows 无法启动MySql服务（位于本地计算机上）错误2：系统找不到指定的文件

错误 Windows 无法启动MySql服务位于本地计算机上错误2 系统找不到指定的文件错误原因服务的路径与安装的路径不一致之前安装过mysql后卸载重装容易出现这样的问题解决方法修改windows注册表 windows r
DC-DC升压电路

目录实验目的课程条件原理框图和实验思路实验原理图电路图分析
memcached server LRU 深入分析

Memcached 人所皆知的remote distribute cache 不知道的可以javaeye一下下或者google一下下或者baidu一下下但是鉴于baidu的排名商业味道太浓从最近得某某事件可以看出所以还是建议jav
【Java基础】异常

文章目录 1 基本信息 2 Throwable 体系 2 1 Exception 2 2 Error 2 3 常见的 Exception 和 Error 3 异常的处理 3 1 抛出异常throw 3 2 捕获异常try catch fin
OpenAI API(ChatGPT)接口地址https://api.openai.com/v1/chat网络问题无法访问Error: connect ECONNREFUSED ETIMEDOUT

https api openai com v1 chat是openAI的API接口地址因为长城的原因 23年年初一次更新后便无法访问访问接口会提示Error connect ETIMEDOUT等网络相关的问题解决办法有三种本文只做方
分类算法的R语言实现案例

最近在读 R语言与网站分析书中对分类聚类算法的讲解通俗易懂和数据挖掘理论一起看的话有很好的参照效果然而这么好的讲解作者居然没提供对应的数据集手痒之余我自己动手整理了一个可用于分类算法的数据集下载链接 csdn下载频道搜索

分类算法的R语言实现案例

分类算法的R语言实现案例 的相关文章

随机推荐

热门标签

分类算法的R语言实现案例的相关文章