在Kaggle手写数字数据集上使用Spark MLlib的朴素贝叶斯模型进行手写数字识别

2023-05-16

昨天我在Kaggle上下载了一份用于手写数字识别的数据集，想通过最近学习到的一些方法来训练一个模型进行手写数字识别。这些数据集是从28×28像素大小的手写数字灰度图像中得来，其中训练数据第一个元素是具体的手写数字，剩下的784个元素是手写数字灰度图像每个像素的灰度值，范围为[0,255]，测试数据则没有训练数据中的第一个元素，只包含784个灰度值。现在我打算使用Spark MLlib中提供的朴素贝叶斯算法来训练模型。

首先来设定Spark上下文的一些参数：

val conf = new SparkConf()
    .setAppName("DigitRecgonizer")
    .setMaster("local[*]")
    .set("spark.driver.memory", "10G")
val sc = new SparkContext(conf)

这样Spark上下文已经创建完毕了，那么现在来读取训练数据吧，在这里我把原本的训练数据的header去掉了，只保留了数据部，训练数据是以csv格式保存的：

val rawData = sc.textFile("file://path/train-noheader.csv")

由于数据是csv格式，所以接下来用“,”将每行数据转换成数组：

val records = rawData.map(line => line.split(","))

下面需要将这些数据处理成朴素贝叶斯能够接受的数据类型LabeledPoint ，此类型接收两个参数，第一个参数是label（标签，在这里就是具体的手写数字），第二个参数是features （特征向量，在这里是784个灰度值）：

    val records = rawData.map(line => line.split(","))
    val data = records.map{ r =>
      val label = r(0).toInt
      val features = r.slice(1, r.size).map(p => p.toDouble)
      LabeledPoint(label, Vectors.dense(features))
    }

现在已经把数据都准备好了，可以开始训练模型了，在MLlib中，只需要简单地调用train 方法就能完成模型的训练：

val nbModel = NaiveBayes.train(data)

现在已经训练出了一个模型，我们看看它在训练数据集上的准确率如何，在这里我将训练数据集的特征传给模型进行训练，将得到的结果与真实的结果进行对比，然后统计出正确的条数，以此来评估模型的准确率，这应该也算是一种交叉验证吧：

    val nbTotalCorrect = data.map { point =>
      if (nbModel.predict(point.features) == point.label) 1 else 0
    }.sum
    val numData = data.count()
    val nbAccuracy = nbTotalCorrect / numData

运行完这段代码，我得到的准确率是0.8261190476190476 。

下面开始对测试数据进行识别了，首先读入测试数据：

val unlabeledData = sc.textFile("file://path/test-noheader.csv")

再用与之前同样的方式进行预处理：

val unlabeledRecords = unlabeledData.map(line => line.split(","))
val features = unlabeledRecords.map{ r =>
  val f = r.map(p => p.toDouble)
  Vectors.dense(f)
}

注意，测试数据中没有标签，所以将它所有数值都作为特征features 。

现在开始对测试数据进行识别，并把结果保存为文件：

    val predictions = nbModel.predict(features).map(p => p.toInt)
    predictions.repartition(1).saveAsTextFile("file://path/digitRec.txt")

到这里所有工作都完成了，之后我把计算出来的结果上传到Kaggle上，发现准确率在0.83左右，与我之前在训练数据集上得到的评估结果相近。

今天就到这里吧，以后可能还会寻找其他的方式来训练模型，看看效果如何。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在Kaggle手写数字数据集上使用Spark MLlib的朴素贝叶斯模型进行手写数字识别的相关文章

Spark on Kubernetes 与 Spark on Yarn 不完全对比分析

前言 Apache Spark 是目前应用最广泛的大数据分析计算工具之一它擅长于批处理和实时流处理并支持机器学习人工智能自然语言处理和数据分析应用随着 Spark 越来越受欢迎使用量越来越大狭义上的 Hadoop MR 技术栈
大数据相关常用软件下载地址集锦

文章目录每日一句正能量前言一软件下载地址如下二文档地址如下结语每日一句正能量生命中有一些人与我们擦肩了却来不及遇见遇见了却来不及相识相识了却来不及熟悉熟悉了却还是要说再见前言由于大数据开发中经常需要用到Z
dolphinschedule使用shell任务结束状态研究

背景配置的dolphin任务使用的是shell shell里包含了spark submit 如下截图 dolphin shell 介绍完毕开始说明现象有天有人调整了集群的cdp配置 executor cores max 1 我之前这
基于Spark的电商用户行为实时分析可视化系统（Flask-SocketIO）

基于Spark的电商用户行为实时分析可视化系统 Flask SocketIO 项目简介该项目已上线蓝桥课程有需要的可凭邀请码 UB5mdLbl 学习哦有优惠课程地址 https www lanqiao cn courses 2629
Spark 源码阅读一-启动脚本

Spark Complile Help Links Because spark 1 5 need maven version 3 3 3 so i track the branch 1 4 git branch a git checkout
Spark大数据分析与实战笔记（第一章 Scala语言基础-3）

文章目录 1 3 Scala的数据结构 1 3 1 数组数组的遍历数组转换 1 3 2 元组创建元组获取元组中的值拉链操作 1 3 3 集合 List Set Map 1 3 Scala的数据结构对于每一门编程语言来说数组 A
spark-submit 报错 Initial job has not accepted any resources

spark submit 报这样的错误 WARN scheduler TaskSchedulerImpl Initial job has not accepted any resources check your cluster UI to
spark_hadoop集群搭建自动化脚本

bin bash 脚本使用说明 1 使用脚本前需要弄好服务器的基础环境 2 在hadoop的每个节点需要手动创建如下目录 data hdfs tmp 3 修改下面的配置参数 4 脚本执行完备后需要收到格式化namenode
使用Flink1.16.0的SQLGateway迁移Hive SQL任务

使用Flink的SQL Gateway迁移Hive SQL任务前言我们有数万个离线任务主要还是默认的DataPhin调度CDP集群的Hive On Tez这种低成本任务当然也有PySpark 打Jar包的Spark和打Jar包的Fl
11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

本案例软件包链接 https pan baidu com s 1zABhjj2umontXe2CYBW DQ 提取码 1123 若链接失效在下面评论我会及时更新目录 1 安装Spark 1 先用xftp将安装包传到home hadoo
大数据手册(Spark)--Spark基本概念

文章目录 Spark 基本概念 Hadoop 生态 Spark 生态 Spark 基本架构 Spark运行基本流程弹性分布式数据集 RDD Spark安装配置 Spark基本概念 Spark基础知识 PySpark版 Spark机器学习
通过yarn提交作业到spark,运行一段时间后报错。

加粗样式
【数据挖掘】数据挖掘比赛项目-kaggle泰坦尼克号

数据挖掘实战项目 kaggle泰坦尼克号生还者预测 ing kaggle泰坦尼克号生还者预测泰坦尼克号从灾难中学习机器 kaggle网站连接链接 https www kaggle com c titanic 一实战项目描述 1 项目
spark SQL基础教程

1 sparkSQL入门 sparksql专门用于处理结构化的数据而RDD还可以处理非结构化的数据 sparksql的优点之一是sparkfsql使用统一的api读取不同的数据第二个优点是可以在语言中使用其他语言例如python 另外
JAVA 安装与简单使用

JAVA简易安装下载安装环境变量进入变量界面设置变量验证JAVA环境运行Java程序个人站 ghzzz cn 还在备案很快就能访问了下载安装第一步当然是从官网下载安装java了网上有很多的教程这里简单的写一下在这里
Spark SQL 项目：实现各区域热门商品前N统计

一需求1 1 需求简介这里的热门商品是从点击量的维度来看的计算各个区域前三大热门商品并备注上每个商品在主要城市中的分布比例超过两个城市用其他显示 1 2 思路分析使用 sql 来完成碰到复杂的需求可以使用 udf 或 udaf查
ValueError：sklearn.RFECV 中不支持未知[重复]

这个问题在这里已经有答案了我试图使用 rfecv 缩小与我的分类器真正相关的特征数量这是我写的代码 import sklearn import pandas as p import numpy as np import scipy as
pandas str.lower() 不适用于数据框列

我正在使用 Kaggle 提供的泰坦尼克号数据集我将它放在数据框中我想将性别列的大小写更改为小写我正在使用以下代码 import pandas as pd df pd read csv titanic csv print dfFu
在 google colab 中找不到 kaggle.json 文件

我正在尝试将 kaggle imagenet 对象本地化挑战数据下载到 google colab 中以便我可以用它来训练我的模型 Kaggle 使用 API 来轻松快速地访问其数据集 https github com Kaggle kag
在 R 中下载 Kaggle zip 文件

我正在尝试直接从 R 代码本身的 Kaggle 空间下载 zip 文件不幸的是它的效果并不好这是发生的事情对于旧金山犯罪数据集请访问https www kaggle com c sf crime data https www ka

随机推荐

手把手教你安装黑苹果之openCore-0.6.3 EFI制作全过程，非常详细

文章目录前言一 EFI是什么 xff1f 二获取EFI1 Hackintosh黑苹果长期维护机型整理清单2 搜索efi 二自制EFI1 OC Gen X图形化一键自动生成EFI 推荐 2 手动下载EFI所需要的文件下载哪些文件下载op
OpenCore 启动菜单界面美化增加gui界面

前言 OpenCore 默认启动界面是类似于命令行一样的黑乎乎的界面习惯了clover华丽的启动界面的小伙伴可能不适应了甚至我之前以为OpenCore启动界面就是这样的不能变呢 xff1f 第一次看到感觉还是clover讨喜其实Ope
secoclient全版本下载分享

前言工作需要使用 secoclient xff0c 同事们大多都用 Windows环境客户提供的客户端也是Windows版本的这就让使用Mac几个同事难受啦用Windows虚拟机 xff1f 根据我的经验 xff0c 一般的VPN客
Centos升级ruby

CentOS7 安装的ruby默认版本是 xff1a ruby v span class token punctuation span 11 43 53 span class token punctuation span ruby 2 0
Windows 11下载

Windows 11是微软于2021年推出的Windows NT系列操作系统 xff0c 为Windows 10的后继者正式版本于2021年10月5日发行 xff0c 并开放给符合条件的Windows 10设备通过Windows Upda
docker容器安装图形桌面

文章目录视频教程版本信息创建一个CONTAINERubuntu官方国内源docker镜像unminimize中文环境设置中文环境安装安装TigerVNC Server安装 xfce4精简版本配置设置vnc密码 vnc xstartup
ubuntu官方国内源

背景之前我一直在使用中科大的源 xff0c 还是挺快的一直也没有感觉有什么问题直到最近在折腾vnc xff0c 发现中科大的源有一些包会404 xff0c 安装不了而我在vmware中的正好是默认的cn archive ubuntu
mame新版ROM下载网站推荐

网站地址 https www retroroms info index php 中文插件安装浏览器插件 https www tampermonkey net UP主自己写的脚本已经失效 https gitee com lxyoucan
RuoYi若依打包发布与部署

上一节我们已经讲过了如果搭建开发环境 xff0c 那么如果代码写完了 xff0c 如何打包发布部署到生产环境呢 xff1f RuoYi开发实战搭建开发环境 https blog csdn net lxyoucan article det
vscode设置Prettier为默认格式化插件

1 目的 xff1a ctrl 43 s保存 xff0c 自动格式化文档 2 所需插件Prettier 3 操作步骤先打开vscode软件 xff0c 左下角点击设置 gt 打开设置 gt 在右上方有一个搜索框先设定自动保存文件 xff
ASUS X415安装系统找不到硬盘解决办法

同事让我帮忙安装系统 xff0c 笔记本电脑型号是ASUS X415 原本以为是手到擒来的事情 xff0c 结果我在上面还是消耗了不少时间现象老毛桃PE 无法识别到硬盘微PE可以识别到硬盘 xff0c 但是系统安装以后 xff0c 无
archlinux中navicat无法使用fcitx5输入法

现象 archlinux中navicat无法使用fcitx5输入法而我在ubuntu中使用navicat调用fcitx输入法是可以正常使用的在网上搜索了很久 xff0c 这方面的文章比较少而我的其他程序输入法又是正常的解决办法参考
JetBrains Gateway IDEA远程开发

为什么进行远程开发 xff1f 无论身处何处数秒内连接至远程环境充分利用远程计算机的强大功能在任何笔记本电脑上都可以轻松工作 xff0c 无论其性能如何借助远程计算机的计算资源 xff0c 充分利用最大规模的数据集和代码库在远程服务
ubuntu 22.04安装nvm

执行安装脚本 span class token function sudo span span class token function apt span span class token function install span spa
手推DNN，CNN池化层，卷积层反向传播

反向传播算法是神经网络中用来学习的算法 xff0c 从网络的输出一直往输出方向计算梯度来更新网络参数 xff0c 达到学习的目的 xff0c 而因为其传播方向与网络的推理方向相反 xff0c 因此成为反向传播神经网络有很多种 xff0c
软件架构概念和面向服务的架构

摘要软件架构作为软件开发过程的一个重要组成部分 xff0c 有着各种各样的方法和路线图 xff0c 它们都有一些共同的原则基于架构的方法作为控制系统构建和演化复杂性的一种手段得到了推广引言在计算机历史中 xff0c 软件变得越来越复
初识强化学习，什么是强化学习？

相信很多人都听过机器学习和深度学习但是听过强化学习的人可能没有那么多那么什么是强化学习呢强化学习是机器学习的一个子领域它可以随着时间的推移自动学习到最优的策略在我们不断变化的纷繁复杂的世界里从更广的角度来看即使是单
强化学习形式与关系

在强化学习中有这么几个术语智能体 Agent 环境 Environment 动作 Action 奖励 Reward 状态 State 有些地方称作观察 Observation 奖励 Reward 在强化学习中奖励是一个标量它是从环境中
多层网络和反向传播笔记

在我之前的博客中讲到了感知器 xff08 感知器 xff09 xff0c 它是用于线性可分模式分类的最简单的神经网络模型 xff0c 单个感知器只能表示线性的决策面 xff0c 而反向传播算法所学习的多层网络能够表示种类繁多的非线性曲面对
在Kaggle手写数字数据集上使用Spark MLlib的朴素贝叶斯模型进行手写数字识别

昨天我在Kaggle上下载了一份用于手写数字识别的数据集 xff0c 想通过最近学习到的一些方法来训练一个模型进行手写数字识别这些数据集是从28 28像素大小的手写数字灰度图像中得来 xff0c 其中训练数据第一个元素是具体的手写数字 x

在Kaggle手写数字数据集上使用Spark MLlib的朴素贝叶斯模型进行手写数字识别

在Kaggle手写数字数据集上使用Spark MLlib的朴素贝叶斯模型进行手写数字识别 的相关文章

随机推荐

热门标签

在Kaggle手写数字数据集上使用Spark MLlib的朴素贝叶斯模型进行手写数字识别的相关文章