基于Python的西瓜数据集 3.0α的SVM实现

2023-05-16

在西瓜数据集 3.0α 上分别用线性核和高斯核训练一个 SVM，并比较其支持向量的差别。
数据集下载地址：
https://amazecourses.obs.cn-north-4.myhuaweicloud.com/datasets/watermelon_3a.csv
任选数据集中的一种分布类型的数据，分别用软、硬间隔SVM和各类核函数训练，并分析他们分类的效果。
数据集下载地址：https://amazecourses.obs.cn-north-4.myhuaweicloud.com/datasets/SVM.zip

由于课业繁忙，实在是没有时间从底层数学逻辑来实现SVM从而更好地理解把握支持向量机的原理。因此本次作业利用sklearn实现。
此博客为第一问的SVM的简单实现。
1. SVM实现
下方的链接博客很详细的给出了sklearn中SVM的参数，值得参考。

https://www.cnblogs.com/guodavid/p/10174763.html

数据导入与处理

def load_dataset(fname):
    # fname = 'ensemble_study/dataset/weatherHistory.csv'
    data = pd.read_csv(fname, index_col=0)
    return data


def process_data(data: pd.core.frame.DataFrame):
    data.drop('编号', axis=1, inplace=True)
    feature_list = data['色泽'].unique().tolist()
    # print(feature_list)
    data['色泽'] = data['色泽'].apply(lambda n: feature_list.index(n))
    feature_list = data['根蒂'].unique().tolist()
    data['根蒂'] = data['根蒂'].apply(lambda n: feature_list.index(n))
    feature_list = data['敲声'].unique().tolist()
    data['敲声'] = data['敲声'].apply(lambda n: feature_list.index(n))
    feature_list = data['纹理'].unique().tolist()
    data['纹理'] = data['纹理'].apply(lambda n: feature_list.index(n))
    feature_list = data['脐部'].unique().tolist()
    data['脐部'] = data['脐部'].apply(lambda n: feature_list.index(n))
    feature_list = data['触感'].unique().tolist()
    data['触感'] = data['触感'].apply(lambda n: feature_list.index(n))
    feature_list = ['否', '是']
    data['好瓜'] = data['好瓜'].apply(lambda n: feature_list.index(n))

    return data


def split_train_test_set(data: pd.core.frame.DataFrame):
    y = data['好瓜'].values
    data.drop('好瓜', axis=1, inplace=True)
    xtrain, xtest, ytrain, ytest = train_test_split(data, y, test_size=0.2)
    return xtrain, xtest, ytrain, ytest

数据处理部分主要做的是将数据集中的中文特征标签全部利用序列号编号处理，即利用数值来代表，再去除掉编号这一无用数据特征，将目标特征单独提出，之后利用sklearn的train_test_split方法随机划分数据集。

- 线性核，高斯核的支持向量机实现

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2020/12/19 19:54
# @Author  : Ryu
# @Site    : 
# @File    : SVM.py
# @Software: PyCharm

from data_process import *
from sklearn import svm
from sklearn.metrics import accuracy_score
from visual import visual
import copy

if __name__ == '__main__':
    file_name = 'D:\Pythonwork\FisherLDA\SVM\watermelon_3a.csv'

    data = load_dataset(file_name)
    raw_data = copy.deepcopy(data)
    train = process_data(raw_data)
    xtrain, xtest, ytrain, ytest = split_train_test_set(train)

    # 线性核处理
    linear_svm = svm.LinearSVC(C=0.5, class_weight='balanced')
    linear_svm.fit(xtrain, ytrain)
    y_pred = linear_svm.predict(xtest)
    print('线性核的准确率为：{}'.format(accuracy_score(y_pred=y_pred, y_true=ytest)))

    # 高斯核处理
    gauss_svm = svm.SVC(C=0.5, kernel='rbf', class_weight='balanced')
    gauss_svm.fit(xtrain, ytrain)
    y_pred2 = gauss_svm.predict(xtest)
    print('高斯核的准确率: %s' % (accuracy_score(y_pred=y_pred2, y_true=ytest)))

    #多项式核
    poly_svm = svm.SVC(C=0.5, kernel='poly', degree=3, gamma='auto', coef0=0, class_weight='balanced')
    poly_svm.fit(xtrain, ytrain)
    y_pred3 = poly_svm.predict(xtest)
    print('多项式核的准确率: %s' % (accuracy_score(y_pred=y_pred3, y_true=ytest)))

    #sigmoid核
    sigmoid_svm = svm.SVC(C=0.5, kernel='sigmoid', degree=3, gamma='auto', coef0=0, class_weight='balanced')
    sigmoid_svm.fit(xtrain, ytrain)
    y_pred4 = sigmoid_svm.predict(xtest)
    print('sigmoid核的准确率: %s' % (accuracy_score(y_pred=y_pred4, y_true=ytest)))


    visual(data, 'gauss_svm', gauss_svm)
    visual(data, 'sigmoid svm', sigmoid_svm)

需要说明的是，上述代码中惩罚系数均使用0.5完成。线性核和高斯核的两个SVM中笔者均将class_weighted这个参数设置为了‘balanced’，利用自动计算的样本权值来调整数据集分布——主要愿意是样本数据只有17个，实在是太小了，导致任意一个样本的分类不当都会对整个SVM的准确率产生极大的影响。

实验分析

在class_weighted参数未加入时，实验效果极差。由于样本数很少，划分训练测试数据集时比率取到0.2已是极限。在这种情况下，如果不采用加权样本分类的方法，两个核函数的SVM最终结果基本只有很小概率能够达到50%以上。在加入了之后正确率基本能够稳定在67%以上。并且线性划分的效果基本都好于高斯核的效果。这可能也与训练集过于简单有关。
由于线性svm在sklearn中没有特征向量支持，故选用sigmoid的核替代展示。可以明显的发现，sigmoid的分类效果不尽人如意。

在这里插入图片描述
高斯核的分类效果相较sigmoid更好，经多次试验发现也更加稳定。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

基于Python的西瓜数据集 3.0α的SVM实现的相关文章

如何访问pandas数据框中的多级索引？

我想用相同的索引来调用这些行这是示例数据框 arrays np array bar bar baz baz foo foo qux qux np array one two one two one two one two df pd Da
将 pandas 数据框中的列减去其第一个值

我需要将 pandas 数据帧的一列中的所有元素减去其第一个值在这段代码中 pandas 抱怨 self inferred type 我猜这是循环引用 df Time df Time df Time 0 在这段代码中 pandas 抱怨为
打印 scrapy 请求的“响应”

我正在尝试学习 scrapy 在遵循教程的同时我正在尝试进行细微的调整我想简单地从请求中获取响应内容然后我会将响应传递到教程代码中但我无法发出请求并获取响应内容建议就好 from scrapy http import Respon
为什么我不能导入 geopandas？

我唯一的代码行是 import geopandas 它给了我错误 OSError Could not find libspatialindex c library file 以前有人遇到过这个吗我的脚本运行得很好直到出现此错误请注意
如何在 Ubuntu 上安装 Python 模块

我刚刚用Python写了一个函数然后我想将其做成模块并安装在我的 Ubuntu 11 04 上这就是我所做的创建 setup py 和 function py 文件使用 Python2 7 setup py sdist 构建分发文
VSCode pytest 测试发现失败

Pytest 测试发现失败用户界面指出 Test discovery error please check the configuration settings for the tests 输出窗口显示 Test Discovery fa
使用 genfromtxt 导入 numpy 中缺失值的 csv 数据

我有一个 csv 文件看起来像这样实际文件有更多的列和行 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 假设文件的名称是info csv如果我尝试使用导入它 data numpy genfromtxt i
Pandas：根据列名进行列的成对乘法

我有以下数据框 gt gt gt df pd DataFrame ap1 X 1 2 3 4 as1 X 1 2 3 4 ap2 X 2 2 2 2 as2 X 3 3 3 3 gt gt gt df ap1 X as1 X ap2 X a
在wxpython中使用wx.TextCtrl并在按钮单击后显示数据的简单示例 - wx新手

我正在学习 python 并尝试使用 wxpython 进行 UI 开发也没有 UI exp 我已经能够创建一个带有面板按钮和文本输入框的框架我希望能够在文本框中输入文本并让程序在单击按钮后对输入框中的文本执行操作我可以获得一些关
使用 python 将文本发送到带有逗号分隔符的列

如何使用分隔符在 Excel 中将一列分成两列并使用 python 命名标题这是我的代码 import openpyxl w openpyxl load workbook DDdata xlsx active w active a a
在 Windows 上使用 IPython 笔记本时出现 500 服务器错误

我刚刚在 Windows 7 Professional 64 位上全新安装了 IPython 笔记本我采取的步骤是从以下位置安装 Python 3 4 1http python org http python org gt pip in
urllib2.urlopen() 是否实际获取页面？

当我使用 urllib2 urlopen 时我在考虑它只是为了读取标题还是实际上带回整个网页 IE 是否真的通过 urlopen 调用或 read 调用获取 HTML 页面 handle urllib2 urlopen url html
如何逐像素绘制正方形（Python，PIL）

在空白画布上我想使用 Pillow 逐像素绘制一个正方形我尝试使用 img putpixel 30 60 155 155 55 绘制一个像素但它没有执行任何操作 from PIL import Image def newImg img
FastText - 由于 C++ 扩展未能分配内存，无法加载 model.bin

我正在尝试使用 FastText Python APIhttps pypi python org pypi fasttext https pypi python org pypi fasttext虽然据我所知此 API 无法加载较新的
Python Flask 是否定义了路由顺序？

在我看来我的设置类似于以下内容 app route test def test app route
在pycharm中调试python代码

这个问题类似于this https stackoverflow com questions 10240018 how to use pycharm to debug python script一我正在尝试调试pyethapp https
WindowsError：[错误 5] 访问被拒绝

我一直在尝试终止一个进程但我的所有选项都给出了 Windows 访问被拒绝错误我通过以下方式打开进程一个python脚本 test subprocess Popen sys executable testsc py 我想杀死那个进程
使用 Doc2vec 后如何解释 Clusters 结果？

我正在使用 doc2vec 将关注者的前 100 条推文转换为矢量表示形式例如 v1 v100 之后我使用向量表示来进行 K 均值聚类 model Doc2Vec documents t size 100 alpha 035 windo
将 Scikit-Learn OneHotEncoder 与 Pandas DataFrame 结合使用

我正在尝试使用 Scikit Learn 的 OneHotEncoder 将 Pandas DataFrame 中包含字符串的列替换为 one hot 编码的等效项我的下面的代码不起作用 from sklearn preprocessin
使用 Keras 和 fit_generator 绘制 TensorBoard 分布和直方图

我正在使用 Keras 使用 fit generator 函数训练 CNN 这似乎是一个已知问题 https github com fchollet keras issues 3358TensorBoard 在此设置中不显示直方图和分布有

随机推荐

hexo+github搭建个人博客

主要工具简介 GitHub 使用GitHub托管代码 xff0c 将你的博客发布到网上供他人浏览 git 主要使用git bash git 程序员的时光机 xff0c 保存文件 xff0c 为你随时恢复你想要的版本本次搭建博客过程中使用g
5.3-第五章-表单-第三节-select表单元素-下拉列表-＜select size=“2“ multiple＞＜option selected＞

select表单元素 xff0c 主要用于下拉列表 xff0c 下拉列表也是常用的元素 xff0c 优势是 xff0c 可以节省页面显示区域用来定义列表 xff0c 用来定义列表项的name属性很重要的value属性很重要我们并不陌
Settings搜索栏数据搜索流程之搜索和页面跳转

Settings搜索栏数据搜索流程之数据初始化操作腾格尔黑哥的博客 CSDN博客在之前已经分享过搜索栏搜索数据的界面加载数据库初始化操作 xff0c 接下来分享一下大家最想知道的数据搜索和页面跳转以我当前使用的手机界面为例 xff0
简单通俗的让你了解什么是ajax，即使你是小白，菜鸟也能看懂！

什么是ajax呢 xff1f 看这里吧 xff01 结合现实中的例子 xff0c 通俗易懂 xff0c 让你一看就会 xff01 题外话 xff1a 我因为个人原因 xff0c 在老师讲ajax的时候 xff0c 我没有在学校 xff0c
【项目精选】springboot音乐网站与分享平台（论文+源码）

x1f449 x1f449 x1f449 如果你对该系统或者计算机专业的毕业设计有任何疑问或者需要 xff0c 可以在评论区留言或者私信我哦 xff01 本论文主要论述了如何使用JAVA语言开发一个音乐网站与分享平台 xff0c 本系统将严
react-native集成极光推送

目录环境一安装二配置2 1 Android2 2 IOS2 2 1 pod2 2 2 手动方式总结环境 span class token string 34 react 34 span span class token punct
Java笔记（2）——数组

0 数组的用法数组的初始化前面永远是空的数组初始化完成 xff0c 数组的长度是固定的 span class token comment 静态初始化 xff1a 数组的初始化和数组的元素赋值同时进行 span span class t
-信号量(Semaphore)在生产者和消费者模式的使用

转自 xff1a http blog csdn net java2000 net article details 3997449 Semaphore 信号量 xff0c 就是一个允许实现设置好的令牌也许有1个 xff0c 也许有10个或更
浅谈 Btrfs 文件系统的特点、优缺点以及使用场景

Btrfs xff08 B Tree File System xff09 是一种先进的日志文件系统 xff0c 最初由 Oracle 开发 xff0c 现在已被广泛应用于 Linux 中下面是 Btrfs 文件系统的特点优缺点以及使用场
componentWillUnmount父子组件触发先后

当时碰到一个问题 xff1a 父组件的componentWillUnmount最先触发把缓存清除了 xff0c 但是子组件的componentWillUnmount后触发将缓存有加上了 xff0c 所以想要父组件的componentWill
PYHON通过SFTP批量提取特定数据

1 sftp批量提取绝对好用 usr bin python coding 61 utf 8 import paramiko import os time sys import configparser default encodeing
水声通信中适用的调制技术及分析（FSK、PSK、DPSK）

水声通信中适用的调制技术及分析 xff08 FSK PSK DPSK xff09 摘要 xff1a 1 引言2 频移键控调制FSK2 1 频移键控 xff08 2FSK xff09 信号的产生2 1 1模拟调频电路方法产生相位连续的2FSK
Ubuntu20.10编译安装Python3.8

1 更新软件包列表并安装构建Python所需的软件包 xff1a sudo apt update sudo apt install build essential zlib1g dev libncurses5 dev libgdbm dev
Spring中把一个bean对象交给Spring容器管理的三种方式

一使用 64 Component 把bean对象依赖交给Spring容器注意 xff0c 该注解不能使用 xff0c 则说明未添加依赖 xff0c 需要去该项目pom xml文件内引入依赖 xff0c 若该项目只是作为一个存放工具类的子
三种方法求图中连通分量的个数（BFS、DFS、并查集）

1 连通分量是什么无向图G的极大连通子图称为G的连通分量 Connected Component 任何连通图的连通分量只有一个 xff0c 即是其自身 xff0c 非连通的无向图有多个连通分量 2 案例 2 1 图极其数据结构初始化 2
Vue： ‘xxx‘ is defined but never used 且没有eslintrc.js文件的解决方案

xxx is defined but never used vue项目eslint提示 xxx is defined but never used 问题 xff0c 网上看是要在 eslintrc js中配置 xff0c 但是我发现并没有
Error Code: 3065. Expression #1 of ORDER BY clause is not in SELECT list, references column ‘hsop_au

1 错误分析昨天将代码上线 xff0c 在测试上跑都是没有问题的 xff0c 但是生产上就有问题了 xff0c 测试环境mysql版本与生产环境mysql版本不一致 xff0c 因此定位到问题是mysql版本不一致导致的把报错信息打印出
Statement和PreparedStatement的区别与联系

下面简要说明一下他们的区别与联系 xff1a 联系 xff1a 1 PreParedStatement是Statement接口的子接口 2 PreParedStatement和Statement都可以实现对数据表的CRUD操作 xff1a
Java笔记（3）——面向对对象机制

Java面向对象机制 Java类和对象是Java的两大成员两大要素类 xff1a 对一类事物的描述 xff0c 是抽象的概念上的描述对象 xff1a 实际存在的事物的个体 Java类极其类的成员 xff1a 属性方法构造器
基于Python的西瓜数据集 3.0α的SVM实现

在西瓜数据集 3 0 上分别用线性核和高斯核训练一个 SVM xff0c 并比较其支持向量的差别数据集下载地址 xff1a https amazecourses obs cn north 4 myhuaweicloud com datas

基于Python的西瓜数据集 3.0α的SVM实现

基于Python的西瓜数据集 3.0α的SVM实现 的相关文章

随机推荐

热门标签

基于Python的西瓜数据集 3.0α的SVM实现的相关文章