数据分析之乳腺癌预测

2023-05-16

零、定义问题

1.1 数据介绍

http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.names

＃属性域

1.示例代码号码

2.块厚度1 - 10

3.细胞大小的一致性1 - 10

4.电池形状的均匀性1 - 10

5.边缘附着力1 - 10

6.单个上皮细胞大小1 - 10

7.裸核1 - 10

8.平淡的染色质1 - 10

9.正常核仁1 - 10

10.有丝分裂1 - 10

11.分类：（2为良性，4为恶性）

1.2 问题定义

这是一个乳腺癌的数据集，主要通过训练来分出是否患有乳腺癌

一、导入数据

1.1 导入类库

In [2]:


# 导入类库
from pandas import read_csv
import pandas as pd
from sklearn import datasets
from pandas.plotting import scatter_matrix
from matplotlib import pyplot
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LogisticRegression

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns #要注意的是一旦导入了seaborn，matplotlib的默认作图风格就会被覆盖成seaborn的格式
%matplotlib notebook

1.2 导入数据集

Sample code number id number
Clump Thickness 1 - 10
Uniformity of Cell Size 1 - 10
Uniformity of Cell Shape 1 - 10
Marginal Adhesion 1 - 10
Single Epithelial Cell Size 1 - 10
Bare Nuclei 1 - 10
Bland Chromatin 1 - 10
Normal Nucleoli 1 - 10
1. Mitoses 1 - 10
2. Class: (2 for benign, 4 for malignant)

In [3]:


# 导入数据
breast_cancer_data =pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data',header=None
                               ,names = ['C_D','C_T','U_C_Si','U_C_Sh','M_A','S_E_C_S'
                                        ,'B_N','B_C','N_N','M','Class'])

二、数据概述

2.1 查看数据维度

In [4]:


#显示数据维度
print (breast_cancer_data.shape)


(699, 11)

2.2 查看数据

In [5]:


breast_cancer_data.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 699 entries, 0 to 698
Data columns (total 11 columns):
C_D        699 non-null int64
C_T        699 non-null int64
U_C_Si     699 non-null int64
U_C_Sh     699 non-null int64
M_A        699 non-null int64
S_E_C_S    699 non-null int64
B_N        699 non-null object
B_C        699 non-null int64
N_N        699 non-null int64
M          699 non-null int64
Class      699 non-null int64
dtypes: int64(10), object(1)
memory usage: 57.4+ KB

In [6]:


breast_cancer_data.head(25)  # 这里注意id 1057013 的B_N为空值，用？代替。

Out[6]:

	C_D	C_T	U_C_Si	U_C_Sh	M_A	S_E_C_S	B_N	B_C	N_N	M	Class
0	1000025	5	1	1	1	2	1	3	1	1	2
1	1002945	5	4	4	5	7	10	3	2	1	2
2	1015425	3	1	1	1	2	2	3	1	1	2
3	1016277	6	8	8	1	3	4	3	7	1	2
4	1017023	4	1	1	3	2	1	3	1	1	2
5	1017122	8	10	10	8	7	10	9	7	1	4
6	1018099	1	1	1	1	2	10	3	1	1	2
7	1018561	2	1	2	1	2	1	3	1	1	2
8	1033078	2	1	1	1	2	1	1	1	5	2
9	1033078	4	2	1	1	2	1	2	1	1	2
10	1035283	1	1	1	1	1	1	3	1	1	2
11	1036172	2	1	1	1	2	1	2	1	1	2
12	1041801	5	3	3	3	2	3	4	4	1	4
13	1043999	1	1	1	1	2	3	3	1	1	2
14	1044572	8	7	5	10	7	9	5	5	4	4
15	1047630	7	4	6	4	6	1	4	3	1	4
16	1048672	4	1	1	1	2	1	2	1	1	2
17	1049815	4	1	1	1	2	1	3	1	1	2
18	1050670	10	7	7	6	4	10	4	1	2	4
19	1050718	6	1	1	1	2	1	3	1	1	2
20	1054590	7	3	2	10	5	10	5	4	4	4
21	1054593	10	5	5	3	6	7	7	10	1	4
22	1056784	3	1	1	1	2	1	2	1	1	2
23	1057013	8	4	5	1	2	?	7	3	1	4
24	1059552	1	1	1	1	2	1	3	1	1	2

2.2 数据统计描述

In [8]:


print(breast_cancer_data.describe())


                C_D         C_T      U_C_Si      U_C_Sh         M_A  \
count  6.990000e+02  699.000000  699.000000  699.000000  699.000000   
mean   1.071704e+06    4.417740    3.134478    3.207439    2.806867   
std    6.170957e+05    2.815741    3.051459    2.971913    2.855379   
min    6.163400e+04    1.000000    1.000000    1.000000    1.000000   
25%    8.706885e+05    2.000000    1.000000    1.000000    1.000000   
50%    1.171710e+06    4.000000    1.000000    1.000000    1.000000   
75%    1.238298e+06    6.000000    5.000000    5.000000    4.000000   
max    1.345435e+07   10.000000   10.000000   10.000000   10.000000   

          S_E_C_S         B_C         N_N           M       Class  
count  699.000000  699.000000  699.000000  699.000000  699.000000  
mean     3.216023    3.437768    2.866953    1.589413    2.689557  
std      2.214300    2.438364    3.053634    1.715078    0.951273  
min      1.000000    1.000000    1.000000    1.000000    2.000000  
25%      2.000000    2.000000    1.000000    1.000000    2.000000  
50%      2.000000    3.000000    1.000000    1.000000    2.000000  
75%      4.000000    5.000000    4.000000    1.000000    4.000000  
max     10.000000   10.000000   10.000000   10.000000    4.000000

2.2 数据分布情况

In [9]:


print(breast_cancer_data.groupby('Class').size())


Class
2    458
4    241
dtype: int64

2.3 缺失数据处理

In [11]:


mean_value = breast_cancer_data[breast_cancer_data["B_N"] != "?"]["B_N"].astype(np.int).mean() # 计算异常值列的平均值

In [12]:


breast_cancer_data = breast_cancer_data.replace('?',mean_value) # na替换？

In [13]:


breast_cancer_data["B_N"] = breast_cancer_data["B_N"].astype(np.int64)

三、数据可视化

3.1单变量图表

In [16]:


# 箱线图
breast_cancer_data.plot(kind='box', subplots=True, layout=(3,4), sharex=False, sharey=False)
pyplot.show()

In [17]:


# 直方图
breast_cancer_data.hist()
pyplot.show()

3.1多变量图表

In [19]:


# 散点矩阵图
scatter_matrix(breast_cancer_data)
pyplot.show()

四、评估算法

4.1分离数据集

In [52]:


# 分离数据集
array = breast_cancer_data.values
X = array[:, 1:9] # C_D为编号，与Y无相关性，过滤掉
Y = array[:, 10]


validation_size = 0.2
seed = 7
X_train, X_validation, Y_train, Y_validation = train_test_split(X, Y, test_size=validation_size, random_state=seed)

4.2评估算法

In [55]:


# 算法审查
models = {}
models['LR'] = LogisticRegression()
models['LDA'] = LinearDiscriminantAnalysis()
models['KNN'] = KNeighborsClassifier()
models['CART'] = DecisionTreeClassifier()
models['NB'] = GaussianNB()
models['SVM'] = SVC()

num_folds = 10
seed = 7
kfold = KFold(n_splits=num_folds, random_state=seed)
# 评估算法
results = []
for name in models:
    result = cross_val_score(models[name], X_train, Y_train, cv=kfold, scoring='accuracy')
    results.append(result)
    msg = '%s: %.3f (%.3f)' % (name, result.mean(), result.std())
    print(msg)
    
# 图表显示
fig = pyplot.figure()
fig.suptitle('Algorithm Comparison')
ax = fig.add_subplot(111)
pyplot.boxplot(results)
ax.set_xticklabels(models.keys())
pyplot.show()


KNN: 0.973 (0.018)
LDA: 0.959 (0.030)
SVM: 0.953 (0.036)
NB: 0.962 (0.031)
CART: 0.941 (0.033)
LR: 0.961 (0.026)

五、实施预测

In [75]:


#使用评估数据集评估算法
knn = KNeighborsClassifier()
knn.fit(X=X_train, y=Y_train)
predictions = knn.predict(X_validation)
print(accuracy_score(Y_validation, predictions))
print(confusion_matrix(Y_validation, predictions))
print(classification_report(Y_validation, predictions))


0.971428571429
[[89  2]
 [ 2 47]]
             precision    recall  f1-score   support

          2       0.98      0.98      0.98        91
          4       0.96      0.96      0.96        49

avg / total       0.97      0.97      0.97       140

六、git与参考

git ：若云机器学习公开仓库

参考：机器学习之Python - 魏贞原 - 科技科普 - 原创 | 豆瓣阅读

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析之乳腺癌预测

数据分析之乳腺癌预测的相关文章

STM32F1xx及STM32F2系列串口，SPI配置，CAN配置

平时常用的串口和SPI配置在这里列出来 xff0c 以便不时之需 xff0c 直接拿过来用同时指出了STM32F1系列和STM32F2系列经常出现的问题使用的库函数为标准库函数 xff0c 而非HAL库一串口的配置 xff1a ST
嵌入式中缓冲区队列的实现

在串口 xff0c IIC或SPI以及CAN等通信中 xff0c 往往需要一次性发送一帧完整的数据 xff0c 由于硬件发送的速度问题 xff0c 硬件不能及时发送出去 xff0c 就会导致数据丢失等一系列问题通常采用建立缓冲区解决队列
FreeRTOS中断优先级，临界区的配置（特别重要）

一背景网上有许多关于FreeRTOS中断优先级的配置资料 xff0c 但是在v10 0中个别配置项发生了变化 xff0c 在这篇文章中详细的介绍了整个优先级管理配置方案 ARM芯片的优先级为0 255 不同的芯片厂商所用的优先级不同 x
推荐EI、SCI期刊及投稿建议-备忘（转）

推荐EI SCI期刊及投稿建议备忘 EI检索期刊计算机方面SCI和EI期刊 xff08 EI期刊会议注册前推荐 xff09 大会注册前推荐的EI期刊 xff1a 英文投稿的一点经验转载再加两封催稿信英语不好 xff0c 但意思表达到
arm linux的入口部分的代码分析笔记

原文转载自http bbs chinaunix net thread 2039668 1 1 html xff0c 写的不错 xff0c 在这里首先感谢作者查看带有图片的文章请移步 https blog zh123 top p 61 27
树莓派上使用python实现LCD1602显示当前ip

树莓派一般运行Linux操作系统后通过远程控制来运行 xff0c 但是往往由于网络原因导致树莓派分配的ip地址被改变 xff0c 致使需要重新连接屏幕后才能查看树莓派的当前ip 最近手头有个LCD1602 xff0c 所以尝试将通过驱动LC
FreeRTOS三种数据结构区别（StreamBuffer，MessageBuffer，Queue）

转载自博客 xff1a https blog zh123 top p 61 308 Queue队列是最基本的数据结构 xff0c 在FreeRTOS v10 0后提供了另外两种高级数据结构为Streambuffer和MessageBuffe
openCV学习之错误记录

本片blog用来记录平时学习过程中遇到的错误 xff0c 以及解决办法 xff1b 错误1 错误提示 xff1a 在using namespace cv 前缺少一个原因 xff0c 是在引用的头文件中存在一个类等结束后未加错误2 cv
linux小技巧——使用MobaXterm宏进行linux批量命令执行——一看就会

场景 xff1a 我们经常登录linux跳板机去查看应用的日志 xff0c 但是看日志的时候 xff0c 需要输入很多的命令 xff0c 这些命令实际上 xff0c 每一次输入都是重复的 xff0c 特别是命令条数较多的时候 xff0c 这
FastJson小技巧——@JSONField的史上最全最详细讲解——一看就会

常见 xff1a 使用fastjson进行需要对字段进行一些特殊处理 xff0c 比如时间格式 xff0c 前后端名字不一致 xff0c 字段为null是否依然序列化等问题那么fastjson的 64 JSONField就能很好的解决这些
Apollo配置语法——Apollo配置List和Map以及组合应用——非常详细

文章目录 1 正常的list和map形式2 mapAndMap形式 mapAndList形式3 属性前缀注入4 全部代码场景 xff1a 最近使用老东家携程的开源软件Apollo配置中心的时候 xff0c 需要一个map中的value也是
EL1041E: After parsing a valid expression, there is still more data in the expression: ‘comma(,)‘

出现这个东西的原因就是使用 64 Value设置的值出错了比如 span class token annotation punctuation 64 Value span span class token punctuation span
spring入参为指定值，校验java入参的值为规定的值，利用Validator指定值校验注解——一看就会

我们在使用spring项目的时候 xff0c 经常使用 64 Valid来对入参进行校验 xff0c 比如必须为空 xff0c 必须不为空 xff0c 长度多少 xff0c 是否符合邮件格式等等 xff0c 同时也可以正则如下图所示 xf
不小心删除了gitlab远端分支怎么恢复

git操作的时候 xff0c 有时候误操作了删除远端分支那么恢复有2种办法第一种 xff0c 非常简单 xff0c 一般电脑上都有该远端分支的本地分支 xff0c 若是有的话 xff0c 找最近一次提交了的同事再次push一下就好
pytorch中.pth模型中增加、删除、更改名称、更改参数的操作

pytorch中 pth模型中增加删除更改名称更改参数的操作 pytorch中的pre train模型该类模型的修改参数修改增减卷积层非官方的pretrain model去除pretrain model 最后一层或某一层 pytor
简单分析@NestedConfigurationProperty的作用

看源码的时候 xff0c 碰到这个注解 64 NestedConfigurationProperty xff0c 之前知道 64 ConfigurationProperty是设置值的 xff0c 但是nested就不清楚了分析如下查看源
java开发的正常开发步骤和进度总结

项目规范需求排期阶段 1 业务提需求 xff0c 业务与PD和技术初步探讨业务背景和需求在此阶段 xff0c 开发人员的目标是提前的了解需求 xff0c 想业务之所想 xff0c 丰富和优化需求所以 xff0c 开发人员 xff0c
降级、熔断和限流———一看就会

设定 xff1a A上游系统 B本系统 C下游系统服务降级服务降级是从整个系统B的负荷情况出发和考虑的 xff0c 对某些负荷会比较高的情况 xff0c 为了预防某些功能 xff08 业务场景 xff09 出现负荷过载或者响应慢的情况

随机推荐

高保链路分析——一看就会

高保链路分析本身接口超时降级调用本接口耗时超过规定时间立马返回超时报文限流降级调用本接口QPS超过规定数值立马返回限流报文兜底返回 xff08 代码容错 xff09 trycatch未知异常 xff0c 兜底返回报文业务逻辑
android应用层操作底层硬件

app操作底层硬件没权限的解决办法 xff1a 1 若机器已经root过 xff0c 可直接在应用层中操作 xff1a String apkRoot 61 34 chmod 777 34 43 getPackageCodePath Syst
ARM 安装中文输入法

TX2 为嵌入式开发板 xff0c 系统架构为ARM xff0c 普通的PC上的Linux系统安装中文输入法的方法不适用 xff0c 所以这里提供ARM上的中文输入法的安装方法步骤1 xff1a 打开终端 xff0c 输入以下命令 sud
cordova 打包步骤

年底了 xff0c 好多资料都在整理 xff0c 为了避免遗忘 xff0c 也为了利益他人吧直接上步骤吧 xff1a 增加运行环境的模板 cordova platform add android 编译android的程序 cordova
BlueROV-7: Keep Learning Dronekit

The motors can spin now by using the following program from dronekit import connect VehicleMode import sys import time C
BlueROV-8: Functions to Drive the Vehicle

Some functions like goto function or speed setting function are limited because they are GPS dependent GPS is not availa
BlueROV-9: Driving Control

Home location http python dronekit io guide vehicle state and parameters html The Home location isset when a vehicle fir
人工智能发展简史

人工智能发展简史第一章 xff1a 起步期 20世纪50年代及以前1 1 计算机象棋博弈 xff08 Programming a computer for playing chess xff09 1 2 图灵测试 xff08 Turing
对角度滤波时0-360度跳变的解决办法

对角度滤波的过程中会发现 xff0c 视觉direction方向会发生0 360的数值跳变 xff0c 为了解决这个问题 xff0c 需要将0和360度之间的间断点变成连续可导的函数 xff0c 经过摸索 xff0c 想出一个办法 xff0
电机控制龙伯格观测器永磁同步电机无传感器控制全C代码程序

电机控制龙伯格观测器永磁同步电机无传感器控制全C代码程序成熟产品方案 DSP28335 xff08 1 xff09 全C程序完成由电机参数电流微分方程构建dq轴误差模型控制参数逻辑变换低通滤波器转速滤波和转子角度积分等控制环节
ROS学习笔记-1: 构建工作空间-创建catkin包-编写发布器与订阅器

1 ROS文件系统介绍 http wiki ros org cn ROS Tutorials NavigatingTheFilesystem 2 Installing catkin http wiki ros org catkin Inst
信息安全重点知识

一信息安全概述网络空间安全的重要性 xff1a 没有网络安全就没有国家安全信息安全 xff1a 防止数据未授权的访问 xff0c 数据有意和物一的威胁网络安全是信息安全的子集信息安全的三要素 xff08 CIA xff09 xff1
海天注塑机KEBA系统数据采集

本文章只针对海天注塑机的KEBA系统 xff0c 因为其他注塑机厂家也用KEBA系统 xff0c 他们的采集方式可能不太一样 xff0c 所以后续有时间我将写其他文章来解释 xff08 默认你已经向海天采购了OPC组件 xff09 一采集
Axure基础：事件和动态面板

这一篇文章我们主要是将如何做系统左侧的导航 xff0c 并且告诉大家如何动态的切换各个页面一事件 1 事件基础事件的核心就是什么时候做什么事其中的什么时候可以是如下 xff1a 能做的事情如下 xff1a 2 远程监控云中的事件监
设备联网调试三板斧

在实际的工业互联网项目中 xff0c 设备联网所占的比重越来越大有的一期项目为了简单快速上线 xff0c 让客户直观体会到工业互联网的效果 xff0c 直接会把设备联网放在一期项目的重点那么在做此类项目时 xff0c 设备联网调试就显得
光立方完全解析

转载请注明出处 xff1a http blog csdn net ruoyunliufeng article details 37903899 这个4 4 4的三色光立方是我在初学单片机的时候做的一个小项目很适合给初学单片机和C语言的同学
远程视频监控之应用篇（mjpg-streamer）

转载请注明出处 xff1a http blog csdn net ruoyunliufeng article details 38515311 这篇文章将主要结合源码介绍mjpg streamer xff0c 使小伙伴们了解视频监控的实现
Matplotlib 入门（三）：多图合并

一多合一显示 1 subplot方法 xff1a 设置行列和起始点 plt subplot 2 1 1 分成两行一列 xff0c 起始点为1 2 代码 coding utf 8 34 34 34 Created on Sun Sep 2
python毫秒级延时

一毫秒延时近期有一个ms级别延时的需求 xff0c 实际测试了一下 xff0c 环境 xff1a win7 64位 xff0c python2 7 13 结果 xff1a 毫秒级别的延时是能够支持的 xff0c 微妙是不支持的二 de
数据分析之乳腺癌预测

零定义问题 1 1 数据介绍 http archive ics uci edu ml machine learning databases breast cancer wisconsin breast cancer wisconsin n

数据分析之乳腺癌预测

零、定义问题

1.1 数据介绍

http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.names

1.2 问题定义

一、导入数据

1.1 导入类库

1.2 导入数据集

二、数据概述

2.1 查看数据维度

2.2 查看数据

2.2 数据统计描述

2.2 数据分布情况

2.3 缺失数据处理

三、数据可视化

3.1单变量图表

3.1多变量图表

四、评估算法

4.1分离数据集

4.2评估算法

五、实施预测

六、git与参考

git ：若云机器学习公开仓库

参考：机器学习之Python - 魏贞原 - 科技科普 - 原创 | 豆瓣阅读

数据分析之乳腺癌预测 的相关文章

随机推荐

热门标签

数据分析之乳腺癌预测的相关文章