Python应该怎么学，如何系统地自学Python？

2023-10-27

这是一份kaggle上的银行的数据集，研究该数据集可以预测客户是否认购定期存款y。这里包含20个特征。

1. 分析框架

2. 数据读取，数据清洗

# 导入相关包  
import numpy as np  
import pandas as pd   
# 读取数据  
data = pd.read_csv('./1bank-additional-full.csv')  
# 查看表的行列数  
data.shape

输出：

这里只有nr.employed这列有丢失数据，查看下：

data['nr.employed'].value_counts()

这里只有5191.0这个值，没有其他的，且只有7763条数据，这里直接将这列当做异常值，直接将这列直接删除了。

# data.drop('nr.employed', axis=1, inplace=True)

3. 探索性数据分析

3.1查看各年龄段的人数的分布

这里可以看出该银行的主要用户主要集中在23-60岁这个年龄层，其中29-39这个年龄段的人数相对其他年龄段多。

import matplotlib.pyplot as plt  
import seaborn as sns  
plt.rcParams['font.sans-serif'] = 'SimHei'  
plt.figure(figsize=(20, 8), dpi=256)  
sns.countplot(x='age', data=data)  
plt.title("各年龄段的人数")

3.2 其他特征的一些分布

plt.figure(figsize=(18, 16), dpi=512)  
plt.subplot(221)  
sns.countplot(x='contact', data=data)  
plt.title("contact分布情况")  
  
plt.subplot(222)  
sns.countplot(x='day_of_week', data=data)  
plt.title("day_of_week分布情况")  
  
plt.subplot(223)  
sns.countplot(x='default', data=data)  
plt.title("default分布情况")  
  
plt.subplot(224)  
sns.countplot(x='education', data=data)  
plt.xticks(rotation=70)  
plt.title("education分布情况")  
  
plt.savefig('./1.png')

plt.figure(figsize=(18, 16), dpi=512)  
plt.subplot(221)  
sns.countplot(x='housing', data=data)  
plt.title("housing分布情况")  
  
plt.subplot(222)  
sns.countplot(x='job', data=data)  
plt.xticks(rotation=70)  
plt.title("job分布情况")  
  
plt.subplot(223)  
sns.countplot(x='loan', data=data)  
plt.title("loan分布情况")  
  
plt.subplot(224)  
sns.countplot(x='marital', data=data)  
plt.xticks(rotation=70)  
plt.title("marital分布情况")  
  
plt.savefig('./2.png')

plt.figure(figsize=(18, 8), dpi=512)  
plt.subplot(221)  
sns.countplot(x='month', data=data)  
plt.xticks(rotation=30)  
  
plt.subplot(222)  
sns.countplot(x='poutcome', data=data)  
plt.xticks(rotation=30)  
plt.savefig('./3.png')

3.3 各特征的相关性

plt.figure(figsize=(10, 8), dpi=256)  
plt.rcParams['axes.unicode_minus'] = False  
sns.heatmap(data.corr(), annot=True)  
plt.savefig('./4.png')

4. 特征规范化

4.1 将自变量的特征值转换成标签类型

# 特征化数据  
from sklearn.preprocessing import LabelEncoder  
features = ['contact', 'day_of_week', 'default', 'education', 'housing',  
           'job','loan', 'marital', 'month', 'poutcome']  
  
le_x = LabelEncoder()  
for feature in features:  
    data[feature] = le_x.fit_transform(data[feature])

4.2 将结果y值转换成0、1

def parse_y(x):  
    if (x == 'no'):  
        return 0  
    else:  
        return 1  
data['y'] = data['y'].apply(parse_y)  
data['y'] = data['y'].astype(int)

4.3 数据规范化

# 数据规范化到正态分布的数据  
# 测试数据和训练数据的分割  
from sklearn.preprocessing import StandardScaler  
from sklearn.model_selection import train_test_split  
ss = StandardScaler()  
train_x, test_x, train_y, test_y = train_test_split(data.iloc[:,:-1],   
                                                   data['y'],   
                                                   test_size=0.3)  
train_x = ss.fit_transform(train_x)  
test_x = ss.transform(test_x)

5. 模型训练

5.1 AdaBoost分类器

from sklearn.ensemble import AdaBoostClassifier  
from sklearn.metrics import accuracy_score  
ada = AdaBoostClassifier()  
ada.fit(train_x, train_y)  
predict_y = ada.predict(test_x)  
print("准确率：", accuracy_score(test_y, predict_y))

5.2 SVC分类器

from sklearn.svm import SVC  
svc = SVC()  
svc.fit(train_x, train_y)  
predict_y = svc.predict(test_x)  
print("准确率：", accuracy_score(test_y, predict_y))

5.3 K邻近值分类器

from sklearn.neighbors import KNeighborsClassifier  
knn = KNeighborsClassifier()  
knn.fit(train_x, train_y)  
predict_y = knn.predict(test_x)  
print("准确率：", accuracy_score(test_y, predict_y))

5.4 决策树分类器

from sklearn.tree import DecisionTreeClassifier  
dtc = DecisionTreeClassifier()  
dtc.fit(train_x, train_y)  
predict_y = dtc.predict(test_x)  
print("准确率：", accuracy_score(test_y, predict_y))

6 模型评价

6.1 AdaBoost分类器

from sklearn.metrics import roc_curve  
from sklearn.metrics import auc  
plt.figure(figsize=(8,6))  
fpr1, tpr1, threshoulds1 = roc_curve(test_y, ada.predict(test_x))  
plt.stackplot(fpr1, tpr1,color='steelblue', alpha = 0.5, edgecolor = 'black')  
plt.plot(fpr1, tpr1, linewidth=2, color='black')  
plt.plot([0,1], [0,1], ls='-', color='red')  
plt.text(0.5, 0.4, auc(fpr1, tpr1))  
plt.title('AdaBoost分类器的ROC曲线')

6.2 SVC分类器

plt.figure(figsize=(8,6))  
fpr2, tpr2, threshoulds2 = roc_curve(test_y, svc.predict(test_x))  
plt.stackplot(fpr2, tpr2, alpha = 0.5)  
plt.plot(fpr2, tpr2, linewidth=2, color='black')  
plt.plot([0,1], [0,1],ls='-', color='red')  
plt.text(0.5, 0.4, auc(fpr2, tpr2))  
plt.title('SVD的ROC曲线')

6.3 K邻近值分类器

plt.figure(figsize=(8,6))  
fpr3, tpr3, threshoulds3 = roc_curve(test_y, knn.predict(test_x))  
plt.stackplot(fpr3, tpr3, alpha = 0.5)  
plt.plot(fpr3, tpr3, linewidth=2, color='black')  
plt.plot([0,1], [0,1],ls='-', color='red')  
plt.text(0.5, 0.4, auc(fpr3, tpr3))  
plt.title('K邻近值的ROC曲线')

6.4 决策树分类器

plt.figure(figsize=(8,6))  
fpr4, tpr4, threshoulds4 = roc_curve(test_y, dtc.predict(test_x))  
plt.stackplot(fpr4, tpr4, alpha = 0.5)  
plt.plot(fpr4, tpr4, linewidth=2, color='black')  
plt.plot([0,1], [0,1],ls='-', color='red')  
plt.text(0.5, 0.4, auc(fpr4, tpr4))  
plt.title('决策树的ROC曲线')

来源：
https://blog.csdn.net/qq_33333002/article/details/106280462

---------------------------END---------------------------

题外话

在这里插入图片描述

感兴趣的小伙伴，赠送全套Python学习资料，包含面试题、简历资料等具体看下方。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

开发语言

Python应该怎么学，如何系统地自学Python？的相关文章

Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
Python逻辑运算符优先级[重复]

这个问题在这里已经有答案了哪个运算符优先4 gt 5 or 3 lt 4 and 9 gt 8 这会被评估为真还是假我知道该声明3 gt 4 or 2 lt 3 and 9 gt 10 显然应该评估为 false 但我不太确定 pyth
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
奇怪的 MySQL Python mod_wsgi 无法连接到 'localhost' (49) 上的 MySQL 服务器问题

StackOverflow上也有类似的问题但我还没有发现完全相同的情况这是在使用 MySQL 的 OS X Leopard 机器上一些起始信息 MySQL Server version 5 1 30 Apache 2 2 13 Uni
将 JSON 对象传递给带有请求的 url

所以我想利用 Kenneth 的优秀请求模块 https github com kennethreitz requests 在尝试使用时偶然发现了这个问题自由库API http wiki freebase com wiki API 基本上
python Soap zeep模块获取结果

我从 SOAP API 得到如下结果 client zeep Client wsdl self wsdl transport transport auth header lb E authenticate self login res cl
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
Tkinter - 浮动窗口 - 调整大小

灵感来自this https stackoverflow com a 22424245 13629335问题我想为我的根窗口编写自己的调整大小函数但我刚刚注意到我的代码显示了一些性能问题如果你快速调整它的大小你会发现窗口没有像我希望
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
字典和数组作为类变量与实例变量

这是赚取积分的简单方法请解释以下内容 class C a b 0 c def init self self x def d self k v self x k v self a k v self b v self c append v d
您可以使用关键字参数而不提供默认值吗？

我习惯于在 Python 中使用这样的函数方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default

随机推荐

突破前端反调试--阻止页面不断debugger

原文地址 https segmentfault com a 11 其实我也不太确定是不是反调试但是他阻止我看他代码了那就是反调试姑且这么称呼吧问题复现一次扒某网站的前端代码打开控制台要看Network 结果发现他们页面一打开控制
最详细的解决：UnboundLocalError: local variable ‘a‘ referenced before assignment

代码及报错如下解决很多人都非常困惑为什么在test3中可以直接输出a 但是在test3中使用a 1的时候就直接报错呢首先我们需要明确一个概念就是全局变量与局部变量如下图大家觉得打印的a会是1还是3 答案是1 因为定义在t
C语言/C++常见习题问答集锦(四十五) 之数字之谜

C语言 C 常见习题问答集锦四十五之数字之谜程序之美 1 最大公约数题目描述给定N个正整数求他们的最大公约数本题要求函数实现接口如下 int gcd array int num int size 求大小为size的数组num
基于Stomp协议的时间通知机制

问题导入系统运行过程中出现了由主持人的操作推动会议流程的场景如何将主持人的命令通过服务器同步到每个人的设备上问题分析在当前的系统设计中使用了C S架构基本上所有的请求都是终端通过http协议向服务器提出的而服务器没有办法向终端主
pygame飞机大战小游戏（python大作业）

一项目背景 python大作业在查看了老师给的链接发现教学视频不完整所以借用了同学的 Python编程从入门到实践中的一个项目学习模仿二游戏具体介绍这是一款由辉辉亲自打造的太空对战小游戏游戏背景在广袤无垠的太空里有一群
图的遍历（完整代码）

代码实现功能 1 利用图的邻接矩阵构造并输出图 2 实现图的深度优先搜索遍历 3 实现图的广度优先搜索遍历 include
【支持M1】MacDroid for Mac：Mac和Android安卓设备数据互通

Mac和Android组合始终存在的唯一问题是无法在这些设备之间足够快地传输数据但是MacDroid for mac填补了这一空白 MacDroid mac版是Macos上一款安卓手机数据传输助手 MacDroid mac下载支持Mac和
码蹄集 ---- 供水管线 kruskal算法

供水管线 kruskal算法克鲁斯卡尔算法最小生成树算法应用场景从连通图中找出最小生成树和实际相结合的有水管共线公交车站路线图城市间修路等算法主要思想将连通网中所有的边按照权值大小做升序排序从权值最小的边开始选择只要
C语言调用libusb访问USB驱动

目录一环境搭建 1 下载库文件 2 解压 3 配置VS工程 3 1 头文件的配置
SyntaxError: unexpected EOF while parsing

SyntaxError unexpected EOF while parsing 这是典型的没有验证函数参数是否有效原因是eval str 的字符串为空你可以运行如下代码观察输出 try print eval except Excep
六句话给出 Synchronized 和 Lock 的区别

1 Synchronized 内置的 Java 关键字 Lock 是一个 Java 类 2 Synchronized 无法判断获取锁的状态 Lock 可以判断是否获取到了锁 3 Synchronized 会自动释放锁 Lock 必须要手动释
Windows下Anaconda3下载安装详细步骤

第一步去官网下载Anaconda Individual Editionhttps www anaconda com products individual 第二步点击Download 在安装之前要先安装python的版本这里我先安装
C++ 实验8 继承

编写一个学生和教师数据输入和显示程序学生数据有编号姓名班级和成绩教师数据有编号姓名职称和部门要求将编号姓名输入和显示设计成一个类person 并作为学生类student和教师类teacher的基类类图如下代码如下头文件
Win10笔记本（机械革命）亮度调节快捷键失效-已解决

Win10笔记本机械革命亮度调节快捷键失效已解决 1 确定你已经安装了核心显卡驱动驱动精灵检查一下 2 右击此电脑管理系统工具设备管理器监视器单击展开卸载dpms 卸载Generic Monitor 选中删除相关驱动 3
iText包对每页pdf文件加水印

https ishare iask sina com cn f 31zwqlKmIwM html
用户编写的python程序、无需修改就可以_python的笔记(一)

Python的基本特点一种动态解释型的编程语言规范的代码 Python 采用强制缩进的方式使得代码具有极佳的可读性高级语言特性封装内存管理等可移植性程序如果避免使用依赖于系统的特性那么无需修改就可以在任何平台上运行解释性直接
带你入门TypeScript

一为何学习TS 1 TypeScript 在社区的流行度越来越高它非常适用于一些大型项目也非常适用于一些基础库极大地帮助我们提升了开发效率和体验 2 TypeScript 可以编译出纯净简洁的 JavaScript 代码并且可以
python画玫瑰图_python windrose（风玫瑰图）

conda install c https conda anaconda org conda forge windrose b 用pip install windrose可以成功但是安装的路径 python找不到 from windros
多表联查优化

多表联查优化我总结有以下几点优化sql语句索引优化反范式设计业务代码优化使用缓存优化sql语句 sql性能分析查看执行频次查看执行频次 select insert delete update shwo global sess
Python应该怎么学，如何系统地自学Python？

这是一份kaggle上的银行的数据集研究该数据集可以预测客户是否认购定期存款y 这里包含20个特征 1 分析框架 2 数据读取数据清洗导入相关包 import numpy as np import pandas as pd 读取数据