Python数据分析与机器学习----收入的预测分析

2023-10-27

一、题目

利用age、workclass、…、native_country等13个特征预测收入是否超过50k，是一个二分类问题。

二、训练集

32561个样本，每个样本14个特征，其中6个连续性特征、9个离散型特征
在这里插入图片描述

三、测试集

16281个样本，每个样本14个特征，
即在测试集中，根据age等14个特征，预测income是否超过50k，二分类问题。

四、说明

部分特征的值为“？”，表示缺失值，需要对其先处理。

五、实验过程和结果

import numpy as np
import pandas as pd
train = pd.read_csv('data/data40587/train.csv')
train.replace(' ?', np.nan, inplace=True)
print(train.isnull().sum())

#用众数进行替换缺失值
train.fillna(value = {'Workclass':train.Workclass.mode()[0],
                              'Occupation':train.Occupation.mode()[0],
                              'Native country':train['Native country'].mode()[0]}, inplace = True)

# 数据的探索性分析、数值型的统计描述
print(train.describe())
# 数据的探索性分析、离散型的统计描述
print(train.describe(include =[ 'object']))

在这里插入图片描述

# 导入绘图模块
import matplotlib.pyplot as plt
# 设置绘图风格
plt.style.use('ggplot')
# 设置多图形的组合
fig, axes = plt.subplots(2, 1)
# 绘制不同收入水平下的年龄核密度图，    针对数值型
train['Age'][train.Income == ' <=50K'].plot(kind = 'kde', label = '<=50K', ax = axes[0], legend = True, linestyle = '-')
train['Age'][train.Income == ' >50K'].plot(kind = 'kde', label = '>50K', ax = axes[0], legend = True, linestyle = '--')
# 绘制不同收入水平下的周工作小时数和密度图
train['Hours/Week'][train.Income == ' <=50K'].plot(kind = 'kde', label = '<=50K', ax = axes[1], legend = True, linestyle = '-')
train['Hours/Week'][train.Income == ' >50K'].plot(kind = 'kde', label = '>50K', ax = axes[1], legend = True, linestyle = '--')
# 显示图形
plt.show()

在这里插入图片描述

import seaborn as sns
# 构造不同收入水平下各种族人数的数据    针对离散型
race = pd.DataFrame(train.groupby(by = ['Race','Income']).aggregate(np.size).loc[:,'Age'])
# 重设行索引
race = race.reset_index()
# 变量重命名
race.rename(columns={'Age':'counts'}, inplace=True)
# 排序
race.sort_values(by = ['Race','counts'], ascending=False, inplace=True)

# 构造不同收入水平下各家庭关系人数的数据
relationship = pd.DataFrame(train.groupby(by = ['Relationship','Income']).aggregate(np.size).loc[:,'Age'])
relationship = relationship.reset_index()
relationship.rename(columns={'Age':'counts'}, inplace=True)
relationship.sort_values(by = ['Relationship','counts'], ascending=False, inplace=True)

# 设置图框比例，并绘图
plt.figure(figsize=(9,5))
sns.barplot(x="Race", y="counts", hue = 'Income', data=race)
plt.show()

plt.figure(figsize=(9,5))
sns.barplot(x="Relationship", y="counts", hue = 'Income', data=relationship)
plt.show()

在这里插入图片描述

# 离散变量的重编码
for feature in train.columns:
    if train[feature].dtype == 'object':
        train[feature] = pd.Categorical(train[feature]).codes
print(train.head())
# 删除变量
train.drop(['Education','fnlgwt'], axis = 1, inplace = True)
#训练集拆分
train_arr=np.array(train) #转换为数组
X_train=np.delete(train_arr,12,axis=1)
i_=[0,1,2,3,4,5,6,7,8,9,10,11]
y_train=np.delete(train_arr,i_,axis=1)

# 导入k近邻模型的类
from sklearn.neighbors import KNeighborsClassifier
# 构建k近邻模型
kn = KNeighborsClassifier()
kn.fit(X_train, y_train)
print(kn)

#整理测试数据集

# 加载测试数据集
test = pd.read_csv('data/data40587/test.csv')
test.replace(' ?', np.nan, inplace=True)
print(test.isnull().sum())
#用众数进行替换缺失值
test.fillna(value = {'Workclass':test.Workclass.mode()[0],
                              'Occupation':test.Occupation.mode()[0],
                              'Native country':test['Native country'].mode()[0]}, inplace = True)
# 离散变量的重编码
for feature in test.columns:
    if test[feature].dtype == 'object':
        test[feature] = pd.Categorical(test[feature]).codes

# 删除变量
test.drop(['Education','fnlgwt'], axis = 1, inplace = True)
print(test.head())

# 预测测试集
kn_pred = kn.predict(test)
#保存结果
test1 = pd.read_csv('data/data40587/test.csv')
test1['Income'] =kn_pred
test1.to_csv("20200618.csv",index=None)

结果
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

机器学习

数据分析

Python数据分析与机器学习----收入的预测分析的相关文章

将 ical 附件的邮件消息的内容类型设置为“text/calendar; method=REQUEST”

我正在尝试使用 App Engine 邮件 API 从 App Engine 发送 iCalendar 格式的 ics 文件这在 GMail 中非常有效但是 Outlook 无法识别该文件我认为问题在于内容类型设置为文本日历而不
需要根据数据框中的行号应用不同的公式

我正在努力在数据框中找到某种移动平均值该公式将根据正在计算的行数而变化实际场景是我需要计算Z列 Edit 2 以下是我正在使用的实际数据 Date Open High Low Close 0 01 01 2018 1763 95 176
在 SQLAlchemy 中，过滤器是在连接之前还是之后应用？

使用 SQLAlchemy 我执行如下查询 import models as m import sqlalchemy as sa s session maker q s query m ShareCount m Article join m
virtualenvwrapper 函数在 shell 脚本中不可用

所以我再一次制作了一个很棒的 python 程序它让我的生活变得更加轻松并节省了大量时间当然这涉及到一个 virtualenv 用mkvirtualenvvirtualenvwrapper 的功能该项目有一个requiremen
我可以在 matplotlib 中的绘图左侧放置一个垂直颜色条吗？

来自颜色条方法的 matplotlib 命令摘要 http matplotlib org api pyplot api html highlight colorbar matplotlib pyplot colorbar我知道关键字参数or
如何在Python + Selenium中获取元素的值

我在我的 Python 3 6 3 代码中得到了这个 HTML 元素作为 Selenium网页元素当然 span class ocenaCzastkowa masterTooltip style color 000000 alt 5 sp
删除 tkinter 文本默认绑定

我正在制作一个简单的 tkinter 文本编辑器但我想要所有默认绑定文本小部件如果可能的话删除例如当我按Ctrl i它默认插入一个制表符我制作了一个事件绑定来打印文本框中有多少行我将事件绑定设置为Ctrl i以及当我运行它时它会
如何在plotly（python）中的刻度标签和图形之间添加空格？

如果我使用绘图创建水平条形图则每个条形的标签都与图表相对应我想在标签和图表之间添加一些空间填充边距我怎样才能做到这一点 Example import plotly offline as py import plotly graph
cxfreeze virtualenv 中缺少 distutils 模块

从 python3 2 项目运行 cxfreeze 二进制文件时我收到以下运行时错误 project dist project distutils init py 13 UserWarning The virtualenv distuti
argparse 不检查位置参数

我正在创建一个脚本它使用 argparse 接受位置参数和可选参数我已经阅读了 Doug 的教程和 python 文档但找不到答案 parser argparse ArgumentParser description script t
Kivy TextInput 水平和垂直对齐（文本居中）

如何在 Kivy 的 TextInput 中水平居中文本 I have the following screen But I want to centralize my text like this 这是我的 kv 语言的一部分 BoxLa
使用具有可变数量索引的 numpy mggrid

如何将 numpy mgrid 与可变数量的索引一起使用我在 github 上找不到任何人将其与硬编码值以外的任何内容一起使用的示例 import numpy as np np mgrid 1 10 1 10 this works fin
如何将 pandas DataFrame 转换为 TimeSeries？

我正在寻找一种将 DataFrame 转换为 TimeSeries 而不拆分索引和值列的方法有任何想法吗谢谢 In 20 import pandas as pd In 21 import numpy as np In 22 dates
解析整数集的字符串并列出间隔

I have 2 5 7 9 12 string 我想从中获取 2 5 7 8 9 12 列表 python中有没有内置的函数 Thanks UPD 我想直接的答案是No 不管怎样谢谢你的片段使用一个建议者斯文马尔纳克 s 2
如何将 django ModelForm 字段显示为不可编辑

接受我的初步教训django ModelForm 我想让用户能够编辑博客中的条目 BlogEntry has a date postedTime title and content 我想向用户展示一个编辑表单其中显示所有这些字段但仅包含
为什么我会在 Python 字符串格式中使用除 %r 之外的其他内容？

我偶尔会使用 Python 字符串格式这可以像这样完成 print int i Float f String s 54 34 434 some text 但是这也可以这样做 print int r Float r String r 54
如何使用 python 模块的多个 git 分支？

我想使用 git 来同时处理我正在编写的模块中的多个功能我目前正在使用 SVN 只有一个工作区因此我的 PYTHONPATH 上只有该工作区我意识到这不太理想所以我想知道是否有人可以建议一种更正确的方法来做到这一点让我用一个假
带 Qt 的菜单栏/系统托盘应用程序

我是 Qt PyQt 的新手我正在尝试制作一个应用程序其功能将从菜单栏系统托盘执行这里展示了一个完美的例子我找不到关于如何做到这一点的好资源有人可以建议吗 Thanks 我认为您正在寻找与QMenu and QMainWindo
尝试 numba 时出现巨大错误

我在使用 numba 时遇到了大量错误讽刺的是正确的结果是在错误之后打印的我正在使用最新的 Anaconda python 并安装了 numba conda install numba 一次在 Ubuntu 13 64 位和 anac
将函数按元素应用于两个 DataFrame

如何应用函数z ij f x ij y ij 来自数据框X and Y相同大小并将结果保存到 DataFrameZ 这取决于你有什么样的功能很多功能已经被矢量化为数据框例如等等所以对于这些功能你可以简单地做Z X Y or Z X

随机推荐

keil调试查看ROM或RAM

Ctrl F5或点击调试按钮进入调试界面在工具栏上点击Memory Windows 则右下角出现Memory1的页面默认出现的是ROM的查看界面在Address一栏输入十六进制的地址即可查看ROM里面的数值点击Memory Wind
动态修改JavaBean中的注解的参数值

我这里有一个需求需要修改Person类中的一个属性上的注解的值进行修改例如 public class Person private int age ApiParam access lala private String name get
怎么做验收测试？

本文是本系列文章的第四篇也是最后一篇主要讲述我们在Lyft面对越来越多的开发人员和服务时如何扩展开发实践第一部分开发和测试环境的历史第二部分加快本地开发的一些优化第三部分预发布环境通过重载形式来扩展服务网格第四部分怎么
halcon给图像添加不同颜色的透明遮罩（叠加透明ROI）

目录前言方法 1 给单通道图像添加透明遮罩 2 给RGB图像添加透明遮罩参考链接前言最近想给图片叠加上透明region方便展示以前一直用overpaint region算子搭配add image就行这次用单通道图竟然叠加出来的
typec耳机知识介绍

数字耳机和模拟耳机模拟耳机即我们的常见的3 5mm接口的耳机包括左右声道地或者mic 如左图数字耳机右图包含一个usb声卡 DAC ADC amp 模拟耳机当数字耳机接入到手机 otg 或者电脑后手机或者电脑识别到了usb设
如何在本地测试ajax时间,为什么在本地测试ajax反应很慢

在本地测试ajax接收分页数据要反应1s左右以上但是放到服务器上就100ms到 900多ms之间有什么好的办法解决ajax获取速度慢吗已经把分页数据换成json了没多大改善数据大小显示是在2 9kb 耗时1 03s 处理逻辑就
C++ 虚函数、虚函数表剖析

C 中的虚函数的作用主要是实现了多态的机制关于多态简而言之就是用父类型别的指针指向其子类的实例然后通过父类的指针调用实际子类的成员函数那么问题来了C 又是如何实现这种技术的呢 C 使用了一种动态绑定的技术这个技术的核心是虚函数表
jQuery中delegate和on的用法与区别详细解析

在jQuery1 7中 delegate 已被 on 取代对于早期版本它仍然使用事件委托的最有效手段在事件绑定和委派 delegate 和on在一般情况下这两种方法是等效的 delegate 指定的元素属于被选元素的子元素添加一
MySQL报错注入函数汇总

常用函数字符串连接函数将多个字符串连接成一个字符串当中间字符串有一个为空时最后结果也为空 concat str1 str2 str3 concat ws 指定分隔符 str1 str2 str3 开头指定分隔符与concat 不同
cpp课程设计实验题：定义Staff（员工）类，由Staff分别派生出Saleman（销售员）类和Manager（经理）类，再由Saleman（销售员）类和Manager（经理）类采用多重继承方式派生

定义Staff 员工类由Staff分别派生出Saleman 销售员类和Manager 经理类再由Saleman 销售员类和Manager 经理类采用多重继承方式派生出新类SaleManager 销售经理类各类之间的继承关系
cmake中使用find_package查找vcpkg中的BOOST 包遇到的坑

有人说vcpkg对于boost库暂时不支持find package 链接其实是支持的 set BOOST VERSION 1 78 find package Boost REQUIRED COMPONENTS graph program
用观测数据推断因果的问题（一文搞懂混杂因素、辛普森悖论）

聊到因果推断与相关性的关系大家其实都已经有一个认知叫做相关性因果性但学界从统计推断发展到后来因果推断是经历了一个漫长的过程直到今天我们仍然基础的对数据的处理和认知离不开统计推断的方法所以学习了解用观测数据做因果推断可能导致的问
N皇后问题（代码）

N皇后问题 include lt stdio h gt include lt math h gt define N 4 判断第k个皇后目前放置位置是否与前面的皇后冲突 in isplace int pos int k int i for i
java学习小随笔—类中赋值的错误认知

在java的类中只能声明变量和方法不能赋值 public class people int n 10 m m 10 上面的代码就是错误的 int n 10 m 语句中属于声明语句 n在声明的同时初始化 m 10 属于赋值语句在jav
kali无法连接外网

今天用虚拟机时无法连接外网在网上搜了各种解决方法 windows下的VM服务都开了其他也没有什么错虚拟机使用NAT模式查看我的虚拟网络编辑器发现我的NAT模式是在113网段下的而我linux的ip地址是在137网段下的但是我
对浏览器内核的理解

简单来说浏览器内核是浏览器的核心也称渲染引擎用来解释网页语法并渲染到网页上浏览器内核决定了浏览器该如何显示网页内容以及页面的格式信息浏览器内核又可以分成两部分渲染引擎和JS引擎渲染引擎负责获取网页的内容并显示不同的浏览器
git修改commit日志

由于公司对版本提交日志进行检查如果不符合要求则push失败以下是修改commit日志的方法 1 进入到提交代码文件所在目录即git所在目录下 cd app repository 2 git log git log commit bf
Rabbit MQ详解

一什么是RabbitMQ 答 RabbitMQ简称MQ是一套实现了高级消息队列协议的开源消息代理软件简单来说就是一个消息中间件是一种程序对程序的通信方法其服务器也是以高性能健壮以及可伸缩性出名的Erlang语言编写而成二 Rab
nc文件经度从0-360更改为-180到180，并保存

从0 360改为 180到180 import xarray as xr rawnc path InPath ds xr open dataset rawnc path lon name lon 你的nc文件中经度的命名 ds longit
Python数据分析与机器学习----收入的预测分析

一题目利用age workclass native country等13个特征预测收入是否超过50k 是一个二分类问题二训练集 32561个样本每个样本14个特征其中6个连续性特征 9个离散型特征三测试集 16281个样本

Python数据分析与机器学习----收入的预测分析

一、题目

二、训练集

三、测试集

四、说明

五、实验过程和结果

Python数据分析与机器学习----收入的预测分析 的相关文章

随机推荐

热门标签

Python数据分析与机器学习----收入的预测分析的相关文章