数学建模--决策树的预测模型的Python实现

2023-11-09

1.算法流程简介

"""
决策树的应用:对泰坦尼克号数据集成员进行预测生死
算法流程还是比较简单的,简单学习一下决策树跟着注释写即可
文章参考:https://zhuanlan.zhihu.com/p/133838427
算法种遇上sklearn的函数还是比较多的,请将sklearn函数更新到最新
更新代码如下所示:
pip install --upgrade sklearn
"""

2.算法核心代码

#首先导入需要的包
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.feature_extraction import  DictVectorizer
import pandas as pd

titan= pd.read_csv(r'C:\Users\Zeng Zhong Yan\Desktop\train.csv')
# 处理数据，找出特征值和目标值
x = titan[['Pclass', 'Age', 'Sex']]
y = titan['Survived']
print(x)
# 缺失值处理
x['Age'].fillna(x['Age'].mean(), inplace=True)
# 分割数据集到训练集和测试集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)
# 进行处理(特征工程)
dict = DictVectorizer(sparse=False)
x_train = dict.fit_transform(x_train.to_dict(orient="records"))
dict = DictVectorizer(sparse=False)
x_test = dict.fit_transform(x_test.to_dict(orient='records'))
print(dict.get_feature_names_out())
#X_test = vec.fit_transform(X_features)
print(x_train)
# 用决策树进行预测
dec = DecisionTreeClassifier()
dec.fit(x_train, y_train)
# 预测准确率
print("预测的准确率为：", dec.score(x_test, y_test))
# 导出决策树的结构
export_graphviz(dec, out_file=r"C:\Users\Zeng Zhong Yan\Desktop\py.vs\.vscode\数学建模\decision_tree.dot", feature_names=['Age', 'Pclass', 'Sex=female', 'Sex=male'])

算法最终取得的预测正确率:0.78-0.84左右
整体上来看波动还是比较大的
可能是我的数据集不够多,只有800来个,如果用真正的titanic数据集的话,大概会稳定在0.79-0.82之间

3.算法BUG解决


由于现在各种函数库更新比较快,所以有的时候一个看似正常的函数会一直报错.
这个可能与你的库的版本有关,过高或者过低了,没能正确匹配上,我的建议是统一升级到最新版本

1.bug1:AttributeError: 'DictVectorizer' object has no attribute 'feature_names_out'
这个就是典型的版本不符合的问题.
我们需要做以下更改:
#老版本代码
dict = DictVectorizer(sparse=False)
x_test = dict.transform(x_test.to_dict(orient='records'))
print(dict.feature_names_out())
#新版本代码
dict = DictVectorizer(sparse=False)
x_test = dict.fit_transform(x_test.to_dict(orient='records'))
print(dict.get_feature_names_out())
#改完就不会报AttributeError: 'DictVectorizer' object has no attribute 'feature_names_out'

2.bug2:ValueError: Length of feature_names, 4 does not match number of features, 6
#老版本代码:
export_graphviz(dec, out_file=r"C:\Users\Zeng Zhong Yan\Desktop\py.vs\.vscode\数学建模\decision_tree.dot", feature_names=['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', 'sex=female', 'sex=male'])
#新版本代码:
export_graphviz(dec, out_file=r"C:\Users\Zeng Zhong Yan\Desktop\py.vs\.vscode\数学建模\decision_tree.dot", feature_names=['Age', 'Pclass', 'Sex=female', 'Sex=male'])
#解释:因为你原先报错提示你只有4个长度,却要容下6个特征类,这显然是不对的,但是我们发现Pclass=1st/2nd/3rd本质上就属于'Pclass',所以就简化成4个特征维度了

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数学建模

python

数学建模--决策树的预测模型的Python实现的相关文章

如何使用 eval dataframe 方法在自定义函数中返回 numpy 数组或列表？

我正在使用 python 3 X 我正在尝试使用eval https pandas pydata org pandas docs stable generated pandas eval html pandas eval数据框方法包括这样
如何使用Python中的or-tools解决累积旅行商问题？

累积旅行商问题 CTSP 的目标是最小化到达客户的时间总和而不是总旅行时间这与最小化总旅行时间不同例如如果一个人拥有无限的车辆车辆与位置数量相同并且目标是最大限度地减少到达位置的总时间则可以为每个位置发送一辆车因为这是满足所
Python 中的参数命名约定

对于形式参数密切相关的函数例如 def add two numbers n1 n2 return n1 n2 def multiply two numbers n1 n2 return n1 n2 如上所示为两个函数中的参数指定相同的名
Scikit-learn：如何获得 True Positive、True Negative、False Positive 和 False Negative

我的问题我有一个数据集它是一个很大的 JSON 文件我读取它并将其存储在trainList多变的接下来我对其进行预处理以便能够使用它完成后我开始分类我用kfold交叉验证方法以获得平均值准确性并训练分类器我做出预测并获
Django + 后台任务如何初始化

我有一个基本的 django 项目用作 Condor 计算集群的前端接口来生成模拟用户可以从 django 应用程序开始模拟在 Condor 中与仿真相关的元数据和仿真状态保存在数据库中我需要添加一个新功能某些模拟完成时发出通
是否有像 python 的 issubclass 这样的东西，如果第一个参数不是类，它将返回 False？

我想要issubclass 1 str 返回 false 1不是的子类str 因为它根本不是一个类所以我收到了 TypeError 有没有一个好的方法来测试这个而不诉诸try except try if issubclass value
MAMP Python-MySQLdb 问题：调用 Python 文件后 libssl.1.0.0.dylib 的路径发生变化

我正在尝试使用 python MySQLdb 访问 MAMP 服务器上的 MySQL 数据库当我最初尝试使用 python sql 调用 Python 文件来访问 MAMP 上的数据库时我得到了image not found关于错误li
在循环中动态添加方法时的范围问题

我有一个 API 用于分析我的锻炼数据我抓取的数据跑卫 http runkeeper com 的网站我的主类是一个子类pandas DataFrame 它基本上是表格数据的容器它支持按列名索引返回列值的数组我想根据数据中存在的
Tensorflow“feed_dict”：对键值对使用相同的符号得到“TypeError：无法将 feed_dict 键解释为张量”

我正在使用构建线性回归的 Tensorflow 示例我的代码如下 import numpy as np import tensorflow as tf train X np asarray 3 3 4 4 5 5 6 71 6 93 4
TypeError: 'module' 对象不可调用错误 driver=webdriver("C:\\Python34\\Lib\\site-packages\\selenium\\webdriver\\chromedriver.exe")

我在 Pycharm 中遇到类似错误 Traceback most recent call last File C PycharmProjects DemoPyth PythonPack1 Prg1 py line 3 in
标记 pandas 系列中连续的 True 元素组

我有一系列的 pandas 布尔值我想标记连续的 True 值组怎么可能做到这一点是否可以以矢量化的方式做到这一点任何帮助将不胜感激 Data A 0 False 1 True 2 True 3 True 4 False 5 Fal
pytest 看不到正在测试的函数的日志

我有一个像这样的烧瓶应用程序 from flask import Flask import logging app Flask name app route def catch all logging warning I m a warni
PDB.run - 重新启动 pdb 会话

我对 python 和 pdb 比较陌生但我对 gdb 有很多经验我的问题是如果我在代码中设置了多个断点我会想要更改一些内容并重新运行我的调试会话并保留这些断点但是在我的 pdb 会话中输入 run 会导致我的会话终止并显示以下
Python Pandas 系列失败日期时间

我认为这一定是 pandas 的失败有一个 pandas 系列 v 18 1 和 19 如果我为该系列分配一个日期第一次将其添加为 int 错误第二次将其添加为 int 错误添加为日期时间正确我无法理解原因例如使用以下代码 i
如何在google colaboratory上使用GPU升级tensorflow

目前google colaboratory使用tensorflow 1 4 1 我想升级到1 5 0版本每次当我执行时 pip install upgrade tensorflow命令 notebook实例成功将tensorflow版本升
Python Flask 不更新图像[重复]

这个问题在这里已经有答案了这里有一些关于图像的 Flask 问题但没有一个能解决我的问题我有一个应用程序可以创建图像保存它然后显示它一次它应该多次执行此操作每次更改图像时它应该加载新图像它不是它只显示与其显示的文件名关
在 jupyter 笔记本中运行 pytest 测试函数

我正在制作有关 python 测试选项的演示我想要演示的技术之一是 pytest 我计划使用 jupyter ipython 笔记本进行演示理想情况下我希望能够在单元格中定义一个测试函数然后使用 pytest 运行该函数这样我就可
检查数组中是否有 3 个连续值高于某个阈值

假设我有一个像这样的 np array a 1 3 4 5 60 43 53 4 46 54 56 78 有没有一种快速方法来获取 3 个连续数字都高于某个阈值的所有位置的索引也就是说对于某个阈值th 得到所有x其中 a x gt th
类型错误：“生成器”对象没有属性“__getitem__”

我编写了一个应该返回字典的生成函数但是当我尝试打印字段时出现以下错误 print row2 SearchDate TypeError generator object has no attribute getitem 这是我的代码 fro
使用和不使用 SciPy 计算 k 组合的数量

我对这个函数感到困惑combSciPy 的 http docs scipy org doc scipy 0 14 0 reference generated scipy misc comb html看起来比简单的 Python 实现要慢这

随机推荐

Vue组件通信方式（8种）

1 一图认清组件关系名词父子关系 A与B A与C B与D C与E 兄弟关系 B与C 隔代关系 A与D A与E 非直系亲属 D与E 总结为三大类父子组件之间通信兄弟组件之间通信跨级通信 2 8种通信方式及使用总结 props emit
Wireshark—网络分析工具

Wireshark介绍 WireShark是非常流行的网络封包分析工具可以截取各种网络数据包并显示数据包详细信息常用于开发测试过程中各种问题定位 WireShark软件安装软件下载路径 wireshark官网按照系统版本选择下载
电子设计大赛应该准备什么

电赛的准备电子设计大赛应该准备什么基础知识储备基本材料的准备必备技能项目训练 Wish 总结电子设计大赛应该准备什么 2021年的电子设计大赛就要来了小伙伴是否已经开始紧张的装备呢下面进入正题想参加比
记录一次笔试题（R语言）

记录一次笔试题 R语言 data lt read csv 银行 csv 1 取出李姓法1 record xingshi c FALSE FALSE FALSE FALSE for i in 1 4 if substring data i
mybatis将时间存入数据库后，只有日期，时分秒全是0

问题原因分析 a 数据库字段类型问题 mysql数据库中 date 为年月日 time为时分秒 datetime为年月日时分秒 pgsql数据库中 Date为年月日 timestamp为年月日时分秒 b mybatis中jdbcType c
【数据分析】数据分析方法（四）：多维度拆解分析 & 对比分析

数据分析方法四多维度拆解分析对比分析 1 多维度拆解分析方法对于多维度拆解分析方法要理解两个关键词维度拆解只看数据整体我们可能注意不到数据内部各个部分构成的差异如果忽略这种差异进行比较就有可能导致无法察觉该差异所造成的
冒泡排序，快速排序详解及C++代码详细实现

冒泡排序冒泡排序的基本思想是从后往前或从前往后两两比较相邻元素的值若为逆序即A i 1 gt A i 则交换它们直到序列比较完我们称它为第一趟冒泡结果是将最小的元素交换到待排序列的第一个位置或将最大的元素交换到待排序列的
CubeMX 5.5 修改HAL库库函数版本

最初我是按照软件推荐自动按安装的1 15的为了和正点原子的例程统一库函数版本就下载了1 11 但是在工程配置界面始终没有办法修改hal库版本的选择关闭CubeMX 使用记事本打开工程文件修改版本号重新打开工程库版本修改成功工
Linux学习基础操作和文件管理命令

Linux学习基础操作和文件管理命令 1 如何解决系统图形出现问题 1 ctrl alt f2 f6 gt gt gt 进入虚拟控制台 ctrl alt f1 gt gt gt 返回图形 2 登陆系统获得root权限执行init 3 lo
关于富文本编辑图片移动端太大溢出，太小正常处理

在使用富文本编辑完文章生成html字符串后直接给移动端使用如果图片太大会出现溢出图片太小没有问题如果简单粗暴给全局样式img添加width 100 是可以解决溢出问题但又造成了一个新的问题就是小图片之前没有溢出也都变成了10
No Feign Client for loadBalancing defined. Didyou forget to include spring-cloud-starter-loadbalance

Unexpected exception during bean creation nested exception is java lang IllegalStateException No Feign Client for loadBa
解决idea不能搜索任何插件

解决idea不能搜索任何插件解决idea不能搜索任何插件
持续集成/技术交付全流程流水线工具的设计与落地

文章目录持续集成技术交付全流程流水线工具的设计与落地概述工具架构设计主要功能模块代码库 Jenkins 流水线代码构建自动化测试产品部署监控报警使用方法步骤一安装 Jenkins 步骤二创建 Jenkins 流水
汇编语言(王爽第三版)实验十七

实验十七这道题我也不知道写的对不对逻辑上应该没啥问题但是运行起来好像没效果题目和个人思路安装一个新的int 7ch中断例程实现通过逻辑扇区号对软盘进行读写参数说明 1 用ah寄存器传递功能号 0表示读 1表示写 2 用dx寄存
vue中下载文件导出保存到本地

vue中下载文件导出保存到本地先分析如何下载先有一个链接地址然后使用 location href或window open 下载到本地看看返回数据 res config url 中是下载链接地址 res data 中是返回的二进制数据
结构体指针变量使用方法举例

include
报表设计

最近在做任务报表方面的工作之前一直以为查询和报表是一样东西虽说报表是查询的一种展示模式但是做分析时还是应该将以区别报表多样的格式动态的数据报表是我们想要数据展示的一种形态就像是各种图表例如你想查询小明的名字查询可以
使用Nginx实现多个网站代理[多端口监听][django][资源服务器]

使用Nginx实现多个网站代理导航原文链接使用Nginx实现多个网站代理导言 nginx是网站开发后期一个不可缺少的应用 nginx的作用是请求代理监听请求并转发给对应端口的进程处理资源代理使用nginx直接将服务器资源共享
IntelliJ IDEA部署tomcat时出现No artifacts marked for deployment

这种错误主要是因为没有设置导出包解决方法 File gt Project Structure gt Artifacts 然后点击ok 然后记得apply ok 此时再回到问题所在点击Fix即可或者如下启动打开浏览器复制下面网址 h
数学建模--决策树的预测模型的Python实现

目录 1 算法流程简介 2 算法核心代码 3 算法效果展示 1 算法流程简介决策树的应用对泰坦尼克号数据集成员进行预测生死算法流程还是比较简单的简单学习一下决策树跟着注释写即可文章参考 https zhuanlan zhihu c

数学建模--决策树的预测模型的Python实现

1.算法流程简介

2.算法核心代码

3.算法BUG解决

数学建模--决策树的预测模型的Python实现 的相关文章

随机推荐

热门标签

数学建模--决策树的预测模型的Python实现的相关文章