数学建模--决策树的预测模型的Python实现

2023-11-09

目录

1.算法流程简介

2.算法核心代码

3.算法效果展示

1.算法流程简介

"""
决策树的应用:对泰坦尼克号数据集成员进行预测生死
算法流程还是比较简单的,简单学习一下决策树跟着注释写即可
文章参考:https://zhuanlan.zhihu.com/p/133838427
算法种遇上sklearn的函数还是比较多的,请将sklearn函数更新到最新
更新代码如下所示:
pip install --upgrade sklearn
"""

2.算法核心代码

#首先导入需要的包
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.feature_extraction import  DictVectorizer
import pandas as pd

titan= pd.read_csv(r'C:\Users\Zeng Zhong Yan\Desktop\train.csv')
# 处理数据,找出特征值和目标值
x = titan[['Pclass', 'Age', 'Sex']]
y = titan['Survived']
print(x)
# 缺失值处理
x['Age'].fillna(x['Age'].mean(), inplace=True)
# 分割数据集到训练集和测试集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)
# 进行处理(特征工程)
dict = DictVectorizer(sparse=False)
x_train = dict.fit_transform(x_train.to_dict(orient="records"))
dict = DictVectorizer(sparse=False)
x_test = dict.fit_transform(x_test.to_dict(orient='records'))
print(dict.get_feature_names_out())
#X_test = vec.fit_transform(X_features)
print(x_train)
# 用决策树进行预测
dec = DecisionTreeClassifier()
dec.fit(x_train, y_train)
# 预测准确率
print("预测的准确率为:", dec.score(x_test, y_test))
# 导出决策树的结构
export_graphviz(dec, out_file=r"C:\Users\Zeng Zhong Yan\Desktop\py.vs\.vscode\数学建模\decision_tree.dot", feature_names=['Age', 'Pclass', 'Sex=female', 'Sex=male'])
算法最终取得的预测正确率:0.78-0.84左右
整体上来看波动还是比较大的
可能是我的数据集不够多,只有800来个,如果用真正的titanic数据集的话,大概会稳定在0.79-0.82之间

3.算法BUG解决


由于现在各种函数库更新比较快,所以有的时候一个看似正常的函数会一直报错.
这个可能与你的库的版本有关,过高或者过低了,没能正确匹配上,我的建议是统一升级到最新版本

1.bug1:AttributeError: 'DictVectorizer' object has no attribute 'feature_names_out'
这个就是典型的版本不符合的问题.
我们需要做以下更改:
#老版本代码
dict = DictVectorizer(sparse=False)
x_test = dict.transform(x_test.to_dict(orient='records'))
print(dict.feature_names_out())
#新版本代码
dict = DictVectorizer(sparse=False)
x_test = dict.fit_transform(x_test.to_dict(orient='records'))
print(dict.get_feature_names_out())
#改完就不会报AttributeError: 'DictVectorizer' object has no attribute 'feature_names_out'

2.bug2:ValueError: Length of feature_names, 4 does not match number of features, 6
#老版本代码:
export_graphviz(dec, out_file=r"C:\Users\Zeng Zhong Yan\Desktop\py.vs\.vscode\数学建模\decision_tree.dot", feature_names=['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', 'sex=female', 'sex=male'])
#新版本代码:
export_graphviz(dec, out_file=r"C:\Users\Zeng Zhong Yan\Desktop\py.vs\.vscode\数学建模\decision_tree.dot", feature_names=['Age', 'Pclass', 'Sex=female', 'Sex=male'])
#解释:因为你原先报错提示你只有4个长度,却要容下6个特征类,这显然是不对的,但是我们发现Pclass=1st/2nd/3rd本质上就属于'Pclass',所以就简化成4个特征维度了

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数学建模--决策树的预测模型的Python实现 的相关文章

随机推荐

  • Vue组件通信方式(8种)

    1 一图认清组件关系名词 父子关系 A与B A与C B与D C与E 兄弟关系 B与C 隔代关系 A与D A与E 非直系亲属 D与E 总结为三大类 父子组件之间通信 兄弟组件之间通信 跨级通信 2 8种通信方式及使用总结 props emit
  • Wireshark—网络分析工具

    Wireshark介绍 WireShark是非常流行的网络封包分析工具 可以截取各种网络数据包 并显示数据包详细信息 常用于开发测试过程中各种问题定位 WireShark软件安装 软件下载路径 wireshark官网 按照系统版本选择下载
  • 电子设计大赛应该准备什么

    电赛的准备 电子设计大赛应该准备什么 基 础 知 识 储 备 基本材料的准备 必 备 技 能 项 目 训 练 Wish 总结 电子设计大赛应该准备什么 2021年的电子设计大赛就要来了 小伙伴是否已经开始紧张的装备呢 下面进入正题 想参加比
  • 记录一次笔试题(R语言)

    记录一次笔试题 R语言 data lt read csv 银行 csv 1 取出李姓 法1 record xingshi c FALSE FALSE FALSE FALSE for i in 1 4 if substring data i
  • mybatis将时间存入数据库后,只有日期,时分秒全是0

    问题原因分析 a 数据库字段类型问题 mysql数据库中 date 为年月日 time为时分秒 datetime为年月日时分秒 pgsql数据库中 Date为年月日 timestamp为年月日时分秒 b mybatis中jdbcType c
  • 【数据分析】数据分析方法(四):多维度拆解分析 & 对比分析

    数据分析方法 四 多维度拆解分析 对比分析 1 多维度拆解分析方法 对于多维度拆解分析方法 要理解两个关键词 维度 拆解 只看数据整体 我们可能注意不到数据内部各个部分构成的差异 如果忽略这种差异进行比较 就有可能导致无法察觉该差异所造成的
  • 冒泡排序,快速排序详解及C++代码详细实现

    冒泡排序 冒泡排序的基本思想是 从后往前 或从前往后 两两比较相邻元素的值 若为逆序 即A i 1 gt A i 则交换它们 直到序列比较完 我们称它为第一趟冒泡 结果是将最小的元素交换到待排序列的第一个位置 或将最大的元素交换到待排序列的
  • CubeMX 5.5 修改HAL库库函数版本

    最初我是按照软件推荐 自动按安装的1 15的 为了和正点原子的例程统一库函数版本 就下载了1 11 但是在工程配置界面始终没有办法修改hal库版本的选择 关闭CubeMX 使用记事本打开工程文件 修改版本号 重新打开工程 库版本修改成功 工
  • Linux学习基础操作和文件管理命令

    Linux学习基础操作和文件管理命令 1 如何解决系统图形出现问题 1 ctrl alt f2 f6 gt gt gt 进入虚拟控制台 ctrl alt f1 gt gt gt 返回图形 2 登陆系统获得root权限 执行init 3 lo
  • 关于富文本编辑图片移动端太大溢出,太小正常处理

    在使用富文本编辑完文章 生成html字符串后 直接给移动端使用 如果图片太大 会出现溢出 图片太小没有问题 如果简单粗暴给全局样式img添加width 100 是可以解决溢出问题 但又造成了一个新的问题 就是小图片之前没有溢出也都变成了10
  • No Feign Client for loadBalancing defined. Didyou forget to include spring-cloud-starter-loadbalance

    Unexpected exception during bean creation nested exception is java lang IllegalStateException No Feign Client for loadBa
  • 解决idea不能搜索任何插件

    解决idea不能搜索任何插件 解决idea不能搜索任何插件
  • 持续集成/技术交付全流程流水线工具的设计与落地

    文章目录 持续集成 技术交付全流程流水线工具的设计与落地 概述 工具架构设计 主要功能模块 代码库 Jenkins 流水线 代码构建 自动化测试 产品部署 监控报警 使用方法 步骤一 安装 Jenkins 步骤二 创建 Jenkins 流水
  • 汇编语言(王爽第三版)实验十七

    实验十七 这道题我也不知道写的对不对 逻辑上应该没啥问题 但是运行起来好像没效果 题目和个人思路 安装一个新的int 7ch中断例程 实现通过逻辑扇区号对软盘进行读写 参数说明 1 用ah寄存器传递功能号 0表示读 1表示写 2 用dx寄存
  • vue中下载文件导出保存到本地

    vue中下载文件导出保存到本地 先分析如何下载 先有一个链接地址 然后使用 location href或window open 下载到本地 看看返回数据 res config url 中是下载链接地址 res data 中是返回的二进制数据
  • 结构体指针变量使用方法举例

    include
  • 报表设计

    最近在做任务报表方面的工作 之前一直以为查询和报表是一样东西 虽说 报表是查询的一种展示模式 但是做分析时 还是应该将以区别 报表 多样的格式 动态的数据 报表是我们想要数据展示的一种形态 就像是各种图表 例如 你想查询小明的名字 查询可以
  • 使用Nginx实现多个网站代理[多端口监听][django][资源服务器]

    使用Nginx实现多个网站代理 导航 原文链接 使用Nginx实现多个网站代理 导言 nginx是网站开发后期一个不可缺少的应用 nginx的作用是 请求代理 监听请求并转发给对应端口的进程处理 资源代理 使用nginx直接将服务器资源共享
  • IntelliJ IDEA部署tomcat时出现No artifacts marked for deployment

    这种错误主要是因为没有设置导出包 解决方法 File gt Project Structure gt Artifacts 然后点击ok 然后记得apply ok 此时再回到问题所在 点击Fix即可 或者如下 启动 打开浏览器复制下面网址 h
  • 数学建模--决策树的预测模型的Python实现

    目录 1 算法流程简介 2 算法核心代码 3 算法效果展示 1 算法流程简介 决策树的应用 对泰坦尼克号数据集成员进行预测生死 算法流程还是比较简单的 简单学习一下决策树跟着注释写即可 文章参考 https zhuanlan zhihu c