本篇文章将会介绍用Python分析银行定期存款产品目标客户的确定详细建模细节,业务框架分析以及模型的选择与评估分析参见上一篇文章:
银行定期存款产品目标客户的确定——基于逻辑回归(建模前分析)
1.导入各种模块并读取数据:
2.数据预处理:
维规约:在之前的分析中基于业务知识最终选定了8个协变量,1个目标变量,5072个样本用于分析,分别是:
Age:年龄;job:工作类型(行政人员,管理人员,保姆,企业家,学生,蓝领,个体户,技师,退休,服务人员,失业,未知);marital:婚姻状况(已婚,离婚,单身);education:教育水平(初等,中等,高等,未知);default:信用违约(是,否);balance:平均年收支余额;housing:住房贷款(是,否);loan:个人贷款(是,否);response:客户是否投资定期存款(是,否)。
经分析发现数据没有重复,现处理缺失值和异常值,用可视化技术进行探索性分析(此处连续变量只有两个):
可以看出对于变量age不存在异常值,对于变量balance有少数异常值,而这样的异常值是有价值的,将这两个异常值取出另存,不能删除。