4 10 财政收入影响因素分析及预测模型
10.1背景与挖掘目标
本案例通过研究发现影响目前以及未来地方财源建设的因素,并对其进行深入分析,提出对该市地方财源优化的具体建议,供政府决策参考,同时为其他发展较快的城市提供借鉴。本案例对1994-2013年财政收入以及相关因素的数据,数据来自统计年鉴。
目标:
(1) 梳理影响地方财政收入的关键特征,分析识别影响地方财政收入的关键特征的选择模型
(2) 结合(1)的分析,对某市2015年财政总收入以及各个类别收入进行预测。
10.2分析方法与过程
本案例在已有的研究基础上运用Adaptive-Lasso变量选择方法来研究影响地方财政收入的因素。
Lasso是在1996年提出的将参数估计与变量选择同时进行的一种正则化方法,参数估计被定义为如下:
10.2.1 灰色预测与神经网络的组合模型
在Lasso变量的选择基础上,鉴于灰色预测对小数据量数据预测的优良性能,对单个选定的因素建立灰色预测模型,得到他们在2014-2015年的预测值,由于神经网络较强的适应性和容错能力,对历史数据建立训练模型,把灰色预测的结果带入训练好的模型中,就得到了充分考虑历史信息的预测结果,即2015年某市财政收入及各个类别收入
主要步骤如下:
(1) 对数据进行预处理
(2) 将预处理好的数据,建立Lasso变量选择模型
(3) 在(2)的基础上建立单变量的灰色预测模型,以及人工神经网络预测模型
(4) 在(3)的预测值带入建立好的人工神经网络模型中,从而得到2014、2015年某市财政收入以及各类别收入的预测值。
10.2.2数据探索分析
影响财政收入(y)的因素很多,经查阅资料选以下因素为自变量
社会从业人数(x1)
在岗职工工资总额(x2)
社会消费品零售总额(x3)
城镇居民人均可支配收入(x4)
城镇居民人均消费性支出(x5)
年末总人口(x6)
全社会固定资产投入(x7)
地区生产总值(x8)
第一产业产值(x9)
税收(x10)
居民消费价格指数(x11)
第三产业与第二产业产值比(x12)
居民消费水平(x13)
10.2.2.1描述性分析
我们要对数据有个大体认识,要对其进行简单的描述性统计分析
# encoding=utf-8
#描述性分析
import pandas as pd
import numpy as np
inputfile='demo/data/data1.csv'
outputfile='demo/tmp/datagaikuo.csv'
data=pd.read_csv(inputfile)
r=[data.min(),data.max(),data.mean(),data.std()]#依次计算最小值、最大值、均值、标准差
r=pd.DataFrame(r,index=['MIN','MAX','MEAN', 'STD']).T
np.round(r,