泰迪杯挑战赛优秀论文-A题-基于数据挖掘的上市公司高送转预测

2023-11-19

第 1 章绪论

1.1问题背景
1.2问题重述
1.3本文主要工作与创新点
1.4模型假设
1.5本文研究意义

第 2 章相关理论

2.1高送转相关知识介绍
2.1.1高送转的实质
2.1.2预测下一年上市公司高送转的一些其他条件
2.2机器学习算法介绍
2.2.1LogisticRegressor
2.2.2RandomForestClassifier
2.2.3 SVM
2.2.4XGBoost
2.2.5LightGBM
2.2.6CATBoost

第 3 章数据预处理及因子筛选

3.1数据的选取
3.2特征创造及转换
3.3特殊数据的处理
3.3.1异常值的处理
3.3.2缺失值的处理
3.3.2 分类型特征的处理

3.4 数据合并
3.5 特征选择
3.5.1Filter 过滤法
3.5.2基于 LinearSVC 算法的嵌入法

第 4 章基于机器学习模型的问题一研究

4.1模型的构建
4.1.1测试集、训练集的划分
4.1.2数据标准化
4.1.3模型评价指标
4.2模型参数调优与模型重要特征
4.2.1参数调优概念及方法
4.2.2各个模型参数调优
4.3确定对决策影响较大的因子

第 5 章基于多种算法问题二的研究

5.1基于模型融合的预测模型构造
5.1.1 模型选择
5.1.2模型融合的介绍
5.1.3模型融合过程
5.2基于融合模型的预测第八年的决策结果

第 6 章总结

参考文献
附录

第1章绪论

1.1问题背景

近年来，我国上市公司频繁实施“高送转”股利分配政策，市场反应强烈，虽然＂高送转＂概念往往与市场炒作联系，但机构、投资者以及广大散户对此趋之若鹜并且逐渐成为我国股市市场在股利分配政策方面的一种特色。

因为实施高送转后股价将做除权处理，投资者可以通过填权行情从二级市场的股票增值中获利。很多股票在公布派送预案的第二天直接涨停，而等除权后再买入可能会面临很大的回撤风险。如果我们能准确用某一年的股票相关数据预测下一年可能实施高送转的上市公司并提前买入，这对我们投资的安全性具有很大的现实意义。

经过研究，影响上市公司实施高送转的因子主要有两类：一是基本因子，包括股价、总股本、上市年限等；二是成长因子，包括每股未分配利润、每股资本公积、每股现金流、每股收益等。除此之外，还有其他因子需要研究者去挖掘。

1.2问题重述

（1）针对 3466 支股票年数据、日数据和基础数据中给出的因子数据，根据因子自身经济学意义以及数理统计方法，筛选出对上市公司实施高送转方案有较大影响的因子。

（2）利用问题 1 中确定的因子建立模型来预测哪些上市公司可能会实施高送转，并对提供的数据，用所建立模型来预测第 8 年上市公司实施年高送转的情况。

1.3本文主要工作与创新点

（1）对数据的预处理

对年数据而言，添加了重要特征因子：本年是否进行高送转；设定因变量为：下一年是否高送转。
对日数据而言，日数据中某些因子的变化趋势会对上市公司是否会实施高送转有影响。因此先对日数据按股票编号和年份分组求因子数据的年平均值，并计算数据中“开盘价”，“最高价”，“最低价”，“收盘价”，“成交价”，“成交量”这 6 个特征因子的上下半年分别的变异系数，表示其变化趋势。
对基础数据而言，大量资料表现股票是否是小盘、是否为次新股、是否为国

企等特征对上市公司是否会实施高送转有重要影响，在已给特征的基础上将特征因子“所属概念板块”转换为“所属概念板块个数”、“是否为次新股”、“是否为国企”、“是否为小盘”。

（2）通过数据分析筛选对上市公司实施高送转方案有较大影响的因子

本文将特征工程筛选后的因子数据，根据机器学习算法 XGBoost、CATBoost和 lightGBM 算法中特征重要性的数值得出特征因子的重要性为前 20 的因子。

（3）机器学习算法分类预测下一年是否高送转

本文对问题一中特征工程后确定的因子，使用六种不同类型的机器学习算法去预测下一年哪些上市公司可能会实施高送转，基于AUC指标与

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)