XGBoost股票预测

2023-11-10

XGBoost

极端梯度提升（Extreme Gradient Boosting,XGBoost,有时候也直接叫做XGB）和GBDT类似，也会定义一个损失函数。不同于GBDT的是只会用到一阶导数信息，XGBoost会利用泰勒展开式把损失函数展开到二阶之后求导，利用了二阶导数信息，这样在训练集上的收敛就会更快

参数介绍

主要参数	解释
max_depth	数的最大深度，一般值为【3，4，5】
gamma	学习速率，决定收敛速率以及正确率
subsample	训练每棵树时所选样本占总训练集比例
colsample_bytree	训练每棵树时所选特征占据总体特征比例
n_estimators	迭代次数（树的数量）
min_child_weight	最小叶子节点样本权重和，值越大泛化能力越强

项目实战（股票风险走势预测）

方法讨论

其实针对这个问题我知道的最好办法就是用LSTM循环神经网络去处理（但是毕竟我们在讲XGBoost，所以不要在意这些细节【狗头】）

利用XGBoost处理这类时间序列问题我能想到的有两种方法

将前几天的数据作为特征集，今天的股票close列作为标签，这种方法的优点就是准确率高，但是缺点也很明显，

他只能预测未来一天。。。。。。

用当天的股票数据作为特征，当天的close列作为标签，用来训练模型（就像咱们普通的回归预测一样），然后将所有选取的特征各自建立时间序列模型，预测他们未来几天的数据，然后将该数据作为特征集，用训练好的模型predict，得到的就是咱们要预测的未来几天的数据，这个方法的优点就是能够预测未来几天的数据嘿嘿，缺点就是正确率不如前者，往后预测的天数越多，误差越大，而且非常麻烦！（这里有一段非常凄惨的故事）

因为时间有限（其实是懒【狗头】），咱们今天用第一种方法来预测（其实是因为懒【狗头保命】）

利用tushare模块导入股票数据

import tushare as ts
#选取股票代码为600000的股票从2020年1月1日到2021年10月28日的数据
data=ts.get_k_data('600000',start='2020-01-01',end='2021-10-28')
#将数据保存到指定路径（不建议像我这样路径含有中文，血的教训呜呜呜）
#这种带有日期的数据建议储存到csv格式而不是excel格式，因为会乱码
data.to_csv(r'C:\Users\74581\OneDrive - xmu\桌面\600000.csv')

得到以下部分数据

咱们先把数据读取回来

import pandas as pd
#将日期设置为index，并且转化为datatime格式（时间序列里一定要转换！！！！）
data=pd.read_csv(r'C:\Users\74581\OneDrive - xmu\桌面\600000.csv',index_col='date',parse_dates=['date'])

导入数据之后我们会发现有一列没有必要的数据，就是code（不要问我为什么* _*)，所以在这里我们先把他删掉

data=data.drop(columns='code')

排除异常值

处理完数据的基本操作之后，我们得检查异常值，看看数据方面是否出了一些问题，如果出现了1000一股的数据我们还fit进了模型里，那可就糟糕了（血的教训嘤嘤嘤）
我们可以先用describe函数直接构造

排除异常值
处理完数据的基本操作之后，我们得检查异常值，看看数据方面是否出了一些问题，如果出现了1000一股的数据我们还fit进了模型里，那可就糟糕了（血的教训嘤嘤嘤）
我们可以先用describe函数直接构造

print(data.describe().loc[['min','max','mean'],:])#其实大概检测只要看这三个数据就行啦（菜鸡看法）

得到了以上的数据，最大值和最小值好像都没有差均值太多，也没有出现负值，说明这个数据还是没有什么问题的

数据特征处理

#数据特征处理
base1=data['close']
base2=data.shift(1)
base2.columns=[f'v{j}-1' for j in range(len(data.columns))]
base3=pd.concat([base1,base2],axis=1)
for i in range(2,7):
    base4=data.shift(i)
    base4.columns=[f'v{j}-{i}' for j in range(len(data.columns))]
    base3=pd.concat([base3,base4],axis=1)
base3.dropna(inplace=True)
x=base3.drop(columns=['close'])
y=base3['close']

测试集，训练集的分割

from sklearn.preprocessing import StandardScaler‘
#数据分割
x_train,x_test=x.iloc[:int(len(x)*0.8),:],x.iloc[int(len(x)*0.8):,:]
y_train,y_test=y[:int(len(x)*0.8)],y[int(len(x)*0.8):]

特征选择

#数据特征处理
model1=XGBRegressor()
rfa=RFECV(model1,cv=5,scoring='neg_mean_absolute_error')
rfa.fit(x_train,y_train)
#特征权重数据可视化
plt.bar(x_train.columns,rfa.grid_scores_)
plt.show()

没有出现过拟合的现象，完美！

接下来选取最优特征就行啦！！

#特征选择
col_select=x_train.columns[rfa.support_]
x_train,x_test=x_train.loc[:,col_select],x_test.loc[:,col_select]

数据标准化

#数据标准化
from sklearn.preprocessing import StandardScaler
std=StandardScaler()
std.fit(x_train)
x_train_std,x_test_std=std.transform(x_train),std.transform(x_test)

模型调参

#模型调参
from sklearn.model_selection import GridSearchCV
params=dict(gamma=[0.1,0.5,0.7,0.05],min_child_weight=[1,3,5],subsample=[0.2,0.4,0.7],colsample_bytree=[0.2,0.4,0.7],n_estimators=[100,200,300],max_depth=[3,4,5])
model=GridSearchCV(XGBRegressor(),params,scoring='neg_mean_squared_error',n_jobs=5,cv=5)

模型拟合

#模型拟合
model.fit(x_train_std,y_train)
print(model.best_params_)

结果预测

#结果预测
from sklearn.metrics import mean_absolute_error
plt.plot(y_test.index,y_test,label='True')
y_pred=(model.predict(x_test_std)*0.7+model_.predict(x_test_std)*0.3)
plt.plot(y_test.index,y_pred,label='pred')
plt.title('mae:%.2f'%(mean_absolute_error(y_test,y_pred)))
gca=plt.gca()
mul=plt.MultipleLocator(45)
gca.xaxis.set_major_locator(mul)
plt.legend()
plt.show()

可以看到，在2021年7月2号左右的时候，股票数据比较平稳，模型预测情况也很理想，但是过了一段时间之后股市出现波动（我查阅了相关资料，据说是那段时间颁布了相关政策打击到了白酒行业，导致股票下跌，所以投资还是有风险呀）,出现剧烈波动之后的数据预测情况就没有那么理想了，所以时间序列分析最理想的情况就是稳定的数据，像这种股票之类不太稳定的数据，就得用到我们的LSTM模型（个人觉得ARIMA有点过时，毕竟数据准备的时间成本太高了呜呜呜）。mae大概是0.19左右，对于股票预测分析来说，已经很好了，但是，能不能再降低一点呢，我们这里用Stacking聚合一下，看看能不能把mae再降低一点

#导入模型
from sklearn.ensemble import RandomForestRegressor,GradientBoostingRegressor,StackingRegressor
model1=RandomForestRegressor()
model2=GradientBoostingRegressor()
model3=XGBRegressor()
model4=StackingRegressor([('m1',model1),('m2',model3)],cv=5,n_jobs=10)
model4.fit(x_train_std,y_train)
#结果预测
from sklearn.metrics import mean_absolute_error
plt.plot(y_test.index,y_test,label='True')
y_pred=model4.predict(x_test_std)
plt.plot(y_test.index,y_pred,label='pred')
plt.title('mae:%.2f'%(mean_absolute_error(y_test,y_pred)))
gca=plt.gca()
mul=plt.MultipleLocator(45)
gca.xaxis.set_major_locator(mul)
plt.legend()
#置信区间
import scipy.stats as st
num=np.random.normal(loc=y_test.values,scale=np.ones(len(y_test))*0.1,size=(1000,len(y_test)))
l,u=st.t.interval(0.95,len(y_test)-1,loc=np.mean(num,axis=0),scale=np.std(num,axis=0))
plt.fill_between(y_test.index,l,u,alpha=0.4,color='r')
plt.show()

可以看到，我们这里mae下降了6个百分点，说明Stacking在这里还是挺有效的，其实事实上，我们还可以通过GridSearchCV对各个进行Stacking聚合的模型进行进一步调参，但是今天时间不太够【其实是我太懒，毕竟好麻烦qwq

模型的维护和预测

因为时间序列模型需要与时俱进不断迭代数据，所以建议建立好模型之后每隔一段时间再重新给模型拟合一批数据，这个时间根据自己直觉决定（我一般是半个月重新训练一次）

再者，我们一定要保留建立模型时所选择的特征数据以及标准化数据，当我们需要调用建立的模型去预测的时候，需要先用这些数据去处理（千万不要直接上来就直接fit进模型）

这个模型只适合预测未来一天的数据，所以想多预测几天的话，咱们就要用到第二种方法（有时间我也会分享出来嘿嘿）

股市有风险，投资需谨慎。

结束

股票亏了千万不要来找我呜呜呜

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

人工智能

python

数据分析

XGBoost股票预测的相关文章

Python setuptools：如何在 setup.py 中添加私有存储库 (gitlab)？

我上传了 2 个包它们位于我的 gitlab 存储库中如果我想使用 pip 将它们安装在我的系统中这很容易因为 gitlab 可以帮助您 https docs gitlab com ee user packages pypi rep
如何将base64字符串直接解码为二进制音频格式

音频文件通过 API 发送给我们该文件是 Base64 编码的 PCM 格式我需要将其转换为 PCM 然后再转换为 WAV 进行处理我能够使用以下代码解码 gt 保存到 pcm gt 从 pcm 读取 gt 保存为 wav decod
xlrd.biffh.XLRDError：Excel xlsx 文件；不支持[重复]

这个问题在这里已经有答案了我正在尝试使用读取启用宏的 Excel 工作表pandas read excel与 xlrd 库它在本地运行良好但是当我尝试将其推送到 PCF 时我收到此错误 2020 12 11T21 09 53 441
切片稀疏（scipy）矩阵

我将不胜感激任何帮助以理解从 scipy sparse 包中切片 lil matrix A 时的以下行为实际上我想根据行和列的任意索引列表提取子矩阵当我使用这两行代码时 x1 A list 1 x2 x1 list 2 一切都很好
即使页面未完全加载，我们也可以使用 Selenium 获取页面源吗（TimeoutException: Message: timeout）？

即使遇到 TimeoutException Message timeout 也能获取页面源码吗当我调用 driver page source 时有时无法加载整页但我只需要它的部分信息尚未确定所以我只想在任何情况下保存页面是否可以
JavaScript 相当于 Python 的参数化 string.format() 函数

这是 Python 示例 gt gt gt Coordinates latitude longitude format latitude 37 24N longitude 115 81W Coordinates 37 24N 115 81W
Kivy - 文本换行工作错误

我正在尝试在 Kivy 1 8 0 应用程序中换行文本当没有太多文字时一切正常但如果文本很长并且窗口不是很大它只是剪切文本这是示例代码 vbox BoxLayout orientation vertical size hint y
希伯来语中的稀疏句子标记化错误

尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
为什么我的代码不能根据字典解码加密字符串？

我有一本字典其中包含代表字母的键和值例如一个简单的 DICT CODE b g n a p o x d t y 我收到了一个加密代码并将该字符串转换为一个列表其中每个项目都是一个单词我需要根据字典中的项目来解决它代码示例是 wo
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
如何在 Python 3 中循环遍历集合，同时从集合中删除项目

这是我的情况我有一个list set 哪个并不重要 movieplayer我想调用的对象 preload 功能开启该预加载函数可以立即返回但希望将来返回一点我想存储这个电影播放器集合表明它们尚未预加载然后循环它们调用prel
Python Pandas 根据另一列的总计从另一个数据帧中选择值

我下面有一个 DataFrame 但我需要根据取消和订单列从每个代码中选择行假设代码 xxx 的阶数为 6 1 5 1 阶数为 11 我需要一种算法可以选择满足总共 11 行的行阶数为 6 5 如果没有行匹配则选择最接近的 id 并
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
与 while 循环一样，如何跳过 for 循环中的步骤？

我尝试像 while 循环一样跳过 for 循环中的几个步骤在 while 循环中步骤根据特定条件进行调整如下面的代码所示 i 0 while i lt 10 if i 3 i 5 else print i i i 1 result
乘以行并按单元格值附加到数据框

考虑以下数据框 df pd DataFrame X a b c d Y a b d e Z a b c d 1 2 1 3 df 我想在列中附加数字大于 1 的行并在该行中的数字减 1 df 最好应该然后看起来像这样或者它可能看起来
由于 json 字符串化 dict 键导致数据丢失

考虑下面的例子 gt gt gt import json gt gt gt d 0 potato 0 spud gt gt gt json dumps d 0 potato 0 spud gt gt gt json loads json d
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
在 Django shell 会话期间获取 SQL 查询计数

有没有办法打印 Django ORM 在 Django shell 会话期间执行的原始 SQL 查询的数量 Django 调试工具栏已经提供了此类信息例如 5 QUERIES in 5 83MS但如何从 shell 中获取它并不明显您可
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro
缓存 Flask-登录 user_loader

我有这个 login manager user loader def load user id None return User query get id 在我引入 Flask Principal 之前它运行得很好 identity loa

随机推荐

合宙Air724UG LuatOS-Air LVGL API控件--按钮 (Button)

按钮 Button 按钮控件这个就不用多说了界面的基础控件之一示例代码按键回调函数 event handler function obj event if event lvgl EVENT CLICKED then print Cl
执行Shell脚本的4种方法

假设我们编写好的shell脚本的文件名为hello sh 文件位置在 root bin目录中并已有执行权限添加权限的方法 chmod x hello sh 1 方法一切换到shell脚本所在的目录此时称为工作目录执行shell脚本
anaconda代码

因为老是不记得代码要找来找去的索性自己写一下怕忘记 windos conda info envs 查看本机所有的虚拟环境 conda remove n 你自己的环境的名字 all 删除虚拟环境 conda create n 自己想取的名
linux网络服务network没了,Linux网络服务（network service）管理

Linux操作系统中重新启动网络的方法网页链接 https ywnz com linux 4463 html 1 网络管理员服务这是使用命令行重新启动网络的最简单方法它等同于图形化方式重新启动Network Manager服务 su
Unity2D修改Sprite颜色和透明度

Unity2D修改Sprite颜色和透明度简单注意原理在前边后面是实现方法首先创建一个Sprite 最好选择纯白色的Sprite 选择的图片需要是白色的才会在修改颜色后有明显的显示因为颜色修改后它的最终显示是本来的图片的颜色与修改
QT 信号和槽

信号和槽是一种高级接口应用于对象之间的通信它是 QT 的核心特性要正确的处理信号和槽必须借助一个称为 moc Meta Object Compiler 的 QT 工具该工具是一个 C 预处理程序它为高层次的事件处理自动生成所需要
解决bug“ImportError: numpy.core.multiarray failed to import”

解决bug ImportError numpy core multiarray failed to import 在这之前升级scikit image从老版本0 13 0到0 17 2 但运行pycharm工程出现如下bug from fi
msys2 安装 mingw64

https blog csdn net zhuwade article details 121944279
vue+element 图片右上角添加删除小×、按钮预览图片

思维方法这个问题实际就是一个思维方式的问题我最开始思考的就很复杂后来我同事给出的解决方法就好方法是在判断有图片的时候在图片的右上角加上一个小的图片在这个图片上加方法点击就把图片清空所以有的时候一件事情不能想的太复杂代
pytorch源码分析之torch.utils.data.Dataset类和torch.utils.data.DataLoader类

写在之前介绍 Pytorch深度学习框架优势之一是python优先源代码由python代码层和C语言代码层组成一般只需要理解python代码层就可以深入理解pytorch框架的计算原理所以学习pytorch源码需要熟练掌握pytho
使用Eclipse编译带jni工程时出现make: *** No rule to make target `all'. Stop.解决办法

使用Eclipse编译带jni工程时出现make No rule to make target all Stop 解决办法在引用第三方开发的用eclipse开发jni 总是出现如题所示的异常如下图所示出现如上的错误具体操作如下 1
函数式编程总结

函数式编程总结一定义简单说函数式编程是一种编程范式 programming paradigm 也就是如何编写程序的方法论它属于结构化编程的一种主要思想是把运算过程尽量写成一系列嵌套的函数调用举例来说现在有这样一个数学
APNS编程----iOS真机测试消息推送

一准备工作 1 拥有一台iOS为操作系统的苹果设备 iPhone iPad iPod都可以 2 拥有苹果开发者账号需要真机调试最好是是付费开发者后面的步骤将会更顺利 3 需要一台PC做推送服务器如果是台拥有MAC OS系统将会更
Eclipse语言包下载

Eclipse语言包下载
PAT 甲级（Python） #1033 To Fill or Not to Fill (25 分)贪心算法和分治法的python实现

1033 To Fill or Not to Fill 25 分 KY155 To Fill or Not to Fill 分治法求解不完善 include
Convolutional Pose Machine总结

Convolutional Pose Machine总结目录文章目录目录 Convolutional Pose Machine简介算法详细分析算法流程训练阶段使用阶段创新点数据集效果展示参考资料博客 github C
Centos7 安装vm tools 工具 (命令行版本）

一准备工作 1 菜单栏安装VMware Tools 点击VMware菜单栏虚拟机选择安装VMware Tools 如果安装了早期版本的VMware Tools 则菜单项为更新VMware Tools 2 装载CD ROM 查看虚
CentOS 安装redis及nginx报错：./configure: error: can not define uint32_t（yum及gcc都已安装）

错误截图如下解决方案如下安装kernel headers yum install kernel headers kernel devel gcc make y
Git仓库代码迁移

Git仓库代码迁移前言本文建立在已有 git 仓库地址存在的情况下将当前 gitLab 仓库的代码迁移到另一个 gitLab 仓库中或有其他更加简洁的方案由于时间仓促并未过多研究还望大佬指点以下操作如有不当望指正步骤新
XGBoost股票预测

XGBoost 极端梯度提升 Extreme Gradient Boosting XGBoost 有时候也直接叫做XGB 和GBDT类似也会定义一个损失函数不同于GBDT的是只会用到一阶导数信息 XGBoost会利用泰勒展开式把损失函数

XGBoost股票预测

XGBoost

参数介绍

项目实战（股票风险走势预测）

方法讨论

利用tushare模块导入股票数据

排除异常值

排除异常值

数据特征处理

测试集，训练集的分割

特征选择

数据标准化

模型调参

模型拟合

结果预测

模型的维护和预测

结束

XGBoost股票预测 的相关文章

随机推荐

热门标签

XGBoost股票预测的相关文章