Python量化交易实战：获取股票数据并做分析处理

2023-05-16

量化交易（也称自动化交易）是一种应用数学模型帮助投资者进行判断，并且根据计算机程序发送的指令进行交易的投资方式，它极大地减少了投资者情绪波动的影响。量化交易的主要优势如下：

快速检测
客观、理性
自动化

量化交易的核心是筛选策略，策略也是依靠数学或物理模型来创造，把数学语言变成计算机语言。量化交易的流程是从数据的获取到数据的分析、处理。

数据获取

数据分析工作的第一步就是获取数据，也就是数据采集。获取数据的方式有很多，一般来讲，数据来源主要分为两大类：外部来源（外部购买、网络爬取、免费开源数据等）和内部来源（自己企业销售数据、财务数据等）。

因为我们不生产数据，所以只能从外部获取数据。其获取途径是第三方开源库tushare。

使用 tushare 获取历史股票数据

tushare 是一个免费、开源的Python 财经数据接口包。其主要实现对股票等金融数据从数据采集、清洗加工到数据存储的过程，能够为金融分析人员提供快速、整洁和多样的便于分析的数据，以减轻他们在数据获取方面的工作量。

安装 tushare 库，在 Jupter Notebook 下输入以下命令：


%pip install tushare

重启kernel，然后输入以下命令。


import tushare
print("tushare版本号{}".format(tushare.__version__))


tushare版本号1.2.85

获取个股历史交易数据（包括均线数据），用户可以通过参数设置获取日K线、周K线、月K线，以及5分钟、15 分钟、30 分钟和 60分钟K线数据。本接口只能获取近3年的日线数据，适合搭配均线数据进行选股和分析。Python 代码如下：


import  tushare  as  ts
ts.get_hist_data('000001') #一次性获取全部日k线数据
'''
参数说明：
code：股票代码，即6位数字代码，或者指数代码（sh=上证指数 sz=深圳成指 hs300=沪深300指数 sz50=上证50 zxb=中小板 cyb=创业板）
start：开始日期，格式YYYY-MM-DD
end：结束日期，格式YYYY-MM-DD
ktype：数据类型，D=日k线 W=周 M=月 5=5分钟 15=15分钟 30=30分钟 60=60分钟，默认为D
retry_count：当网络异常后重试次数，默认为3
pause:重试时停顿秒数，默认为0
例如：
ts.get_hist_data('000001', ktype='W') #获取周k线数据
ts.get_hist_data('000001', ktype='M') #获取月k线数据
ts.get_hist_data('000001', ktype='5') #获取5分钟k线数据
ts.get_hist_data('000001', ktype='15') #获取15分钟k线数据
ts.get_hist_data('000001', ktype='30') #获取30分钟k线数据
ts.get_hist_data('000001', ktype='60') #获取60分钟k线数据
ts.get_hist_data('sh'）#获取上证指数k线数据
ts.get_hist_data('sz'）#获取深圳成指k线数据
ts.get_hist_data('hs300'）#获取沪深300指数k线数据
ts.get_hist_data('000001',start='2021-01-01',end='2021-03-20') #获取”000001”从2021-01-01到2021-03-20的k线数据
'''

返回值说明如下。

date: 日期；
open：开盘价；
high：最高价；
close：收盘价；
low：最低价；
volume：成交量；
price_ change：价格变动；
pchange：涨跌幅；
mas：5日均价；
ma10：10 日均价；
ma20：20日均价；
v_mas：5日均量；
v_ma10: 10日均量；
v_ma20：20日均量；

turnover：换手率（注：指数无此项）。

使用 tushare 获取所有股票即时数据

个股历史交易数据属于延迟数据。面对即时变动的价格数据，我们可以使用更加便捷的当日实时行情，以便在Python 量化中快速把握行情，选择出当目符合条件的优秀股票。

下面使用第三方库 tushare 中的 get_today_all() 两数获取所有股票的即时数据（如果是节假日，即为上一交易日）。代码如下：


import  tushare  as  ts
ts.get_today_all()

数据的获取是数据研究的根本。一个快速、准确而稳定的 API会极大缩短个人获取数据的时间，从而将研究者的精力更多地投入数据处理与建模中。tushare 库也是笔者获取数据的主要方式之它为量化工作提供了稳定而强大的数据来源，从而使数据的采集简单地使用一行代码就可以实现。

数据预处理

无论是量化策略还是单纯的机器学习项目，数据预处理都是非常重要的一环。从量化学习的视角来看，数据预处理主要包括数据清洗、排序、缺失值或异常值处理、统计量分析、相关性分析和主成分分析（PCA)等。

因为先前本书采集的都是规整股票数据，因此本章要介绍的数据预处理就是预先剔除掉不符合条件的股票数据，然后对剩余股票进行优化筛选。本章主要使用的是 Pandas 库，读者应该着重理解筛选思路。

清洗掉 ST 股票

ST 股票通常表示对财务状况或其他状况出现异常的上市公司股票，对其交易要进行特别处理(Special Treatment)。由于“特别处理”，在简称前冠以 ST，因此这类股票称为 ST 股。

哪支股票的名称前加上 ST，就是给市场一个警示，该股票存在投资风险，起警告作用，但这种股票风险大，收益也大，如果加上*ST，就表示该股票有退市风险，要警惕的意思，具体就是在 2021年4 月左右，如果公司向证监会交的财务报表连续了年亏损，就有退市的风险。股票的交易规则也由报价日涨跌幅限制为涨幅 5%、跌幅 5%。

我们要回避这类“地雷股”（ST 股票），因而可以使用如下代码来清洗掉 ST 股票。


import tushare  as  ts
csv_data=ts.get_today_all()
csv_data[~csv_data.name.str.contains('ST')]

我们对 csv_data 的 name 列进行操作，筛选出包含 ST 字母的行，并对整个 DataFrame 取反，进而筛选出不含 ST 股票的行。经过观察，我们发现在运行结果中没有 ST 股票，实现了数据的初步清洗。

清洗掉没成交量的股票

首先要明确定义，什么是没有成交量的股票。没有成交量不是成交量为零，而是一支股票单位时间的成交量不活跃。成交量是反映股市上人气聚散的一面镜子。人气旺盛、买卖踊跃，成交量自然放大：相反人气低迷、买卖不活跃，成交量必定萎缩。成交量是观察庄家大户动态的有效途径。

下面开始清洗没成交量的股票，在原来的基础上增加代码如下：


import tushare  as  ts
csv_data=ts.get_today_all()
csv_data=csv_data[~csv_data.name.str.contains('ST')]
csv_data[csv_data["volume"]>15000000]#15万手

在以上代码中，我们对 csv_data 的 volume 列进行操作。15 万手是过滤掉不活跃、没成交量的股票，主要以小盘股居多。

其运行结果为：

Index 出现了调行现象，即为去掉成交量小手 15 万手的股票。

清洗掉成交额过小的股票

成交额是成交价格与成交数量的乘积，它是指当天已成交股票的金额总数。成交最的至少取决于市场的投资热情。我们每天看大盘，一个重要的指标就是大 A 股成交量是否超过一万亿元，超过即为成交活跃。

筛选成交额超过 1 亿元的股票，代码如下：


import tushare  as  ts
csv_data=ts.get_today_all()
csv_data=csv_data[~csv_data.name.str.contains('ST')]
csv_data=csv_data[csv_data["volume"]>15000000]#15万手
csv_data["amount"]=round(csv_data["amount"]/100000000,2)#一亿，保留2位
csv_data[(csv_data["amount"]>1)]

筛选股票的数量没有锐减，这是因为成交额-成交价格×成交量。有些股票价格低，成交量巨大，乘积刚刚超过 1亿元；有些股票价格高，成交量相对小一些，乘积仍然超过1亿元。同成交额，2元股票相对于 20 元与 200 元股票，其成交量相差10 倍到 100 倍之多。同成交量，有些股票成交额为 100 亿元，相对于成交额仅有 1亿元的股票，也有百倍之多。

用户可以对 1亿元这个参数进行调参，不过笔者不是特别支持。因为将成交额变大即是对大盘股产生偏重，而前面成交量的筛选也己经对大盘股的成交量进行了偏重筛选，这样双重筛选下来，就会全部变成大盘股，数据偏置严重，没有合理性。预处理的思想也是先将数据进行简单的筛选。笔者认为后期的策略相对于这里的调参更为重要，策略是日后交易的核心。

清洗掉换手率低的股票

换手率=某一段时期内的成交量/流通总股数×100% 。一般情况下，大多数股票每日换手率在1%~2.5%之间（不包括初上市的股票）。70%股票的换手率基本在 3%以下，3%就成为一种分界。

当一支股票的换手率在 3%~7%之间时，该股进入相对活跃状态。当换手率在 7%~10%之间时，则为强势股的出现，股价处于高度活跃中。

筛选换手率超过3的股票，代码如下：


import  tushare  as  ts
csv_data=ts.get_today_all()
csv_data=csv_data[~csv_data.name.str.contains('ST')]
csv_data=csv_data[csv_data["volume"]>15000000]#15万手
csv_data["amount"]=round(csv_data["amount"]/100000000,2)#一亿，保留2位
csv_data=csv_data[(csv_data["amount"]>1)]
csv_data["liutongliang"]=csv_data["nmc"]/csv_data["trade"]#增加流通盘的列
csv_data["turnoverratio"]=round(csv_data["turnoverratio"],2)#换手率保留2位
csv_data[csv_data["turnoverratio"]>3]

筛选股票的数量减半。换手率低于 3%当然也有不错的股票，但是根据正态分布，我们不选取小概率事件。选择换手率较好的股票，意味着该文股票的交投越活跃，人们购买该支股票的意愿越高，该股票属于热门股。

换手率商一般意味股票流通性好，进出市场比较容易，不会出现想买买不到、想卖卖不出的现象，具有我较强的变现能力。然而值得注意的是，换手率较高的股票，往往也是短线资金追逐的对象，投机性较强，股价起伏较大，风险也相对较大。

将换手率降序排列并保存数据

换手率是最重要的一个指标，所以将筛选出来的股票换手率进行降序排列并保存，以备日后取证与研究。

将序排列用 sort_values() 两数，保存用 to_csv() 函数。这两个函数都很常用，也比较简单。代码如下：


import tushare as ts
def today_data():
    csv_data=ts.get_today_all()
    csv_data=csv_data[~csv_data.name.str.contains('ST')]
    csv_data=csv_data[csv_data["volume"]>15000000]#15万手
    csv_data["amount"]=round(csv_data["amount"]/100000000,2)#一亿，保留2位
    csv_data=csv_data[(csv_data["amount"]>1)]
    csv_data["liutongliang"]=csv_data["nmc"]/csv_data["trade"]#增加流通盘的列
    csv_data["turnoverratio"]=round(csv_data["turnoverratio"],2)#换手率保留2位
    csv_data=csv_data[csv_data["turnoverratio"]>3]
    csv_data=csv_data.sort_values(by="turnoverratio", ascending=False)
  return csv_data

经过一系列的数据清洗与筛选，选择出符合要求的股票数据并保存到 Jupter Notebook 中。我们将上述代码进行函数化处理，并命名为 get_data.py。

以后，只要运行如下代码，就会将得到的 csv_data 显示出来：


import get_data
get_data.today_data()

模块化后，将去掉大量重复代码，重加专注一个功能，也会增强代码的可读性。

感谢大家的支持~

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python量化交易实战：获取股票数据并做分析处理的相关文章

如何在 Debian 上的 virtualenv 中安装 numpy？

注参见这另一篇文章 https stackoverflow com questions 6442754 how to install h5py numpylibhdf5 as non root on a debian linux syst
Flask 中“缺少 CSRF 令牌”，但它在模板中呈现

问题当我尝试登录使用 Flask login 时我得到Bad Request The CSRF session token is missing但令牌正在呈现在模板中 secret key 已设置并且我在本地运行localhost
Matplotlib 图例，跨列添加项目而不是向下添加项目

对于下面的简单绘图有没有办法让 matplotlib 填充图例以便它从左到右填充行而不是第一列然后第二列 gt gt gt from pylab import gt gt gt x arange 2 pi 2 pi 0 1 gt gt
类型错误：“datetime.datetime”和“str”的实例之间不支持“>”

我是 python 日期和时间类型的新手我有一个日期值 date 2018 11 10 10 55 31 00 00 我需要检查该日期值是否超过 90 天我试过 from datetime import datetime from da
如何在Windows中的Python 3.9下pip安装pickle？

我需要pickle https docs python org 3 9 library pickle html module pickle包安装在我的下面Python 3 9在 Windows 10 下我尝试过的当尝试与pip inst
django 模板 - 如何动态访问变量？

假设我有一个具有以下上下文的 django 模板 data1 this is data1 data2 this is data2 data name data2 现在我知道了data name 假设它是 data2 是否可以用它来访问变量d
查找正在导入哪些 python 模块

从应用程序中使用的特定包中查找所有 python 模块的简单方法是什么 sys modules是将模块名称映射到模块的字典您可以检查其键以查看导入的模块 See http docs python org library sys html
App Engine NDB：如何访问属性的 verbose_name

假设我有这个代码 class A ndb Model prop ndb StringProperty verbose name Something m A m prop a string value 当然现在如果我打印 m prop 它会
Python - Unicode 到 ASCII 的转换

我无法在不丢失数据的情况下将以下 Unicode 转换为 ASCII u ABRA xc3O JOS xc9 I tried encode and decode他们不会这么做有人有建议吗 Unicode 字符u xce0 and u xc
为什么 re.findall 在查找字符串中的三元组项时不具体。 Python

所以我有四行代码 seq ATGGAAGTTGGATGAAAGTGGAGGTAAAGAGAAGACGTTTGA OR 0 re findall r ATG 9 TAA TAG TGA seq 首先让我解释一下我正在尝试做什么如果这令人困惑
正在使用 PIL 保存损坏的图像

我遇到一个问题操作图像像素导致保存损坏的图像因此我使用 PIL 打开图像然后将其转换为 NumPy 数组 image Image open myimage png np image np asarray image 然后我转置图像
在 Linux 上使用多处理时，TKinter 窗口不会出现

我想生成另一个进程来异步显示错误消息同时应用程序的其余部分继续我正在使用multiprocessingPython 2 6 中的模块来创建进程我试图用以下命令显示窗口TKinter 这段代码在Windows上运行良好但在Linux上
将 window.location 传递给 Flask url_for

我正在使用 python 在我的页面上当匿名用户转到登录页面时我想将一个变量传递到后端以便它指示用户来自哪里发送 URL 因此当用户单击此锚链接时 a href Sign in a 我想发送用户当前所在页面的当前 URL
如何用正则表达式替换多个匹配/组？

通常我们会编写以下内容来替换一场比赛 namesRegex re compile r is life re I replaced namesRegex sub r butter There is no life in the void pr
为什么将模块级代码放入函数中然后调用该函数在Python中速度更快？

在亚历克斯马尔泰利的回应中使 Python 脚本面向对象 https stackoverflow com questions 1813117 making a python script object oriented 他提到在 Pyth
Python 属性和 Swig

我正在尝试使用 swig 为一些 C 代码创建 python 绑定我似乎遇到了一个问题试图从我拥有的一些访问器函数创建 python 属性方法如下 class Player public void entity Entity enti
Django 2、python 3.4 无法解码 urlsafe_base64_decode(uidb64)

我正在尝试通过电子邮件激活用户电子邮件有效编码有效我使用了 django1 11 中的方法该方法运行成功在 Django 1 11 中以下内容成功解码为 28 其中 uidb64 b Mjg force text urlsafe
无需访问 Internet 即可部署 Django 的简单方法？

我拥有的是使用 Django 开发的 Intranet 站点的开发版本以及放置在 virtualenv 中的一些外部库它运行良好我可以在任何具有互联网连接的计算机上使用相同的参数使用 pip 轻松设置 virtualenv 但是不幸
Python 读取未格式化的直接访问 Fortran 90 给出不正确的输出

这是数据的写入方式它是一个二维浮点矩阵我不确定大小 open unit 51 file rmsd nn output form unformatted access direct status replace recl Npoints
两种 ODE 求解器之间的差异

我想知道两者之间有什么区别ODEINT and solve ivp用于求解微分方程它们之间有什么优点和缺点 f1 solve ivp f 0 1 y0 y0 is the initial point f2 odeint f y0 0 1

随机推荐

Invalid ＜param＞ tag: Cannot load command parameter [robot_description]: command [[‘/opt/ros/noetic/l

Ubuntu20 04 运行LIO SAM遇到这个错误 xff0c 一直解决不掉 xff0c 好像是xacro文件的问题 xff0c 有大佬帮忙看一下吗 xff1f 求求了
MDK5 Debug调试方法总结

常见的Debug方法连接好硬件DAP之后 xff0c 需要进行一些设置 Debug调试按钮分别对应的功能按钮1 gt reset复位按钮按钮2 gt run按钮 xff0c 程序运行按钮按钮3 gt stop按钮 xff0c 程序停
51单片机（DHT11温湿度传感器）

一产品介绍 1 运用场景 xff08 温湿度检测系统 xff09 DHT11数字温湿度传感器是一款含有已校准数字信号输出的温湿度复合传感器 xff0c 应用领域 xff1a 暖通空调 xff1b 汽车 xff1b 消费品 xff1b 气
单片机毕设分享智能窗户系统(源码+硬件+论文)

文章目录 0 前言1 主要功能2 硬件设计原理图 3 核心软件设计4 实现效果5 最后 0 前言 x1f525 这两年开始毕业设计和毕业答辩的要求和难度不断提升 xff0c 传统的毕设题目缺少创新和亮点 xff0c 往往达不到毕业答辩的要
Linux——实施高级存储功能（VDO）

一 stratis存储 xff1a stratis存储是一种高效率管理存储的方式 xff0c 可实施灵活的文件系统 xff0c 使之随数据动态增长需要安装stratus cli和stratisd软件包 stratis pool creat
毕业设计基于单片机的智能窗户系统(源码+硬件+论文)

文章目录 0 前言1 主要功能2 硬件设计原理图 3 核心软件设计4 实现效果5 最后 0 前言 x1f525 这两年开始毕业设计和毕业答辩的要求和难度不断提升 xff0c 传统的毕设题目缺少创新和亮点 xff0c 往往达不到毕业答辩的要
立创EDA怎么批量处理元器件

1 点击编辑点击查找相似对象 xff08 也可以按快捷键Ctrl 43 Shift 43 F xff09 2 之后弹出这个对话框 xff0c 搜索你需要的条件种类 xff1a 选择你需要批量查找的元素类型范围 xff1a 在当前原理图
超声波模块工作原理

超声波测距模块工作原理 xff08 1 xff09 采用IO口TRIG触发测距 xff0c 给至少10us的高电平信号 xff08 2 xff09 模块自动发送8个40khz的方波 xff0c 自动检测是否有信号返回 xff1b xff08
GPIOB-＞CRH&=0XFFFF0FFF；GPIOB-＞CRH|=(u32)8＜＜12；(学习笔记)

看原子哥的IIC h文件看到这两个语句有点懵 xff0c 去找了半天资料才懵懵懂懂 xff0c 下面简单记录一下 xff0c 以防下次又忘了就拿这个举例把 xff0c GPIO一组有 xff08 0 15 xff09 一共16个前 xf
C#public,protected,private,internal,protected internal学习笔记

比如说 xff1a 一个人A为父类 xff0c 他的儿子B xff0c 妻子C xff0c 私生子D xff08 注 xff1a D不在他家里 xff09 如果我们给A的事情增加修饰符 xff1a 1 public事件 xff1a 地球人都
动手写代码之前必须的准备工作-1.5.第1季第5部分-朱有鹏-专题视频课程

动手写代码之前必须的准备工作 1 5 第1季第5部分 2423人已学习课程介绍本课程是朱有鹏老师单片机完全学习系列课程第1季第5个课程 xff0c 主要内容是开发环境的搭建 C语言基础知识数据手册的带读等编程前导知识学习本课程的
Ubuntu:gcc编译报错 fatal error: stdio.h 没有那个文件或目录解决方法

跟着火哥学习liunx xff0c 在跟着视频学习到第13讲的时候遇到了gcc编译hello c报错的问题 xff0c 也是搞了半天查了很多解决方案都是叫我安装C C 43 43 环境什么的 xff0c 但试了并没有用 xff0c 可能是我
一文教你实现Spring动态启停定时任务

为什么需要定时任务定时任务的应用场景十分广泛 xff0c 如定时清理文件定时生成报表定时数据同步备份等 Java定时任务的原理 jdk自带的库中 xff0c 有两种技术可以实现定时任务 xff0c 一种是Timer 另一种是 Sche
市面上主流TPMS胎压芯片介绍

今天的汽车胎压芯片市场是算热闹的 xff0c 相对于2016年时 xff0c 国产国外的都有了新的变化 xff0c 对产品开发者或者说使用者来说 xff0c 无疑是福音 xff0c 要想国内胎压市场从2005年左右到2016年 xff0c
Hbase的安装与配置

文章目录 Hbase 安装配置一 xff0c 测试Hadoop 安装1 xff0c ssh 免密测试2 xff0c jps 查看进程二 xff0c 安装Hbase1 xff0c 拷贝Hbase 2 5 0 到 opt 目录下三 xff0
Python 数据可视化的三大步骤

1 首先 xff0c 要知道我们用哪些库来画图 matplotlib Python中最基本的作图库就是matplotlib xff0c 是一个最基础的Python可视化库 xff0c 一般都是从matplotlib上手Python数据可视化
本文一步一步地教你如何将Python程序打包成exe文件—赶紧进来学习吧

先来看看几个问题一什么是exe可执行文件 xff1f exe文件英文全名是executable file xff0c 翻译为可执行文件 xff08 但它不等于可执行文件 xff09 xff0c 可执行文件包含两种 xff0c 文件扩展名
用python代码画爱心，来自程序猿的浪漫

不相信python代码可以画爱心 xff1f 先来一张效果图来看看效果吧 xff01 用python代码画爱心的思路是怎样的 xff1f 1 怎么画心形曲线 2 怎么填满心形曲线 3 怎么用 python 画出爱心接下来看好了 xff0c
从协方差的角度详解线性判别分析原理+Python实现

目录写在前面机器学习强基计划聚焦深度和广度 xff0c 加深对机器学习模型的理解与应用深在详细推导算法模型背后的数学原理 xff1b 广在分析多个机器学习模型 xff1a 决策树支持向量机贝叶斯与马尔科夫决策强化学习等 1
Python量化交易实战：获取股票数据并做分析处理

量化交易 xff08 也称自动化交易 xff09 是一种应用数学模型帮助投资者进行判断 xff0c 并且根据计算机程序发送的指令进行交易的投资方式 xff0c 它极大地减少了投资者情绪波动的影响量化交易的主要优势如下 xff1a 快速检测

Python量化交易实战：获取股票数据并做分析处理

Python量化交易实战：获取股票数据并做分析处理 的相关文章

随机推荐

热门标签

Python量化交易实战：获取股票数据并做分析处理的相关文章