量化择时——SVM机器学习量化择时(第1部分—因子测算)

2023-11-06

最近ChatGPT比较火,NLP的同学们感触肯定会更深。NLP的应用为人所知并积极部署是一件好事,但是应用层面上的每个应用场景都是过去的领域内SOTA模型不断攻克的任务。但是可惜的是,近年来,解决单一任务在算法层面的突破明显减速,应用层面却在加速推广。

ps:目前资讯里还没有见到提到“天网”这个词,hhhhhhh,当年VR,AR啥啥都没有的时候,漫山遍野的提“天网”要来啦,不知道这次的爆点又是什么

这里我们使用一个较为简单且常用的机器学习模型SVM,对择时提供帮助,以获得超额回报

在这里插入图片描述

机器学习在量化模型上的应用

机器学习量化应用场景

博主总结的机器学习应用与量化策略有以下三种场景:

  1. 构造胜率大于50的量化策略,无论模型是否可解释,通过增加交易次数,使综合收益向均线附近偏移,获取预期超额回报
  2. 在一个可能获取超额回报的逻辑框架上,使用机器学习模型优化细节,使预期收益均值在模型的加持下,向更高的回报偏移
  3. 以定价模型为基础,赚取修正市场的超额收益

而每一种场景都对应了不同的量化思路,同时也对应了不同的研究人员的知识体系:

  1. 第一种适合专业度足够高的工科背景,难点在于“历史不会重演”的前提下,论证模型可以获取超额回报,且获取超额回报也是大概率事件,以高频交易为主
  2. 第二种适合有编程能力的金融人员,难点在于论证可以取得超额回报的逻辑链条
  3. 第三种适合有编程能力,且富有经验的金融人员,难点在于识别并排除市场的噪声信息,或是对定价模型的修正与优化

量化模型有效性的思考

目前的共识是:投资任务的复杂性远远超出了机器学习能够处理的范围,因此通常需要在人为的框定一个逻辑框架内,用机器学习的模型来优化。

学习到现在,看了很多量化方面的书籍与策略,博主有些思考想和大家分享一下:

  1. 其实有很多同学和博主一样是计算机大类转到金融的,所以“量化”是我们一个不错的切入点,越偏向数据分析,也越是我们的舒适圈。但是人与算法相比:
    • 人的优点是:剥离噪声,总结归纳,能把书越读越少
    • 机器的优点是:统计、推理,能把书越读越厚

发展了半个多世纪的计量经济学模型已经说明金融、定价这些“结果数据”,它们的信息构成是混沌且带有随机性的,因此,在出策略的时候,最好不要让机器“替代自己思考”,算法的结果最多只能给与一些启发,远达不到辅助思考的程度。同时也不要“特征多多益善”,垃圾特征就是噪声源,而机器是无法自己筛选的,所以首先要“人”是懂金融有逻辑的,然后“人”去构造算法。

  1. 除了调参外,提升机器学习模型的效果一般有两种:
    • 人为构造经得起逻辑推敲的特征序列
    • 不要预先按照数据分析的固有规则剔除特征

经验哈,比如博主常用的随机森林模型,在不做调参的情况下,想要只通过调整特征与数据提升效果时,首先,不要根据有偏分布什么的,把这个特征剔除。因为每一个特征都是一个视角,有的视角比较准确,但是有的视角思路清奇。但是每个视角都是有价值的,这时我们需要人为的参与,构造一些合适的视角来配合这些特征,对特征做再次的加工。越是没有重要性的特征,越是灵感的来源,提升的空间也越大!而预先剔除掉就亏大了。

  1. 专业知识的不同会让我们看待世界的视角也不一样,正所谓“凡有所学,皆成性格”。金融专业的同学会把“风险管理”放在首要位置,同时对“幸存者偏差”事件有着近乎本能的辨识度,非常厉害!但据我观察很多量化策略为了追求“理论的均值”,会唯数据论,放纵模型发挥,这一点需要格外注意。

这篇博客只使用SVM模型测算,更多机器学习模型请参考:https://blog.csdn.net/weixin_35757704/article/details/89280669

机器学习模型在量化择时中的应用

训练与预测流程

使用机器学习通常有以下几个步骤:

  1. 数据清洗
  2. 切分训练集、测试集
  3. 使用训练集,交叉验证模型的稳定性
  4. 测试集判断模型的有效性
  5. 应用模型测算、回测

因此我们将时间切分成以下两个部分:

  1. 训练、测试数据时间:2015-01-01到2020-01-01
  2. 应用模型测算、回测时间:2020-01-01到2023-01-01

训练数据特征构造

这里我们构造的特征简单一些,以方便大家复现:

  1. 过去5日换手率均值
  2. 过去10日换手率均值
  3. 过去5日涨跌幅
  4. 过去10日涨跌幅
  5. MACD指标DIF值
  6. MACD指标DEA值
  7. MACD值
  8. 阿隆指标(一种动量指标)DOWN值
  9. 阿隆指标UP值

SVM模型与测算

SVM训练与预测

通常,拿到数据后,以最终收益为目标的模型,主要有以下几种训练目标:

  1. 直接预测未来一段时间的收益率
  2. 预测未来一段时间的收益所处的区间

机器学习模型由于性能有限,通常以收益率为最终目标时,会选择“预测未来一段时间的收益所处的区间”

因此我们按照以下规则进行训练、预测:

  1. 70%的数据做训练集,30%的数据做测试集
  2. 将【未来5日涨跌幅】作为预测目标,同时将数据分箱,分为:
    • 收益率区间:[负无穷,-1]
    • 收益率区间:[-1,1]
    • 收益率区间:[1,正无穷]
  3. 训练集中,做10次交叉验证
  4. 测试集计算混淆矩阵,并可视化

上面的“交叉验证”是为了判断过拟合与欠拟合的问题的,很多文章容易把效果差的锅甩给“过拟合”,但明显是有问题的。关于过拟合与欠拟合请参考:https://blog.csdn.net/weixin_35757704/article/details/123931046

效果测算

测算的流程如下:

  1. 收集每一个非ST的股票在2015-01-01到2020-01-01的时间
  2. 然后根据个股的股价走势,构造成上面9个特征
  3. 按照70%的数据做训练集,30%的数据做测试集
  4. 对训练集做10份交叉验证

按照如上规则进行训练与预测,得到如下模型结果:

  1. 按照上述测算流程进行测算,在测试集上的准确率为 0.4751

  2. 归一化后的混淆矩阵如下:

  3. 使用10份交叉验证的结果如下:

准确率效果 0.492502 0.488092 0.478529 0.473529 0.485882 0.477647 0.477059 0.484118 0.480882 0.486176

在实际使用时,我们会根据模型的逻辑效果来判断:如果模型预测为正收益,则买入;如果预测为负收益,则卖出;

效果分析

  1. 交叉验证的效果与测试集的预测效果差不多,说明SVM模型表现较为稳定
  2. SVM将0,1,2等类别几乎无差别的预测为了类别1,抛开本身类别为1的,单单计算0与2的准确率只有10%

这个效果算中规中矩,因为没有优化、调整、或者主观构造特征,裸模型的效果也就差不多这个效果…

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

量化择时——SVM机器学习量化择时(第1部分—因子测算) 的相关文章

随机推荐

  • 【Android】使用v7.widget.GridLayout做九宫格。

    布局文件 如果使用xml配置平分 那么配置大致如下 app layout rowWeight 垂直方向权重 app layout columnWeight 水平方向权重 app前缀是说明要使用v7所指定的属性 为了兼容
  • 最大公约数与最小公倍数的详细讲解及求法

    最大公约数的基本概念 能够整除一个整数的整数称为其的约数 如5是10约数 能够被一个整数整除的整数称为其的倍数 如10是5的倍数 如果一个数既是数A的约数 又是数B的约数 称为A B的公约数 A B的公约数中最大的一个 可以包括AB自身 称
  • 云原生时代需要什么样的存储系统?

    作者 张凯 出品 CSDN云计算 ID CSDNnews 导读 本文介绍了目前云原生环境下 支持有状态应用的几种典型存储方案的特点 并对市场主流的几个云原生存储产品实际测试性能进行对比 现状 当前 云原生已经成为应用开发者在选择架构设计时的
  • JAVA 将一个对象的所有字段值 赋给另一个 对象

    如题 这种场景其实项目里使用场景很多 经常需要进行这种对象值的复用 但是又怕使用不准确 影响到原对象的值 那么该篇文章介绍一个方法 简单粗暴 就是使用BeanUtils 所以我们使用的是 简单示例 Dog 里面有两个字段 构造方法 setg
  • 已解决TypeError: Descriptors cannot not be created directly.

    已解决TypeError Descriptors cannot not be created directly If this call came from a pb2 py file your generated code is out
  • js 日期字符串如何转换成moment日期

    解决办法 let date 2022 08 12 13 30 00 let newDate moment date YYYY MM DD HH mm ss console log newDate 可以看到 打印出来了该日期的Moment日期
  • 【华为OD统一考试B卷

    华为OD统一考试A卷 B卷 新题库说明 2023年5月份 华为官方已经将的 2022 0223Q 1 2 3 4 统一修改为OD统一考试 A卷 和OD统一考试 B卷 你收到的链接上面会标注A卷还是B卷 请注意 根据反馈 目前大部分收到的都是
  • StyleGAN

    2 原理简介 StyleGAN 1 是一个强大的可以控制生成图片属性的框架 它采用了全新的生成模型 分层的属性控制 Progressive GAN的渐进式分辨率提升策略 能够生成 1024 1024分辨率的人脸图像 并且可以进行属性的精确控
  • docker-compose常用命令及配置文件详解

    1 f 标识用于指定Compose的配置文件 可以指定多个 当没有使用 f标识时 默认在项目跟目录及其子目录下寻找docker compose yml和docker compose override yml文件 至少需要存在docker c
  • TypeScript的注解

    文章目录 基本注解 数组注解 元组类型 枚举 接口注解 内联类型注解 特殊类型 泛型注解 联合类型注解 交叉类型 类型别名 函数类型 类型断言 基本注解 index ts let num number let str string let
  • 基于Smack3.0.4+ Openfire3.10.2下学习开发IM(二)用户分组信息(Roster、RosterGroup和RosterEntry)

    以前学习过用Scoket 建立聊天 简单的建立聊天是没问题的 但如果要实现多人复杂的聊天 后台服务器代码就比较复杂 对于我这新手来讲就比较难了 后来在网上看到用openfire做服务器 利用强大的Smack API库来实现IM聊天就简单多了
  • 两张图片可交替闪烁,可设置闪烁间隔

    using System Collections using System Collections Generic using UnityEngine using UnityEngine UI public class BlinkImage
  • 增强现实攻略

    如今比较火爆的增强现实 很多人都不会弄 而且呢 百度上相对的攻略也比较少 于是我在这里吧这两天弄的步骤分享下 首先打开https developer vuforia com这个网站 点击注册账号 注意这个网站的事英文的 不过要是不懂引文可以
  • 第七章:敏捷开发工具方法-part1-敏捷开发基础

    文章目录 一 Scrum基础概念 1 1 传统开发模式与敏捷开发的区别 1 2 传统项目管理与敏捷项目管理的区别 1 3 敏捷宣言 1 4 敏捷开发的特征 1 敏捷的方法 二 角色与职责 2 1 Scrum Team 2 2 角色职责总结
  • Java连接MySQL代码

    运行环境 Idea 2022 1 MySQL 8 0 28 1 导入mysql的jar包 Idea左上角 File 文件 gt Project Structure 项目结构 要导入整个mysql jar包的文件 最后Apply就可以了 2
  • 线性代数系列讲解第六篇 AX=b求解(针对有解情况)

    AX b 各种情况 A A A是mxn的矩阵 秩为 r r r r m r n r leq m r leq n r m r n r n r n r n r n r n r n表示没有自由变量 即零空间 N A 0 N A begin Bma
  • 笔记本win10引用账户当前已锁定,且可能无法登录(已解决)

    问题 win10引用账户当前已锁定 且可能无法登录 解决方案 按Shift 重启 选择 疑难解答 高级选项 启动设置 按 重启 等待出现选择界面后 选 带命令指示符的安全模式 输入命令net user 这里写被锁定的账户名 active y
  • 程序员代码开发的自测素养

    环境达不到 就需要自己开发 自己测试 直接提供客户 老板 审阅 如果不重视开发者自己的测试环节 那么你的苦心积虑 用心良苦在别人看来就是一无是处 毛病处处的产品 而测试过程就得讲究科学方法 1 自己配备耐心细致的芯片 2 发散思维技能的掌握
  • MATLAB自动读取文件夹中的所有文件,并处理文件内容

    读取示波器文件中的数据 并记录其峰值 clc clear all 获取文件夹下某类型数据的所有文件名 Path E 单光子 设置数据存放的文件夹路径 File dir fullfile Path csv 显示文件夹下所有符合后缀名为 csv
  • 量化择时——SVM机器学习量化择时(第1部分—因子测算)

    文章目录 机器学习在量化模型上的应用 机器学习量化应用场景 量化模型有效性的思考 机器学习模型在量化择时中的应用 训练与预测流程 训练数据特征构造 SVM模型与测算 SVM训练与预测 效果测算 效果分析 最近ChatGPT比较火 NLP的同