AAAI 2021论文:门控记忆神经网络

2023-11-11

多维时间序列由多个随时间演化的相关变量共同构成。这种数据结构广泛存在于科学研究和现实应用场景中。比如在电商场景中,多类产品的销售额随时间变化,共同构成一组多维时间序列;在金融股票市场中,多支股票的价格构成一组多维时间序列。提取这类数据结构中的信息并做出分析和预测在当前大数据的时代尤为重要。

在机器学习方法中,循环神经网络(RNN)是一类分析多维时间序列的重要模型。其主要特征是能够按时间顺序提取数据的信息并将其作为记忆保存在神经网络中。这一类模型(尤其是其中包含门控变量的变体LSTM和GRU)在语音识别, 动态图像处理,天气预测,金融数据分析等领域都取得了巨大成功。

在2020年12月收录的AAAI 2021(CCF-A类)会议,我们被收录了一篇名为《Memory-Gated RecurrentNetworks》的论文。该论文针对多维时间序列的信息结构,在现有循环神经网络模型的基础上做出了改进,提升了模型提取多维信息的能力。

一、研究动机

多维时间序列信息提取的难点和精髓在于提取数据中复杂的相互依赖关系。在这种数据结构中,每一个变量的演化不仅依赖于其自身的历史信息(即各变量自身的时序记忆the marginal memories),而且依赖于变量间的相互作用(即变量间相互作用的时序记忆the joint memory)。我们仍以电商产品的销售额举例,某一类商品的销售额变化不仅受到其自身的季节性等等因素影响,也会因为节假日等因素和其他商品类别的销售额产生强相关。

尽管多维时间序列的这一信息特征在经典统计模型(比如ARMA-GARCH)中有所体现,但是并没有被现有的机器学习方法利用。比如在使用LSTM对商品销售额做预测时,我们将不同商品的销售额不加区分的输入网络,并完全期待网络自身来分辨其中的复杂依赖关系。这样的操作是十分粗糙的。我们完全可以在神经网络中设计精细化的结构来分别提取多维时间序列中的这两种记忆类型,即各变量自身的marginal memories和变量间的joint memory,从而降低神经网络提取多维信息的难度。基于这样的思想,我们提出了一个新的循环神经网络结构,将其命名为门控记忆循环神经网络(Memory-GatedRecurrent Networks,mGRN)

二、模型结构

在这里插入图片描述

图 1:mGRN结构示例

接下来我们介绍mGRN的结构。我们将一组多维时间序列记为X_t,假设其由M个变量组成。我们将变量分为K组,即X_t=[X_t((1))…X_t((K))]。在mGRN中,我们设置Marginal-memory components 来分别提取每一个变量组的记忆信息(即图1中的红色部分),之后在joint-memory component中将各变量组信息综合来提取其中的相互作用(即图1中的蓝色部分)。

其中Marginal-memory components被设计为了GRU的形式。具体来说,用于提取第k个变量组X_t^((k)) 信息的部分由公式1所示(σ代表Sigmoid函数,图片代表元素乘积)。这里结构设计的重点是我们将数据信息X_t^((k)) 以及其相对应的记忆h_t^((k))清晰的对应起来,从而简化了神经网络分辨和提取信息的难度。这种清晰的对应是现有循环神经网络中所缺失的。

在这里插入图片描述

公式 1:Marginal-memorycomponents

之后我们将各个变量组的信息通过非线性的方式在joint-memorycomponent中综合起来。具体形式由公式2所示。这一形式是一个简化版的GRU。在mGRN中,由于需要分别提取marginal memory和joint memory,我们不可避免的设置大量的中间门控变量。但是过多的中间变量容易造成过拟合。为了解决这一问题,我们采取了谨慎的设计,使用GRU而非LSTM作为基础结构(GRU结构相比LSTM更加简单),并且通过实验移除了joint-memory component中的多余部分。

在这里插入图片描述

公式 2:Thejoint-memory component

最后,关于mGRN的结构还有两点讨论。

  1. mGRN对多维时间序列中的变量分组提取信息。如何对变量分组可以作为参数调整的一部分。我们在实验中注意到将每个变量单独分为一组通常可以取得不错的效果。
  2. 在当前论文中,我们刻意的简化模型结构来展示分别提取marginal memory和joint
    memory所能带来的提升。这一模型可以很容易的和其他结构(比如CNN和attention结构等)结合来取得更加出色的结果。

三、应用

mGRN可以被应用在所有的多维时间序列数据分析中。为了展示mGRN的提高,我们在论文中提供了多个真实应用场景中的对比试验,其中包括

  1. 基于重症监护病房中病人身体指标构成的多维时间序列进行预测 (Harutyunyan et al.
    2019)。预测目标包括病人的存活率,在重症监护病房中的停留时间等等。

  2. 口语数字发音的识别 (Bagnall et al. 2018)。多维时间序列由声音记录的多个频率组成。

  3. 手写数字笔迹的识别 (Bagnall et al. 2018)。多维时间序列由手写轨迹的坐标变化构成。

在这些应用中,对比现有文献中的最好结果。mGRN均取得了显著地提升。但是这些实验较为复杂,感兴趣的读者可以参考我们的论文。在这里,我们提供一个在金融场景中的应用,即基于限价订单簿数据的高频股票价格预测。

在这里插入图片描述

图 2:限价订单簿图示

限价订单簿是股票市场中的一种常见机制,图2中展示的即为限价订单簿在某一时刻的状态,中间红色的一列数字记录市场愿意买卖的价格,最后白色的数字记录市场愿意买卖的股票数量。在真实交易状态下,这些数字会随着订单的提交和成交不断变化,从而构成一个高频多维时间数据集。这个数据集包含了股票的供需等信息,基于此我们可以对未来短期内股票价格的变动进行一定的预测。

参照Sirignano andCont (2019),我们在每个时间点基于历史订单簿数据做预测,预测内容为之后股价变动的方向(即上涨或下跌),这样我们把股价预测简化为了一个二元分类问题。在应用mGRN时,我们将订单簿数据分成四组进行处理,即买价,买量,卖价,卖量。

我们在国内A股市场进行试验。我们的数据集时间跨度是从2014年12月到2017年12月。我们使用2014年12月到2017年6月的数据训练模型,2017年7月到2017年9月的数据调整参数(validation set),最后用2017年10月到2017年12月的数据来对比预测结果(test set)。为了获得有代表性的结论,我们关注CSI300和CSI500指数中的股票,并剔除其中停牌时间较长的股票,得到约300只股票。最后,我们从中随机选取了30只股票进行试验。在整个数据集中,每只股票有约4百万个样本点。

在这里插入图片描述

表格 1:30只股票的平均预测结果

我们通过预测准确度和AUC两个指标来衡量预测效果。30支股票在2017年10月到2017年12月的平均预测结果如表格1所示。在每一只股票上,mGRN对比LSTM和GRU的提升如图3中的箱形图所示。可以看到mGRN相比LSTM和GRU在预测效果上有显著且稳定的提升。

在这里插入图片描述

图 3:mGRN相比LSTM和GRU在股票价格变化预测准确度(左图)和AUC(右图)上的提升


我们针对多维时间序列提出了一个新的循环神经网络,即门控记忆循环神经网络(Memory-GatedRecurrent Networks,mGRN)。这一结构的主要特征是分别提取多维时间序列中每个变量(组)自身的时序记忆,以及变量间相互作用的时序记忆。通过明确设置门控变量来学习这两类记忆,我们降低了神经网络提取高维记忆的难度。相比于现有用于处理高维时间序列的机器学习算法,门控记忆循环神经网络在多个应用场景中展现出了显著且全面的提高。


References

[1] Zhang, Y.; Wu, Q.;Peng N.; Dai, M.; Zhang, J.; Wang, H. (2021). The Thirty-Fifth AAAI Conferenceon Artificial Intelligence (AAAI-21), arXiv preprint arXiv:2012.13121

[2] Bagnall, A.; Dau,H. A.; Lines, J.; Flynn, M.; Large, J.; Bostrom, A.; Southam, P.; and Keogh, E.(2018). The UEA multivariate time series classification archive, arXiv preprintarXiv:1811.00075.

[3] Harutyunyan, H.;Khachatrian, H.; Kale, D. C.; Ver Steeg, G.; and Galstyan, A. (2019). Multitasklearning and benchmarking with clinical time series data. Scientific data 6(1):1–18.

[4] Sirignano,J. and Cont, R. (2019). Universal features of price formation in financialmarkets: perspectives from deep learning. Quantitative Finance, pages 1-11.


关注“京东科技技术说”微信公众号 回复「AAAI 2021」即可下载更多论文

在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

AAAI 2021论文:门控记忆神经网络 的相关文章

  • 讯飞AI算法挑战大赛-校招简历信息完整性检测挑战赛-三等奖方案

    前言 本文公开了 讯飞AI算法挑战大赛 校招简历信息完整性检测挑战赛 赛道的技术方案和代码 本次比赛主要采用 pdf解析 和 特征工程 的方法 通过使用 lightgbm 的树模型10折交叉验证进行 二分类 的任务 最终取得三等奖的成绩 一
  • 什么是概率匹配

    概率匹配是一种在信息论和统计学中常用的方法 用于将一个随机事件的概率分布与另一个概率分布进行匹配或逼近 它在数据处理 编码 压缩和模型选择等领域具有重要的应用 为我们理解和处理复杂的概率分布提供了一种有效的工具 首先 让我们来了解概率匹配的
  • 其他:机器学习算法速查表

    概述 机器学习可以被认为是计算机科学中最有前途和最受期待的领域之一 借助先前的数据 机器学习试图使计算机能够独立学习新事物 机器学习模型接收数据 执行各种计算 并最大限度地提高模型的精度和准确度 机器学习的主要任务包括图像分割 语音识别和推
  • 推荐系统:机器学习中基于内容的过滤

    概述 顾名思义 基于内容的筛选是一种机器学习实现 它使用系统中收集的内容或功能来提供类似的建议 根据用户观察结果从数据集中获取最相关的信息 最常见的例子是 Netflix Myntra Hulu Hotstar Instagram Expl
  • 项目:IRIS数据集项目

    概述 机器学习是人工智能的一个子部分 涉及教导算法做出基于数据的决策并尝试像人类一样行事 有许多数据集可用于针对不同任务训练这些算法 例如 IRIS 数据集 涵盖三类花 Versicolor Setosa 和 Virginica 每种花有四
  • Keras 3.0正式发布:可用于TensorFlow、JAX和PyTorch

    经过 5 个月的更新迭代 Keras 3 0 终于来了 大新闻 我们刚刚发布了 Keras 3 0 版本 Keras 之父 Fran ois Chollet 在 X 上激动的表示 现在你可以在 JAX TensorFlow 以及 PyTor
  • 人工智能伦理学与法律:创造公正智能的道路

    导言 随着人工智能的迅速发展 伦理学和法律的角色变得愈发关键 人工智能的迅猛发展引发了对伦理和法律框架的深刻思考 本文将深入探讨人工智能伦理学的原则 伦理法规的建设以及法律对人工智能的监管 为创造公正智能的道路指明方向 探讨如何将伦理学和法
  • 机器学习之迁移学习(Transfer Learning)

    概念 迁移学习 Transfer Learning 是一种机器学习方法 其核心思想是将从一个任务中学到的知识应用到另一个相关任务中 传统的机器学习模型通常是从头开始训练 使用特定于任务的数据集 而迁移学习则通过利用已经在一个任务上学到的知识
  • 机器学习之迁移学习(Transfer Learning)

    概念 迁移学习 Transfer Learning 是一种机器学习方法 其核心思想是将从一个任务中学到的知识应用到另一个相关任务中 传统的机器学习模型通常是从头开始训练 使用特定于任务的数据集 而迁移学习则通过利用已经在一个任务上学到的知识
  • 天猫双十实战

    import numpy as np import matplotlib pyplot as plt from sklearn linear model import SGDRegressor from sklearn preprocess
  • 【提示工程】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

    解决问题 探索大语言模型解决推理问题的能力 从头训练或微调模型 需要创建大量的高质量含中间步骤的数据集 成本过大 相关工作 1 使用中间步骤来解决推理问题 1 使用自然语言通过一系列中间步骤解决数学应用题 2 通过创建更大的数据集微调语言模
  • 第二部分相移干涉术

    典型干涉图 相移干涉术 相移干涉术的优点 1 测量精度高 gt 1 1000 条纹 边缘跟踪仅为 1 10 边缘 2 快速测量 3 低对比度条纹测量结果良好 4 测量结果不受瞳孔间强度变化的影响 独立于整个瞳孔的强度变化 5 在固定网格点获
  • 互操作性(Interoperability)如何影响着机器学习的发展?

    互操作性 Interoperability 也称为互用性 即两个系统之间有效沟通的能力 是机器学习未来发展中的关键因素 对于银行业 医疗和其他生活服务行业 我们期望那些用于信息交换的平台可以在我们需要时无缝沟通 我们每个人都有成千上万个数据
  • 什么是“人机协同”机器学习?

    人机协同 HITL 是人工智能的一个分支 它同时利用人类智能和机器智能来创建机器学习模型 在传统的 人机协同 方法中 人们会参与一个良性循环 在其中训练 调整和测试特定算法 通常 它的工作方式如下 首先 对数据进行人工标注 这就为模型提供了
  • MIT_线性代数笔记:第 23 讲 微分方程和 exp(At)

    目录 微分方程 Differential equations 矩阵指数函数 Matrix exponential e A t e At
  • 时间序列平稳性相关检验方法

    理解平稳性 一般来说 平稳时间序列是指随着时间的推移具有相当稳定的统计特性的时间序列 特别是在均值和方差方面 平稳性可能是一个比较模糊的概念 将序列排除为不平稳可能比说序列是平稳的更容易 通常不平稳序列有几个特征 平均值随时间推移发生变化
  • 山西电力市场日前价格预测【2024-01-09】

    日前价格预测 预测说明 如上图所示 预测明日 2024 01 09 山西电力市场全天平均日前电价为314 92元 MWh 其中 最高日前电价为593 66元 MWh 预计出现在18 15 最低日前电价为54 95元 MWh 预计出现在13
  • MIT_线性代数笔记:复习二

    目录 第二单元主要内容 例题 第二单元主要内容 正交矩阵 Q 用矩阵形式描述正交性质 投影矩阵 P 最小二乘法 在方程无解时求 最优解 Gram Schmidt 正交化 从任意一组基得到标准正交基 策略是从向量 中减去投影到其它向量方向的分
  • 如何用GPT制作PPT和写代码?

    详情点击链接 如何用GPT制作PPT和写模型代码 一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图 图像识别 文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemin
  • 如何用GPT进行论文润色与改写?

    详情点击链接 如何用GPT GPT4进行论文润色与改写 一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图 图像识别 文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge

随机推荐

  • Vue中使用GOJS绘制拓扑图(项目实践)

    1 首先下载GOJS npm install gojs save 2 Vue中使用 import gojs from gojs var go gojs var go GraphObject make 代码所需要的JSON格式 import
  • 前端实现vue element ui 勾选的表格数据导出

    安装依赖 npm install save xlsx file saver npm install D script loader 在src文件夹中新建文件夹 命名为excel 新建文件夹后 在utils文件夹内新建两个js文件 分别命名为
  • 华为交换机MPU、LPU硬件信息解释

    此文章是从 小侠唐在飞 老师那儿转载的 感谢老师 名词解释 MPU就是主控板LPU是业务板 业务线卡区域 包括6个业务线卡槽位 分布在SLOT1到SLOT6槽位 槽位间距1 4英寸 主控板区域 包括主备两个槽位 分布在SLOT7和SLOT8
  • 网络:IP基础知识总结

    IP的基本认识 IP在TCP IP参考模型中处于第三层 也就是网络层 网络层的主要作用是 实现主机和主机之间的通信 也叫做点对点通信 问 网络层与运输层的关系 网络层 IP 提供点到点的服务 运输层 TCP UDP 提供端到端的服务 问 网
  • VS中使用动态库

    VS中使用动态库 一 将DLL头文件添加到包含路径 属性 gt C C gt 常规 gt 附加包含目录 二 将DLL导入库添加到项目中 1 添加附加库目录 属性 gt 链接器 gt 常规 gt 附加库目录 2 添加附加依赖项 这一步骤 也可
  • 解决 Centos7 启动tomcat 但是外部不能访问的问题

    Step1 启动tomcat 进入 tomcat 所在的目录的 bin 的文件夹下执行 startup sh 命令 启动 tomcat 如果出现下面这种情况说明 tomcat 启动 成功 Step2 验证 tomcat 是否启动成功 输入
  • Request_获取请求参数通用方式演示

  • 射频功率放大器PA芯片选型

    一 功率放大器选型 下图示例一个PA的核心参数 从频率失真和非线性失真两个方面基本可以上述参数的含义及其作用 如频率范围 功率平坦度 S21等主要和频率失真有关 即不同频率信号所表现的增益和相位差值 以及该PA的适用频段 而输出功率 输出功
  • Outlier Detection for Improved Data Quality and Diversity in Dialog Systems-学习笔记

    Outlier Detection for Improved Data Quality and Diversity in Dialog Systems 论文按如下方式检测数据集中的异常值 1 生成每个实例的矢量表示 2 平均向量以获得均值表
  • Android下实现字符串或文件的MD5加密

    MD5 信息摘要算法简单介绍 MD5 Message Digest Algorithm 一种被广泛使用的密码散列函数 可以产生出一个128位 16字节 的散列值 hash value 用于确保信息传输完整一致 计算出来的MD5值是有可能重复
  • CVE-2023-33246 Apache RocketMQ 命令注入漏洞复现及分析

    CVE 2023 33246 Apache RocketMQ 命令注入漏洞复现及分析 0x0 威胁情报 漏洞编号 CVE编号 CVE 2023 33246 漏洞评估 危害评级 高危 漏洞类型 RCE 公开程度 PoC已公开 利用条件 1 在
  • 【数据结构与算法】3.(单向、无向、带权)图,广度、深度优先搜索,贪心算法

    文章目录 1 图简介 2 图的存储方式 2 1 邻接矩阵存储方法 2 2 邻接表存储方法 3 有向 无向图和查询算法 3 1 数据结构 3 2 广度优先算法BFS 3 3 深度优先算法DFS 3 3 1 DFS查询单条路径 3 3 2 DF
  • PhotoShop 之盖印图层

    Ctrl Shift Alt E 生成盖印图层 盖印图层实现的结果和合并图层差不多 也就是把图层合并在一起生成一个新的图层 和合并图层所不同的是 盖印图层是生成新的图层 而被合并的图层依然存在 保持其它图层完好无损
  • reverse ez_xor writeup

    拿到ez xor exe附件直接丢进PE 可以看到是64位exe文件 丢进ida64 Shift F12查看字符串 如果是笔记本电脑的话 F12自带热键 先按Fn 即Fn Shift F12 一般在这里找有没有和flag相关的字符串 可以看
  • SecureCRT软件安装

    首先从官网下载SecureCRT官网地址 https www vandyke com cgi bin releases php product securecrt 也可以从百度网盘下载 下载完毕后正常安装SecureCRT 注意选择安装路径
  • 17-链表

    链表 一系列结构连在一起 每一个结构体变量里面都有一个指针pNext pNext指向下一个结构体变量 尾节点的pNext指向NULL 静态链表 struct students stu1 1 a NULL struct students st
  • Pytorch搭建神经网络完成监督学习-分类任务

    一 创建训练集 为了保证后续过程中产生的随机数都是一致的 方便测试 我们首先种下一颗随机种子 import torch import matplotlib pyplot as plt import torch nn functional a
  • Air780E模块硬件资料

    模块硬件资料 资料简介 相关链接 规格书 Air780E 模块产品规格书 V1 0 0 pdf 硬件设计手册 Air780E 硬件设计手册 V1 0 5 pdf 原理图及PCB Air780E 封装 zip 参考设计原理图 AD PADS9
  • 我的csdn排名和浏览量半个月没有变化

    我的csdn排名和浏览量半个月没有变化 希望csdn的管理员看见了 可以查一下 这样让用户很不放心咱们网站
  • AAAI 2021论文:门控记忆神经网络

    多维时间序列由多个随时间演化的相关变量共同构成 这种数据结构广泛存在于科学研究和现实应用场景中 比如在电商场景中 多类产品的销售额随时间变化 共同构成一组多维时间序列 在金融股票市场中 多支股票的价格构成一组多维时间序列 提取这类数据结构中