A Survey on Time-Series Pre-Trained Models

2023-11-11

本文是LLM系列的文章,针对《A Survey on Time-Series Pre-Trained Models》的翻译。

时间序列预训练模型综述

摘要

时间序列挖掘在实际应用中显示出巨大的潜力,是一个重要的研究领域。基于大量标记数据的深度学习模型已成功用于TSM。然而,由于数据注释成本的原因,构建大规模标记良好的数据集是困难的。近年来,预训练模型由于其在计算机视觉和自然语言处理方面的卓越表现,逐渐引起了时间序列领域的关注。在这项综述中,我们对时间序列预训练模型(TS-PTM)进行了全面的回顾,旨在指导对TS-PTM的理解、应用和研究。具体来说,我们首先简要介绍TSM中使用的典型深度学习模型。然后,我们根据预训练技术对TS-PTM进行了概述。我们探索的主要类别包括有监督的、无监督的和自我监督的TS-PTM。此外,还进行了大量的实验来分析迁移学习策略、基于Transformer的模型和具有代表性的TS-PTM的优缺点。最后,我们指出了TS-PTM未来工作的一些潜在方向。源代码位于https://github.com/qianlima-lab/time-series-ptms.

1 引言

作为数据挖掘领域的一个重要研究方向,时间序列挖掘(TSM)已被广泛应用于现实世界中的应用,如金融、语音分析、动作识别和交通流预测。TSM的基本问题是如何表示时间序列数据。然后,可以基于给定的表示来执行各种挖掘任务。由于严重依赖领域或专家知识,传统的时间序列表示(例如,shapelets)非常耗时。因此,自动学习适当的时间序列表示仍然具有挑战性。
近年来,深度学习模型在各种TSM任务中取得了巨大成功。与传统的机器学习方法不同,深度学习模型不需要耗时的特征工程。相反,他们通过数据驱动的方法自动学习时间序列表示。然而,深度学习模型的成功依赖于大量标记数据的可用性。在许多真实世界的情况下,由于数据获取和注释成本的原因,很难构建一个标记良好的大型数据集。
为了减轻深度学习模型对大型数据集的依赖,通常使用基于数据增强和半监督学习的方法。数据增强可以有效地提高训练数据的大小和质量,并已被用作许多计算机视觉任务的重要组成部分。然而,与图像数据增强不同的是,时间序列数据增强还需要考虑时间序列中的时间依赖性和多尺度依赖性等属性。此外,时间序列数据增强技术的设计通常依赖于专家知识。另一方面,半监督方法使用大量未标记的数据来提高模型性能。然而,在许多情况下,即使是未标记的时间序列样本也很难收集(例如,医疗保健中的心电图时间序列数据)。
缓解训练数据不足问题的另一个有效解决方案是迁移学习,它放宽了训练和测试数据必须独立且相同分布的假设。迁移学习通常有两个阶段:预训练和微调。在预训练期间,模型在一些包含大量数据的源域上进行预训练,这些源域是独立的,但与目标域相关。在微调时,对来自目标域的通常有限的数据进行预训练模型(PTM)的微调。
最近,PTM,特别是基于Transformer的PTM,在各种计算机视觉(CV)和自然语言处理(NLP)应用中取得了显著的性能。受这些启发,最近的研究考虑了时间序列数据的时间序列预训练模型(TSPTM)的设计。首先,通过监督学习、无监督学习或自监督学习对时间序列模型进行预训练,以获得适当的表示。然后在目标域上对TS-PTM进行微调,以提高下游TSM任务(例如,时间序列分类和异常检测)的性能。
监督TS-PTM通常通过分类或预测任务进行预训练。然而,难以获得用于预训练的大量标记时间序列数据集往往限制了监督TSPTM的性能。此外,无监督的TS-PTM利用未标记的数据进行预训练,这进一步解决了标记数据不足的限制。例如,基于重建的TS-PTM使用自动编码器和重建损失来预训练时间序列模型。最近,基于对比学习的自监督PTM在CV中显示出了巨大的潜力。因此,一些学者已经开始探索基于一致性的任务设计和伪标记技术,以挖掘时间序列的固有属性。尽管如此,TS PTM的研究仍然是一个挑战。
在这项调查中,我们对TS-PTM进行了全面的回顾。具体来说,我们首先介绍了TSM中使用的各种TSM任务和深度学习模型。然后,我们基于预训练技术提出了TS PTM的分类法(图1)。其中包括有监督的预训练技术(导致基于分类和基于预测的PTM)、无监督的预训练技术(基于重建的PTMs)和自监督的预训技术(基于一致性和基于伪标记的PTMs)。请注意,一些TS-PTM可能使用多个任务(例如,[37]中的预测和重建或[38]中的一致性)进行预训练。为了简化综述,我们根据TS-PTM的核心预训练任务对其进行了分类。
在时间序列分类、预测和异常检测方面进行了广泛的实验,以研究各种迁移学习策略和具有代表性的TS-PTM的优缺点。此外,还讨论了TSPTM的未来发展方向。这项综述旨在让读者全面了解TS-PTM,从早期的迁移学习方法到最近的基于转换和一致性的TS-PTM。主要贡献可概括如下:

  • 我们根据所使用的预训练技术,对现有的TS-PTM进行了分类和全面审查。
  • 我们进行了大量的实验来分析TS-PTM的优缺点。对于时间序列分类,我们发现基于迁移学习的TS-PTM在UCR时间序列数据集(包含许多小数据集)上表现不佳,但在其他公开可用的大时间序列数据集中表现优异。对于时间序列预测和异常检测,我们发现设计一种合适的基于Transformer的预训练技术应该是未来TS-PTM研究的重点。
  • 我们分析了现有TS-PTM的局限性,并在(i)数据集、(ii)Transformer、(iii)固有特性、(iv)对抗性攻击和(v)噪声标签下提出了潜在的未来方向。

本文的其余部分组织如下。第2节提供了TS-PTM的背景。第3节对TS-PTM进行了全面审查。第4节介绍了各种TS-PTM的实验。第5节提出了一些未来的方向。最后,我们在第6节中总结了我们的发现。
在这里插入图片描述

2 背景

2.1 时间序列挖掘任务

2.1.1 时间序列分类

2.1.2 时间序列预测

2.1.3 时间序列聚类

2.1.4 时间序列异常检测

2.1.5 时间序列推测

2.2 深度学习模型用于时间序列

2.2.1 循环神经网络

2.2.2 卷积神经网络

2.2.3 Transformer

2.3 为什么预训练模型

3 TS-PTMs概览

3.1 监督PTMs

3.1.1 基于分类的PTMs

3.1.2 基于预测的PTMs

3.2 非监督的PTMs

3.2.1 基于重建的PTMs

3.3 自监督的PTMs

3.3.1 基于一致性的PTMs

3.3.2 伪标记PTMs

4 实验结果和分析

4.1 PTMs在时间序列分类上的性能

4.1.1 基于监督分类和无监督重构的迁移学习PTM的比较

4.1.2 基于Transformer和一致性的PTMs比较

4.1.3 可视化

4.2 PTMs在时间序列预测上的性能

4.3 PTMs在时间序列异常检测上的性能

5 未来方向

5.1 大规模时间序列数据集

5.2 时间序列的固有性质

5.3 时间序列中的Transformer

5.4 对时间序列的对抗性攻击

5.5 时间序列噪声标签的预训练模型

6 结论

在这项综述中,我们对TS-PTM的发展进行了系统的回顾和分析。在早期关于TS PTM的研究中,相关研究主要基于CNN和RNN模型对PTM进行迁移学习。近年来,基于Transformer和基于一致性的模型在时间序列下游任务中取得了显著的性能,并被用于时间序列预训练。因此,我们针对时间序列分类、预测和异常检测这三个主要任务,对现有的TS-PTM、迁移学习策略、基于Transformer的时间序列方法以及相关的代表性方法进行了大规模的实验分析。实验结果表明,基于Transformer的PTM在时间序列预测和异常检测任务中具有巨大的潜力,而为时间序列分类任务设计合适的基于Transformer的模型仍然具有挑战性。同时,基于对比学习的预训练策略是未来TS-PTM发展的潜在焦点。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

A Survey on Time-Series Pre-Trained Models 的相关文章

随机推荐

  • Knights of the Round Table【点双连通分量与二分图】

    题目链接 POJ 2942 题意 亚瑟王要给骑士们开会啦 有N个骑士 其中有M对骑士相互之间会吵架 亚瑟王不允许相互吵架的骑士坐在一起 但是他们可以一同坐在餐桌上 只要隔开就可以了 还有就是 出席会议的骑士数必须是奇数 这是为了让投票表决议
  • 海伯利安:开放地图生态的未来与机遇

    本文选自海伯利安CTO邹光先大会演讲 全文如下 前两天有朋友问了我一个问题 他说谷歌地图在全世界覆盖那么广 用户量也非常大 用户体验也很好 在地图这个赛道上 海伯利安的创新和机会在哪里 这是个好问题 值得反复思考 深入思考 结合我们对地图行
  • Maven的配置、安装及测试可用

    1 配置环境变量的话 配置用户变量和系统变量也没差 反正电脑都是一个人使用 先配置M2 HOME 配置MAVEN HOME也可以 我放置Maven的路径是D Program Files x86 apache maven 3 2 2 具体要看
  • 程序的几种结构

    目录 顺序结构 选择结构 循环结构 break和continue的区别 顺序结构 选择结构 表达式 单选结构 if boolean表达式 执行语句 表达式为true执行相应的语句 否则不执行 双选结构 if boolean表达式 执行语句1
  • 小程序语音识别用户体验优化

    文章由来 这里通过简单的对话形式来描述接下来要讲的bug 相关界面在文章中都有展示 可以结合相关图片更好的理解问题 测试小伙伴 界面一直停留在 语音识别中 我 都到识别这一步了 应该是测试环境下后台不稳定吧 你再多试几次 测试小伙伴 我去问
  • 爬虫的操作

    目录 爬虫基本 re etree beautifulsoup 保存本地 连接数据库 基本 re lxml etree beautifulsoup 保存到本地 传入数据库 大致分为 爬虫基本 re etree beautifulsoup 保存
  • 分布式思维

    说在前面的话 Java编程里有两座大山 高可用 高并发 而分布式无疑是翻越这两座大山最好的方式 本篇文章讲的是分布式思维 目的是为了帮助大家在学习分布式之前对某些分布式领域里的一些概念做了解 在脑海里对分布式有个整体的认识 不会针对某一项技
  • 卷积神经网络中的 “全连接层”

    文章目录 一 什么是 全连接层 二 详解 一 什么是 全连接层 对 n 1 层和 n 层而言 n 1 层的任意一个节点 都和第 n 层所有节点有连接 即第n层节点都和第n 1层节点相连接 即第n层的每个节点在进行计算的时候 激活函数的输入是
  • django.core.exceptions.ImproperlyConfigured: Requested setting DEFAULT_INDEX_TABLESPACE, but setting

    django core exceptions ImproperlyConfigured Requested setting DEFAULT INDEX TABLESPACE but settings are not configured Y
  • JSP+Servlet+JavaBean

    JSP相当于在HTML页面中加上Java代码 一般在标签中放入主要代码 在JSP里用把Java代码包含起来的 Servlet的生命周期 被服务器实例化后 容器运行init方法 当请求 Request 到达时 运行service方法 serv
  • 扩散模型实战(二):扩散模型的发展

    推荐阅读列表 扩散模型实战 一 基本原理介绍 扩散模型从最初的简单图像生成模型 逐步发展到替代原有的图像生成模型 直到如今开启 AI 作画的时代 发展速度可谓惊人 下面介绍一下2D图像生成相关的扩散模型的发展历程 具体如下 开始扩散 基础扩
  • 一个B类地址,它的子网掩码为255.255.224.0,能划分多少个子网

    From http hi baidu com hzmdesky blog item ec97fc1bc9ce8f148718bf57 html cmtid ce50e26e27e192d481cb4ade 一个B类地址 它的子网掩码为255
  • 学习笔记-Matlab算法篇-图像处理

    图像处理 01图像基本处理 Matlab读取图片 gt gt mat imread pic1 png gt gt imshow mat gt gt size mat ans 906 947 3 图像转换函数 gray2ind intensi
  • 您也使用托管C++吗?

    转向 NET后 手头上往往仍有旧的模块要重用 也许这些模块是Delphi写的 也许是C C 写的 或者是其它编程语言 为了能把它们移植到 NET下 或者是在 NET中调用 To be or not to be that is a quest
  • 再次分析-提出 Spring AOP-真正的AOP

    前言 本篇的Spring AOP系类文章第三篇因为我们前面采用原始的方式实现了一次所有本篇我们来详细Spring AOP的的全面使用 个人主页 尘觉主页 个人简介 大家好 我是尘觉 希望我的文章可以帮助到大家 您的满意是我的动力 在csdn
  • 机器学习实战:逻辑回归(3)-Sklearn实现病马死亡率预测

    from sklearn linear model import LogisticRegression 函数说明 使用Sklearn构建Logistic回归分类器 Parameters 无 Returns 无 def colicSklear
  • JMeter压测数据实时监控

    目录 1 1 Influxdb关键特性 1 2 Influxdb安装 windows 2 Chronograf 2 1 Chronograf特性 2 2 Chronograf安装 windows 3 Grafana 3 1 Grafana特
  • 数学建模及其算法概述

    一 数学模型的分类 1 按模型的数学方法分 几何模型 图论模型 微分方程模型 概率模型 最优控制模型 规划论模型 马氏链模型等 2 按模型的特征分 静态模型和动态模型 确定性模型和随机模型 离散模型和连续性模型 线性模型和非线性模型等 3
  • shell排序(C++实例)

    交换排序由于比较相邻元素 因此平均时间代码为 n2 shell排序也称为缩小增量排序 利用插入排序的最佳时间特性 将待排序序列分成若干子序列 然后分别对子序列排序 最后将子序列组合起来 如下图所示 算法的实现 include stdio h
  • A Survey on Time-Series Pre-Trained Models

    本文是LLM系列的文章 针对 A Survey on Time Series Pre Trained Models 的翻译 时间序列预训练模型综述 摘要 1 引言 2 背景 2 1 时间序列挖掘任务 2 1 1 时间序列分类 2 1 2 时