Data Augmentation techniques in time series domain: A survey and taxonomy

2023-11-01

本文是对《Data Augmentation techniques in time series domain: A survey and taxonomy》的翻译。

时间序列域的数据增强技术:综述与分类

摘要

随着深度学习生成模型的最新进展,利用它们在时间序列领域的出色表现并不需要很长时间。用于处理时间序列的深度神经网络在很大程度上依赖于用于训练的数据集的广度和一致性。这些类型的特征在现实世界中通常并不丰富,它们通常是有限的,并且通常具有必须保证的隐私约束。因此,一种有效的方法是使用数据增强(DA)技术,通过添加噪声或置换以及生成新的合成数据来增加数据的数量。它系统地回顾了该领域的最新技术,概述了所有可用的算法,并提出了最相关研究的分类。将评估不同变体的效率;作为过程的一个重要部分,将分析评估性能的不同指标以及与每个模型相关的主要问题。这项研究的最终目标是提供一个关于产生更好结果的领域的发展和表现的总结,以指导该领域的未来研究人员。

1. 引言

自深度学习(DL)出现以来,研究和工业界的一项重要工作就是解决和改进监督训练任务。监督学习需要具有各种特征的数据集,其中每个样本都必须标记。使用监督学习技术解决的最具代表性的问题是分类、回归和结构化模式输出问题。
传统上,用于监督任务的机器学习(ML)模型属于区分模型类别。区分建模与监督学习同义,或使用标记数据集学习将输入映射到输出的函数。从形式的角度来看,区分建模估计 p ( y ∣ x ) p(y|x) p(yx), 即根据观察 x x x标签的概率 y y y.
然而,当试图在不完整、不平衡或隐私受到挑战的数据集上训练其中一个模型时,存在一个主要问题。通常,这些问题通过预处理数据集技术(如子采样)解决,或者在数据集不够大的情况下,通过DA技术解决。
然而,随着问题的出现,技术不断发展以解决这些边界。近年来,人工神经网络(ANN)及其在DL领域的应用经历了一个巨大的发展时期。虽然有多种模型促成了这一扩展,但Ian Goodfellow提出的最具革命性的模型之一出现在2014年,他提出了生成对抗网络(GANs)。
GANs肯定不是有史以来引入的最早的生成式体系结构;早在1987年,Yann Lecun就在他的论文中提出了自编码器(AE)架构,该架构能够生成作为输入接收的数据修改。但是,直到将定向概率模型并入AE架构(也称为变分自动编码器(VAE)[58]),模型才开始显示为能够生成合成数据。
尽管这些网络显示了令人印象深刻的结果,但GANs的能力已被证明遥遥领先,并在图像领域取得了令人印象的结果。然而,这不是唯一的应用领域;合成数据生成是合成敏感数据(如电信领域的敏感数据)的强大推动力。
因此,本文旨在回顾DA和数据生成的所有现有技术,并回顾每种技术的积极和消极方面。

2. 相关工作

最近,发表了许多高质量的数据增强综述文章。然而,它们大多集中在更流行的领域,如图像、视频或自然语言处理(NLP)。尽管这些技术侧重于纠正数据集的不平衡或不完整性,但在其他应用领域,这些问题更为常见。在深度学习应用的所有领域,有效数据集的稀缺性并不像时间序列中那样明显。
在文献综述的第一种方法中,在[49]中,对DA算法进行了近似,用于时间序列分类的神经网络算法。在综述中,他们评估了12种方法,用6种不同类型的神经网络增强128个时间序列分类数据集中的时间序列数据。最近的其他研究更具体地关注GAN用于数据增强,如[12],其中他们关注离散变量GAN和连续变量GAN的分类,其中GAN处理离散时间序列和连续时间序列数据。
然而,改进数据源去喂给人工智能(AI)算法并不仅限于DA。因此,一些研究决定采用构建合成流量生成器的方法,几乎从零开始生成数据集;一些例子集中在这方面。通过这种方式,他们能够从数据集本身进行抽象,这仅是理解数据分布所必需的。此外,在[82]中,他们进一步研究了这些技术的影响,强调了生成合成数据的主要优势之一,隐私问题的抽象,以及获取数据集的方便性。
尽管这一领域的新技术有可能提高时间序列数据集的质量,但综合所有技术的研究并不多。因此,我们希望通过将当前存在的所有时间序列DA和数据生成器算法结合起来,对比它们可能的优点、方法和差异,帮助未来的研究人员在该领域定位,从而有助于缩小该领域的现有差距。

3. 背景

3.1 传统算法

当可用数据不平衡或不足时,DA一直是一项关键任务。传统上,在图像识别等领域,对数据应用了不同的变换,如裁剪、缩放、镜像、颜色增强或平移。
由于数据本身的特殊性,这些算法无法直接进行时间序列中的DA。由于时间序列数据的多样性,并非所有技术都可以应用于每个数据集。计算机视觉中使用的一些以前的算法可以适用于时间序列域,但在其他情况下,必须设计新的特定算法来处理时间序列数据。
将DA应用于时间序列域(特别是在信号处理中)时的另一个重要因素是,对数据的处理可能会使信号失真太多,导致负训练。
我们将定义所有技术的传统算法,其基础是获取数据输入样本,并通过修改这些数据和应用不同的转换来合成新样本。该技术与我们在第3.2节和第3.3节中回顾的技术之间的主要区别在于,在前两种算法中,变换直接应用于数据,而在后一种算法中目标是学习数据的概率分布,以便生成试图模拟数据分布的全新样本。

3.2 变分自编码器(VAE)

VAE是由Diederik P.Kingma和Max Welling首次引入的神经生成模型。该算法基于1987年提出的AE架构。AEs允许将典型的人工智能问题(如线性回归或分类)更改为域转移问题。为了执行此操作,AEs获取一个输入,通常是一个图像,并推断,作为同一输入的输出修改,最广泛的领域是图像去噪。
AE网络由编码器和解码器两部分组成。编码器负责将数据的输入维数减少到潜在空间,而解码器从该潜在表示重构输入信息。该潜在空间是输入数据的低维流形。然后,生成合成数据,对潜在空间的值进行插值并解码。然而,潜在空间的这种插值不会产生完全新的值;它只是混合了学习的概率分布的特征。
为了避免AE中产生的过拟合,VAE将其训练正则化,生成更多样值。两种架构之间的主要区别是VAE以概率分布而不是以点编码输入信息。然后,根据该分布,它对一个点进行采样,然后对该点进行解码以合成新的样本。
该中间步骤允许网络将输入分布映射到低维分布,从该低维分布可以生成新的潜在点。为此,潜在分布通常由具有均值 μ ⃗ = ( μ 1 , ⋯   , μ n ) \vec\mu=(\mu_1,\cdots,\mu_n) μ =(μ1,,μn)和标准差 σ ⃗ = ( σ 1 , ⋯   , σ n ) \vec\sigma=(\sigma_1,\cdots,\sigma_n) σ =(σ1,,σn)的正态分布定义。这些均值和标准差向量定义了模型的潜在分布。
让网络学习分布,而不是在AE中学习的一组点,解码器网络将输入数据的特征与概率区域及其各自的均值和偏差相关联。通过这种表示,分布的均值定义了生成合成样本的中心点,标准差定义了输出的可变性,即生成样本的多样性。
图1显示了VAE网络的架构。
在这里插入图片描述

3.3 生成对抗网络(GAN)

GANs是一种基于两个神经网络(NN)之间竞争的生成神经模型,由Ian Goodfello于2014年首次引入。该体系结构的目标是复制给定的数据分布,以合成分布的新样本。为了实现这一目标,GAN架构由生成器(G)模型和鉴别器(D)模型组成。前者负责生成数据分布的合成样本,而后者试图区分真实样本和合成样本。
为了实现生成与输入数据分布不可区分的全新数据的目标,两个模型相互作用。G生成试图复制分布的样本,而不复制分布,而D区分真实样本和假样本。这样,当D对两个分布进行微分时,它会负反馈G;另一方面,当D不能区分每个分布时,其正反馈G。在这样做的过程中,G演变为欺骗D。同时,当正确进行区分时,D得到正奖励。
这种竞争鼓励两个网络一起进化。如果D在其任务中失败,G将不会进化,因为不管合成样本的质量如何,它总是会成功。尽管如果D总是完美区分两种分布,G将无法欺骗D,使其不可能进化。
标准GAN架构如图2所示。
从数学角度来看,这种竞争行为是基于博弈论的,两个参与者在零和博弈中竞争。D估计 p ( y ∣ x ) p(y|x) p(yx), 其中

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Data Augmentation techniques in time series domain: A survey and taxonomy 的相关文章

  • VTM遇到的问题集锦

    文章目录 一 待更新中 1 配置好VTM后 并在调试界面输入命令参数后 点击运行 既不报错 也没有任何结果 2 未加载符号文件 3 编码闪退问题 4 VTM AI编码帧数为总帧数八分之一 一 待更新中 1 配置好VTM后 并在调试界面输入命

随机推荐

  • 因果分析系列4--基于python的因果图模型学习

    因果分析系列4 因果图模型 1 因果图模型介绍 2 基于python绘制因果图模型 3 三种常见的因果图结构 3 1 链结构 chain 3 2 叉结构 fork 3 3 对撞结构 collider 4 巩固思考示例 在上一节中 介绍了因果
  • NodeJS优缺点及适用场景讨论

    http www xprogrammer com 159 html 概述 NodeJS宣称其目标是 旨在提供一种简单的构建可伸缩网络程序的方法 那么它的出现是为了解决什么问题呢 它有什么优缺点以及它适用于什么场景呢 本文就个人使用经验对这些
  • MongoDB设置自增字段

    在使用mongoDB数据库的时候有时候想要对数据库空的数字字段直接进行加减操作 可以用到 inc来实现 比如我想要把网站访问量的数据存到mongoDB数据库中 每次进入网站都可以把该数据进行一次 1操作 通过node js的mongoose
  • 【千律】C++基础:通过文件指针获取文件大小(字节数)

    include
  • Idea导入Eclipse项目

    文章目录 1 选择从已有文件导入 2 配置依赖 3 配置tomcat 在学习过程中经常遇到 eclipse 开发的项目 但是由于和 idea 配置有差异不能直接运行 需要做一些修改 1 选择从已有文件导入 使用 idea 导入文件 注意这里
  • vs2019 MFC 如何在框架类中实现添加一个按钮button

    首先 在框架类CMainFrame中添加一个CButton m btn的成员 然后 在框架类CMainFrame中OnCreate 函数最后添加创建button的函数并显示button 注意 在创建button函数create中如果使用了W
  • 安装VTK8.2.0-win 实际操作

    Windows下安装VTK8 2 0 1 依赖 VS2017 Qt5 cmake 2 前期准备 2 1 访问vtk官方下载VTK8 2 0源码 VTK源码下载地址 https vtk org download 2 2 配置环境变量 配置CM
  • Cookie与Session之(简单购物车示例)

    Cookie 实际上是一小段的文本信息 客户端请求服务器 如果服务器需要记录该用户状态 就使用 response 向客户端浏览器颁发一个 Cookie 客户端浏览器会把 Cookie 保存起来 当浏览器再请求该网 站时 浏览器把请求的网址连
  • tailwind css_带有Tailwind CSS和Nuxt.js的深色和浅色主题

    tailwind css Dark and light mode support has been a recent trend due to the impact on our eyesight caused by the time sp
  • 软件测试面试题--(含mysql,linux,出现最频繁)

    这些是我觉得会问道 但不限于所有的 我列出一些 但并不是所有 软件测试是一个漫长的过程 这需要我们有耐心 和细心 还有一个好学习和认真的态度去进行 小伙伴们可以通过背诵然后结合自己的陈述去进行完善和结果专业知识去进行解答 一 软件测试基础
  • DOS命令查询局域网内在线电脑IP

    COLOR 0A CLS ECHO Off Title 查询局域网内在线电脑IP send ECHO off setlocal enabledelayedexpansion ECHO 正在获取本机的IP地址 请稍等 for f tokens
  • 自己个人总结,Android Studio 中SVN的使用步骤

    要使用SVN 首先需要下载SVN的软件 在这里需要下载两款软件 第一款是Svn的服务器端 第二款是Svn的客户端 俗称的小乌龟 软件的下载地址 Svn客户端软件的下载 64位 http download csdn net detail la
  • FPGA流水线除法器(Verilog)原理及实现

    FPGA流水线除法器 Verilog 原理及实现 流水线除法器原理 除法器的计算过程如下图所示 计算步骤 假设数值的位宽为N Step1 分别将被除数和除数扩展至原来2倍位宽 2N 被除数在其左边补N位0 除数在其右边补N位0 Step2
  • mac 下 ~/.bash_profile无效

    1 问题 在配置 bash profile时候项目不生效 2 解决思路 我们使用的shell是zsh 不会自动加载 bash profile 而是自动加载 zprofile文件 这里可以在 zprofile文件加上这么一段 if f bas
  • Python学习笔记第五天(Number)

    Python学习笔记第五天 数据类型 Number 数字 支持四种不同的数值类型 Number 类型转换 数学函数 随机数函数 三角函数 数学常量 结束语 数据类型 在Python中 对象是数据的抽象表示 而引用则是指向对象的指针 Pyth
  • AB实验遇到用户不均匀怎么办?—— vivo游戏中心业务实践经验分享

    作者 vivo 互联网数据分析团队 Li Bingchao AB实验是业务不断迭代 更新时最高效的验证方法之一 但在进行AB实验效果评估时需要特别关注 用户不均匀 的问题 稍不注意 产出的研究结论就可能谬以千里 给业务决策带来极大风险 因此
  • 数据库文件扩展名

    不同的数据库扩展名不同 SQL的就是MDF Access数据库的扩展名是 mdb MSSql数据库的扩展名是 mdf Paradox数据库的扩展名是 DB Oracle数据库的扩展名是 DBF dBase数据库的扩展名是 DBF FoxPr
  • ERROR:Dependency ‘mysql:mysql-connector-java:5.1.38‘ not found

    问题描述 报错信息 Dependency mysql mysql connector java 5 1 38 not found 原因分析 settings xml中未添加镜像源 解决方案 在当前maven项目中 右键选择 Maven gt
  • 测试五:使用Charles抓包

    1 安装Charles 我使用的电脑是mac 本文也是记录在mac下如何安装并使用charles抓线上https的包以及普通http的包 官网地址 https www charlesproxy com download charles默认使
  • Data Augmentation techniques in time series domain: A survey and taxonomy

    本文是对 Data Augmentation techniques in time series domain A survey and taxonomy 的翻译 时间序列域的数据增强技术 综述与分类 摘要 1 引言 2 相关工作 3 背景