Data Augmentation techniques in time series domain: A survey and taxonomy

2023-11-01

本文是对《Data Augmentation techniques in time series domain: A survey and taxonomy》的翻译。

时间序列域的数据增强技术：综述与分类

摘要
1. 引言
2. 相关工作
3. 背景
4. 评价指标
5. 数据增强算法综述
6. 开放问题与挑战
7. 讨论
- 7.1 优势
- 7.2 不足
8. 结论

摘要

随着深度学习生成模型的最新进展，利用它们在时间序列领域的出色表现并不需要很长时间。用于处理时间序列的深度神经网络在很大程度上依赖于用于训练的数据集的广度和一致性。这些类型的特征在现实世界中通常并不丰富，它们通常是有限的，并且通常具有必须保证的隐私约束。因此，一种有效的方法是使用数据增强（DA）技术，通过添加噪声或置换以及生成新的合成数据来增加数据的数量。它系统地回顾了该领域的最新技术，概述了所有可用的算法，并提出了最相关研究的分类。将评估不同变体的效率；作为过程的一个重要部分，将分析评估性能的不同指标以及与每个模型相关的主要问题。这项研究的最终目标是提供一个关于产生更好结果的领域的发展和表现的总结，以指导该领域的未来研究人员。

1. 引言

自深度学习（DL）出现以来，研究和工业界的一项重要工作就是解决和改进监督训练任务。监督学习需要具有各种特征的数据集，其中每个样本都必须标记。使用监督学习技术解决的最具代表性的问题是分类、回归和结构化模式输出问题。
传统上，用于监督任务的机器学习（ML）模型属于区分模型类别。区分建模与监督学习同义，或使用标记数据集学习将输入映射到输出的函数。从形式的角度来看，区分建模估计 p ( y ∣ x ) p(y|x) p(y∣x), 即根据观察 x x x标签的概率 y y y.
然而，当试图在不完整、不平衡或隐私受到挑战的数据集上训练其中一个模型时，存在一个主要问题。通常，这些问题通过预处理数据集技术（如子采样）解决，或者在数据集不够大的情况下，通过DA技术解决。
然而，随着问题的出现，技术不断发展以解决这些边界。近年来，人工神经网络（ANN）及其在DL领域的应用经历了一个巨大的发展时期。虽然有多种模型促成了这一扩展，但Ian Goodfellow提出的最具革命性的模型之一出现在2014年，他提出了生成对抗网络（GANs）。
GANs肯定不是有史以来引入的最早的生成式体系结构；早在1987年，Yann Lecun就在他的论文中提出了自编码器（AE）架构，该架构能够生成作为输入接收的数据修改。但是，直到将定向概率模型并入AE架构（也称为变分自动编码器（VAE）[58]），模型才开始显示为能够生成合成数据。
尽管这些网络显示了令人印象深刻的结果，但GANs的能力已被证明遥遥领先，并在图像领域取得了令人印象的结果。然而，这不是唯一的应用领域；合成数据生成是合成敏感数据（如电信领域的敏感数据）的强大推动力。
因此，本文旨在回顾DA和数据生成的所有现有技术，并回顾每种技术的积极和消极方面。

2. 相关工作

最近，发表了许多高质量的数据增强综述文章。然而，它们大多集中在更流行的领域，如图像、视频或自然语言处理（NLP）。尽管这些技术侧重于纠正数据集的不平衡或不完整性，但在其他应用领域，这些问题更为常见。在深度学习应用的所有领域，有效数据集的稀缺性并不像时间序列中那样明显。
在文献综述的第一种方法中，在[49]中，对DA算法进行了近似，用于时间序列分类的神经网络算法。在综述中，他们评估了12种方法，用6种不同类型的神经网络增强128个时间序列分类数据集中的时间序列数据。最近的其他研究更具体地关注GAN用于数据增强，如[12]，其中他们关注离散变量GAN和连续变量GAN的分类，其中GAN处理离散时间序列和连续时间序列数据。
然而，改进数据源去喂给人工智能（AI）算法并不仅限于DA。因此，一些研究决定采用构建合成流量生成器的方法，几乎从零开始生成数据集；一些例子集中在这方面。通过这种方式，他们能够从数据集本身进行抽象，这仅是理解数据分布所必需的。此外，在[82]中，他们进一步研究了这些技术的影响，强调了生成合成数据的主要优势之一，隐私问题的抽象，以及获取数据集的方便性。
尽管这一领域的新技术有可能提高时间序列数据集的质量，但综合所有技术的研究并不多。因此，我们希望通过将当前存在的所有时间序列DA和数据生成器算法结合起来，对比它们可能的优点、方法和差异，帮助未来的研究人员在该领域定位，从而有助于缩小该领域的现有差距。

3. 背景

3.1 传统算法

当可用数据不平衡或不足时，DA一直是一项关键任务。传统上，在图像识别等领域，对数据应用了不同的变换，如裁剪、缩放、镜像、颜色增强或平移。
由于数据本身的特殊性，这些算法无法直接进行时间序列中的DA。由于时间序列数据的多样性，并非所有技术都可以应用于每个数据集。计算机视觉中使用的一些以前的算法可以适用于时间序列域，但在其他情况下，必须设计新的特定算法来处理时间序列数据。
将DA应用于时间序列域（特别是在信号处理中）时的另一个重要因素是，对数据的处理可能会使信号失真太多，导致负训练。
我们将定义所有技术的传统算法，其基础是获取数据输入样本，并通过修改这些数据和应用不同的转换来合成新样本。该技术与我们在第3.2节和第3.3节中回顾的技术之间的主要区别在于，在前两种算法中，变换直接应用于数据，而在后一种算法中目标是学习数据的概率分布，以便生成试图模拟数据分布的全新样本。

3.2 变分自编码器（VAE）

VAE是由Diederik P.Kingma和Max Welling首次引入的神经生成模型。该算法基于1987年提出的AE架构。AEs允许将典型的人工智能问题（如线性回归或分类）更改为域转移问题。为了执行此操作，AEs获取一个输入，通常是一个图像，并推断，作为同一输入的输出修改，最广泛的领域是图像去噪。
AE网络由编码器和解码器两部分组成。编码器负责将数据的输入维数减少到潜在空间，而解码器从该潜在表示重构输入信息。该潜在空间是输入数据的低维流形。然后，生成合成数据，对潜在空间的值进行插值并解码。然而，潜在空间的这种插值不会产生完全新的值；它只是混合了学习的概率分布的特征。
为了避免AE中产生的过拟合，VAE将其训练正则化，生成更多样值。两种架构之间的主要区别是VAE以概率分布而不是以点编码输入信息。然后，根据该分布，它对一个点进行采样，然后对该点进行解码以合成新的样本。
该中间步骤允许网络将输入分布映射到低维分布，从该低维分布可以生成新的潜在点。为此，潜在分布通常由具有均值 μ ⃗ = ( μ 1 , ⋯ , μ n ) \vec\mu=(\mu_1,\cdots,\mu_n) μ =(μ1,⋯,μn)和标准差 σ ⃗ = ( σ 1 , ⋯ , σ n ) \vec\sigma=(\sigma_1,\cdots,\sigma_n) σ =(σ1,⋯,σn)的正态分布定义。这些均值和标准差向量定义了模型的潜在分布。
让网络学习分布，而不是在AE中学习的一组点，解码器网络将输入数据的特征与概率区域及其各自的均值和偏差相关联。通过这种表示，分布的均值定义了生成合成样本的中心点，标准差定义了输出的可变性，即生成样本的多样性。
图1显示了VAE网络的架构。
在这里插入图片描述

3.3 生成对抗网络（GAN）

GANs是一种基于两个神经网络（NN）之间竞争的生成神经模型，由Ian Goodfello于2014年首次引入。该体系结构的目标是复制给定的数据分布，以合成分布的新样本。为了实现这一目标，GAN架构由生成器（G）模型和鉴别器（D）模型组成。前者负责生成数据分布的合成样本，而后者试图区分真实样本和合成样本。
为了实现生成与输入数据分布不可区分的全新数据的目标，两个模型相互作用。G生成试图复制分布的样本，而不复制分布，而D区分真实样本和假样本。这样，当D对两个分布进行微分时，它会负反馈G；另一方面，当D不能区分每个分布时，其正反馈G。在这样做的过程中，G演变为欺骗D。同时，当正确进行区分时，D得到正奖励。
这种竞争鼓励两个网络一起进化。如果D在其任务中失败，G将不会进化，因为不管合成样本的质量如何，它总是会成功。尽管如果D总是完美区分两种分布，G将无法欺骗D，使其不可能进化。
标准GAN架构如图2所示。
从数学角度来看，这种竞争行为是基于博弈论的，两个参与者在零和博弈中竞争。D估计 p ( y ∣ x ) p(y|x) p(y∣x), 其中

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)