Data Augmentation

2023-05-16

自监督深度学习模型的精确性严重依赖于训练时数据的多样性和数据量。模型要想在更复杂任务上有较好的效果一般会有大量的隐藏单元。一般在训练过程中训练隐藏单元越多需要的数据越多,即任务复杂度与参数量与需要的数据量成正比。由于训练复杂任务时数据的缺乏,迁移学习往往被应用并取得较好的结果但是对于指定任务创建预训练模型依旧严峻。另一种解决数据不足问题的技术便是数据增强即通过在可用数据上转化合成新的数据。数据增强可用来解决训练数据的多样性和数据量的问题。

数据增强类型

数据增强技术依赖于数据的类型。对于常规的数字型数据,常见的技术包括SMOTE或者SMOTE NC等,这些技术在分类任务上可以就解释类别不平衡。对于非结构化的数据,根据数据类型和任务的不同有所不同。

图的数据增强

​这里我们专注于图层级的数据增强。给定M个图的数据集中的一个图G ∈ { G m : m ∈ M },我们可以构造满足以下条件的扩充图G:G∼q(G^∣G),其中q(⋅∣G) 是原始条件下的扩充分布,这事预先定义的,代表着数据分布的人类先验。例如,对于图像分类,旋转和裁剪的应用先对人们进行编码,然后人们将从旋转的图像或其局部补丁中获取相同的基于分类的语义知识。

​ 图数据集来自不同领域,较难获取图像中直观且通用的图数据增强方式。下图是本文总结的4种数据增强手段:
图片: https://uploader.shimo.im/f/8GwK4DcaObWlyzg1.png?sm_xform=image%2Fcrop%2Cx_0%2Cy_5%2Cw_690%2Ch_136&accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJhdWQiOiJhY2Nlc3NfcmVzb3VyY2UiLCJleHAiOjE2NTY5ODk1MzEsImZpbGVHVUlEIjoiRHZwanQzV3RYOFF5VlBjcSIsImlhdCI6MTY1Njk4OTIzMSwidXNlcklkIjo2NjY4ODY1NX0.ZxsypDfTKlb6xteUxMGnX3NW2arfWJ0h2674zrYorGY

节点失活:随机从图中去除掉部分比例的节点来扰动G的完整性,每个节点的失活概率服从i.i.d的均匀分布;
边扰动:随机增加或删除一定比例的边来扰动G的连通性,每个边的增加或者删除的概率亦服从i.i.d的均匀分布;
属性屏蔽:随机去除部分节点的属性信息,迫使模型使用上下文信息来重新构建被屏蔽的顶点属性。
子图划分:使用随机游走的方式从G中提取子图的方法。

视觉中的图像增强

一些简单的转化包括对图像的一些集合转换如平移,旋转,剪切,拉伸;色值空间的转化如色彩丢弃,明暗变化,噪音注入等。
但是这种简单的转化可能会改变原图中几何结构或者光亮会丢失图像中目标的原始特征。因此引入基于深度学习的方法如GAN,神经风格迁移等。
对抗学习是把图像进行转化欺骗判别器的一种方式,简单来说就是给图片加入遮罩来生成不同的增强的图像
图片: https://uploader.shimo.im/f/oqRhPym7hYKh3eAA.png!thumbnail?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJhdWQiOiJhY2Nlc3NfcmVzb3VyY2UiLCJleHAiOjE2NTY5ODk1MzEsImZpbGVHVUlEIjoiRHZwanQzV3RYOFF5VlBjcSIsImlhdCI6MTY1Njk4OTIzMSwidXNlcklkIjo2NjY4ODY1NX0.ZxsypDfTKlb6xteUxMGnX3NW2arfWJ0h2674zrYorGY

风格迁移是神经网络从一张图像中提取内容,从另一张图像中提风格然后将两种信息融合组成增强后的图像。比如,增强的图片像输入的图片但是绘制风格不同。
图片: https://uploader.shimo.im/f/UUOr1Jyc1jNEU55M.png!thumbnail?accessToken=eyJhbGciOiJIUzI1NiIsImtpZCI6ImRlZmF1bHQiLCJ0eXAiOiJKV1QifQ.eyJhdWQiOiJhY2Nlc3NfcmVzb3VyY2UiLCJleHAiOjE2NTY5ODk1MzEsImZpbGVHVUlEIjoiRHZwanQzV3RYOFF5VlBjcSIsImlhdCI6MTY1Njk4OTIzMSwidXNlcklkIjo2NjY4ODY1NX0.ZxsypDfTKlb6xteUxMGnX3NW2arfWJ0h2674zrYorGY

图像空间中的增强

  1. 几何增强,图像的翻转,裁剪,旋转平移等
  2. 色彩空间增强,锐化,白平衡,色彩抖动等改变图像的色彩空间

多样性数据增强

  1. mixup,将图片融合提供数据丰富性
  2. cutmix,将一部分区域剪裁掉用其他区域的数据进行随机填充
  3. mosaic,将图片随机裁剪在拼接成一张图作为训练数据

特征空间中的增强

由于是在特征空间做数据增强,所以不受输入数据类型的限制,对于图像、音频以及文本等数据具有通用性。
参考:On Feature Normalization and Data Augmentation(MoEx)

基于GAN的数据增强

使用GAN生成假数据来实现数据增强

基于NAS的数据增强

不同数据特征不同,不同的增强方法带来的收益也不同。让网络找到数据增强方法,自动搜索出合适的数据增强策略。
参考:AutoAugment: Searching for best Augmentation policies Directly on the Dataset of Interest

自然语言处理中的文本增强

一、条件增强,找到并替换句子中的同义词。但是会存在意思完全相反的情况即类别标记保留问题
二、非条件增强,使用预训练模型,数据预处理和扩展,类别标签被追加描述句子。差别在于在pretend中类别标签没有加入单词表在extend中加入了。
三、随机插入/交换/删除,对于文本分类任务较为高效。

回译(back translation)

基本流程是利用翻译模型将语种A的原始文本翻译为语种B的文本表达,最后再直接从语种B的形式翻译回语种A的文本表达,此文本即是原始文本增强后的文本。当然,可以采用一个或多种中间语种。
回译技术的有效性源于迁移学习,将翻译模型学到的关于语义,语法等知识转移到新生成的文本上。但是这里隐含一个先验即翻译模型对不同语种但语义相同的文本具有不变性或者输出近似。

随机词替换

同义词替换(SR):从句子中随机选择非停止词。用随机选择的同义词替换这些单词;
随机插入(RI):随机的找出句中某个不属于停用词集的词,并求出其随机的同义词,将该同义词插入句子的一个随机位置。重复n次;
随机交换(Random Swap, RS):随机的选择句中两个单词并交换它们的位置。重复n次;
随机删除(RD):以概率p随机删除句子中每个单词。

非核心词替换

为避免重要词被替换后而使文本质量受损,故用词典中不重要的词去替换文本中一定比例的不重要词

基于上下文信息的文本增强

训练一个语言模型,对要增强的文本随机去掉部分词后输入预训练模型,把模型输出的前k个词用于替换被mask掉的词。

基于语言生成模型的文本增强

基于文本风格迁移的文本增强

何处进行增强数据

一种是事先执行所有转换,实质上会增强你的数据集的大小。另一种选项是在送入机器学习之前,在小批量(mini-batch)上执行这些转换。
第一个选项叫做线下增强(offline augmentation)。这种方法适用于较小的数据集(smaller dataset)。你最终会增加一定的倍数的数据集,这个倍数等于你转换的个数。
第二种方法叫做线上增强(online augmentation)或在飞行中增强(augmentation on the fly)。这种方法更适用于较大的数据集(larger datasets),因为你无法承受爆炸性增加的规模。另外,你会在喂入模型之前进行小批量的转换。一些机器学习框架支持在线增强,可以再gpu上加速。

参考

深度学习中有哪些数据增强方法?
理解数据增强
数据增强

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Data Augmentation 的相关文章

随机推荐

  • 2022-适用于 Windows 10 Version 1809 的 02 累积更新,适合基于 x64 的系统 (KB5010351) - 错误 0x800f0982

    2022 适用于 Windows 10 Version 1809 的 02 累积更新 xff0c 适合基于 x64 的系统 KB5010351 错误 0x800f0982 系统是win10 企业版 LTSC版本 可能安装的是精简版导致的 运
  • sqlsever中text字段类型是否会影响查询性能

    先上结论 会影响查询性能 我在库里找了一张表T Sys Log 然后做2个副本 备份表 SELECT INTO T Sys Log back FROM T Sys Log SELECT INTO T Sys Log back2 FROM T
  • 【无标题】

    起因 2010 年 xff0c 谷歌宣布退出地内市场的时候 xff0c 一直保留着 谷歌地图 和 谷歌翻译 这两个公共服务 有兴趣自行百度下谷歌和百度恩怨 在 2020 年 xff0c 谷歌停止了 谷歌地图 在内地的服务 现在 xff0c
  • vmware ESXI 裸金属架构 本地服务器 开启Intel VT-x(虚拟化技术)

    我想使用vmware ESXI 安装的WIN10虚拟机中装vmware软件再装win10 即虚拟机中套虚拟机 基于工作要求某个XXX项目需要开启VPN远程到客户内网进行维护 客户对网络审计比较严 安装VPN的那台机子识别码要上传服务器 基本
  • 对一个或多个实体的验证失败。有关详细信息,请参见“EntityValidationErrors”属性。

    因为是转载文章 在此标明出处 xff0c 以前有文章是转的没标明的请谅解 xff0c 因为有些已经无法找到出处 xff0c 或者与其它原因 如有冒犯请联系本人 xff0c 或删除 xff0c 或标明出处 因为好的文章 xff0c 以前只想收
  • 一元正态分布

    d import numpy as np import matplotlib pyplot as plt from scipy stats import norm 生成100个正态分布数据 xff0c 均值为1 xff0c 标准差为2 da
  • CaptureLayer的另外一个调用例子TaskSnapshot

    在前一篇讨论中 xff0c 我们查找了系统中调用captureLayers的地方 1323 public static GraphicBuffer captureLayers IBinder layerHandleToken Rect so
  • visualsvn server 无法访问url

    IIS 发布网站 本机能访问 其它人访问不了 看一下服务端 VisualSVN Server 的服务有没有启动 x A 34 H g6 L N s 管理 服务 VisualSVN Server 备注 做为开发机子 手动优化自己的电脑吧 否则
  • JS日期加减,日期运算

    因为是转载文章 在此标明出处 xff0c 以前有文章是转的没标明的请谅解 xff0c 因为有些已经无法找到出处 xff0c 或者与其它原因 如有冒犯请联系本人 xff0c 或删除 xff0c 或标明出处 因为好的文章 xff0c 以前只想收
  • jQuery easyui 选中特定的tab

    获取选中的 Tab 1 获取选中的 tab panel 和它的 tab 对象 2 var pp 61 39 tt 39 tabs 39 getSelected 39 3 var tab 61 pp panel 39 options 39 t
  • Server Error in '/' Application. 解决办法

    Server Error in 39 39 Application Access to the path 39 E NetWeb2 Content upFile BClientExcel 大客户部通讯录导入 xlsx 39 is denie
  • easyui-datagrid 数据出不来(样式引起的bug)

    今天任务是需要从另一个项目中将某几个功能页面移植到现有的项目中 这是比较繁琐的功能 理解要移植功能的逻辑 xff08 业务逻辑 xff0c 涉及到的表和存储过程 xff09 页面样式 这么是我遇到的一个问题之一 xff1b 我需要展现一个e
  • c#切割字符串几种方法

    1 xff0c 按单一字符切割 string s 61 34 abcdeabcdeabcde 34 string sArray 61 s Split 34 c 34 oreach string i in sArray Console Wri
  • 动态链接库与静态链接库的区别

    静态链接库与动态链接库都是共享代码的方式 xff0c 如果采用静态链接库 xff0c 则无论你愿不愿意 xff0c lib 中的指令都全部被直接包含在最终生成的 EXE 文件中了 但是若使用 DLL xff0c 该 DLL 不必被包含在最终
  • ssm——小学期实训总结

    实训总结 经过这两个星期短暂的学习 xff0c 我学习了ssm的框架搭建与web前端设计基础 在第一个星期 xff0c 老师着重为我们讲了框架的原理 搭建与运用 xff1b 而在第二个星期 xff0c 重点则转移到了小组对项目的开发与研究上
  • 节点中心性

    文章目录 度中心性 Degree Centrality 特征向量中心性 Eigenvector Centrality Katz中心性 Katz Centrality Katz index PageRank中心性PageRank算法 接近中心
  • 机器学习面试知识点总结

    文章目录 计算学习理论过拟合与欠拟合过拟合欠拟合 偏差与方差最大似然估计与贝叶斯估计极大似然估计贝叶斯决策论贝叶斯估计 特征工程与特征选择特征工程逐层归一化特征选择 模型融合融合策略 评估方法与评价指标评估方法评价指标 优化算法正则化深度模
  • Multi-view graph convolutional networks with attention mechanism

    摘要 传统的图卷积网络关注于如何高效的探索不同阶跳数 hops 的邻居节点的信息 但是目前的基于GCN的图网络模型都是构建在固定邻接矩阵上的即实际图的一个拓扑视角 当数据包含噪声或者图不完备时 xff0c 这种方式会限制模型的表达能力 由于
  • An Empirical Study of Graph Contrastive Learning

    摘要 图对比学习在图表示学习领域树立了新的范式 xff0c 不需要人工标注信息 但对GCL的分析却寥寥无几 本文通过分析一般化的GCL范式的各个部分包括增强函数 xff0c 对比模式 xff0c 对比目标和负采样技术 xff0c 然后分析各
  • Data Augmentation

    自监督深度学习模型的精确性严重依赖于训练时数据的多样性和数据量 模型要想在更复杂任务上有较好的效果一般会有大量的隐藏单元 一般在训练过程中训练隐藏单元越多需要的数据越多 xff0c 即任务复杂度与参数量与需要的数据量成正比 由于训练复杂任务