计算机视觉知识点-图像增强

2023-11-19

图像增强技术通过对训练图像进行一系列随机更改以生成相似但不同的训练示例来扩展训练数据集的规模。随机更改训练示例可以减少模型对某些属性的依赖，从而提高模型的泛化能力。我们可以以不同的方式裁剪图像，以使感兴趣的对象出现在不同的位置，从而减少了模型对对象出现位置的依赖性。我们还可以调整亮度，颜色和其他因素，以降低模型对颜色的敏感度。可以说图像增强技术为AlexNet的成功做出了巨大贡献。

使用mxnet进行一下代码演示。mxnet的安装方法

pip install d2l==0.14.3
pip install -U mxnet-cu101mkl==1.6.0.post0  
pip install gluoncv

读一张猫的图像

d2l.set_figsize()
img = image.imread('../img/cat1.jpg')
d2l.plt.imshow(img.asnumpy());

一个工具函数

def apply(img, aug, num_rows=2, num_cols=4, scale=1.5):
    Y = [aug(img) for _ in range(num_rows * num_cols)]
    d2l.show_images(Y, num_rows, num_cols, scale=scale)

左右翻转

apply(img, gluon.data.vision.transforms.RandomFlipLeftRight())

上下翻转

apply(img, gluon.data.vision.transforms.RandomFlipTopBottom())

剪切

shape_aug = gluon.data.vision.transforms.RandomResizedCrop(
    (200, 200), scale=(0.1, 1), ratio=(0.5, 2))
apply(img, shape_aug)

修改亮度

apply(img, gluon.data.vision.transforms.RandomBrightness(0.5))

修改色度

apply(img, gluon.data.vision.transforms.RandomHue(0.5))

修改颜色属性

color_aug = gluon.data.vision.transforms.RandomColorJitter(
    brightness=0.5, contrast=0.5, saturation=0.5, hue=0.5)
apply(img, color_aug)

修改叠加到一块

augs = gluon.data.vision.transforms.Compose([
    gluon.data.vision.transforms.RandomFlipLeftRight(), color_aug, shape_aug])
apply(img, augs)

在cifar10上测试

d2l.show_images(gluon.data.vision.CIFAR10(
    train=True)[0:32][0], 4, 8, scale=0.8);

加载数据

train_augs = gluon.data.vision.transforms.Compose([
    gluon.data.vision.transforms.RandomFlipLeftRight(),
    gluon.data.vision.transforms.ToTensor()])

test_augs = gluon.data.vision.transforms.Compose([
    gluon.data.vision.transforms.ToTensor()])

def load_cifar10(is_train, augs, batch_size):
    return gluon.data.DataLoader(
        gluon.data.vision.CIFAR10(train=is_train).transform_first(augs),
        batch_size=batch_size, shuffle=is_train,
        num_workers=d2l.get_dataloader_workers())

训练代码

#@save
def train_batch_ch13(net, features, labels, loss, trainer, devices,
                     split_f=d2l.split_batch):
    X_shards, y_shards = split_f(features, labels, devices)
    with autograd.record():
        pred_shards = [net(X_shard) for X_shard in X_shards]
        ls = [loss(pred_shard, y_shard) for pred_shard, y_shard
              in zip(pred_shards, y_shards)]
    for l in ls:
        l.backward()
    # The True flag allows parameters with stale gradients, which is useful
    # later (e.g., in fine-tuning BERT)
    trainer.step(labels.shape[0], ignore_stale_grad=True)
    train_loss_sum = sum([float(l.sum()) for l in ls])
    train_acc_sum = sum(d2l.accuracy(pred_shard, y_shard)
                        for pred_shard, y_shard in zip(pred_shards, y_shards))
    return train_loss_sum, train_acc_sum

#@save
def train_ch13(net, train_iter, test_iter, loss, trainer, num_epochs,
               devices=d2l.try_all_gpus(), split_f=d2l.split_batch):
    num_batches, timer = len(train_iter), d2l.Timer()
    animator = d2l.Animator(xlabel='epoch', xlim=[0, num_epochs], ylim=[0, 1],
                            legend=['train loss', 'train acc', 'test acc'])
    for epoch in range(num_epochs):
        # Store training_loss, training_accuracy, num_examples, num_features
        metric = d2l.Accumulator(4)
        for i, (features, labels) in enumerate(train_iter):
            timer.start()
            l, acc = train_batch_ch13(
                net, features, labels, loss, trainer, devices, split_f)
            metric.add(l, acc, labels.shape[0], labels.size)
            timer.stop()
            if (i + 1) % (num_batches // 5) == 0:
                animator.add(epoch + i / num_batches,
                             (metric[0] / metric[2], metric[1] / metric[3],
                              None))
        test_acc = d2l.evaluate_accuracy_gpus(net, test_iter, split_f)
        animator.add(epoch + 1, (None, None, test_acc))
    print(f'loss {metric[0] / metric[2]:.3f}, train acc '
          f'{metric[1] / metric[3]:.3f}, test acc {test_acc:.3f}')
    print(f'{metric[2] * num_epochs / timer.sum():.1f} examples/sec on '
          f'{str(devices)}')

开启训练

batch_size, devices, net = 256, d2l.try_all_gpus(), d2l.resnet18(10)
net.initialize(init=init.Xavier(), ctx=devices)

def train_with_data_aug(train_augs, test_augs, net, lr=0.001):
    train_iter = load_cifar10(True, train_augs, batch_size)
    test_iter = load_cifar10(False, test_augs, batch_size)
    loss = gluon.loss.SoftmaxCrossEntropyLoss()
    trainer = gluon.Trainer(net.collect_params(), 'adam',
                            {'learning_rate': lr})
    train_ch13(net, train_iter, test_iter, loss, trainer, 10, devices)

train_with_data_aug(train_augs, test_augs, net)

loss 0.168, train acc 0.942, test acc 0.851
4811.5 examples/sec on [gpu(0), gpu(1)]

本篇文章的参考地址:

http://d2l.ai/chapter_computer-vision/image-augmentation.html

最后的话:

这篇文章发布在CSDN/蓝色的杯子, 没事多留言,让我们一起爱智求真吧.我的邮箱wisdomfriend@126.com.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

计算机视觉知识点

计算机视觉

计算机视觉知识点-图像增强的相关文章

Nginx知识总结

1 简介 Nginx engine x 是一个高性能的HTTP和反向代理web服务器同时也提供了 IMAP POP3 SMTP服务 Nginx是由伊戈尔赛索耶夫为俄罗斯访问量第二的 Rambler ru站点开发的第一个公开版本0 1
matlab制作旋转动态图,matlab 如何画动态图（绘图与旋转视图）

效果图在matlab中作图是重要的一部分那么对于三维的图像如何将静态的改为动态的呢首先静态图的代码 t 0 0 1 20 i 1 200 这里只是画了一个点而绘图效果图在matlab中作图是重要的一部分那么对于三维的

随机推荐

docker compose 部署skywalking

文章目录前言架构图 docker compose 脚本整合springboot 前言 SkyWalking 是一个开源的 APM 系统核心功能如下服务服务实例端点指标分析根本原因分析服务拓扑图分析服务服务实例和端点依赖
【SQL注入-12】http头部注入案例—基于Sqli-labs靶机（借助BurpSuite工具）

目录 1 概述 1 1 User Agent概述 1 2 Referer 概述 2 实验平台及实验目标 2 1 实验平台 2 2 实验目标 3 User Agent注入案例以sqli labs Less18为例 3 1 注入前准备 3 2
【翻译】 DMA和get_user_pages()

LWN net需要你没有订阅者 LWN将根本不存在请考虑注册订阅帮助LWN继续出版作者 Jake Edge 2018年12月12日 Linux管道工会议在2018年Linux Plumbers大会 LPC 的RDMA微型会议上 J
数据理解与数据准备

1 数据类型属性类型属性的取值范围决定了属性的类型定性数据标称属性多分类变量二元属性 01变量序数属性有序分类变量定量数据区间标度属性比率标度属性区分这两种属性的原则是该属性是否有固定的零点根据表现出来的数值特点
Spring关于数组、集合和Properties的注入

在某个类中需要依赖其它类时通常是new一个依赖类再调用类实例的方法这种开发存在的问题是new的类实例不好统一管理 Spring提出了依赖注入的思想即依赖类不由程序员实例化而是通过Spring容器帮我们new指定实例并且将实例注入到需
prometheus实战指南

一 prometheus概述 1 Prometheus简介 Prometheus是一套开源的系统监控报警框架作为新一代的云原生监控系统目前已经有上千个贡献者参与到Prometheus的研发工作上并且超过120 项的第三方集成 Prom
知识图谱快速入门

图技术利用neo4j networkx dgl python做图分析挖掘 1 最短路径算法dijkstra 2 基于networkx的隐性集团关系识别模型 3 基于Neo4j的担保社群型态分析挖掘 4 基于python求有向无环图中tar
Matrix 【POJ - 2155】【二维线段树+永久化标记】

题目链接挺好的一道题一开始用lazy标记往下推总是推不出样例的正解然后就去看了相关博客发现却确实如此在这里是无法用lazy标记来层层推的并且还会出现超内存的情况所以便改用了永久化标记来解这道题还有一件是关于discus
IMU姿态计算

总述 IMU即惯性测量单元主要用于对机体的加速度与角速度的测算使用场景很多例如平衡车惯性导航等等姿态姿态角 Euler angles 是用于描述物体在三维空间中的旋转姿态的一种表示方法它由三个角度组成通常表示物体绕三个轴
html3D创意相册附源码

3D创意相册效果图如下文件目录图片名称 jpg index html
VB+SQLite组合，真香！（一）

微信公众号网管小贾个人博客 www sysadm cc 嗨你好我是网管小贾当你看到这个标题时是不是感觉很奇怪呢老掉牙的VB和玩具数据库SQLite搞在一起是个什么玩意待我慢慢道来哈 SQLite众所周知是个文件数据库
非常厉害的全文检索技术Elasticsearch

目录一 Elasticsearch是什么二关于安装三 kibana的安装和使用最后今天是刘小爱自学Java的第157天感谢你的观看谢谢你全文检索技术Elasticsearch的学习牵扯到的知识点太多太多了首先要创建一个
Cadence Allegro PCB设计88问解析(九) 之 Allegro中封装(footprint)3D模型添加

一个学习信号完整性的layout工程师今天整理下PCB封装的3D 模型添加此步骤并不是所有的公司使用因为我们平常给器件添加一个实际的高度就已经OK了只不过我们在看整版的3D模型是每个器件都是方方正正的不太美观所以有的人要求完
JavaScript基础

编程之修重在积累而非资质资质虽然重要可是后天的努力更不可缺少直接量编程世界中的直接量就是表面上可以见到的数据值常见的直接量有数字小数字符串字符串的出现必然带着双引号单引号也可以被很好地包裹住而数字则是光秃秃的如
解决Opencv高低版本不兼容问题

分享一下我老师大神的人工智能教程零基础通俗易懂 http blog csdn net jiangjunshow 也欢迎大家转载本篇文章分享知识造福人民实现我们中华民族伟大复兴目前OpenCV版本已更新到2 4 由此出现了一系列问
Qt之QSS中替代background-position的方法。

学过css的朋友应该都多少了解一些雪碧图相关的知识雪碧图用的就是background position来确定选取的素材位置比如素材中每张扑克的宽高分别为49px 66px 如果我要选用红桃8 我就会在css中写 backgroun
Gradle sync failed: A problem occurred configuring project ‘:app‘解决方法

在terminal 中输入 gradlew i 查看详细信息输出信息 NDK is missing a platforms directory If you are using NDK verify the ndk dir is set
vue项目中使用iconfont阿里图标库

1 进入icon 官网 iconfont 阿里巴巴矢量图标库 2 根据搜索选择自己想要的图片添加到项目中或者新建项目如下图 3 添加之后如下图点击下载至本地 4 下载本地解压后的文件如下图 5 在vue项目中 css新建一个文件夹把
JS时间格式和时间戳的相互转换

时间戳转化为日期的方式 var timestamp 1527521052 var newDate new Date newDate setTime timestamp 1000 Mon May 28 2018 console log new
计算机视觉知识点-图像增强

图像增强技术通过对训练图像进行一系列随机更改以生成相似但不同的训练示例来扩展训练数据集的规模随机更改训练示例可以减少模型对某些属性的依赖从而提高模型的泛化能力我们可以以不同的方式裁剪图像以使感兴趣的对象出现在不同的位置从而减少了模

计算机视觉知识点-图像增强

计算机视觉知识点-图像增强 的相关文章

随机推荐

热门标签

计算机视觉知识点-图像增强的相关文章