超全!深度学习在计算机视觉领域的应用一览

2023-11-03

计算机视觉领域正在从统计方法转向深度学习神经网络方法。

计算机视觉中仍有许多具有挑战性的问题需要解决。然而,深度学习方法正在针对某些特定问题取得最新成果。

在最基本的问题上,最有趣的不仅仅是深度学习模型的表现;事实上,单个模型可以从图像中学习意义并执行视觉任务,从而无需使用专门的手工制作方法。

在这篇文章中,您将发现九个有趣的计算机视觉任务,其中深度学习方法取得了一些进展。

让我们开始吧。

概观

在这篇文章中,我们将研究以下使用深度学习的计算机视觉问题:

图像分类

具有本地化的图像分类

物体检测

对象分割

图像样式转移

图像着色

影像重建

图像超分辨率

图像合成

其他问题

注意,当涉及图像分类(识别)任务时,已采用ILSVRC的命名约定。虽然任务集中在图像上,但它们可以推广到视频帧。

我试图关注您可能感兴趣的最终用户问题的类型,而不是深度学习能够做得更好的学术问题。

每个示例都提供了问题的描述,示例以及对演示方法和结果的论文的引用。

图像分类

图像分类涉及为整个图像或照片分配标签。

该问题也被称为“对象分类”,并且可能更一般地称为“图像识别”,尽管后一任务可以应用于与分类图像内容相关的更广泛的任务集。

图像分类的一些示例包括:

1、将X射线标记为癌症与否(二元分类)。

2、对手写数字进行分类(多类分类)。

3、为脸部照片指定名称(多类别分类)。

用作基准问题的图像分类的流行示例是MNIST数据集。

分类数字照片的流行真实版本是街景房号(SVHN)数据集。

有许多图像分类任务涉及对象的照片。两个流行的例子包括CIFAR-10和CIFAR-100数据集,这些数据集的照片分别分为10类和100类。

大规模视觉识别挑战赛(ILSVRC)是一项年度竞赛,其中团队在从ImageNet数据库中提取的数据上竞争一系列计算机视觉任务的最佳性能。图像分类方面的许多重要进步来自于发布在该挑战或来自该挑战的任务的论文,最值得注意的是关于图像分类任务的早期论文。例如:

使用深度卷积神经网络的ImageNet分类,2012。

用于大规模图像识别的非常深的卷积网络,2014。

围绕卷积更深入,2015年。

图像识别的深度残留学习,2015年。

具有本地化的图像分类

具有本地化的图像分类涉及为图像分配类标签并通过边界框(在对象周围绘制框)来显示图像中对象的位置。

这是一个更具挑战性的图像分类版本。

本地化图像分类的一些示例包括:

1.将X射线标记为癌症或在癌症区域周围画一个盒子。

2.在每个场景中对动物的照片进行分类并在动物周围画一个盒子。

用于具有定位的图像分类的经典数据集是PASCAL视觉对象类数据集,或简称为PASCAL VOC(例如VOC 2012)。这些是多年来在计算机视觉挑战中使用的数据集。

该任务可以涉及在图像中的同一对象的多个示例周围添加边界框。因此,该任务有时可称为“对象检测”。

用于本地化图像分类的ILSVRC2016数据集是一个流行的数据集,包含150,000张照片和1000种对象。

关于本地化图像分类的论文的一些例子包括:

选择性搜索对象识别,2013年。

用于精确对象检测和语义分割的丰富特征层次结构,2014年。

快速R-CNN,2015年。

物体检测

物体检测是具有定位的图像分类的任务,尽管图像可能包含需要定位和分类的多个对象。

与简单的图像分类或具有定位的图像分类相比,这是一项更具挑战性的任务,因为在不同类型的图像中通常存在多个对象。

通常,使用并展示用于具有定位的图像分类的技术用于对象检测。

对象检测的一些示例包括:

绘制边界框并标记街道场景中的每个对象。

绘制边界框并在室内照片中标记每个对象。

绘制边界框并在横向中标记每个对象。

PASCAL Visual Object Classes数据集或简称PASCAL VOC(例如VOC 2012)是用于对象检测的常见数据集。

用于多个计算机视觉任务的另一个数据集是Microsoft的上下文数据集中的公共对象,通常称为MS COCO。

关于物体检测的论文的一些例子包括:

OverFeat:使用卷积网络的集成识别,本地化和检测,2014年。

更快的R-CNN:利用区域提案网络实现实时目标检测,2015年。

您只看一次:统一,实时对象检测,2015年。

对象分割

对象分割或语义分割是对象检测的任务,其中在图像中检测到的每个对象周围绘制线。图像分割是将图像分成段的更普遍的问题。

对象检测有时也称为对象分割。

与涉及使用边界框来识别对象的对象检测不同,对象分割识别图像中属于对象的特定像素。这就像一个细粒度的本地化。

更一般地,“图像分割”可以指将图像中的所有像素分割成不同类别的对象。

同样,VOC 2012和MS COCO数据集可用于对象分割。

KITTI Vision Benchmark Suite是另一种流行的对象分割数据集,提供用于自动驾驶车辆训练模型的街道图像。

关于对象分割的一些示例论文包括:

同步检测和分割,2014年。

用于语义分割的完全卷积网络,2015。

用于对象分割和细粒度本地化的超级列,2015。

SegNet:用于图像分割的深度卷积编码器 - 解码器架构,2016。

Mask R-CNN,2017年。

风格转移

风格转移或神经风格转移是从一个或多个图像学习风格并将该风格应用于新图像的任务。

该任务可以被认为是一种可能没有客观评价的照片滤波器或变换。

例子包括将特定著名艺术品(例如Pablo Picasso或Vincent van Gogh)的风格应用于新照片。

数据集通常涉及使用公共领域的著名艺术作品和标准计算机视觉数据集中的照片。

一些论文包括:

艺术风格的神经算法,2015。

使用卷积神经网络的图像样式转移,2016。

图像着色

图像着色或神经着色涉及将灰度图像转换为全色图像。

该任务可以被认为是一种可能没有客观评价的照片滤波器或变换。

例子包括着色旧的黑白照片和电影。

数据集通常涉及使用现有的照片数据集并创建模型必须学习着色的照片的灰度版本。

一些论文包括:

彩色图像着色,2016年。

让我们有颜色:全球和本地图像的联合端到端学习,用于同步分类的自动图像着色,2016。

深色着色,2016。

影像重建

图像重建和图像修复是填充图像的缺失或损坏部分的任务。

该任务可以被认为是一种可能没有客观评价的照片滤波器或变换。

示例包括重建旧的,损坏的黑白照片和电影(例如照片恢复)。

数据集通常涉及使用现有的照片数据集并创建模型必须学会修复的损坏版本的照片。

一些论文包括:

像素回归神经网络,2016年。

使用部分卷积的图像修复不规则孔,2018年。

使用具有带通滤波的深度神经网络进行高度可扩展的图像重建,2018年。

图像超分辨率

图像超分辨率是生成具有比原始图像更高分辨率和细节的图像的新版本的任务。

通常为图像超分辨率开发的模型可用于图像恢复和修复,因为它们解决了相关问题。

数据集通常涉及使用现有的照片数据集并创建缩小版照片,模型必须学会创建超分辨率版本。

一些论文包括:

使用生成对抗网络的照片真实图像超分辨率,2017。

深拉普拉斯金字塔网络,快速准确的超分辨率,2017。

Deep Image Prior,2017。

图像合成

图像合成是生成现有图像或全新图像的目标修改的任务。

这是一个非常广泛的领域,正在迅速发展。

它可能包括图像和视频的小修改(例如图像到图像的翻译),例如:

更改场景中对象的样式。

将对象添加到场景中。

将面添加到场景中。

它还可能包括生成全新的图像,例如:

1、生成面孔。

2、生成浴室。

3、生成衣服。

一些论文包括:

用深度卷积生成对抗网络学习无监督表示,2015。

使用PixelCNN解码器生成条件图像,2016。

使用周期一致的对抗网络进行不成对的图像到图像转换,2017。

其他问题

还有其他重要且有趣的问题我没有涉及,因为它们不是纯粹的计算机视觉任务。

值得注意的例子是图像到文本和文本到图像:

1、图像字幕:生成图像的文本描述。

Show and Tell:神经图像标题生成器,2014。

2、图像描述:生成图像中每个对象的文本描述。

用于生成图像描述的深层视觉语义对齐,2015。

3、文本到图像:基于文本描述合成图像。

AttnGAN:使用注意生成对抗网络生成细粒度文本到图像,2017。

据推测,人们学会在其他模态和图像之间进行映射,例如音频。

总结

在这篇文章中,您发现了九种深度学习应用于计算机视觉任务。

本文转载自新机器视觉,版权归属作者

“哪吒头”—玩转小潮流

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

超全!深度学习在计算机视觉领域的应用一览 的相关文章

  • 【概率论】先验概率、联合概率、条件概率、后验概率、全概率、贝叶斯公式

    参考 浅谈全概率公式和贝叶斯公式 先验概率 先验概率是基于背景常识或者历史数据的统计得出的预判概率 一般只包含一个变量 例如P A P B 联合概率 联合概率指的是事件同时发生的概率 例如现在A B两个事件同时发生的概率 记为P A B P
  • Linux系统(Centos7)部署JDK环境

    要想在将Java项目上线 则必须在Linux系统中部署Java项目 而要想Java项目在Linux系统中运行 则首先必须在LInux系统中部署JDK环境 具体步骤如下所示 1 下载JDK8 JDK下载路径 目前官网下载jdk的时候需要登录
  • python解析tcp数据包-python解析获取发往本机的数据包并打印

    1 文件 tcp py 2KB 下载 69 coding cp936 import socket from struct import from time import ctime sleep from os import system s
  • Java中输入一个整数n,实现n的阶乘

    n的阶乘 1 2 3 n public static void main String args 2 输入一个整数n 实现n的阶乘 n n 1 1 Scanner sc new Scanner System in System out pr
  • git push origin master和git push的区别

    目录 1 git push origin master 指定远程仓库名和分支名 2 git push 不指定远程仓库名和分支名 3 这两者的区别 git push是git push origin master的一种简写形式 4 建议使用 g
  • 原代码阅读与分析

    服务计算web技术之原代码阅读与分析 先给出分析代码的链接 mux go 路由Router 创建Router实例 type Router struct Configurable Handler to be used when no rout
  • 编译原理实验 实验二 LL(1)分析法 Python实现

    1 实验目的 通过完成预测分析法的语法分析程序 了解预测分析法和递归子程序法的区别和联系 使学生了解语法分析的功能 掌握语法分析程序设计的原理和构造方法 训练学生掌握开发应用程序的基本方法 有利于提高学生的专业素质 为培养适应社会多方面需要
  • python更换版本。

    问题背景 由于ddddocr库需要python3 9及以下的版本 本人安装的为python3 11版本 所以需要更换版本 解决办法 1 安装所需要版本的pyhton我安装的是python3 9 之前安装的python3 11是不需要卸载的
  • 机器学习笔记(一):监督学习与无监督学习概述

    机器学习的两种模型 监督学习和无监督学习 一 监督学习 supervised learning 监督学习是实际应用中使用更多的机器学习类型 1 监督学习就是学习从x到y 即学习从输入到输出的映射的算法 关键特征就是提供学习算法的实例供机器学
  • Microsoft Dynamics CRM 2015 之安装SQL Server 2012过程中出现“启用windows功能NetFx3时出错...

    错误详细信息 安装 Microsoft NET Framework 3 5 时出错 启用 Windows 功能 NetFx3 时出错 错误代码 2146498298 请尝试从 Windows 管理工具启用 Windows 功能 NetFx3
  • LeetCode日记

    题目 实现 strStr 函数 给定一个 haystack 字符串和一个 needle 字符串 在 haystack 字符串中找出 needle 字符串出现的第一个位置 从0开始 如果不存在 则返回 1 说明 当 needle 是空字符串时
  • html input date不起效,JavaScript – HTML 5 input type =“date”在Firefox中不起作用

    Firefox doesn t support HTML5 s 你有两个选择 gt 总是使用Javascript日期时间选择器 或 gt 检查浏览器是否支持该标签 如果是使用它 如果没有 然后回退在javascript datepicker
  • frida启动报错:./frida-server-15.1.27-android-x86_64: can‘t execute: Is a directory

    报错场景 在MuMu模拟器上安装frida server 启动的时候报错 报错信息如下 frida server 15 1 27 android x86 64 can t execute Is a directory 原因剖析 报错信息上显
  • 10g r2 RAC Dataguard 3 nodes

    最近在深圳实施windows 2003 上的oracle RAC项目 原来计划是两个节点 结果客户要求三个节点 因为是他们认为购买的服务器只有二个cpu 原来计划是四个cpu 然后还要在做dataguard 一开始安装很顺利 两个节点测试也
  • HTTP状态 405 - 方法不允许

    错误描述 HTTP状态 405 方法不允许 类型 状态报告 消息 Request method GET not supported 描述 请求行中接收的方法由源服务器知道 但目标资源不支持 此时的原因是请求类型错误 网页是get请求 但是实
  • springMVC项目如何配置tomcat

    先打开项目然后按图片所示操作 最后点击ok就可以启动项目啦
  • 【机器学习教程】四、随机森林:从论文到实践

    引言 随机森林 Random Forest 是机器学习领域中一种强大的集成学习算法 它的优秀性能和广泛应用使得它成为了机器学习领域的一个重要里程碑 本文将从算法的发展历程 重要论文 原理以及实际应用等方面详细介绍随机森林 并提供一个复杂的实
  • 时间段随机 java_java生成指定范围的随机日期

    有这样一个需求 构造一个方法 随机生成1990 12 31 00 00 00到 2013 12 31 00 00 00之间任意一个时间点 思路是这样 在javaAPI中 Date类型和long类型很好转化 所以我们可以把问题转化为 求两个l
  • Selinux

    1 Selinux的影响 对于文件的影响 当selinux开启时 内核会对每个文件及每个开启的程序进行标签加载 标签内记录程序和文件的安全上下文 context 对于程序功能的影响 当selinux开启会对程序的功能加载开关 并设定此开关的
  • HBuilder 打包 H5 APP 进行认证登录

    H5 Mui App 统一身份认证登录过程的记录 在 h5 app 开发的过程中 用到到统一认证登录的功能 统一身份认证登接口 来进行登录验证 在开发 h5 app 的时候 一般会提供 app 网页版的 这时候会发现 网页版和打包的APP几

随机推荐

  • Perl知识点滴

    函数多返回值 v1 abc v2 bcd v3 v4 upcase v1 v2 sub upcase my parms for parms tr a z A Z return wantarray parms parms 0 print v3
  • 【数据结构】6.4 AVL树(C++)

    数据结构 6 4 AVL树 没有学过二叉搜索树 也叫二叉排序树或二叉查找树 的小伙伴们建议先学习一下 这样阅读会更轻松哦 点我学习二叉搜索树 目录 一 AVL树的概念 1 二叉搜索树的问题 2 AVL树的性质 二 AVL树实现平衡的方法 1
  • 为啥要用三层结构

    开发人员可以只关注整个结构中的其中某一层 可以很容易的用新的实现来替换原有层次的实现 可以降低层与层之间的依赖 有利于标准化 利于各层逻辑的复用 结构更加的明确 在后期维护的时候 极大地降低了维护成本和维护时间 体现了高内聚 低耦合的思想
  • DocuCentre SC2020 打印机连接

    驱动下载地址 https support fb fujifilm com setupDriverForm do ctry code CN lang code zh CN d lang zh CN pid DCSC2020 anchor0 安
  • 《再也不怕elasticsearch》es环境搭建、集群搭建

    Elasticsearch环境搭建 大家好我是迷途 一个在互联网行业 摸爬滚打的学子 热爱学习 热爱代码 热爱技术 热爱互联网的一切 再也不怕elasticsearch系列 帅途会慢慢由浅入深 为大家剖析一遍 各位大佬请放心 虽然这个系列帅
  • 90、基于STM32单片机数字频率计频率检测配NE555脉冲发生器设计(程序+原理图+PCB源文件+参考论文+硬件设计资料+元器件清单等)

    单片机主芯片选择方案 方案一 AT89C51是美国ATMEL公司生产的低电压 高性能CMOS型8位单片机 器件采用ATMEL公司的高密度 非易失性存储技术生产 兼容标准MCS 51指令系统 片内置通用8位中央处理器 CPU 和Flash存储
  • 几个效率高的排序算法

    实用排序算法 复杂度小于等于O n 2 中效率最低但实现并不是最简单的的两个 C C 教材却总喜欢拿来大讲特讲 非常不利于初学者养成 程序效率 的思维 实际上 各种排序算法里 除了堆排序实现较为复杂外 从代码量的角度 大多数算法都不比冒泡
  • matlab标准数据,Matlab数据标准化实现

    在多属性综合评价问题中 为了消除量纲差异带来指标不可公度性问题 往往需要对原始评价矩阵进行标准化处理 通过将不同量纲进行变换 变为无量纲的标准化指标 考虑到原始评价矩阵可能同时有多种类型的指标 比如 某个评价问题中可能同时有正向指标 越大越
  • 五分钟让你彻底了解TDD、ATDD、BDD&RBE

    在目前比较流行的敏捷开发模式 如极限编程 Scrum方法等 中 推崇 测试驱动开发 Test Driven Development TDD 测试在先 编码在后的开发实践 TDD有别于以往的 先编码 后测试 的开发过程 而是在编程之前 先写测
  • PostgreSQL用户登录失败自动锁定的解决办法

    墨墨导读 PostgreSQL使用session exec插件实现用户密码验证失败几次后自动锁定 本文介绍一种处理方案 一 插件session exec安装配置篇 下载插件并编译安装 https github com okbob sessi
  • RPA机器人的两种类型与未来发展

    眼下 RPA 机器人流程自动化 日渐成为业务流程优化重要解决方案和企业关注的重点 RPA不仅可以改善企业的工作方式 带来效率的提升和超高的投资回报率 ROI 其潜在的其他好处也是其他工具所无法比拟的 如改善客户体验 提高员工满意度 提高人才
  • 机器学习(一)svm运用实例

    机器学习 一 svm运用实例 这里我使用sklearn svm SVC函数 首先介绍一下函数参数 sklearn svm SVC C 1 0 kernel rbf degree 3 gamma auto coef0 0 0 shrinkin
  • TCPIP四层协议

    TCP IP四层协议 在说TCP IP四层协议之前 就不得不说OSI七层模型 OSI七层模型 自底向上依次是物理层 数据链路层 网络层 传输层 会话层 表示层 应用层 TCP IP体系结构的优点 1 简化了计算机网络的结构 从原来的七层模型
  • UITabBarItem

    UITabBarController UITabBar UIBarItem UITabBarItem UITabBarItem就是UITabBar上显示的小按钮 我们也可以定制系统UITabBarItem按钮 只需通过UITabBarIte
  • C/C++的64位整型 zz

    为了和DSP兼容 TSint64和TUint64设置成TSint40和TUint40一样的数 结果VC中还是认为是32位的 显然不合适 typedef signed long int TSint64 typedef unsigned lon
  • 初始化 Repo错误 错误信息:fatal: error [Errno 111] Connection refused

    错误信息 fatal error Errno 111 Connection refused 解决方法 修改home 目录下的 bashrc文件 gedit bashrc 在文件的末尾添加如下命令 export PATH bin PATH e
  • QT5.6静态编译添加ODBC数据库

    qt5 6已经编译好 现在添加ODBC数据库的支持 1 进入qt everywhere opensource src 5 6 3 qtbase src plugins sqldrivers odbc目录 运行qmake exe 然后再运行n
  • C语言学生管理系统课程设计

    include
  • cookie和session之间的关系

    当登录接口依赖token的 可以先登录后 token存到一个yaml或者json或者ini的配置文件里面 后面所有的请求去拿这个数据就可以全局使用 如果是cookies的参数 可以用session自动关联 详情如下 一 cookie与ses
  • 超全!深度学习在计算机视觉领域的应用一览

    计算机视觉领域正在从统计方法转向深度学习神经网络方法 计算机视觉中仍有许多具有挑战性的问题需要解决 然而 深度学习方法正在针对某些特定问题取得最新成果 在最基本的问题上 最有趣的不仅仅是深度学习模型的表现 事实上 单个模型可以从图像中学习意