深度学习学习笔记(一):深度学习在图像和视频的应用

2023-11-07

深度学习在图像和视频的应用

一、图像/视频处理

1. 超分辨率问题

超分辨率(Super Resolution),超分辨率问题简称SR问题。
目的:由低分辨率(Low Resolution,LR)图像->高分辨率(High Resolution,HR)清晰图像。

处理方法
1- 传统方法,优化损失函数.
2- 深度学习方法,卷积神经网络.
深度学习的SR研究:开山鼻祖是SRCNN,还有VDSR网络等.

2. 图像去噪

目的:从噪声图像中恢复出原始图像。

去噪方法
1- 传统方法,优化损失函数.
优化目的:恢复出的无噪图像与带噪图像尽可能相似。
why:一般认为带噪声信号的图像主要成分是图像本身信号。
2- 深度学习方法,卷积神经网络.
深度学习的去噪研究:DnCNN、CBDNet等,应对已知噪声强度/盲噪声强度。

3. 图像增强

目的:改善图像的视觉效果、图像质量、丰富信息量,加强图像判读和识别效果。

3.1 弱光照增强

问题:暗光拍照由于光线不足,导致欠曝光或者对比度不足。
解决方法:调整图像的对比度。

两类问题
1.夜景增强,LLNet
2.去雾,DehazeNet

3.2 动态范围增强

4. 质量评价

质量评价方法好坏的标准:是否与人的判断相近。
质量评价的目的:用数学的方法构建模型,使得这个模型能尽可能逼近人眼判别的结果。
质量评价的方法:
1.传统质量评价
2.基于深度学习的质量评价方法,DIQaM/NIMA

二、图像/视频压缩

2.1 传统压缩编码框架

  • 图片压缩编码框架
    JPEG是Joint Photographic Experts Group(联合图像专家组)的缩写,文件后辍名为".jpg"或".jpeg",是最常用的图像文件格式,由一个软件开发联合会组织制定。是有损压缩。
    虽然有损,但其去除的是冗余的图像数据,在获得极高的压缩率的同时能展现十分丰富生动的图像,可以用最少的磁盘空间得到较好的图像品质。
    方法:根据人眼视觉特性剔除图像信息中视觉不敏感得成分,从而实现图像信息的高度压缩。所根据的视觉特性主要为:高频不敏感性和色彩不敏感性。
  • 视频压缩编码框架
    预测编码:
    1、帧内预测编码
    2、帧间预测编码
  • 变换编码
  • 熵编码
  • 环路滤波

2.2 基于深度学习的图像压缩

三、传统的计算机视觉处理

1、早期 的计算机视觉处理

早期的计算机视觉处理的步骤
1- 特征提取 全局特征,浅层的简单特征
2- 索引技术 穷举索引
3- 相关反馈 正/负反馈
4- 重排序 按相关度排序

2、中期 的计算机视觉处理
词袋模型

中期的计算机视觉处理的步骤
1- 特征提取 提取局部特征,检测器+描述器
2- 向量化 对描述器得到的local word进一步处理,聚类去冗余,形成Viscal word
3- 生成词典 全体Viscal word(视觉关键词)构建词典
4- 索引技术 倒排索引
5- 后处理 TF-IDF加权排序,查询扩展

3、深度学习 的计算机视觉处理

  • Why?
    传统方法(人工特征提取+分类器)耗费人力物力,步骤繁琐,耗时。
深度学习 在计算机视觉处理的应用 模型
1- 图像分类 LeNet5/AlexNet/VGGNet/InceptionNet/ResNet
2- 物体检测 RCNN系列/YOLO系列/one-stage系列
3- 图像分割
4- 图像回归
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习学习笔记(一):深度学习在图像和视频的应用 的相关文章

  • Android解析含有键值是汉字的json串

    Android解析含有键值是汉字的json串 今天在接入百度orc识别身份证的功能时 请求成功后 百度返回的json中发现有的键值是中文 我之前没有遇到过这种情况 依然用在之前项目封装的fastjson正常解析json串 结果解析失败 刚开
  • 性能测试二八原则,响应时间2/5/8原则

    性能测试二八原则 响应时间2 5 8原则 所谓响应时间的 2 5 8原则 简单说 就是 当用户能够在2秒以内得到响应时 会感觉系统的响应很快 当用户在2 5秒之间得到响应时 会感觉系统的响应速度还可以 当用户在5 8秒以内得到响应时 会感觉
  • Java视频学习笔记-19-设计模式

    面向对象思想设计原则 单一职责原则 即高内聚低耦合 每个类应该只有一个职责 对外只能提供一种功能 而引起类变化的原因应该只有一个 功能细化 在设计模式中 所有的设计模式都遵循这一原则 开闭原则 对类的改动是通过增加代码进行的 而不是修改现有
  • zlib库使用简单讲解

    1 zlib库简介 zlib 是通用的压缩库 提供了一套 in memory 压缩和解压函数 并能检测解压出来的数据的完整性 integrity zlib 也支持读写 gzip gz 格式的文件 源码网址 http www gzip org
  • C# 字符串

    文章目录 C 字符串操作 1 获取长度 2 查找字符 3 字符串替换 4 字符串截取 5 字符串插入 C 类型转换 1 隐式类型转换 2 显式类型转换 C Convert方法和Parse 方法 1 Parse 2 Convert C 装箱和
  • 【机器学习-西瓜书】第5章 神经网络

    5 1 神经元模型 定义 神经网络是由具有适应性的简单单元组成的 广泛并行互连的网络 其组织能够模拟神武神经系统对真实世界物体所做出的交互反应 这里的简单单元指 神经元neuron 在神经网络中 每个神经元与其他神经元相连 当超过一个 阈值

随机推荐

  • Bash脚本自学 - 变量和位置自变量

    变量 在hellothere sh文件里 bin bash FIRST NAME Herbert LAST NAME Lindemans echo Hello FIRST NAME LAST NAME 在指令行输入 chmod u x he
  • [LeetCode] Binary Tree Level Order Traversal 二叉树层次遍历(DFS

    目录 1 Binary Tree Level Order Traversal 二叉树层次遍历 BFS 2 Binary Tree Level Order Traversal II 二叉树层次遍历从低往高输出 BFS 3 Maximum De
  • 如何用dev-c++创建lib(静态链接库)文件

    虽说dev c 适合初学者 但是它的功能还是很强大的 那如何用它制作一个lib 静态链接库 呢 目录 第一步 制作静态链接库 第二步 链接静态链接库 方法一 使用项目 方法二 修改编译选项 第三步 使用库函数 方法一 方法二 第一步 制作静
  • git出现fatal: unable to auto-detect email address (got ‘用户@PC机.(none)’)

    git出现fatal unable to auto detect email address got 用户 PC机 none 解决方法 cd git 进入git中的 git文件夹 找到config vim config 按i进入编辑模式 在
  • Linux入门

    1 1 Linux操作系统简介 Linux是一套免费使用和自由传播的类Unix操作系统 是一个基于POSIX和UNIX的多用户 多任务 支持多线程和多CPU的操作系统 它能运行主要的UNIX工具软件 应用程序和网络协议 它支持32位和64位
  • MP4中同时有逐行、隔行编码视频内容

    公司做了个MP4视频 一部分是逐行的 一个部门是隔行扫描方式 用mediainfo看了下 整个显示视频信息为 Scan Type Interlaced Scan Order TFF 用Stream Eye观看视频 隔行部分如下图 逐行部分
  • Windows Qt设置环境变量

    目录 附 其他相关文章 问题 在Qt软件中新建项目 可以直接构建运行 但是当我们直接双击运行项目构建生成的exe文件时 会提示以下内容 由于找不到 Qt5Core dll 无法继续执行代码 重新安装程序可能会解决此问题 另外 可能还会有Qt
  • 关于vue项目在IE11上遇到的兼容性问题

    1 chunk vendors js语法错误 分析 sockjs client包的语法错误 解决 在vue config js中配置transpileDependencies属性 module exports 打包时将转化成低语法 tran
  • 【Django基础学习】python manage.py inspectdb相关的一些问题和解决方案

    Django 之 inspectdb inspectdb简单介绍 具体用法 在Django项目下 python manage py inspecdb gt your app name models py 作用 众所周知 Django较为适合
  • windows系统中通过 运行(win+R) 的方式打开电脑程序或文件夹

    或许你有这样的经历 在电脑 win系统 中 按下win徽标加R键会弹出 运行对话框 里面输入 notepad mspaint snippingtool等后会出来系统的程序 那么我们如何也这样打开自己的程序 或文件夹呢 从而让桌面变得较为干净
  • AR-虚实融合文献阅读整理(一)

    一 增强现实中虚实融合中光照一致性的研究 http xueshu baidu com s wd paperuri 3A 28e867ba9c51b7d137175268533e46399d 29 filter sc long sign tn
  • PCIe专题学习——2.5(Flow control缓存架构及信用积分)

    之前我们讲了对PCIe的一些基础概念作了一个宏观的介绍 了解了PCIe是一种封装分层协议 packet based layered protocol 主要包括事务层 Transaction layer 数据链路层 Data link lay
  • Ubuntu的gcc卸载与安装

    1 卸载旧版本gcc sudo apt get remove gcc 2 添加软件源 sudo add apt repository ppa ubuntu toolchain r test 3 更新 sudo apt get update
  • FIR与IIR滤波器

    H z 有分母的就是IIR 因为有自环 递归型 一个冲激响应会一直在系统里循环 H z 没有分母的就是FIR 因为没有自环 非递归型 一个冲激响应不会在系统里一直循环 通过H Z 也可简单判断 一般FIR滤波器的系统函数无分母 IIR滤波器
  • 网络爬虫-----初识爬虫

    目录 1 什么是爬虫 1 1 初识网络爬虫 1 1 1 百度新闻案例说明 1 1 2 网站排名 访问权重pv 2 爬虫的领域 为什么学习爬虫 2 1 数据的来源 2 2 爬虫等于黑客吗 2 3 大数据和爬虫又有啥关系 2 4 爬虫的领域 前
  • 用户态和内核态的区别

    一 操作系统需要两种CPU状态 内核态 Kernel Mode 运行操作系统程序 操作硬件 用户态 User Mode 运行用户程序 二 指令划分 特权指令 只能由操作系统使用 用户程序不能使用的指令 举例 启动I O 内存清零 修改程序状
  • 数字电路的时序分析

    记录一下时序分析的学习 首先搞清楚以下时序分析时用到的名词 记录一下时序分析的学习 1 什么是setup time和hold time 为什么需要setup time和hold time 2 时序路径是什么 有哪些时序路径 3 如何分析时序
  • node编写C++扩展文件并引入到项目方案总结

    插入模块 通过Addon实现可扩展接口 可以将C 插入到前端项目中 编写扩展文件 编译扩展 调用扩展 参考 在项目中引入本地模块 1 使用 npm install module1 2 直接修改 package json 字段 增加依赖 3
  • layUI基本使用——布局

    layui特点 1 layui属于轻量级框架 简单美化 是用于开发后端模式 它在服务端页面上有非常好的效果 2 layui是提供给后端开发人员的ui框架 基于DOM驱动 layui的使用 引入layui的核心css文件 引入layui的he
  • 深度学习学习笔记(一):深度学习在图像和视频的应用

    深度学习在图像和视频的应用 文章目录 深度学习在图像和视频的应用 一 图像 视频处理 1 超分辨率问题 2 图像去噪 3 图像增强 3 1 弱光照增强 3 2 动态范围增强 4 质量评价 二 图像 视频压缩 2 1 传统压缩编码框架 2 2