深度学习研究思路

2023-11-15

研究思路

一、数字图像

基础研究

图像的文件格式:图片有常见的bmp,jpg,png,等。三种图像之间的差别:
位图和矢量图区别;矢量图又叫向量图,是用一系列计算机指令来描述和记录一幅图,一幅图可以解为一系列由点、线、面等到组成的子图,它所记录的是对象的几何形状、线条粗细和色彩等(常见的有CAD图)
位图叫点阵图或像素图,计算机屏幕上的图你是由屏幕上的发光点(即像素)构成的,每个点用二进制数据来描述其颜色与亮度等信息,这些点是离散的,类似于点阵。多个像素的色彩组合就形成了图像

常见我们现在使用的图像识别用jpg、png、bmp三种转换,由于位图具有设备无关图和设备有关关图所以在没有说明的模型情况下一般使用jpg的图像训练图像识别和目标检测,这种数据格式保证深层的语意信息和浅层的边缘信息
	BMP:优点(无损压缩,图质最好),缺点(文件太大,不利于网络传输)
	GIF:优点(动画存储格式),缺点(最多256色,画质差)
	PNG:优点(可保存透明背景的图片),缺点(画质中等)
	JPG:优点(文件小,利于网络传输),缺点(画质损失)
	
alpha通道:按照位分类有:8、16、24、32位真彩图,功能是用来表达一张图像的透明程度

Base64:图像网络传输二进制编码,通过这个可以实现模型在线训练和相关部署及其与各种协议进行转换,主要功能实现图像在网络传输过程的编解码问题

像素尺寸基本信息查看方法
首先用windows系统自带的工具画图打开移动鼠标到图像的固定位置,在左下角显示的像素参数就是该点的像素参数,参考原始是整张图的左上角用鼠标去测试显示(0,0)坐标原点。
标注文件原理
使用结构化数据方法对图像内像素点进行交互式标注,这个工具目前主流的有Labelme和Labelimg,新手可以把xml,json,yml的格式化文件里面的坐标信息点使用python的scipy.misc库方式对应到原图的上画出相应的读出来到矩阵中观察
图像的加减乘除
使用opencv实现图像的算术运算
图像的增删改查
使用opencv的插值实现图像尺寸批量修改

1*1卷积特点;1. 实现跨通道的交互和信息整合;2. 进行卷积核通道数的降维和升维 https://www.jianshu.com/p/5e7c5baf03cf / https://blog.csdn.net/a1154761720/article/details/53411365

3*3卷积特征;(1)3x3是最小的能够捕获像素八邻域信息的尺寸。
(2)两个3x3的堆叠卷基层的有限感受野是5x5;三个3x3的堆叠卷基层的感受野是7x7,故可以通过小尺寸卷积层的堆叠替代大尺寸卷积层,并且感受野大小不变。
(3)多个3x3的卷基层比一个大尺寸filter卷基层有更多的非线性(更多层的非线性函数),使得判决函数更加具有判决性。
(4)多个3x3的卷积层比一个大尺寸的filter有更少的参数,假设卷基层的输入和输出的特征图大小相同为C,那么三个3x3的卷积层参数个数3x(3x3xCxC)=27C2;一个7x7的卷积层参数为49C2;所以可以把三个3x3的filter看成是一个7x7filter的分解(中间层有非线性的分解, 并且起到隐式正则化的作用。
https://blog.csdn.net/qzrdypbuqk/article/details/80104948

55卷积特征:为什么一个55的卷积核可以由2个3*3的卷积核替代?https://blog.csdn.net/m0_37997973/article/details/82457911

不规则卷积特点;

77卷积特点及(77=17+71来稀疏化模型,模型优化压缩的方法)inception v3上说将7x7分解成两个一维的卷积(1x7,7x1)
数据增强中的卷积平移不具备不变性问题

VGGNet的特征:
  整个网络有5段卷积,每一段内有2~3个卷积层,且每一层的卷积核的数量一样。各段中每一层的卷积核数量依次为:64,128,256,512,512。记住有两层512
  都使用了同样大小的卷积核尺寸(33)和最大池化尺寸(22),卷积过程使用"SAME"模式,所以不改变feature map的分辨率。网络通过2*2的池化核以及stride=2的步长,每一次可以分辨率降低到原来的1/4,即长宽变为原来的1/2。
  网络的参数量主要消耗在全连接层上,不过训练比较耗时的依然是卷积层
ResNet的特征:
1、引入shortcut connection/gated shortcut connection
2、实现恒等变换identity mapping

DensNet
NASNet
fishNet
NASNet
mobilenet
squeezenet

卷积神经网络的十种基本操作
变形和可分离卷积技术应用
1、Group convolution 分组卷积
2、减少卷积层参数量-Bootleneck
3、ResNet的skip cooection
4、DepthWise操作解决通道和区域同步分离
5、分组卷积对通道随机分组shuffleNet(Group conv是一种channel分组的方式,Depthwise +Pointwise是卷积的方式,只是ShuffleNet里面把两者应用起来了。因此Group conv和Depthwise +Pointwise并不能划等号。)
6、通道注意力加权SEnet
7、Dilated convolution空洞卷积扩大感受野
8、Deformable convolution 可变形卷积核

启发与思考
现在越来越多的CNN模型从巨型网络到轻量化网络一步步演变,模型准确率也越来越高。现在工业界追求的重点已经不是准确率的提升(因为都已经很高了),都聚焦于速度与准确率的trade off,都希望模型又快又准。因此从原来AlexNet、VGGnet,到体积小一点的Inception、Resnet系列,到目前能移植到移动端的mobilenet、ShuffleNet(体积能降低到0.5mb!),我们可以看到这样一些趋势:

卷积核方面:

大卷积核用多个小卷积核代替;
单一尺寸卷积核用多尺寸卷积核代替;
固定形状卷积核趋于使用可变形卷积核;
使用1×1卷积核(bottleneck结构)。

卷积层通道方面:
标准卷积用depthwise卷积代替;
使用分组卷积;
分组卷积前使用channel shuffle;
通道加权计算。
卷积层连接方面:
使用skip connection,让模型更深;
densely connection,使每一层都融合上其它层的特征输出(DenseNet)
启发
类比到通道加权操作,卷积层跨层连接能否也进行加权处理?bottleneck + Group conv + channel shuffle + depthwise的结合会不会成为以后降低参数量的标准配置?

模式识别

特征提取方法:GIST、HOG、SIFI、LBP,分类模型:SVM、LR、随机森林、决策树

工程思路
工程应用主要解决的问题如下:
结合自己的场景和现有的数据、成熟模型解决下面问题:生产场景的理解难点问题转换为基本可实现问题(问题分解);基本的预处理操作;怎么finetune迁移学习;load加载和保存模型;多GPU训练/多机器训练;自定义数据加载转换;数据增强方案;训练是前后两个方向计算,inference是前向计算;自己根据模型结构图和checkpoint等写inference。
过拟合、欠拟合
梯度消失(残差块解决梯度弥散)、网络退化、梯度爆炸
softmax、relu leakrelu区别 激活函数、损失函数、BN

模型训练应该注意点:
模型部署的基本方法:
应用研究
遮挡识别
多尺度识别
小目标识别
密集型检测
稀疏性检测
Opencv普通算法在计算机视觉中应用
分类识别
目标检测
Faster R-CNN
借助谷歌的https://github.com/tensorflow/models实现各种目标检测
人脸识别

工程注意事项:在根目录和slim下要对steup进行先bulid后install

借助tf-sever部署成服务启动
Cascade R-CNN

借助pytorch的mmdetection实现https://github.com/open-mmlab/mmdetection
C++调用pytorch的模型

YOLOv3

SSD
FSSD
RFBNet
M2Det
应用:单双目测距
语义分割
应用:bili的弹幕布掩码
多模态识别
Imagecaptation

细粒度识别
Factorized Attention: Self-Attention with Linear Complexities
向量场识别
强化学习
自动驾驶线路规划
用于视觉-语言导航的强化跨模态匹配及自我监督模仿学习
论文地址:http://arxiv.org/abs/1811.10092
对抗学习

主要应用是时尚芭莎与主题餐厅店的装饰设计

主要应用
1、OCR
2、人脸识别
3、指纹识别
4、图像识别
5、目标检测
一阶段
二阶段

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习研究思路 的相关文章

  • DELL旧服务器清空原有磁盘配置、划分新磁盘安装系统的方法

    https blog csdn net qingsongleo article details 31788075 有很多创业公司为了节省成本 会通过一些途径购买二手的服务器 二手服务器不能直接使用 因为服务器里现存的配置可能和自己的生产环境
  • 【JDK】Mac版安装JDK并配置环境

    参考文章地址 https www cnblogs com dingzhijie p 7016397 html https blog csdn net deliciousion article details 78046007 教程内容为在M
  • linux日志生成速率统计,Linux学习29-awk提取log日志信息,统计日志里面ip访问次数排序...

    前言 有一段log日志 需从日志里面分析 统计IP访问次数排序前10名 查看是否有异常攻击 日志提取 如下日志 这段日志包含的信息内容较多 我们希望提取ip 访问时间 请求方式 访问路径 不带参数 状态码 123 125 72 61 05
  • numpy.empty的用法

    一 用法 np empty shape dtype float order C 二 参数 shape 返回空数组的维度 dtype 指定输出数组的数值类型 order 是否在内存中以C或fortran 行或列 顺序存储多维数据 三 返回值
  • qt Connect 连接两种方式

    https blog csdn net xiezhongyuan07 article details 79247022 写的挺清楚
  • python画玫瑰图_python之windrose风向玫瑰图的用法-Go语言中文社区

    1 安装 A package is available and can be downloaded from PyPi and installed using pip install windrose Install latest deve
  • SamlSsoClient

    Copyright C 2009 Google Inc Licensed under the Apache License Version 2 0 the License you may not use this file except i
  • 显示具体化、显示实例化、隐式实例化

    讨论这三者的区别我们要先认识函数模板 函数模板是C 新增的功能 他会创建一个通用的函数以支持多种不同类型的形参 避免函数体的重复设计 在我们需要重复用到某一段代码但是需要处理不同类型的参数时 使用函数模板是很方便的一个手段他最大的特点是把数
  • 列可以设置 :formatter,对列的值进行处理

    需要对数字进行处理
  • 美图2022年财报:AIGC引领创新,多重驱动共振向上

    2022年是美图发展的关键之年 在数字化趋势加速的背景下 美图通过持续优化用户体验和不断拓展业务领域边界 进一步巩固了其行业竞争优势 近日 美图公司发布2022财年年度业绩 在收入 用户 创新等方面均取得了令人瞩目的成绩 展现了强劲的发展势
  • VMware导入vmdk文件(亲测有效)

    场景 从别的地方拷贝了一个系统镜像 后缀是vmdk格式 现在演示如何导入到本地 操作步骤 打开vmware 点击文件 新建虚拟机 2 选择自定义 高级 下一步 3 硬件兼容性 默认选择最新的行 因为和本地安装的vmware版本有关 这里演示
  • Fiddler笔记(一)

    个人学习笔记 整理不易 有帮助点个赞 笔记目录 学习笔记目录 pytest和unittest airtest weixin 42717928的博客 CSDN博客 目录 一 简单了解 二 下载安装 三 工具使用 四 HTTP协议报文结构 1
  • 【操作系统】Linux常用基础和高级命令

    目录 一 Linux内核 二 Linux发行版 操作系统 三 Linux终端 三 Linux终端命令 1 命令格式 2 常用基础命令 1 查看目录命令 2 切换目录命令 3 创建文件和目录命令 4 删除文件和目录命令 5 复制文件和目录命令
  • 使用LeNet实现图像分类任务

    本篇的主要内容是解析一下使用MindSpore深度学习框架训练LeNet网络对Mnist数据集进行分类 首先我给大家展示出本篇内容的一个示意图 帮助大家更直观的看到训练过程的一个重要步骤 如图所示 其中1 2 3 表示训练过程中的次序 下面
  • RSA密码原理详解及算法实现(六步即可掌握)

    一 RSA算法概述 rsa算法是一种非对称加密算法 其安全性是建立在大素数难以分解的基础上的 即将两个大素数相乘十分容易 但想对其乘积进行分解却很困难 所以可以将其乘积公开作为加密密钥 二 RSA算法设计理念 根据数论 寻求两个大素数比较简
  • mysql默认值语句

    添加新字段 并设置默认值 alter table test tb add column col3 varchar 20 not null DEFAULT abc 修改原有默认值 alter table test tb alter colum
  • springboot整合logback

    1 在springboot项目resource目录下 创建一个 logback spring xml 文件 2 在logback spring xml文件中添加内容
  • vscode代码统计

    1 安装插件 在vscode界面左侧 点击图中所示的菜单项 搜索Vscode counter 2 使用插件统计代码 点击顶部 View 菜单 gt 在下拉选项中选择第一项 Command Palette gt 工作区选择VscodeCoun
  • 循环机换变速箱油教程_循环机更换自动变速箱油,需要更换的车友可以先了解一下...

    前言 了解汽车知识 让每一位车主维修保养不花冤枉钱 胖哥闲置快半年的自动变速箱循环机 今天终于再次开张了 说起这玩意一年也用不了几次 没有还真不行 自动变速箱油一般6万公里更换 具体大家可根据自己的 车辆保养手册规定 自动变速箱油更换有三种
  • ffmpeg视频裁剪

    需要注意 ffmpeg 命令 s 指定了宽高后 如果为奇数宽高 101 101 则裁剪后的视频无法正常播放 不加 s则ffmpeg自动 1处理 private void cutVideo throws Exception try Strin

随机推荐

  • 数组及常用方法

    思维导图 数组的基本概念 什么是数组 数组是存储一个或多个数据的容积 它是一组内存空间 通常用来批量处理数据 这组内存空间的名字叫做数组2 数组的特点 对齐自身储存的数据并没有什么要求 无论是数量还是类型 数组中的每一项可以是任意一种数据类
  • Eviews导入外部Excel数据并回归分析

    本文是计量学习中学习笔记 下面直接放截图 导入数据在这一步之前 需要注意Excel中的数据文件不能有中文字符 否则会报错 回归时需要先选中被解释变量 同时按住Ctrl建依次再选中解释变量 回归结果中可以看出 3 6的参数是不过检的 这说明原
  • cadence学习笔记(5)-从其他PCB(AD、PADS)导出Allegro使用的封装库

    一 AD转Allegro封装库 1 AD转ASCLL文件 2 一定要选择ASCLL文件 3 打开Allegro软件导入刚刚生成的PCB文件 4 转化完成的PCB AD原PCB 5 导出AllegroPCB封装库 6 生成的封装库文件 二 P
  • uni-app全局变量的存储和页面数据之间的传递

    https ask dcloud net cn article 35021 目录 1 变量存储 1 1使用公用模块存储 就是一个公共的页面 1 2 挂载到 Vue prototype存储 1 3使用globalData存储 1 4 使用vu
  • 阿里巴巴2014笔试总结

    昨天去笔试的 对我一个非计算机系的真的是略难 今天还能回忆起几道题目 就贴上来当个总结吧 单选第三题 比较两段程序哪个的效率更高 t1 for i 0 i lt 1000000 i for j 0 j lt 100 j expression
  • windows下的C++ socket服务器(2)

    博客园 闪存 首页 新随笔 联系 管理 订阅 随笔 16 文章 0 评论 33 windows下的C socket服务器二 int make server socket int port 1 void handleAccept int so
  • Windows 使用第三方工具curl 模拟GET 请求

    Windows环境之Curl下载地址 https curl se windows Curl 基本用法 1 访问百度网页 并将网页源码保存到本地 curl o news txt www baidu com 2 访问百度网页 并显示请求头部信息
  • 算法:滑动窗口解决连续区间子数组问题

    文章目录 实现原理 实现思路 典型例题 长度最小的子数组 无重复字符的最小字串 最大连续1的个数III 将x减到0的最小操作 水果成篮 找到字符串中所有字母异位词 哈希表比较优化 对哈希表内元素比较的优化 总结 本篇积累的是滑动窗口的问题
  • 今天来尝试一下docker

    1 先在服务器上下载docker 这儿使用官方安装脚本自动安装 阿里 curl fsSL https get docker com bash s docker mirror aliyun 我这儿还查看了一下版本 这个就安装成功了 2 环境配
  • Python3.6+RobotFramework自动化测试框架环境搭建-学习笔记

    Python3 6 RobotFramework自动化测试框架环境搭建 学习笔记 一 Appium服务端 1 JDK安装 1 1 推荐JDK版本 1 2 下载地址 1 3 下载方法 1 4 安装方法 2 安卓SDK 2 1 下载方法 2 3
  • 【学习记录】STM32利用定时器中断实现定时闪烁指示灯

    任务 定时闪烁指示灯 任务目标 掌握 CubeMX 软件配置定时器实现定时功能的方法 任务内容 控制开发板上的指示灯LED每隔1s闪烁 任务实现 使用的STM32芯片是STM32F407ZET6 第一步 设置高速时钟 设置LED 第二步 配
  • java使用反射修改注解参数值内容

    方法一 该方法不太灵活 过程 使用反射获取指定method上方的指定注解 拿到该注解的String类型的参数值 使用反射修改该String对象内字符数组的地址 import java lang annotation import java
  • mysql查询json字段中value值,mysql查询字段不包含某个字符串

    工作中遇到问题 需要查询表中某个字段不包含某个指定字符串的问题 以及查询json数据中某个key对应的value值 问题1 查询 user id 不包含 字符的数据 数据如下 id user id 51 jingi ctfo com 52
  • 逻辑思维三大定律

    逻辑思维三大定律 同一律 矛盾律 排中律 同一律 A 是 A 前后思维中 概念要同一 白马非马论违反同一律 商家的买一赠一 前后两个一不是同一个概念 违反同一律 同一律是逻辑思维的基础 矛盾律 A 是 B A 不是B 这两句话矛盾 对同一事
  • c盘那些文件可以删除

    c盘那些文件可以删除 http www xitongzhijia net xtjc 20150507 47691 html
  • OSPF笔记(一):OSPF基本特点、自治系统、区域、RID冲突

    一 OSPF基本特点 1 1 支持无类域间路由 CIDR 1 2 无环路 1 区域内 100 无环 2 区域间 不一定无环 1 3 收敛速度快 1 4 使用组播收发协议数据 224 0 0 5 224 0 0 6 1 5 支持多条等价路由
  • MySQL数据库 学习笔记 零基础入门 面试 整理

    一 MySQL基础篇 1 数据库技术的基本概念和方法 1 1 数据库基本概念 1 数据 数据 Data 指对客观事物进行描述并可以鉴别的符号 这些符号是可识别的 抽象的 不仅仅指狭义上的数字 而是有多种表现形式 字母 文字 文本 图形 音频
  • 【笔试强训选择题】Day32.习题(错题)解析

    作者简介 大家好 我是未央 博客首页 未央 303 系列专栏 笔试强训选择题 每日一句 人的一生 可以有所作为的时机只有一次 那就是现在 文章目录 前言 一 Day32习题 错题 解析 总结 前言 今天是笔试强训第32天 一 Day32习题
  • React Native API

    Dimensions 面对现代手机五花八门的屏占比 不知道宽度的情况下可以使用 import Dimensions from react native const DimenStyle Dimensions get window 屏幕宽度
  • 深度学习研究思路

    研究思路 一 数字图像 基础研究 图像的文件格式 图片有常见的bmp jpg png 等 三种图像之间的差别 位图和矢量图区别 矢量图又叫向量图 是用一系列计算机指令来描述和记录一幅图 一幅图可以解为一系列由点 线 面等到组成的子图 它所记