深度学习研究思路

2023-11-15

研究思路

一、数字图像

基础研究

图像的文件格式：图片有常见的bmp,jpg,png,等。三种图像之间的差别：
位图和矢量图区别；矢量图又叫向量图，是用一系列计算机指令来描述和记录一幅图，一幅图可以解为一系列由点、线、面等到组成的子图，它所记录的是对象的几何形状、线条粗细和色彩等（常见的有CAD图）
位图叫点阵图或像素图，计算机屏幕上的图你是由屏幕上的发光点（即像素）构成的，每个点用二进制数据来描述其颜色与亮度等信息，这些点是离散的，类似于点阵。多个像素的色彩组合就形成了图像

常见我们现在使用的图像识别用jpg、png、bmp三种转换，由于位图具有设备无关图和设备有关关图所以在没有说明的模型情况下一般使用jpg的图像训练图像识别和目标检测，这种数据格式保证深层的语意信息和浅层的边缘信息
	BMP：优点（无损压缩，图质最好），缺点（文件太大，不利于网络传输）
	GIF：优点（动画存储格式），缺点（最多256色，画质差）
	PNG：优点（可保存透明背景的图片），缺点（画质中等）
	JPG：优点（文件小，利于网络传输），缺点（画质损失）
	
alpha通道：按照位分类有：8、16、24、32位真彩图，功能是用来表达一张图像的透明程度

Base64：图像网络传输二进制编码，通过这个可以实现模型在线训练和相关部署及其与各种协议进行转换，主要功能实现图像在网络传输过程的编解码问题

像素尺寸基本信息查看方法
首先用windows系统自带的工具画图打开移动鼠标到图像的固定位置，在左下角显示的像素参数就是该点的像素参数，参考原始是整张图的左上角用鼠标去测试显示（0，0）坐标原点。
标注文件原理
使用结构化数据方法对图像内像素点进行交互式标注，这个工具目前主流的有Labelme和Labelimg，新手可以把xml，json，yml的格式化文件里面的坐标信息点使用python的scipy.misc库方式对应到原图的上画出相应的读出来到矩阵中观察
图像的加减乘除
使用opencv实现图像的算术运算
图像的增删改查
使用opencv的插值实现图像尺寸批量修改

1*1卷积特点；1. 实现跨通道的交互和信息整合；2. 进行卷积核通道数的降维和升维 https://www.jianshu.com/p/5e7c5baf03cf / https://blog.csdn.net/a1154761720/article/details/53411365

3*3卷积特征；(1)3x3是最小的能够捕获像素八邻域信息的尺寸。
(2)两个3x3的堆叠卷基层的有限感受野是5x5；三个3x3的堆叠卷基层的感受野是7x7，故可以通过小尺寸卷积层的堆叠替代大尺寸卷积层，并且感受野大小不变。
(3)多个3x3的卷基层比一个大尺寸filter卷基层有更多的非线性（更多层的非线性函数），使得判决函数更加具有判决性。
(4)多个3x3的卷积层比一个大尺寸的filter有更少的参数，假设卷基层的输入和输出的特征图大小相同为C，那么三个3x3的卷积层参数个数3x（3x3xCxC）=27C2；一个7x7的卷积层参数为49C2；所以可以把三个3x3的filter看成是一个7x7filter的分解（中间层有非线性的分解, 并且起到隐式正则化的作用。
https://blog.csdn.net/qzrdypbuqk/article/details/80104948

55卷积特征：为什么一个55的卷积核可以由2个3*3的卷积核替代？https://blog.csdn.net/m0_37997973/article/details/82457911

不规则卷积特点；

77卷积特点及（77=17+71来稀疏化模型，模型优化压缩的方法）inception v3上说将7x7分解成两个一维的卷积（1x7,7x1）
数据增强中的卷积平移不具备不变性问题

VGGNet的特征：
　　整个网络有5段卷积，每一段内有2~3个卷积层，且每一层的卷积核的数量一样。各段中每一层的卷积核数量依次为：64,128,256,512,512。记住有两层512
　　都使用了同样大小的卷积核尺寸（33）和最大池化尺寸（22），卷积过程使用"SAME"模式，所以不改变feature map的分辨率。网络通过2*2的池化核以及stride=2的步长，每一次可以分辨率降低到原来的1/4，即长宽变为原来的1/2。
　　网络的参数量主要消耗在全连接层上，不过训练比较耗时的依然是卷积层
ResNet的特征：
1、引入shortcut connection/gated shortcut connection
2、实现恒等变换identity mapping

DensNet
NASNet
fishNet
NASNet
mobilenet
squeezenet

卷积神经网络的十种基本操作
变形和可分离卷积技术应用
1、Group convolution 分组卷积
2、减少卷积层参数量-Bootleneck
3、ResNet的skip cooection
4、DepthWise操作解决通道和区域同步分离
5、分组卷积对通道随机分组shuffleNet（Group conv是一种channel分组的方式，Depthwise +Pointwise是卷积的方式，只是ShuffleNet里面把两者应用起来了。因此Group conv和Depthwise +Pointwise并不能划等号。）
6、通道注意力加权SEnet
7、Dilated convolution空洞卷积扩大感受野
8、Deformable convolution 可变形卷积核

启发与思考
现在越来越多的CNN模型从巨型网络到轻量化网络一步步演变，模型准确率也越来越高。现在工业界追求的重点已经不是准确率的提升（因为都已经很高了），都聚焦于速度与准确率的trade off，都希望模型又快又准。因此从原来AlexNet、VGGnet，到体积小一点的Inception、Resnet系列，到目前能移植到移动端的mobilenet、ShuffleNet（体积能降低到0.5mb！），我们可以看到这样一些趋势：

卷积核方面：

大卷积核用多个小卷积核代替；
单一尺寸卷积核用多尺寸卷积核代替；
固定形状卷积核趋于使用可变形卷积核；
使用1×1卷积核（bottleneck结构）。

卷积层通道方面：
标准卷积用depthwise卷积代替；
使用分组卷积；
分组卷积前使用channel shuffle；
通道加权计算。
卷积层连接方面：
使用skip connection，让模型更深；
densely connection，使每一层都融合上其它层的特征输出（DenseNet）
启发
类比到通道加权操作，卷积层跨层连接能否也进行加权处理？bottleneck + Group conv + channel shuffle + depthwise的结合会不会成为以后降低参数量的标准配置？

模式识别

特征提取方法：GIST、HOG、SIFI、LBP，分类模型：SVM、LR、随机森林、决策树

工程思路
工程应用主要解决的问题如下：
结合自己的场景和现有的数据、成熟模型解决下面问题：生产场景的理解难点问题转换为基本可实现问题（问题分解）；基本的预处理操作；怎么finetune迁移学习；load加载和保存模型；多GPU训练/多机器训练；自定义数据加载转换；数据增强方案；训练是前后两个方向计算，inference是前向计算；自己根据模型结构图和checkpoint等写inference。
过拟合、欠拟合
梯度消失（残差块解决梯度弥散）、网络退化、梯度爆炸
softmax、relu leakrelu区别激活函数、损失函数、BN

模型训练应该注意点：
模型部署的基本方法：
应用研究
遮挡识别
多尺度识别
小目标识别
密集型检测
稀疏性检测
Opencv普通算法在计算机视觉中应用
分类识别
目标检测
Faster R-CNN
借助谷歌的https://github.com/tensorflow/models实现各种目标检测
人脸识别

工程注意事项：在根目录和slim下要对steup进行先bulid后install

借助tf-sever部署成服务启动
Cascade R-CNN

借助pytorch的mmdetection实现https://github.com/open-mmlab/mmdetection
C++调用pytorch的模型

YOLOv3

SSD
FSSD
RFBNet
M2Det
应用：单双目测距
语义分割
应用：bili的弹幕布掩码
多模态识别
Imagecaptation

细粒度识别
Factorized Attention: Self-Attention with Linear Complexities
向量场识别
强化学习
自动驾驶线路规划
用于视觉-语言导航的强化跨模态匹配及自我监督模仿学习
论文地址：http://arxiv.org/abs/1811.10092
对抗学习

主要应用是时尚芭莎与主题餐厅店的装饰设计

主要应用
1、OCR
2、人脸识别
3、指纹识别
4、图像识别
5、目标检测
一阶段
二阶段

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习研究思路的相关文章

DELL旧服务器清空原有磁盘配置、划分新磁盘安装系统的方法

https blog csdn net qingsongleo article details 31788075 有很多创业公司为了节省成本会通过一些途径购买二手的服务器二手服务器不能直接使用因为服务器里现存的配置可能和自己的生产环境
【JDK】Mac版安装JDK并配置环境

参考文章地址 https www cnblogs com dingzhijie p 7016397 html https blog csdn net deliciousion article details 78046007 教程内容为在M
linux日志生成速率统计,Linux学习29-awk提取log日志信息，统计日志里面ip访问次数排序...

前言有一段log日志需从日志里面分析统计IP访问次数排序前10名查看是否有异常攻击日志提取如下日志这段日志包含的信息内容较多我们希望提取ip 访问时间请求方式访问路径不带参数状态码 123 125 72 61 05
numpy.empty的用法

一用法 np empty shape dtype float order C 二参数 shape 返回空数组的维度 dtype 指定输出数组的数值类型 order 是否在内存中以C或fortran 行或列顺序存储多维数据三返回值
qt Connect 连接两种方式

https blog csdn net xiezhongyuan07 article details 79247022 写的挺清楚
python画玫瑰图_python之windrose风向玫瑰图的用法-Go语言中文社区

1 安装 A package is available and can be downloaded from PyPi and installed using pip install windrose Install latest deve
SamlSsoClient

Copyright C 2009 Google Inc Licensed under the Apache License Version 2 0 the License you may not use this file except i
显示具体化、显示实例化、隐式实例化

讨论这三者的区别我们要先认识函数模板函数模板是C 新增的功能他会创建一个通用的函数以支持多种不同类型的形参避免函数体的重复设计在我们需要重复用到某一段代码但是需要处理不同类型的参数时使用函数模板是很方便的一个手段他最大的特点是把数
列可以设置 :formatter，对列的值进行处理

需要对数字进行处理
美图2022年财报：AIGC引领创新，多重驱动共振向上

2022年是美图发展的关键之年在数字化趋势加速的背景下美图通过持续优化用户体验和不断拓展业务领域边界进一步巩固了其行业竞争优势近日美图公司发布2022财年年度业绩在收入用户创新等方面均取得了令人瞩目的成绩展现了强劲的发展势
VMware导入vmdk文件（亲测有效）

场景从别的地方拷贝了一个系统镜像后缀是vmdk格式现在演示如何导入到本地操作步骤打开vmware 点击文件新建虚拟机 2 选择自定义高级下一步 3 硬件兼容性默认选择最新的行因为和本地安装的vmware版本有关这里演示
Fiddler笔记（一）

个人学习笔记整理不易有帮助点个赞笔记目录学习笔记目录 pytest和unittest airtest weixin 42717928的博客 CSDN博客目录一简单了解二下载安装三工具使用四 HTTP协议报文结构 1
【操作系统】Linux常用基础和高级命令

目录一 Linux内核二 Linux发行版操作系统三 Linux终端三 Linux终端命令 1 命令格式 2 常用基础命令 1 查看目录命令 2 切换目录命令 3 创建文件和目录命令 4 删除文件和目录命令 5 复制文件和目录命令
使用LeNet实现图像分类任务

本篇的主要内容是解析一下使用MindSpore深度学习框架训练LeNet网络对Mnist数据集进行分类首先我给大家展示出本篇内容的一个示意图帮助大家更直观的看到训练过程的一个重要步骤如图所示其中1 2 3 表示训练过程中的次序下面
RSA密码原理详解及算法实现(六步即可掌握)

一 RSA算法概述 rsa算法是一种非对称加密算法其安全性是建立在大素数难以分解的基础上的即将两个大素数相乘十分容易但想对其乘积进行分解却很困难所以可以将其乘积公开作为加密密钥二 RSA算法设计理念根据数论寻求两个大素数比较简
mysql默认值语句

添加新字段并设置默认值 alter table test tb add column col3 varchar 20 not null DEFAULT abc 修改原有默认值 alter table test tb alter colum
springboot整合logback

1 在springboot项目resource目录下创建一个 logback spring xml 文件 2 在logback spring xml文件中添加内容
vscode代码统计

1 安装插件在vscode界面左侧点击图中所示的菜单项搜索Vscode counter 2 使用插件统计代码点击顶部 View 菜单 gt 在下拉选项中选择第一项 Command Palette gt 工作区选择VscodeCoun
循环机换变速箱油教程_循环机更换自动变速箱油，需要更换的车友可以先了解一下...

前言了解汽车知识让每一位车主维修保养不花冤枉钱胖哥闲置快半年的自动变速箱循环机今天终于再次开张了说起这玩意一年也用不了几次没有还真不行自动变速箱油一般6万公里更换具体大家可根据自己的车辆保养手册规定自动变速箱油更换有三种
ffmpeg视频裁剪

需要注意 ffmpeg 命令 s 指定了宽高后如果为奇数宽高 101 101 则裁剪后的视频无法正常播放不加 s则ffmpeg自动 1处理 private void cutVideo throws Exception try Strin

随机推荐

数组及常用方法

思维导图数组的基本概念什么是数组数组是存储一个或多个数据的容积它是一组内存空间通常用来批量处理数据这组内存空间的名字叫做数组2 数组的特点对齐自身储存的数据并没有什么要求无论是数量还是类型数组中的每一项可以是任意一种数据类
Eviews导入外部Excel数据并回归分析

本文是计量学习中学习笔记下面直接放截图导入数据在这一步之前需要注意Excel中的数据文件不能有中文字符否则会报错回归时需要先选中被解释变量同时按住Ctrl建依次再选中解释变量回归结果中可以看出 3 6的参数是不过检的这说明原
cadence学习笔记（5）-从其他PCB（AD、PADS）导出Allegro使用的封装库

一 AD转Allegro封装库 1 AD转ASCLL文件 2 一定要选择ASCLL文件 3 打开Allegro软件导入刚刚生成的PCB文件 4 转化完成的PCB AD原PCB 5 导出AllegroPCB封装库 6 生成的封装库文件二 P
uni-app全局变量的存储和页面数据之间的传递

https ask dcloud net cn article 35021 目录 1 变量存储 1 1使用公用模块存储就是一个公共的页面 1 2 挂载到 Vue prototype存储 1 3使用globalData存储 1 4 使用vu
阿里巴巴2014笔试总结

昨天去笔试的对我一个非计算机系的真的是略难今天还能回忆起几道题目就贴上来当个总结吧单选第三题比较两段程序哪个的效率更高 t1 for i 0 i lt 1000000 i for j 0 j lt 100 j expression
windows下的C++ socket服务器（2）

博客园闪存首页新随笔联系管理订阅随笔 16 文章 0 评论 33 windows下的C socket服务器二 int make server socket int port 1 void handleAccept int so
Windows 使用第三方工具curl 模拟GET 请求

Windows环境之Curl下载地址 https curl se windows Curl 基本用法 1 访问百度网页并将网页源码保存到本地 curl o news txt www baidu com 2 访问百度网页并显示请求头部信息
算法：滑动窗口解决连续区间子数组问题

文章目录实现原理实现思路典型例题长度最小的子数组无重复字符的最小字串最大连续1的个数III 将x减到0的最小操作水果成篮找到字符串中所有字母异位词哈希表比较优化对哈希表内元素比较的优化总结本篇积累的是滑动窗口的问题
今天来尝试一下docker

1 先在服务器上下载docker 这儿使用官方安装脚本自动安装阿里 curl fsSL https get docker com bash s docker mirror aliyun 我这儿还查看了一下版本这个就安装成功了 2 环境配
Python3.6+RobotFramework自动化测试框架环境搭建-学习笔记

Python3 6 RobotFramework自动化测试框架环境搭建学习笔记一 Appium服务端 1 JDK安装 1 1 推荐JDK版本 1 2 下载地址 1 3 下载方法 1 4 安装方法 2 安卓SDK 2 1 下载方法 2 3
【学习记录】STM32利用定时器中断实现定时闪烁指示灯

任务定时闪烁指示灯任务目标掌握 CubeMX 软件配置定时器实现定时功能的方法任务内容控制开发板上的指示灯LED每隔1s闪烁任务实现使用的STM32芯片是STM32F407ZET6 第一步设置高速时钟设置LED 第二步配
java使用反射修改注解参数值内容

方法一该方法不太灵活过程使用反射获取指定method上方的指定注解拿到该注解的String类型的参数值使用反射修改该String对象内字符数组的地址 import java lang annotation import java
mysql查询json字段中value值，mysql查询字段不包含某个字符串

工作中遇到问题需要查询表中某个字段不包含某个指定字符串的问题以及查询json数据中某个key对应的value值问题1 查询 user id 不包含字符的数据数据如下 id user id 51 jingi ctfo com 52
逻辑思维三大定律

逻辑思维三大定律同一律矛盾律排中律同一律 A 是 A 前后思维中概念要同一白马非马论违反同一律商家的买一赠一前后两个一不是同一个概念违反同一律同一律是逻辑思维的基础矛盾律 A 是 B A 不是B 这两句话矛盾对同一事
c盘那些文件可以删除

c盘那些文件可以删除 http www xitongzhijia net xtjc 20150507 47691 html
OSPF笔记（一）：OSPF基本特点、自治系统、区域、RID冲突

一 OSPF基本特点 1 1 支持无类域间路由 CIDR 1 2 无环路 1 区域内 100 无环 2 区域间不一定无环 1 3 收敛速度快 1 4 使用组播收发协议数据 224 0 0 5 224 0 0 6 1 5 支持多条等价路由
MySQL数据库学习笔记零基础入门面试整理

一 MySQL基础篇 1 数据库技术的基本概念和方法 1 1 数据库基本概念 1 数据数据 Data 指对客观事物进行描述并可以鉴别的符号这些符号是可识别的抽象的不仅仅指狭义上的数字而是有多种表现形式字母文字文本图形音频
【笔试强训选择题】Day32.习题（错题）解析

作者简介大家好我是未央博客首页未央 303 系列专栏笔试强训选择题每日一句人的一生可以有所作为的时机只有一次那就是现在文章目录前言一 Day32习题错题解析总结前言今天是笔试强训第32天一 Day32习题
React Native API

Dimensions 面对现代手机五花八门的屏占比不知道宽度的情况下可以使用 import Dimensions from react native const DimenStyle Dimensions get window 屏幕宽度
深度学习研究思路

研究思路一数字图像基础研究图像的文件格式图片有常见的bmp jpg png 等三种图像之间的差别位图和矢量图区别矢量图又叫向量图是用一系列计算机指令来描述和记录一幅图一幅图可以解为一系列由点线面等到组成的子图它所记

深度学习研究思路

深度学习研究思路 的相关文章

随机推荐

热门标签

深度学习研究思路的相关文章