计算机视觉中的编码-解码器结构总结(持续更新)

2023-05-16

文章目录

  • NLP领域的编码解码器结构
  • 机器学习中的编码器
    • 自动编码器
  • 视觉领域中的编码解码器结构

编码器-解码器结构:编码器原始输入信号转化为中间格式,然后解码器将中间格式转化为目的信号。在NLP领域的机器翻译、摘要提取等部分,在视觉领域的目标检测、场景感知,在传统的机器学习中MLP等等都是Encoder-Decoder的结构。

NLP领域的编码解码器结构

直接用一个函数完成数据转化,可能会存在困难。例如对机器翻译来说输入和输出的长度是不固定的,二者还可能不相等,因此通过一个中间格式来完成输出与输入的转化。

对于NLP任务,Embedding是从语义空间到向量空间的映射,语义相近的两个词汇在向量空间的位置也比较接近,编码器-解码器网络是一个成功的翻译模型,接受一个序列作为输入,并将序列中的信息编码作为中间表示,解码器将中间表示解码为目标语言。
在这里插入图片描述
如上图所示,RNN中的Seq-to-Seq结构,处理机器翻译问题,将原始语言向量输入通过RNN编码为中间形式,后面通过Decoder解码为另一种语言向量序列。

机器学习中的编码器

自动编码器

最简单的,PCA在机器学习领域作为一种降维的工具,可以将样本投影在新的坐标系下,相当于一种新的中间表示形式,我们后面用线性回归或者SVM进行分类等任务,这时候机器学习模型扮演解码器的结构,这是一种非自动编码器,需要先人工干预编码,然后训练解码器。
在这里插入图片描述

如上图所示,自动编码器(Auto-Encoder,简称AE)是一种特殊的神经网络,用于特征提取和数据降维络。最简单的自动编码器由一个输入层,一个隐含层,一个输出层组成。隐含层的映射充当编码器,输出层的映射充当解码器。训练时编码器对输入向量进行映射,得到编码后的向量;解码器对编码向量进行映射,得到重构后的向量,它是对输入向量的近似。

编码器和解码器同时训练,训练的目标是最小化重构误差,即让重构向量与原始输入向量之间的误差最小化,这与PCA非常类似。因此样本x的标签值就是样本自身。训练完成之后,在预测时只使用编码器而不再需要解码器,编码器的输出结果被进一步使用,用于分类,回归等任务。

视觉领域中的编码解码器结构

  • Transfuser:多模态领域
    在这里插入图片描述
    如上图所示,模型将图像和雷达信息编码成512长度的一维向量,表示场景语义信息,后面用MLP组合RNN进行解码,预测车辆的行动轨迹。
    这种结构,其实就是将CNN产生的局部注意力图用作transformer计算全局注意力,从而达到快速收敛和稳定的效果

  • SRN-DeblurNet:高质量图像生成
    在这里插入图片描述
    对原图像(带有噪声、低分辨率)编码并解码生成高分辨率去噪图片。

  • DETR:目标检测
    在这里插入图片描述

利用CNN和Encoder作为编码器生成中间形式的查询向量,然后通过Decoder解码用来FFN预测目标信息。
利用CNN做预处理的优点是,虽然牺牲了浅层部分的全局注意力,但是CNN特征图可以带来有效的局部信息和较少的噪声(这里的噪声是指无关的像素),我认为是起到一种过滤器的效果。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

计算机视觉中的编码-解码器结构总结(持续更新) 的相关文章

  • CVPR2021 最新论文汇总(附论文链接/代码/解析)[持续更新]

    点击上方 xff0c 选择星标或置顶 xff0c 不定期资源大放送 xff01 阅读大概需要5分钟 Follow小博主 xff0c 每天更新前沿干货 本文整理了CVPR2021最新的论文汇总情况 xff0c 主要包括 xff1a Trans
  • 2021年Redis面试题(持续更新)

    目录 1 redis基础redis 中的数据类型有哪些为什么说redis能够快速执行 2 Redis中的五种数据结构string 字符串 list 列表 set 集合 hash 哈希 zset 有序集合 3 Redis的持久化Redis 的
  • 解决的问题记录(持续更新)

    1 Ubuntu Server2020 4 树莓派WiringPi的安装与编译 链接 http i lckiss com p span class token operator 61 span span class token number
  • Oracle报错记录(持续更新)

    问题目录 问题1 xff1a ORA 01950问题2 xff1a ORA 12514问题3 xff1a ORA 28547 问题1 xff1a ORA 01950 问题描述 xff1a 对表空间无权限 解决 xff1a 以管理员身份运行c
  • Qt调试问题记录(持续更新)

    目录 前言调试平台调试记录configure报C 43 43 11缺失g 43 43 编译选项不支持 前言 本人调试Qt所遇到的问题均会记录在此 xff0c 方便回溯 调试平台 Qt版本 xff1a 5 12 11Host PC xff1a
  • ros+gazebo学习(持续更新)

    由于实习需要 xff0c 开始学习ROS的东西 这篇博客主要是记录在ROS 43 gazebo学习中遇到的各种坑 xff08 掩面 xff09 xff0c 希望能对一些也在该领域的同志提供一点小小帮助 安装问题 xff08 gazebo 4
  • Java面试复习体系总结(2021版,持续更新)

    Java面试复习体系总结 xff08 2021版 xff09 感谢各位点赞 xff0c 收藏 xff0c 关注 xff01 文章会持续更新 xff0c 继续输出更多优质内容 xff0c 希望各位都能拿到好的offer 如果在准备算法题的话
  • android调试常见问题(持续更新)

    1 jni调用时出现以下错误 failed dlopen failed cannot locate symbol rand referenced by xxx 通常是ndk编译的平台太低导致 打开jni的Application mk 修改里
  • 超好用的网站推荐(持续更新)

    1 在线学习 1 1 网课学习 网易公开课 链接 xff1a https open 163 com 中国大学MOOC 链接 xff1a https www icourse163 org 哔哩哔哩 链接 xff1a https www bil
  • SAP有用的NOTE(持续更新)

    目录 2421240 Portal is not loaded on Chrome 56 or higher 66971 Supported SAP GUI platforms 66971 Supported SAP GUI platfor
  • 深度学习/机器学习常用网址汇总(持续更新)

    这里汇总了入坑深度学习两年以来常用的网址 xff0c 以便查找 xff0c 持续更新 xff0c 欢迎评论区交流补充 一 深度学习 机器学习 网址名称简介Tensorflow python文档Tensorflow的python API的定义
  • 计算机视觉领域常用数据集汇总(持续更新)

    入坑CV两年以来收藏的数据集网址或博文 xff0c 与大家分享 xff0c 欢迎评论区补充 网址领域类型人脸数据集大全人脸识别 检测转载DeepFahion衣服属性 类型识别 xff0c 关键点检测官网coco物体检测官网IMDB WIKI
  • myeclipse中编写小java项目遇到的一些问题(持续更新)

    刚开始学习java程序 xff0c 读了 lt lt thingking in java gt gt 刚开始编写正常 xff0c 可后来再次打开时看到所创建的java项目都会出现红色叉号 后来搜了一会儿却还是什么感觉很乱 xff0c 最好也
  • Redis博客、教程学习资料汇总(持续更新)

    在这篇博客中 xff0c 总结一下写过的博客和一些好的学习资料 博客 xff1a Redis基础 xff0c Linux下安装Redis和hredis xff0c C 43 43 调用Redis xff0c Redis中字符串设计 Redi
  • ESP8266初学(一) 遇问题大全及解决方案(持续更新)

    最近开始学习wifi模块 xff0c 谁知一开始用PC连接调试wifi模块就遇到了很多问题 一 输入指令后没有反应 刚起步就头大 快乐地接好各种接口各种线 xff0c 连上电脑发现它冒蓝光光了 xff0c 好耶 xff01 然后兴致勃勃打开
  • Ubuntu20.04的一些功能设置记录(持续更新)

    目录 一 设置屏幕转向 二 设置启动免登录 三 缩短Ubuntu启动时间 四 设置终端的默认大小 五 安装中文输入法 一 设置屏幕转向 1 设置 显示器 方向 下拉选择方向 应用 2 选择保留更改 xff0c 重启也会保留设置 3 临时旋转
  • FreeRTOS遇到的问题汇总(持续更新)

    1 STM32运行FreeRTOS出现prvTaskExitError错误死机 工程报错位置 xff1a 文件port c prvTaskExitError 任务退出错误 xff0c 一个可能在任务里面写了return xff0c 另一个可
  • 前端---vscode插件推荐及GIT一些问题操作说明(持续更新)

    以前都是用sublime xff0c 最近开始使用vscode xff08 v1 50 0 xff09 xff0c 写一些心得记录一下 先安利一些自己使用的插件 TabNine这个插件 xff0c 如果电脑配置ok xff0c 可以装一下
  • CV面试题(持续更新!!!)

    CV面试题 1 反卷积 反卷积又叫做转置卷积 xff0c 在计算机中计算的时候 xff0c 转置卷积先将卷积核转为稀疏矩阵C的形式 xff0c 然后计算的时候正向传播的时候左乘这个稀疏矩阵C的转置 xff0c 反向传播的时候左乘这个稀疏矩阵
  • 自动驾驶基础知识(一)——英文缩写(持续更新...)

    这一篇就先整理一下接触到的英文缩写 xff0c 相当于给自己补补课 xff0c 以后遇到新的 xff0c 会持续更新上来 xff01 英文缩写中文全称英文全称ABS防抱死制动系统Anti lock Braking SystemACCS自适应

随机推荐

  • Python 基础 第二天

    import random import math 集合 xff08 set xff09 是一个无序的不重复元素序列 可以使用 或 set 函数创建集合 值得注意的是 一个空集合必须用set xff0c 使用 创建时会创建一个空字典 bas
  • Django 第六天

    Django高级扩展 静态文件 xff1a css xff0c js xff0c 图片 xff0c Json文件 xff0c 字体文件等 配置settings py xff1a STATICFILES DIRS span class tok
  • Python 爬虫 小练习

    获得某易云音乐 对应歌单下的所有歌曲的歌曲 专辑图片 歌手图片 lrc歌词 span class token keyword import span requests span class token keyword from span b
  • 免费GPU

    中国移动免费GPU资源 九天 毕昇还属于内侧阶段 xff0c 没有充值入口 没有GPU算力的同学可以体验一下 xff0c 不算广告 xff0c 纯属安利羊毛 引言 最近想跑一个模型 xff0c 但突然发现手头没有可用的算力了 然后朋友推荐了
  • 分布式 ROS PX4 GAZEBO 多机仿真 服务器-客户端模式

    这是一个目录 最终目标环境配置要求具体实施方案UAV0配置UAV1配置 执行 最终目标 实现主从机器多机仿真 xff0c 模拟真机部署 具体方案如下 xff1a 设定一台计算机为通信汇集节点 xff0c 处理所有无人机位姿 移动控制等 xf
  • 算法训练 最短路

    算法训练 最短路 问题描述 给定一个n个顶点 xff0c m条边的有向图 xff08 其中某些边权可能为负 xff0c 但保证没有负环 xff09 请你计算从1号点到其他点的最短路 xff08 顶点从1到n编号 xff09 输入格式 第一行
  • Ubuntu18开启ssh服务

    Ubuntu默认不会开启ssh服务 所以我们无法对Ubuntu进行远程连接 xff0c 这对Ubuntu的运维造成了很大不便 本文详细讲解如何在Ubuntu18下开启ssh服务 关键指令 root用户下 xff0c 非root用户所有指令前
  • alembic 常用命令有哪些?

    上节为大家讲解了alembic如何使用 xff1f 本节就为大家介绍一下alembic常用命令有哪些 xff1f alembic常用命令如下 xff1a 在讲这些命令用法之前 xff0c 我们先建立一个alembic demo数据库 然后再
  • Linux UIO驱动框架(一)

    文章目录 Linux UIO驱动框架1 什么是uio驱动框架2 uio驱动框架使用3 uio驱动框架实现原理 Linux UIO驱动框架 1 什么是uio驱动框架 uio全称为用户空间IO Userspace I O xff0c 是一种在用
  • maven 3.6.3 下载与详细配置图文教程(基于win10系统)

    maven下载与配置 1 下载maven1 1 apache maven官网下载链接1 2 百度云资源下载1 3 CSDN资源下载 2 配置maven环境变量3 验证maven配置是否生效4 修改 settings xml 文件 1 下载m
  • Dockerfile 深入理解

    Docker 专栏文章索引 x1f449 Docker 简介 x1f449 Docker 安装图文教程 x1f449 Docker 镜像概念及操作 x1f449 Dockerfile 深入理解 Dockerfile 深入理解 x1f680
  • 深度学习之局部连接与权值共享

    在网络中 xff0c 如果全部使用全连接网络 xff0c 则会使参数异常多 xff0c 造成计算复杂 xff0c 降低训练的效率 由此引入卷积层 xff0c 卷积层能够有效减小训练参数 xff0c 这与卷积具有的两个性质有关 结合自身经历以
  • nuScenes自动驾驶数据集:数据格式精解,格式转换,模型的数据加载 (一)

    nuScenes数据集及nuScenes开发工具包简介 文章目录 nuScenes数据集及nuScenes开发工具包简介1 1 nuScenes数据集简介 xff1a 1 2 数据采集 xff1a 1 2 1 传感器布置1 2 2 数据格式
  • 基于毫米波雷达与视觉融合的行人检测

    这篇文章通过在数据层进行毫米波雷达与相机的融合以提高行人检测效果 其不仅可以通过雷达产生ROI以减小对图像进行滑动窗口检测的数量 xff0c 提高检测速度 xff0c 同时利用雷达 xff0c 可以检测远处不明显的行人 xff0c 提高检测
  • ROS中进行大陆ARS408雷达点云的可视化及二次开发(一)

    文章目录 一 硬件准备二 驱动准备2 1 首先安装依赖 xff1a 2 2 检验是否正确安装2 3 启动雷达并检查数据 三 ROS工作环境搭建3 1 安装socket can依赖3 2 安装ars 40X开发包 四 测试五 总结二次开发 毫
  • ARS大陆毫米波雷达ROS开发包解析及二次开发(二)

    文章目录 预备知识与前期工作ARS 40X源码架构雷达数据格式及流向数据流向图雷达数据格式socket can通信格式 xff08 以雷达配置帧通信为例 xff09 关键数据介绍及格式说明cluster数据帧can messages 关键参
  • 最完整的毫米波雷达ROS开源包解析及二次开发(三)

    文章目录 滤波源码数据结构滤波的ROS类方法接口设计底层基本类接口设计ars 40x can cppradar cfg cpp amp radar cfg hppradar cfg hppradar cfg cpp 开发时的注意事项srv文
  • 多传感器融合目标检测系列:CenterFusion(基于CenterNet)源码深度解读: :DLA34 (四)

    文章目录 一 CenterFusion与CenterNet二 CenterNet backbone 2 1 DLA34基本结构2 2 DLASeg2 3 DLASeg基本模块Basic BlockRootTreeDLA34IDAUP 三 H
  • linux 自定义服务启动失败(code=exited, status=127)

    调试步骤 xff1a 1 关闭重启策略 xff0c 可以看到更详细的报错信息 删除 service 里的Restart相关行 xff0c 再起一次服务查看报错信息 sudo systemctl daemon reload sudo syst
  • 计算机视觉中的编码-解码器结构总结(持续更新)

    文章目录 NLP领域的编码解码器结构机器学习中的编码器自动编码器 视觉领域中的编码解码器结构 编码器 解码器结构 xff1a 编码器原始输入信号转化为中间格式 xff0c 然后解码器将中间格式转化为目的信号 在NLP领域的机器翻译 摘要提取