【目标检测】DETR的最小化实现代码

2023-05-16

目标检测

用DETR(Detection Transformer)的最小实现来实现目标检测，本实现与原始文献中的baseline略有差异。代码来源于官方代码库:Standalone Colab Notebook:，我个人对注释做了补充。下述代码可直接用Jupyter记事本运行。

from PIL import Image
import requests
import matplotlib.pyplot as plt 
# %config InlineBackend.figure_format = 'retina'

import torch
from torch import nn
from torchvision.models import resnet50
import torchvision.transforms as T
torch.set_grad_enabled(False)

# 定义DETR的最小实现类
class DETRDemo(nn.Module):
    """
        利用最少的代码来实现DETR，相较于原始文献中的DETR，此处实现有3点不同。
         - 可学习的位置编码（取代sine）
         - 位置编码在输入时传递（取代注意力）
         - 全连接层定义的边界框预测器（取代MLP）
    """
    def __init__(self,num_classes,hidden_dim=256,nheads=8,num_encoder_layers=6,num_decoder_layers=6):
        super().__init__()
        # 创建ResNet-50的骨干网
        self.backbone = resnet50()
        # 清除ResNet-50骨干网最后的全连接层
        del self.backbone.fc
        # 创建转换层   1x1的卷积，主要起到改变通道大小的作用
        self.conv = nn.Conv2d(2048,hidden_dim,1)
        # 利用PyTorch内嵌的类，创建Transformer实例
        self.transformer = nn.Transformer(hidden_dim,nheads,num_encoder_layers,num_decoder_layers)
        # 预测头，多出的类别是用于预测non-empty slots
        self.linear_class = nn.Linear(hidden_dim,num_classes+1)
        self.linear_bbox = nn.Linear(hidden_dim,4)
        #  输出位置编码(object queries)
        self.query_pos = nn.Parameter(torch.rand(100,hidden_dim))
        # 空间位置编码
        # ？
        self.row_embed = nn.Parameter(torch.rand(50,hidden_dim//2))
        self.col_embed = nn.Parameter(torch.rand(50,hidden_dim//2))

    def forward(self,inputs):
        # 利用ResNet-50网络前向传播输入到平均池化
        x = self.backbone.conv1(inputs)         # (1,3,800,1066)->(1,64,400,533)
        x = self.backbone.bn1(x)                # (1,64,400,533)->(1,64,400,533)
        x = self.backbone.relu(x)
        x = self.backbone.maxpool(x)            # (1,64,400,533)->(1,64,200,267)
        x = self.backbone.layer1(x)             #
        x = self.backbone.layer2(x)             #
        x = self.backbone.layer3(x)             #
        x = self.backbone.layer4(x)             # (1,2048,25,34)

        # 从2048维度转换到Transformer接受的256维特征平面
        h = self.conv(x)                        # (1,2048,25,34)->(1,hidden_dim,25,34)
        #  构建位置编码
        H,W = h.shape[-2:]                      #
        # (batch_size,34,128)-->(25,34,128)
        # (25,batch_size,128)-->(25,34,128)
        # (25,34,256)-->(25*34,256)-->(25*34,batch_size,256)
        pos = torch.cat([self.col_embed[:W].unsqueeze(0).repeat(H,1,1),
                        self.row_embed[:H].unsqueeze(1).repeat(1,W,1),],dim=-1).flatten(0,1).unsqueeze(1)
        # 继续前向传播通过Transformer
        # 参数1：(25*36,batch_size,256),参数2：(100,batch_size,hidden_dim)
        # 输出：(hidden_dim,100)-->(100,hidden_dim)
        h = self.transformer(pos+0.1*h.flatten(2).permute(2,0,1),self.query_pos.unsqueeze(1)).transpose(0,1)
        # 将Transformer的输出投影到分类标签及边界框
        return {'pred_logits':self.linear_class(h),'pred_boxes':self.linear_bbox(h).sigmoid()}

# COCO类别索引到名称的映射表
CLASSES = [
    'N/A', 'person', 'bicycle', 'car', 'motorcycle', 'airplane', 'bus',
    'train', 'truck', 'boat', 'traffic light', 'fire hydrant', 'N/A',
    'stop sign', 'parking meter', 'bench', 'bird', 'cat', 'dog', 'horse',
    'sheep', 'cow', 'elephant', 'bear', 'zebra', 'giraffe', 'N/A', 'backpack',
    'umbrella', 'N/A', 'N/A', 'handbag', 'tie', 'suitcase', 'frisbee', 'skis',
    'snowboard', 'sports ball', 'kite', 'baseball bat', 'baseball glove',
    'skateboard', 'surfboard', 'tennis racket', 'bottle', 'N/A', 'wine glass',
    'cup', 'fork', 'knife', 'spoon', 'bowl', 'banana', 'apple', 'sandwich',
    'orange', 'broccoli', 'carrot', 'hot dog', 'pizza', 'donut', 'cake',
    'chair', 'couch', 'potted plant', 'bed', 'N/A', 'dining table', 'N/A',
    'N/A', 'toilet', 'N/A', 'tv', 'laptop', 'mouse', 'remote', 'keyboard',
    'cell phone', 'microwave', 'oven', 'toaster', 'sink', 'refrigerator', 'N/A',
    'book', 'clock', 'vase', 'scissors', 'teddy bear', 'hair drier',
    'toothbrush'
]
# 可视化时的边框颜色
COLORS = [[0.000, 0.447, 0.741], [0.850, 0.325, 0.098], [0.929, 0.694, 0.125],
          [0.494, 0.184, 0.556], [0.466, 0.674, 0.188], [0.301, 0.745, 0.933]]

# 标准的ImageNet归一化操作
transform = T.Compose([T.Resize(800),
                       T.ToTensor(),
                       T.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])])


# 用于边框可视化的函数
# 坐标空间转换
def box_cxcywh_to_xyxy(x):
    x_c,y_c,w,h = x.unbind(1)  #？
    b = [(x_c-0.5*w),(y_c-0.5*h),(x_c+0.5*w),(y_c+0.5*h)]
    return torch.stack(b,dim=1) # ?

# 坐标根据图像尺寸缩放
def rescale_bboxes(out_bbox,size):
    img_w,img_h = size
    b = box_cxcywh_to_xyxy(out_bbox)
    b = b*torch.tensor([img_w,img_h,img_w,img_h],dtype=torch.float32)
    return b

# 检测函数，整合上述所有功能
def detect(im,model,transform):
    # 对图像归一化，并加入批量维(1)
    # 图像尺寸 (640,480)->(1,3,800,1066)
    img = transform(im).unsqueeze(0)
    # 判断输入图像的长、宽是否符合网络要求，
    assert img.shape[-2] <= 1600 and img.shape[-1] <= 1600 , '网络支持的输入图像单边最大像素值不可超过1600！'
    # 将图像输入模型进行前向处理
    outputs = model(img)

    # 只保留置信值大于0.7的预测结果
    probas = outputs['pred_logits'].softmax(-1)[0,:,:-1]
    keep = probas.max(-1).values >0.7

    # 缩放预测框[0,1]到图像尺寸大小
    bboxes_scaled = rescale_bboxes(outputs['pred_boxes'][0,keep], im.size)
    return probas[keep],bboxes_scaled

# 可视化预测结果
def plot_results(pil_img, prob, boxes):
    plt.figure(figsize=(16,10))
    plt.imshow(pil_img)
    ax = plt.gca()
    for p, (xmin, ymin, xmax, ymax), c in zip(prob, boxes.tolist(), COLORS * 100):
        ax.add_patch(plt.Rectangle((xmin, ymin), xmax - xmin, ymax - ymin,
                                   fill=False, color=c, linewidth=3))
        cl = p.argmax()
        text = f'{CLASSES[cl]}: {p[cl]:0.2f}'
        ax.text(xmin, ymin, text, fontsize=15,
                bbox=dict(facecolor='yellow', alpha=0.5))
    plt.axis('off')
    plt.show()


# 初始化一个模型
detr = DETRDemo(num_classes=91)
# 下载预训练好的模型参数并导入
state_dict = torch.hub.load_state_dict_from_url(
                                url='https://dl.fbaipublicfiles.com/detr/detr_demo-da2a99e9.pth',
                                map_location='cpu',check_hash=True)
detr.load_state_dict(state_dict)
detr.eval()
# 将url指定的图像输入预定义的网络进行检测并获取结果
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
im = Image.open(requests.get(url, stream=True).raw)
scores, boxes = detect(im, detr, transform)
plot_results(im, scores, boxes)

输出结果

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

【目标检测】DETR的最小化实现代码的相关文章

vagrant的虚机莫名其妙上不去了&vagrant虚拟机链接外网

来吧说个场景 xff01 上班开工打开虚拟机 xff08 vagrant 然后连上我虚机上的数据库 xff01 Navicat连上网络异常上不去昨天我还好好的什么情况先试试 xff1a systemctl status fir
深度学习常用的Data Set数据集和CNN Model总结

常用公共数据集数据库 FaceDataset常用的人脸数据库 http blog csdn net chenriwei2 article details 50631212 肤色检测 amp 人脸检测数据集等链接大集合 xff08 持续更新
Ubuntu Linux中使用快捷键截图

在WIN中 xff0c 习惯了用QQ的CTRL ALT A来截取指定区域的截屏了 xff0c 确实方便好用 xff0c 不过在UBUNTU中 xff0c 可以使用gnome screenshot 来完成类似的功能当然 xff0c 截屏编辑
ubuntu14.04 + dlib19.2+【 C++ 】+Face Landmark Detection

1 安装dlib dlib官网这里好像只有最新的dlib版本包 xff0c 下载选项在左下角有个蓝色的按钮 xff0c 写着download 博主用的还是目前最新的版本19 2 xff0c 因为最新的dlib版本添加了一些新的人脸检测器 x
Ubuntu如何测试安装包是否安装成功

举个例子 xff0c 比如 xff1a 测试python的dlib库是否安装成功在终端下输入 xff1a span class hljs keyword python span 出现了python版本信息 xff0c 说明已安装pytho
Ubuntu下有关显存的命令

查看NVIDIA实时显存指令在跑深度学习的时候 xff0c 经常出现显存不足的情况 xff0c 所以我们希望能够随时查看GPU时使用率如果你是NVIDIA的GPU xff0c 那么在命令行下 xff0c 只需要一行命令就可以实现 1 显
剑指offer刷题记录

xff03 面试题 xff19 xff1a 用两个栈实现队列用两个栈来实现一个队列 xff0c 完成队列的Push和Pop操作队列中的元素为int类型算法思想 xff1a 一个队列用两个栈进行操作 xff0c 队列是先进先出 xff0
Deconvolutional Network [deconv] 研究

前言 deconv的用处还挺广的 xff0c 涉及到 visualization pixel wiseprediction unsupervised learning 都会用到deconv的结构比如Deconvolutional Netw
实力认证！百度超级链BaaS平台通过深圳国家金融科技测评中心权威技术测评

近日 xff0c 百度超级链BaaS平台顺利通过深圳国家金融科技测评中心 xff08 以下简称 NFEC xff09 技术测评 xff0c 并获得由NFEC出具的测评报告 xff0c 百度超级链在金融相关领域的技术实力再次获得权威认可 NF
GAN系列

paper GAN开山之作 xff1a Generative Adversarial Networks GAN翻译
[Android] VasSonic H5加载优化加载库源码解读及需要注意的地方

1 VasSonic是什么 xff1f 一句话总结 xff1a 优化webview对h5的加载速度 wiki原话 xff1a VasSonic取名于世嘉游戏形象音速小子 xff0c 是腾讯VAS SNG增值产品部QQ会员团队研发的一个轻量
eve-ng 2.0.3-112懒人版安装、GNS3 2.2.32安装包、思科ASA8.42 9.42 路由器C3600 C7200、IOU镜像、思科IPS入侵防御系统

Yo what s up guys 包含所有该用到的软件 xff0c 都给你们直接总结好了 eve span class token operator span ng span class token number 2 0 span spa
ucos ii学习笔记3 消息队列、信号量集

这一篇可以说是上一篇的升级版 xff0c 消息队列是邮箱的升级版 xff0c 邮箱只能传递一个数据 xff0c 消息队列可以传递多个数据信号量集则是多个二值信号量的集合消息队列由3个部分组成 xff1a 事件控制块消息队列和消息当把
Redis常用命令-史上最全最新版本（一）

Redis常用命令史上最全最新版本 xff08 一 xff09 一 Redis基础命令二 Redis操作key的一些命令三 Redis五大基本数据类型1 String xff08 字符串 xff09 类型2 List xff08 列表 x
js删除对象中的元素

if e data let result 61 JSON parse e data this form 61 result item 删除对象中的create time xff0c update time元素 delete this for
FreeRTOS 任务调度任务切换

64 嵌入式简述启动调度器移植层调度器启动第一个任务任务切换参考 FreeRtos 简述前面文章 lt FreeRTOS 任务调度任务创建 gt 介绍了 FreeRTOS 中如何创建任务以及其具体实现一般来说 xff0c 我们会
FreeRTOS 信号量

64 嵌入式简述二进制信号量二进制信号量使用二进制信号量实现创建信号量获取信号量释放信号量中断中释放任务中释放计数信号量互斥锁创建互斥信号量拿锁放锁递归互斥锁获取递归信号量释放递归信号量参考 FreeRtos 简述 Fre
【转存】SpringBoot 中的自带工具类，快速提升开发效率

断言断言是一个逻辑判断 xff0c 用于检查不应该发生的情况 Assert 关键字在 JDK1 4 中引入 xff0c 可通过 JVM 参数 enableassertions开启 SpringBoot 中提供了 Assert 断言工具类
Mybatis-plus BindingException问题

原因 xff1a 找不到 mapper xml 问题解决方法 xff1a 去掉引用 mybatis plus lt dependency gt lt groupId gt com baomidou lt groupId gt lt art
年度成果发布 | 百度超级链精选案例集正式上线！

关注百度超级链微信公众号回复案例集获得电子版精选案例集近年 xff0c 随着数字经济的发展 xff0c 区块链作为新基建的潜力逐渐被挖掘 xff0c 极大地发挥出其公开透明高效便捷互联互通的优势 xff0c 正在逐步提升社会信息交

随机推荐

Linux之Ubuntu入门篇[笔记自用]

CMD 一 linux常用命令 lscd 点表示当前目录点点当前目录的上一级目录当前用户目录放回上一次目录 pwduname 用于显示系统信息clear 清屏catsudo 以管理员运行cp 文件拷贝su 切换用户 sudo su x
Mysql 主从同步状态检查

show slave status G 参数详解 1 Slave IO State SHOW PROCESSLIST输出的State字段的拷贝 Master User 被用于连接主服务器的当前用户 Master Port 当前的主服务器接口
maven打包报错 Expected root element project but found html

Expected root element 39 project 39 but found 39 html 39 XXX spring boot parent 2 1 6 RELEASE pom 原因是POM文件错误看下仓库中具体报错的p
BGP、OSPF、MPLS路由协议RFC分享

文章目录 1 概述1 1 BGP1 2 OSPF1 3 MPLS 2 分享2 1 rfc 42712 2 rfc 31072 3 rfc 43642 4 rfc 44562 5 rfc 45772 6 rfc 47242 7 rfc 476
单片机底层硬件与应用程序的联系

1 单片机使用下载的固件库 xff0c 即底层驱动程序 2 功能配置寄存器是直接与硬件相互联系的 xff0c 例如汇编语言便可直接操纵功能配置寄存器
ROS中TF变换详解

ROS发布TF变换提示 xff1a 在ROS中发布TF变换时 xff0c 所使用的的角度为弧度而不是度本文可以验证 xff0c 有错误欢迎各位评论指出文章目录 ROS发布TF变换前言1 Python实现TF发布2 C 43 43 实
小狼毫输入法皮肤配置【自带皮肤配置】

小狼毫输入法皮肤小狼毫自带皮肤预览图小狼毫皮肤配置注释小狼毫自带的皮肤和配置取自小狼毫程序文件夹小狼毫自带皮肤预览图安装位置 Rime weasel 0 14 3 data preview 小狼毫皮肤配置注释 span class
119. Pascal's Triangle II

Given a non negative index k where k 33 return the kth index row of the Pascal 39 s triangle Note that the row index sta
【新手把新手，易学】esp8266指令进行测试

Csdn的写博客的工具简直太难受了 xff0c 写在了world里边复制粘贴不过来 xff0c 图片不显示 xff0c 格式全丢失 xff0c 把测试分块发出来把我也是新手按照新手帖子一步步实验的 xff0c 并做了一些补充 STA 类似
百度超级链2021年终盘点：深度赋能数字经济，促进产业融通发展

区块链是具有巨大潜力的战略技术 2021年 xff0c 国家十四五发展规划纲要将区块链列入七大数字经济重点产业之一工信部中央网信办联合印发推动区块链技术应用和产业发展的指导意见 xff0c 推动区块链技术加速落地百度超级链秉承让
访问 www.taobao.com过程

首先是查找浏览器缓存 xff0c 浏览器会保存一段时间你之前访问过的一些网址的DNS信息 xff0c 不同浏览器保存的时常不等如果没有找到对应的记录 xff0c 这个时候浏览器会尝试调用系统缓存来继续查找这个网址的对应DNS信息如果还
PyTorch安装通用教程——附安装包

安装PyTorch 通用教程由于最近做项目需要使用PyTorch xff0c 所以便准备在网上查找相关教程和下载安装包但由于官网提供的下载方式下载慢 xff08 至少我是如此 xff09 xff0c 以及在网上寻找百度云资源无果由于曾
树莓派4B 安装系统实现WIFI联网设置静态IP（无键鼠和显示器）

本文结构没有连接显示屏键盘鼠标前期准备下载系统镜像并解压至存储卡实现利用网线访问树莓派系统连接WIFI设置静态IP 前期准备文章比较长 xff0c 因为比较全面树莓派4B网线一根已连接无线网的笔记本电脑存储卡 xff08 不低于
【树莓派】作为服务器，实现外网访问

我的个人博客目前由树莓派提供服务本文首发于我的个人博客 xff1a xiebin tech 内容重点参考自科技爱好者博客前期准备如果你只有一块新买的树莓派 xff0c 可以看树莓派4B 安装系统实现WIFI联网设置静态IP先安装
【2021年8月】解决 rosdep update超时问题

修改两个文件即可快速解决超时问题 1 修改 etc ros rosdep sources list d 20 default list 执行sudo gedit etc ros rosdep sources list d 20 defaul
【深度学习】DNN Regression 代码实现与详解

相关说明数据集分成两个文件 xff0c train和test 训练时 xff0c 将train分为训练集和验证集 xff0c 用于训练模型以及判断模型训练的好坏 test数据集用于最终测试模型的通用性 xff0c 即所训练出来的模型是否
【读论文04】CVPR2022选读

2203 14506 Catching Both Gray and Black Swans Open set Supervised Anomaly Detection 关键点 xff1a DRA disentangled represent
PyTorch中repeat与repeat_interleave的内涵及用法

torch tensor repeat sizes 官方解释 xff1a Repeats this tensor along the specified dimensions 参数说明 xff1a sizes torch Size or i
订阅Arxiv存档教程

订阅邮件格式后文字表示注释 xff0c 请勿添加到邮件中收件人 cs 64 arxiv org 此处以cs为例 xff0c 可根据自己的需要修改邮件主题 subscribe Your Name 根据自己的需要起名即可 add Arti
【目标检测】DETR的最小化实现代码

目标检测用DETR Detection Transformer 的最小实现来实现目标检测 xff0c 本实现与原始文献中的baseline略有差异代码来源于官方代码库 Standalone Colab Notebook xff0c 我个

【目标检测】DETR的最小化实现代码

目标检测

输出结果

【目标检测】DETR的最小化实现代码 的相关文章

随机推荐

热门标签

【目标检测】DETR的最小化实现代码的相关文章