ECCV 2022

2023-10-31

ECCV 2022 | Learning Implicit Feature Alignment Function for Semantic Segmentation概述与代码分析

论文：https://arxiv.org/abs/2206.08655
代码：https://github.com/hzhupku/IFA

在这里插入图片描述

主要工作

在这里插入图片描述

基于隐神经表示设计了一种隐式特征对齐函数，来替换现有的基于插值的不同分辨率特征对齐方案。可以更加方便和高效的对齐多个不同分辨率的特征。

原始的隐式特征函数：

在这里插入图片描述
不考虑专业术语。直观来讲，隐式特征函数本身是基于原始特征和目标特征之间的坐标关系，构建了一个从原始特征到目标特征映射变换。其中的变换关系可以通过神经网络学习和建模。

这一过程需要提供以下三种信息：

已有的原始特征 z z z
原始特征对应的连续的（归一化）网格坐标 x x x
我们想要生成的目标特征/预测对应的连续的（归一化）网格坐标 x q x_q xq

注意这里强调了归一化坐标。这一方法核心的一个假定是网格坐标系本身是对齐的，可能只是单位刻度上有差异。

通过这些信息，我们可以利用坐标之间的相对关系，从原始特征变换得到目标特征/预测。

需要注意的是，这一变换过程中，主要关注坐标系中与目标位置最邻近的原始特征点。

在此基础上，作者们引入了相对位置编码获得了更好的对齐效果：

在这里插入图片描述

通过同时集成多个不同层级的特征来实现对于最终预测的检索和计算：

在这里插入图片描述

实验结果

在这里插入图片描述

核心代码解析

https://github.com/hzhupku/IFA/blob/main/pyseg/models/ifa_utils.py
https://github.com/hzhupku/IFA/blob/main/pyseg/models/ifa.py
https://github.com/hzhupku/IFA/blob/main/pyseg/models/fpn_ifa.py

import torch
import torch.nn as nn
import torch.nn.functional as F


def make_coord(hw, flatten=True):
    """构建网格坐标系，原点位于各轴有效范围的中心点。

    使用的网格坐标系的三个参考点：网格区域的左右边界为-1和1或者ranges的两个值，正中心为0。

    返回的网格坐标为 [N,[...,]len(hw)]，其中最后一维表示具体的坐标，坐标顺序与hw中轴的顺序一致。
    """
    start_idx, end_idx = -1, 1

    axes_grid_centers = []
    for i, n in enumerate(hw):
        # 单一轴向的半个网格的宽度
        width_of_half_grid = (end_idx - start_idx) / (2 * n)

        # 这里计算的是各个方形网格区域的中心点坐标。
        start_grid_center = start_idx + width_of_half_grid
        grid_centers = (
            start_grid_center + (2 * width_of_half_grid) * torch.arange(n).float()
        )
        # 使用linspace替换会导致精度无法对齐
        # end_grid_center = end_idx - width_of_half_grid
        # grid_centers = torch.linspace(start_grid_center, end_grid_center, steps=n)
        axes_grid_centers.append(grid_centers)

    paired_grid_centers = torch.stack(
        torch.meshgrid(*axes_grid_centers, indexing="ij"), dim=-1
    )
    if flatten:
        paired_grid_centers = paired_grid_centers.reshape(
            -1, paired_grid_centers.shape[-1]
        )
    return paired_grid_centers


def ifa_feat_ann(src, tgt_hw, stride=1, local_ensemble=False):
    bs, src_h, src_w = src.shape[0], src.shape[-2], src.shape[-1]
    tgt_h, tgt_w = tgt_hw

    coord_tgt_hw = make_coord((tgt_h, tgt_w)).to(device=src.device)
    # hw,[tgt_h_id,tgt_w_id] =(repeat)=> bs,hw,[tgt_h_id,tgt_w_id] in (-1,1)
    coord_tgt_hw = coord_tgt_hw.unsqueeze(0).expand(bs, *coord_tgt_hw.shape)
    # 使用后可以与原始实现对齐，但是实际属于冗余操作
    # coord_tgt_hw = (coord_tgt_hw + 1) / 2 * 2 - 1

    coord_src_hw = make_coord((src_h, src_w), flatten=False).to(device=src.device)
    # src_h,src_w,[src_h_id,src_w_id]
    # => [src_h_id,src_w_id],src_h,src_w
    coord_src_hw = coord_src_hw.permute(2, 0, 1)
    # =(repeat)=> bs,[src_h_id,src_w_id],src_h,src_w in (-1,1)
    coord_src_hw = coord_src_hw.unsqueeze(0).expand(bs, 2, src_h, src_w)

    if local_ensemble:
        # 利用局部ensemble来缓解基于索引的预测方式导致的预测不连续的问题
        # 直接利用目标位置与周围四个隐编码位置之间的包围矩形面积来加权组合获得的四个预测，
        # 从而平滑索引改变时带来的预测变化。
        # 这一加权平滑的方式基本是沿用了双线性插值的思路。
        tgt_x_shifts = [-1, 1]
        tgt_y_shifts = [-1, 1]
        eps_shift = 1e-6

        rel_coord_hws = []
        src2tgt_feats = []
        areas = []
    else:
        tgt_x_shifts, tgt_y_shifts, eps_shift = [0], [0], 0

    # tgt网格坐标系下的相对步长
    tgt_x_stride = stride / tgt_w
    tgt_y_stride = stride / tgt_h

    for tgt_x_shift in tgt_x_shifts:
        for tgt_y_shift in tgt_y_shifts:
            # bs,hw,[tgt_w_id,tgt_h_id] in (-1,1)
            coord_tgt_xy = coord_tgt_hw.flip(-1).clone()
            # 在考虑局部ensemble的时候，这里对tgt坐标进行一个单位的相对偏移后再对src进行查询与映射
            coord_tgt_xy[:, :, 0] += tgt_x_shift * tgt_x_stride + eps_shift
            coord_tgt_xy[:, :, 1] += tgt_y_shift * tgt_y_stride + eps_shift
            coord_tgt_xy.clamp_(-1 + 1e-6, 1 - 1e-6)
            # bs,1,hw,[tgt_w_id,tgt_h_id]
            coord_tgt_xy = coord_tgt_xy.unsqueeze(1)

            # 使用tgt网格坐标对src特征网格坐标调整
            # 采样 bs,[src_h_id,src_w_id],src_h,src_w 到 bs,[src_h_id',src_w_id'],1,hw
            coord_src2tgt_hw = F.grid_sample(
                coord_src_hw, coord_tgt_xy, mode="nearest", align_corners=False
            )
            # bs,hw,[src_h_id',src_w_id']
            coord_src2tgt_hw = coord_src2tgt_hw[:, :, 0, :].permute(0, 2, 1)

            # 与nearest latent code，即这里的src，相对坐标偏移
            rel_coord_hw = coord_tgt_hw - coord_src2tgt_hw
            rel_coord_hw[:, :, 0] *= src_h  # src.shape[-2]
            rel_coord_hw[:, :, 1] *= src_w  # src.shape[-1]

            # 使用目标网格坐标对输入特征重新采样
            # bs,c,src_h,src_w => bs,c,1,tgt_h*tgt_w => bs,tgt_h*tgt_w,c
            src2tgt_feat = F.grid_sample(
                src, coord_tgt_xy, mode="nearest", align_corners=False
            )
            src2tgt_feat = src2tgt_feat[:, :, 0, :].permute(0, 2, 1)

            if local_ensemble:
                rel_coord_hws.append(rel_coord_hw)
                src2tgt_feats.append(src2tgt_feat)
                # 在局部ensemble的时候，需要统计tgt与周围四个src位置之间矩形的面积，用来加权平均从而平滑结果
                # 而面积的计算正好是相对坐标乘积的绝对值
                area = torch.abs(rel_coord_hw[:, :, 0] * rel_coord_hw[:, :, 1])
                areas.append(area + 1e-9)

    if not local_ensemble:
        return rel_coord_hw, src2tgt_feat
    else:
        return rel_coord_hws, src2tgt_feats, areas


class ifa_simfpn(nn.Module):
    def __init__(...):
        super().__init__()
        if learn_pe:
            self.pos1 = PositionEmbeddingLearned(self.pos_dim // 2)
            self.pos2 = PositionEmbeddingLearned(self.pos_dim // 2)
            self.pos3 = PositionEmbeddingLearned(self.pos_dim // 2)
            self.pos4 = PositionEmbeddingLearned(self.pos_dim // 2)
        if ultra_pe:
            self.pos1 = SpatialEncoding(2, self.pos_dim, require_grad=require_grad)
            self.pos2 = SpatialEncoding(2, self.pos_dim, require_grad=require_grad)
            self.pos3 = SpatialEncoding(2, self.pos_dim, require_grad=require_grad)
            self.pos4 = SpatialEncoding(2, self.pos_dim, require_grad=require_grad)
            self.pos_dim += 2

        in_dim = 4 * (256 + self.pos_dim)
        if unfold:
            in_dim = 4 * (256 * 9 + self.pos_dim)

        self.imnet = ...  # in_dim -> num_classes

    def forward(self, x, size, level=0, after_cat=False):
        h, w = size
        if after_cat:
            return self.imnet(x).reshape(x.shape[0], -1, h, w)

        # Feature unfolding: 为了丰富隐码包含的信息，对特征中3×3相邻隐码合并
        if self.unfold:
            x = F.unfold(x, 3, padding=1).reshape(
                x.shape[0], x.shape[1] * 9, x.shape[2], x.shape[3]
            )

        if not self.local:
            rel_coord_hw, src2tgt_feat = ifa_feat_ann(src=x, tgt_hw=[h, w])

            if self.ultra_pe or self.learn_pe:
                rel_coord_hw = eval("self.pos" + str(level))(rel_coord_hw)

            x = torch.cat([rel_coord_hw, src2tgt_feat], dim=-1)
        else:
            rel_coord_hws, src2tgt_feats, areas = ifa_feat_ann(
                src=x,
                tgt_hw=[h, w],
                stride=self.stride,
                local_ensemble=True,
            )

            contexts = []
            for rel_coord_hw, src2tgt_feat, area in zip(
                rel_coord_hws, src2tgt_feats, areas
            ):
                if self.ultra_pe or self.learn_pe:
                    rel_coord_hw = eval("self.pos" + str(level))(rel_coord_hw)
                contexts.append(torch.cat([rel_coord_hw, src2tgt_feat], dim=-1))

            # 这里将对角区域的面积进行了交换。0号与3号，1号与2号
            # 整体的特征组合方式与双线性插值形式一致
            # 关于双线性插值可见 https://blog.csdn.net/qq_58664081/article/details/129079354
            areas[0], areas[3] = areas[3], areas[0]
            areas[1], areas[2] = areas[2], areas[1]
            total_area = torch.stack(areas).sum(dim=0)

            for cxt, area in zip(contexts, areas):
                x = cxt * ((area / total_area).unsqueeze(-1))
        return x


class fpn_ifa(nn.Module):
    def __init__(...):
        super().__init__()
        ...

        self.ifa = ifa_simfpn(
            ultra_pe=ultra_pe,
            pos_dim=pos_dim,
            num_classes=num_classes,
            local=local,
            unfold=unfold,
            stride=stride,
            learn_pe=learn_pe,
            require_grad=require_grad,
            num_layer=num_layer,
        )

    def forward(self, x):
        x1, x2, x3, x4 = x
        aspp_out = ...

        context = []
        h, w = x1.shape[-2], x1.shape[-1]
        target_feat = [x1, x2, x3, aspp_out]

        for i, feat in enumerate(target_feat):
            context.append(self.ifa(feat, size=[h, w], level=i + 1))
        context = torch.cat(context, dim=-1).permute(0, 2, 1)  # B,HW,C -> B,C,HW
        return self.ifa(context, size=[h, w], after_cat=True)

这里代码的设计应当是借鉴自图像超分辨算法LIIF中的设计，代码基本一致https://github.com/yinboc/liif/blob/main/models/liif.py。

本文保留了LIIF中的Local Ensemble和Feature Unfolding的设计，但是不同之处主要有两点：

相对位置信息的使用不同于LIIF中直接将其作为imnet的输入的部分通道，这里使用了位置编码的方式进行处理。
没有使用LIIF中的Cell Decoding。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习

分割任务

语义分割

人工智能

计算机视觉

ECCV 2022 的相关文章

【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
【信道估计】【MIMO】【FBMC】未来移动通信的滤波器组多载波调制方案（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【路径规划】基于A*算法路径规划研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
问CHAT很繁琐的问题会不会有答案呢？

问CHAT 什么已有的基于极值理论的极端温度重现期主要针对极端高温事件对极端低温事件研究较少 CHAT 回复为这主要可能是由于以下几个原因 1 气候变化与全球变暖当前全球变暖和气候变化的问题备受关注这导致科研者更加关注极端高温事件
socket网络编程几大模型？看看CHAT是如何回复的？

CHAT回复网络编程中常见的有以下几种模型 1 阻塞I O模型 Blocking I O 传统的同步I O模型一次只处理一个请求 2 非阻塞I O模型 Non blocking I O 应用程序轮询调用socket相关函数检查请求不需
利用CHAT写实验结论

问CHAT 通过观察放置在玻璃表面上的单个水滴人们可以观察到水滴充当成像系统探究这样一个透镜的放大倍数和分辨率 CHAT回复实验报告标题利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率一实验目的通过对比和测量研究和探索玻
利用CHAT上传文件的操作

问CHAT autox js ui 上传框 CHAT回复上传文件的操作如果是在应用界面中的话由于Android对于文件权限的限制你可能不能直接模拟点击选择文件一般来说有两种常见的解决方案一种是使用intent来模拟发送一个文件路径
用CHAT分析高校体育智慧教学体系构建与探索研究现状

CHAT回复现阶段高校体育智慧教学体系的构建与探索研究还处于初级阶段但全球数字化转型大潮的推动下一些较为前沿的研究和实践已经开始出现 1 教学平台的建设很多高校已经开始尝试使用在线教育平台进行体育教学把传统的面对面授课模式转变为
多模态、长文本、智能体，智谱AI推出GLM-4模型全家桶，发布即上线！

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入 2024年01月16日智谱AI首届技术开放日 Zhipu DevDay 在北京中关村国家自主创新示范区展示中心成功举办现场智谱AI团队全面展示了其投身于大模型事业三年多来所
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
毕业设计：基于卷积神经网络的验证码识别系统机器视觉人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 字符分割算法 2 2 深度学习三检测的实现 3 1 数据集 3 2 实验环境搭建 3 3 实验及结果分析最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实
毕业设计：基于深度学习的微博谣言检测系统人工智能

目录前言设计思路一课题背景与意义二算法理论原理三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有
用通俗易懂的方式讲解：使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成

检索增强生成 Retrieval Augmented Generation RAG 是一种结合了检索 Retrieval 和生成 Generation 的技术它有效地解决了大语言模型 LLM 的一些问题比如幻觉知识限制等随着 RAG
2023最新pytorch安装（超详细版）

前言一判断是否有Nvidia 英伟达显卡二 CPU版 2 1 安装Anaconda 2 2 创建虚拟环境 2 3安装pytorch 2 4 验证pytorch是否安装成功三 GPU版 3 1 安装Anaconda 3 2 创建虚拟环
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
两个月进口猛增10倍，买近百台光刻机，难怪ASML不舍中国市场

据统计数据显示 2023年11月和12月中国从荷兰进口的光刻机设备同比猛增10倍进口金额超过19亿美元让ASML赚得盆满钵满 ASML早前表示中国客户在2023年订购的光刻机全数交付 2023年11月中国进口的光刻机达到42台进口金

随机推荐

【Unity问题&错误】list问题

error CS0305 Using the generic type System Collections Generic List
ctfshow web入门代码审计

文章目录 web301 web302 web303 web304 web305 web306 web307 web308 web309 web310 web301 下载源码后在checklogin php发现问题代码
ChatGPT未来会拥有自我情感和思维吗？

ChatGPT是一种基于人工智能的聊天机器人它可以模拟人类的对话并且可以回答各种问题目前 ChatGPT已经非常先进但是它是否会拥有自我情感和思维呢首先我们需要明确一点 ChatGPT是一种基于机器学习的算法它的行为是由程序员
记一次阿里巴巴电话面试题

前几天投了阿里巴巴校招简历今天晚上突然来了阿里的面试电话有点紧张又有点激动面试的问题问的挺全面但是有些准备不足因此回答的并不算太满意现在整理一下分享给大家希望进阿里的小伙伴可以来踩踩 1 自我介绍打电话时我刚吃完饭上来就介
AndroidManifest.xml作用

今天在看到一篇博客是对于博主对于AndroidManifest xml文件的作用的理解深感赞同 AndroidManifest xml文件就是在安装的时候用来给PackageManagerService进行解析分析出这个APK的packa
【NeurIPS 2021】ViT 中增强的 Shortcut Connection：Augmented Shortcuts for Vision Transformers

Augmented Shortcuts for Vision Transformers 论文地址主要工作方案简介基本定义具体实现 Augmented Shortcuts Efficient Implementation via Ci
权限维持篇---Windows权限维持--隐藏篇

权限维持篇 Windows权限维持隐藏篇文章目录权限维持篇 Windows权限维持隐藏篇前言一隐藏文件二隐藏账号三端口复用四进程注入五结束六我的公众号前言攻击者在获取服务器权限后通常会用一些后门来维持
AD 原理图网络未连上，设置DRC报错

AD原理图整理时碰到一个网络没有连接但是DRC检查没有提示有异常的情况如下图 R7H右端并没有连上然而原理图检查居然没有问题在导入PCB时才报错因为原理图DRC没有报错想要找到问题需要蛮多时间细思极恐 AD其实是可以设置检
数据结构-顺序栈的基本操作的实现（含全部代码）

主要操作函数如下 InitStack SqStack s 参数顺序栈s 功能初始化时间复杂度O 1 Push SqStack s SElemType e 参数顺序栈s 元素e 功能将e入栈时间复杂度 O 1 Pop SqStac
【黑马程序员】面向对象（五）第九天

android培训 java培训 java学习型技术博客期待与您交流知识点异常处理能够使一个方法给它的调用者抛出一个异常异常发生在一个方法的执行过程中 RuntimeException和Error都是免检异常其它所有异常都是必检的
vite --- 搭建开发环境

目录下载安装和初始化VSCode 安装Node js yarn 使用 pnpm 安装与使用搭建第一个Vite项目使用 PNPM创建项目项目目录解读下载安装和初始化VSCode 1 访问网站 Visual Studio Code C
editplus配置python环境和 php环境

editplus配置python环境和 php环境使用editplus这么久才知道是可以配置python环境和 php环境想来真丢人这就是自学的痛苦之处许多时如果不是自己突然想到只会永远在黑暗中摸索 editplus配置py
KNN与CNN

KNN与CNN相关 KNN K Nearest Neighbor 最邻近分类算法就是k个最近的邻居的意思说的是每个样本都可以用它最接近的k个邻居来代表 KNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个
windows xp 驱动开发(三)DDK与WDK WDM的区别

转自 http www cnblogs com hyddd archive 2009 03 15 1412684 html 最近尝试去了解WINDOWS下的驱动开发现在总结一下最近看到的资料 1 首先先从基础的东西说起开发WINDOW
第十四章 AlibabaCloud微服务下的链路追踪系统

1 微服务架构下的排查问题复杂性概述两个常的问题微服务调链路出现了问题怎么快速排查微服务调链路耗时怎么定位是哪个服务链路追踪系统分布式应架构虽然满了应横向扩展的需求但是运维和诊断的过程变得越来越复杂例如会遇到接
linux 拷贝文件夹并覆盖另一个文件夹 cp指令

参考参考 https m runoob com linux linux comm cp html Linux cp 英文全拼 copy file 命令主要用于复制文件或目录语法 cp options source dest 或 cp o
BoolQueryBuilder 和 wildcardQuery withFilter 查询

一 BoolQueryBuilder查询说明 BoolQueryBuilder qb QueryBuilders boolQuery 1 返回的文档必须满足must子句的条件并且参与计算分值 qb must QueryBuilder qu
腾讯云数据库TDSQL：分布式数据库，你真的了解吗？

分布式数据库进入人们的视野已经很久了相对于传统的集中式数据库分布式数据库在高性能高可用平滑拓展高可靠低成本等许多方面具有优势但时至今日关于分布式数据库似乎一直缺少足够权威和客观的解读现在国家白皮书来了为了明确分布式数
Vue SSR(vue服务端渲染)

SSR的应用场景 1 SEO需求 SEO Search Engine Optimization 搜索引擎优化是一种利用搜索引擎规则提高网站在搜索引擎内自然排名的技术通常这需要页面内容在页面加载完成时便已经存在前后端分离的纯前端项目
ECCV 2022

ECCV 2022 Learning Implicit Feature Alignment Function for Semantic Segmentation概述与代码分析论文 https arxiv org abs 2206 0865

ECCV 2022

ECCV 2022 | Learning Implicit Feature Alignment Function for Semantic Segmentation概述与代码分析

主要工作

实验结果

核心代码解析

ECCV 2022 的相关文章

随机推荐

热门标签