CVPR2022 |小红书首创多图交互建模挑战热门研究课题,大幅提升行人重识别性能

2023-11-16

在CVPR2022上,小红书多模态算法组提出一种新颖的用于行人重识别的网络Neighbor Transformer (NFormer),区别于传统的行人重识别网络仅仅对单张图片进行建模,NFormer对通过transformer对多张输入图像进行交互式建模以获得鲁棒的特征表达,除此之外,NFormer还提出了Landmark Agent Attention 和Reciprocal Neighbor Softmax模块来降低多张图片交互建模时的计算复杂度。实验表明NFormer在多个数据集上性能表现SOTA(state-of-the-art)!

在小红书,大规模图像检索技术应用于搜同款穿搭、相似图片等多项业务中,行人重识别(Person re-identification)作为图像检索中的的一个重要子问题,是指利用用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。在真实场应用场景中,由于行人外观易受穿着、尺度、遮挡、姿态和视角等影响,以及不同摄像设备之间成像效果的差异,使得行人重识别成为计算机视觉研究领域中一个极具挑战性的热门课题。

得益于深度学习,尤其是卷积神经网络(Convolutional neural network, CNN)的快速发展,目前主流的行人重识别的方法均基于表征学习框架,即基于Metric Learning技术,来学习行人的向量化表征。在训练时,网络要求将属于同一ID的行人特征聚集的同时将不同ID的行人的特征区分开。在检索时,首先利用网络提取数据库中所有行人的特征构成底库,再将待查询的行人特征与底库特征进行匹配来实现检索。


在传统方法中,网络仅仅考虑从单张图片中获取表征,忽略了图片间潜在的关联, 然而我们认为这种关联能帮助单个图片获得更好的表征。在论文NFormer: Robust Person Re-identification with Neighbor Transformer中,我们提出Neighbor Transformer来对大量输入图片进行交互式建模,以得到更好的图像表征,实验证明该方法能够达到了目前行人重识别的SOTA, 并且可以很容易地和现有方法结合并实现性能提升。

行人重识别旨在跨不同摄像机和场景检索高度变化的环境中的人员,其中行人的表征学习至关重要。大多数研究都考虑从单个图像中学习表征,忽略它们之间的任何潜在交互。然而,由于每个行人类内的高度变化,忽略这种交互通常会导致一些异常离群特征。为了解决这个问题,我们提出了Neighbor Transformer Network, 它显式地对所有输入图像之间的交互进行建模,从而抑制异常特征并获得整体上更鲁棒的表示。

如上图所示。输入一系列待检索的行人图片,我们用卷积网络作为特征提取器来获取每张输入图片的深度特征。然后我们计算图片特征之间的相似度矩阵,并利用得到的相似度矩阵来进行特征融合,得到最终融合后的特征并用于图片检索。


由于在行人重识别任务中输入图片的数量往往很多,直接利用transformer模型对大量图像之间的交互进行建模是一项艰巨任务。因此 NFormer 引入了两个新颖的模块:Landmark Agent Attention 和Reciprocal Neighbor Softmax。具体来说,Landmark Agent Attention 通过在特征空间中使用一些landmark进行低秩分解,有效地对图像之间的关系图进行建模。此外,Reciprocal Neighbor Softmax 实现了对相关(而不是所有)相邻输入图片的稀疏关系矩阵表示。以上两个模块大大降低了transformer中注意力模型的计算量,更加适用于行人重识别任务。


上图为Landmark Agent Attention(左) 和Reciprocal Neighbor Softmax(右)的示意图。当输入N个维度为d的特征时,我们从中采样得到l个landmark,并利用这l个landmark将输入特征从d维空间映射到l维空间。然后我们在l维空间中进行特征的相似度计算并得到相似度矩阵A。由于l的值远小于d,相似度计算的复杂度大大降低了。在得到相似度矩阵A后,传统的transformer会用softmax函数将affinity变成probability,如右图(a)所示。由于输入图片的数量很多,并且其中绝大部分的图片都是不相关的,直接用softmax处理会使得输出的概率分布过于平滑,并且概率会被占大多数的无关输入主导。因此,我们提出了RNS函数,在softmax的过程中只保留少量相关度高的值,在去除干扰项的同时降低了特征融合的计算复杂度。

上图为图片特征在经过NFormer之前(左)和之后(右)的t-SNE可视化图,可以看出,经过NFormer的处理后,行人的表征在特征空间的聚合度更好,离群值更少,更有利于后续的重识别过程。

我们在四个公开数据集上测试了NFormer的性能。实验结果表明,我们的方法达到了目前的SOTA。此外,NFormer可以与多个现有方法结合并提升其性能。


上图为NFormer的结果与Baseline模型结果的可视化对比(每一组对比中上面一行为baseline模型结果,下面一行为NFormer结果)。其中红色的框表示检索错误的图片。可以看出,NFormer可以有效减少检索结果中的负样本。

本文通过对多张输入图像进行联合建模来获得鲁棒的特征表达,并提出了Landmark Agent Attention和Reciprocal Neighbor Softmax模块来减少多图联合建模带来的计算量激增问题。实验表明NFormer可以大幅度提升行人重识别性能,并在多个数据集上达到SOTA。图像检索以及多模态检索技术在小红书存在广阔的应用场景,在未来,我们将继续深耕大规模图像检索和多模态检索技术,为用户带来更便捷,更有趣的搜索和消费体验!

论文地址:https://arxiv.org/abs/2204.09331

王昊臣

多模态算法组实习生,本硕毕业于北航,现博士就读于阿姆斯特丹大学VISLab。曾在CVPR, ECCV,ACMMM等计算机视觉顶级会议发表论文6篇。

主要研究方向:视频目标分割,视频表征学习。


亚顿

小红书多模态算法组算法工程师,曾在IJCV,ICCV,NIPS等计算机视觉顶级会议/期刊发表论文5篇

主要研究方向:多模态表征学习,大规模图像检索等。

多模态算法组是小红书内容理解的技术最前线,拥有海量的数据、完善的技术架构、高速发展的业务。通过研发业界领先的大规模多模态模型,支撑起社区搜推、社区生态、安全审核、电商内容等众多核心业务线。整个团队技术氛围浓厚,期待追求卓越的你加入我们,与团队众多的业界知名技术大牛一起用技术推动行业变革。

视觉算法高级工程师-人脸方向

职位描述

  • 负责小红书各业务线的人脸识别技术研发与落地,包含但不限于内容安全、搜索、广告、电商等业务场景;

  • 负责人脸相关算法研发与也业务落地,包括但不限于人脸检测、关键点、属性、识别等;

  • 参与人脸、计算机视觉和人工智能等领域相关前沿技术的跟踪及研究;

  • 负责对各业务场景下人脸相关技术问题进行分析、算法设计、研发以及推动上线,提升业务效果。

职位要求

  • 1年以上图像/视频识别检索等视觉算法研发与项目经验;

  • 编程功底扎实,熟悉深度学习模型的训练和部署,熟悉服务部署上线;

  • 在计算机视觉某个领域有较深入的研究,包括但不限于图像/视频分类、图像分割、目标检测跟踪、人脸识别、OCR、NAS、模型量化剪枝、多模态识别检索、无监督和自监督学习等;

  • 有较强的研究能力,在国际顶尖会议或期刊(包括但不限于CVPR, ICCV, ECCV, NeurIPS, ICML, ICLR, AAAI, IJCAI, ACMMM, TIP, TPAMI, IJCV等)上发表过论文者优先;

  • 有人脸检测、人脸识别等相关研究及开发经验者优先;

  • 有较强的业务问题到算法模型的建模能力,有强烈的求知欲、自驱力和进取心,能及时关注和学习业界最佳实践。

欢迎感兴趣的朋友发送简历至: REDtech@xiaohongshu.com;
并抄送至: tianbuyi@xiaohongshu.com。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

CVPR2022 |小红书首创多图交互建模挑战热门研究课题,大幅提升行人重识别性能 的相关文章

  • 设置QListWidget背景色为透明

    只要一条指令就可以实现 ui gt listWidget gt setStyleSheet background color transparent 其中background color设置参考CSS背景设置如下 以下摘自 http www

随机推荐

  • PD通信协议芯片选型分析对比

    目录 一 PD SINK协议芯片对比图 二 总结 关键词 pd协议芯片 协议芯片 芯片通信协议 通信协议 前言 在如今快节奏生活不断蔓延的背景下 人们对各种事情的处理也渐渐地开始要求在保证质量的情况下 不断加快 手机快充就是一个典型的例子
  • iOS开发之Xcode 6更新默认不支持armv7s架构

    最近一次的Xcode 6更新默认不再支持arm7s架构 究竟是要废除不用呢还是仅仅只是一个疏忽 目前的Xcode 6配置里定义 ARCHS STANDARD 为armv7 arm64 当然这个定义前提是它会一再要求你删除掉你原本设定的构建架
  • 将对象的null字段赋值为默认值

    import java lang reflect Field import java math BigDecimal import java util ArrayList import java util Date import org a
  • 【Redis详细教程】Linux下如何安装Redis

    第一步 下载 redis wget https download redis io releases redis 6 2 6 tar gz 第二步 解压 redis 6 2 6 tar gz 并将其重新命名为 redis tar xvf r
  • 前端实现:点击硬币实现硬币翻转动画,且动画停止时正反面随机

    html div class pic box div class boxes div class box 硬币正面图片 img alt 硬币反面图片 img div div div
  • 基于Spring Boot + Vue的智慧宿舍管理系统设计与实现

    Java全能学习 面试指南 https javaxiaobear cn 摘要 随着智能化技术的快速发展 智慧宿舍管理系统在大学校园中得到了广泛的应用 本论文旨在设计并实现一种基于前后端分离的智慧宿舍管理系统 通过将前端和后端进行分离 提高系
  • windows安装minio

    官网下载地址 https min io download windows 进入minio exe的目录执行启动命令 minio exe server C Users wwwch Desktop minio data C Users wwwc
  • 基于循环神经网络的图像特定文本抽取方法

    作者的模型整体框架包含两部分 分别为 OCR 部分 采用人家的模型 输出文本 特定文本抽取部分 作者的工作 1 引言 早期图像特定文本抽取主要是通过 OCR 中的版面分析 Layout analysis 来实现 即首先利用 版面分析 的方法
  • Python+django的ORM查询

    在使用python后端开发时 很多人都会遇到使用原生sql还是django自带的orm进行数据库的操作好呢 纠结的原因有很多 其中一点就是对orm不熟悉 导致某些查询可能不知道如何实现 于是采用了原生sql 今天 就让我们来总结一下常用的o
  • Windows10 配置 Swin-Transformer 踩坑记

    机器配置 rtx 3090 CUDA 11 1 Python 3 8 pytorch 1 9 0 步骤 1 下载Swin Transformer git clone recursive https github com SwinTransf
  • centos7执行命令iptables 出现Unit iptables.service failed to load: No such file or directory.

    解决方式 安装iptables services yum install iptables services 开机启动 systemctl enable iptables systemctl stop iptables systemctl
  • 更新powershell 7.3.2

    最近在使用VsCode时打开中断会时常提示你powershell已经更新前往地址下载 但是跳转到的页面描述有时候看不太清晰 于是去b站结合网络文档还是成功更新了 有兴趣的朋友可以通过这个链接查看一下在线文档 gt powershell的在线
  • ASPxTextBox中数据有效性设置

    1 选中ASPxTextBox控件 2 设置属性 Validationsettings中errordisplaymode requiredfield中errortext和isrequired 3 结果 4 总图
  • 100天精通Python(可视化篇)——第78天:matplotlib绘图模块基础入门大全

    文章目录 专栏导读 一 课程介绍 为什么要学习matplotlib 什么是matplotlib 二 绘制折线图 基础绘图 设置图片大小和分辨率 调整X或者Y轴上的刻度 设置中文显示 坐标轴添加描述信息 绘制网格 双折线图 添加图例 自定义绘
  • unittest使用ddt数据驱动的小demo

    一 ddt简介 1 ddt是 data driven testing的缩写 中文含义是数据驱动测试 2 ddt通常与unittest组合使用 常用的包有ddt data unpack file data 我这边使用前两种 二 ddt安装 1
  • word怎么改一张纸的方向_word单页怎么改变纸张方向

    word改变单页纸张方向的方法 1 将插入点移动到需要修改的单页的开头 2 在 布局 菜单中 分隔符 下选择 下一页 3 点击 纸张方向 选择 横向 4 将插入点移动到下一页的开头 再点击 分隔符 的 下一页 再点击 纵向 即可 本教程操作
  • el-tree和el-table相关使用

    文章目录 el tree实现模糊查询 el tree实现node节点增删改 el tree 实现节点懒加载 el tree获取所有选中的当前节点 el tree获取当前节点及其选中父节点 el table 获取多选行的所有节点 el tab
  • 产消合一。有感于华人新首富赵长鹏投资福布斯的话

    DAO Web 3 0引领的新时代是 产消合一的经济 逐渐发展成为 融投研产消宣多种角色为一身 有感于赵长鹏希望投资福布斯 xxFi或xx To Earn含DeFi GameFi Play To Earn P2E SocialFi Read
  • ES搜索引擎入门+最佳实践(一)

    ES在搜索和数据分析中的应用越来越广泛 在之前项目中对ES的使用有些心得 最近有不少朋友和同事都问到了ES 刚好最近也有些时间 所以打算通过8 10篇文章介绍下ES 其实我也不知道最终会写下多少篇 一 概述 本篇文章计划给大家介绍什么ES
  • CVPR2022 |小红书首创多图交互建模挑战热门研究课题,大幅提升行人重识别性能

    在CVPR2022上 小红书多模态算法组提出一种新颖的用于行人重识别的网络Neighbor Transformer NFormer 区别于传统的行人重识别网络仅仅对单张图片进行建模 NFormer对通过transformer对多张输入图像进