【论文笔记】FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval

2023-05-16

文章来源：SIGIR’20

摘要

文章基于BERT提出了一个跨模态检索模型，该模型并不是一个通用的检索模型，主要用于电商领域时尚用品（Fashon）检索，作者是阿里巴巴。

框架图

在这里插入图片描述
文章框架和之前基于transformer的文章网络架构大致相同，
输入
输入文本和图片，对文本取token对图片取patch
输出
[CLS]用来判断文本和图片是否对齐
训练任务
遮挡图片（文本）预测图片（文本），预测文本和图片是否匹配

Whole Word Masking (WWM)

BERT会对输入的文本进行wordpiecce操作，具体如下：
比如"loved",“loving”,“loves"这三个单词。其实本身的语义都是“爱”的意思，把上面的3个单词拆分成"lov”,“ed”,“ing”,"es"几部分，减少词表数量。

这就会导致在进行mask操作时会只对一个词进行了mask。文章采用了Whole Word Masking方法，使得可以对一个完整的词进行mask。如下所示
在这里插入图片描述

Masked Patch Modeling (MPM)

考虑到Fashion数据集中图片的ROI区域往往只有一个，所以不采用FAST-RCNN来提取ROI区域，而采用直接分块的方法。

Adaptive Loss

Loss1 Whole Word Masking (WWM) 交叉熵
在这里插入图片描述

Loss2 Masked Patch Modeling (MPM) KL散度
在这里插入图片描述
Loss3 图片文本是否匹配二分类

Adaptive Loss
讲上面三个loss加权求和，权重 ω i \omega_{i} ωi的优化可以通过新的优化算法，基于KKT条件求得
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

FashionBERT

Text

and

image

matching

【论文笔记】FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval 的相关文章

X11剪贴板如何处理多种数据格式？

这可能也发生在您身上有时当您将某个网页中的文本复制到您最喜欢的网络邮件客户端中的富文本电子邮件草稿中时您不喜欢粘贴的内容piece有不同的字体大小粗细它以某种方式记住样式通常是图像当选择时如果您将相同的内容粘贴到您最喜欢的
如何修复此 YCrCb -> RBG 转换公式？

我使用的公式来自这个问题 https stackoverflow com questions 8838481 kcvpixelformattype 420ypcbcr8biplanarfullrange frame to uiimage c
如何将 Xml 文件转换为文本文件 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有大约 8000 个 xml 文件需要转换为文本文件文本文件必须包含 xml 文件的标题描述和关键字不含标签并删除其他元素和
如何更改焦点/按下时图像按钮的色调

我有一个ImageButton在我的应用程序中当按钮打开时我需要更改图像的色调pressed focused 我有ImageButton设置为获取其src来自 XML 文件如下所示
如何使 java.text.NumberFormat 将 0.0d 格式设置为“0”而不是“+0”？

需要带符号的结果 0 0d 除外 IE 123 45d gt 123 45 123 45d gt 123 45 0 0d gt 0 我调用format setPositivePrefix 在 DecimalFormat 的实例上强制结果中
使用 iconv 将 UTF-16BE 转换为无 BOM 的 UTF-8

我正在尝试使用 iconv 将 UTF 16BE 编码文件字节顺序标记 0xFE 0xFF 转换为 UTF 8 如下所示 iconv f UTF 16BE t UTF 8 myfile txt 然而生成的输出具有 UTF 8 字节顺序标
使用 SSL 的 Xamarin.Forms Image.Source

我正在使用一个在线商店来存储通过我们的应用程序上传的用户图像并受 SSL 保护上传工作一切顺利因为我使用的是带有附加证书的 WebClient 但是当我尝试使用 Xamarin Forms Image 组件时例如将源设置为 http
不要将连续匹配的上下文与 grep 合并

如果我跑grep C 1 match在以下文件上 a b match1 c d e match2 f match3 g 我得到以下输出 b match1 c e match2 f match3 g 正如您所看到的由于连续匹配 match2
如何使用javascript检查图像url是否为404

使用案例当 src 不为空并且 alt 标签不为空时则显示 src 的图像然后检查 src 图片 url 不是 404 当 src 为空且 alt 不为空时显示名字的图像当 src 和 alt 为空时显示默认图像 HTML img
在python中将二维数组转换为彩色图像

我有这样的二维整数列表 list1 1 30 50 21 45 9 97 321 100 接下来我将把它转换为 numpy 数组 myarr np asarray list1 接下来我将使用 PIL 将其转换为图像如下所示 img Ima
无法通过电子应用程序在discordjs上发送附加到消息的图像

我正在尝试为我使用discordjs 编写的discord 机器人构建图形界面但是我在发送图像时遇到了问题这是我的代码中负责向用户发送消息的部分 utilsateur createDM then channeltemp gt let
在单个显示器中绘制多个 jpeg 图像

我需要在单个组合显示器或画布中绘制和显示多个 jpeg 图像例如假设我有图像 a b c d jpg 每个图像的大小不同我想将它们绘制在 2x2 网格的一页上能够为每个子图设置标题也很好我一直在彻底寻找解决方案但不知道如何去
使用无图像按钮有哪些优点？

讨论关于这个答案 https stackoverflow com questions 520640 how can i use googles new imageless button how could i reverse enginee
WPF 中按钮的启用和禁用状态的不同图像

我想根据按钮的状态更改下面代码中按钮的图像即使用不同的图像来启用和禁用状态
SVG 文本无法在 Chrome 或 Safari 中呈现

我有一些 SVG 文本在 Firefox 上运行良好但在 Chrome 和 Safari 中却没有出现我努力了向 svg 容器添加填充以防文本被隔断从文本中删除 xml space preserve 添加内联填充颜色
Javascript - 检测 Youtube 默认缩略图

有什么方法可以查看 Youtube 缩略图是否真的存在或者 Youtube 只是用默认缩略图替换了它例如没有此缩略图的视频 http img youtube com vi G75WApUdYJ4 maxresdefault jpg h
在 android 中使用 MediaStore.ACTION_IMAGE_CAPTURE 意图捕获图像

我正在使用 MediaStore ACTION IMAGE CAPTURE 意图捕获图像它在大多数设备上运行良好但它无法按预期在某些最新的 Android 设备中正常工作我的目的是使用相机捕获图像并将其发送到服务器但不将该图像存储在
JavaFX 图像未在舞台中显示

我尝试了很多次尝试了很多方法但都无法让自己的形象在舞台上如我所愿我认为这可能与java寻找资源的路径有关但我不确定因为我刚刚开始使用视觉库在本例中为JavaFX 这是我的目录结构 MyProject assets img myI
将纯文本转换为 HTML

我有一个脚本在某个时刻我可以通过 Ajax 调用获取 HTML 数据我必须将此 HTML 转换为纯文本如下所示 div text data 我现在想扭转这一局面再次将文本设为 HTML 我有一个简单的 Jquery 方法可以做到这一
Java-如何将黑白图像加载到二进制中？

我在 FSE 模式下使用 Java 和 swing 我想将完全黑白图像加载为二进制格式最好是二维数组并将其用于基于掩码的每像素碰撞检测我什至不知道从哪里开始过去一个小时我一直在研究但没有找到任何相关的东西只需将其读入Buffer

随机推荐

【STM32】基础篇 ST-Link下载器接线方式和SWD,JTAG协议简介

在开发STM32等基于arm内核的单片机时 xff0c 选择一款载调试器必不可少市面上有各式各样的下载调试器可供我们选择 xff0c 常用的下载器包括J Link xff0c ST Link xff0c J Link0B xff0c CM
【Linux学习】正点原子裸机篇 C语言LED实验实现

上一篇使用汇编语言编写LED等驱动实验 xff0c 在实际工作中较少使用汇编编写嵌入式驱动 xff0c 毕竟汇编过于底层 xff0c 难度较大绝大部分情况下都是使用C语言编写主体程序 xff0c 只是开始部分使用汇编来初始化C语言环境 x
Nginx

1 基本介绍 Nginx是由俄罗斯的设计师开发的 Nginx不像Apache那样 xff0c 不论功能是否常用 xff0c 统统都给你自带了 xff0c 虽然功能很强大 xff0c 但是也很消耗性能 xff0c 而Nginx只是自带了常
linux运维经典面试题总结

1 Linux常见的日志文件都有哪些 xff0c 各自的用途 xff1f 日志轮询配置文件在哪里 xff1f 欢迎界面配置文件在哪里 xff1f 答 xff1a var log messages 内核及公共消息日志 var log cron
openair-cn-cups

Github openair cn cups openair cn cups descriptions openair cn cups是在openair cn的基础上将spgw控制面与用户面分离 xff0c 实现从LTE EPC向5G Co
5GS NAS SM Elementary Procedures(EP) -- General

参考 xff1a clause 6 2 3GPP TS24 501 1 Procedure Transaction Identifier PTI PTI procedure transaction identifier用来指示message
keil5(MDK)美化文本编辑区

1 常规的改法 xff1a 在MDK菜单栏中选择编辑 gt 配置 gt Color amp Fonts xff0c 如下界面 xff1a 可以在以上界面配置对应的选项更改代码编辑区数字 xff08 number xff09 关键字 xff
oai-5gcn-smf prototype testbed

Deployment Scenario Repository Of SMF git clone https gitlab eurecom fr oai oai cn5g smf git SMF gt build amp run cd oai
OAI LTE系统搭建 -- OAI EPC

OAI EPC搭建 1 系统环境 xff1a Ubuntu 16 04 2 基础软件安装 xff1a vim git ssh server sudo apt get install vim sudo apt get install git
OAI LTE系统搭建 -- OAI eNB

OAI eNB 搭建接着OAI EPC搭建教程 1 下载源代码 1 1 加载gitlab eurecom fr证书 echo n openssl s client showcerts connect gitlab eurecom fr 4
端到端5G核心网测试方式

1 系统搭建 2 网元功能运行 2 1 运行顺序 xff1a UDM Server SMF AMF UPF VPP UPF N4 Huawei CPE配置保存 gNB 2 2 UDM Server运行方式密码123 1 可执行文件位置 s
无线通信知识回顾(2) - 《5G移动通信系统设计与标准详解》

Reference 5G移动通信系统设计与标准详解王映民等第10章功率控制 10 1 概述功率控制对基站或者终端发送信号功率进行调节 xff0c 达到有效地实现路径损耗补偿克服阴影衰落抑制干扰等目的 xff1b 如果单纯提高信号
python讲解from ctypes import *调用C语言动态链接库

文章目录前言一 from ctypes import 二调用举例1 代码前言顾名思义一 from ctypes import 在写python程序时有时会用到C语言库函数 Python 的 ctypes 要使用 C 函数 xff
Docker随笔，从基础到入门

实验环境 xff1a centos7 7 防火墙和selinux提前关闭一 Docker基本概念 Docker系统有两个程序 xff1a docker服务端和docker客户端 docker服务端是一个服务进程 xff0c 管理着所有的容
cuda、torch、torchvision对应版本以及安装

查找torch与torchvision对应版本匹配情况如下 xff1a 1 在线下载 xff1a 在pytorch官网选择相应的历史版本 xff0c 使用conda或者pip安装 xff0c 使用官网的镜像下载很慢 xff0c 建议使用其
CUDA在VS下编程出现MSB3721错误

CUDA在VS下编程出现MSB3721错误一错误示范二解决方式一错误示范我们在VS环境下进行CUDA编程的时候可能会出现如下MSB1721的错误二解决方式首先确保好是在x64平台下运行 xff1a 确定无误然后如果还有问题
ROS：关于node启动问题

相关代码 xff1a lt node pkg 61 34 turn on wheeltec robot 34 type 61 34 wheeltec robot node 34 name 61 34 wheeltec robot 34 ou
Altium Designer 的一些使用技巧（纯属爱好，不定期更新）

目录 1 鼠标所到之处的 net 高亮显示 2 导出PCB所有图层的快捷键 3 同一个工程中不同的原理图导入到不同的PCB中 4 设置元件旋转步进角为45 5 添加LOGO的方法 6 删除已经放置的 LOGO 的方法 7 一些快捷键 1 鼠
C++中vector的size()类型

span class token keyword int span span class token function main span span class token punctuation span span class token
【论文笔记】FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval

文章来源 xff1a SIGIR 20 摘要文章基于BERT提出了一个跨模态检索模型 xff0c 该模型并不是一个通用的检索模型 xff0c 主要用于电商领域时尚用品 xff08 Fashon xff09 检索 xff0c 作者是阿里巴巴

热门标签