【论文笔记】FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval

2023-05-16

文章来源:SIGIR’20

摘要

文章基于BERT提出了一个跨模态检索模型,该模型并不是一个通用的检索模型,主要用于电商领域时尚用品(Fashon)检索,作者是阿里巴巴。

框架图

在这里插入图片描述
文章框架和之前基于transformer的文章网络架构大致相同,
输入
输入文本和图片,对文本取token对图片取patch
输出
[CLS]用来判断文本和图片是否对齐
训练任务
遮挡图片(文本)预测图片(文本),预测文本和图片是否匹配

Whole Word Masking (WWM)

BERT会对输入的文本进行wordpiecce操作,具体如下:
比如"loved",“loving”,“loves"这三个单词。其实本身的语义都是“爱”的意思,把上面的3个单词拆分成"lov”,“ed”,“ing”,"es"几部分,减少词表数量。

这就会导致在进行mask操作时会只对一个词进行了mask。文章采用了Whole Word Masking方法,使得可以对一个完整的词进行mask。如下所示
在这里插入图片描述

Masked Patch Modeling (MPM)

考虑到Fashion数据集中图片的ROI区域往往只有一个,所以不采用FAST-RCNN来提取ROI区域,而采用直接分块的方法。

Adaptive Loss

Loss1 Whole Word Masking (WWM) 交叉熵
在这里插入图片描述

Loss2 Masked Patch Modeling (MPM) KL散度
在这里插入图片描述
Loss3 图片文本是否匹配 二分类
在这里插入图片描述

Adaptive Loss
讲上面三个loss加权求和,权重 ω i \omega_{i} ωi的优化可以通过新的优化算法,基于KKT条件求得
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【论文笔记】FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval 的相关文章

  • X11剪贴板如何处理多种数据格式?

    这可能也发生在您身上 有时 当您将某个网页中的文本复制到您最喜欢的网络邮件客户端中的富文本电子邮件草稿中时 您不喜欢粘贴的内容piece有不同的字体 大小 粗细 它以某种方式记住样式 通常是图像 当选择时 如果您将相同的内容粘贴到您最喜欢的
  • 如何修复此 YCrCb -> RBG 转换公式?

    我使用的公式来自这个问题 https stackoverflow com questions 8838481 kcvpixelformattype 420ypcbcr8biplanarfullrange frame to uiimage c
  • 如何将 Xml 文件转换为文本文件 [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我有大约 8000 个 xml 文件需要转换为文本文件 文本文件必须包含 xml 文件的标题 描述和关键字 不含标签 并删除其他元素和
  • 如何更改焦点/按下时图像按钮的色调

    我有一个ImageButton在我的应用程序中 当按钮打开时我需要更改图像的色调pressed focused 我有ImageButton设置为获取其src来自 XML 文件 如下所示
  • 如何使 java.text.NumberFormat 将 0.0d 格式设置为“0”而不是“+0”?

    需要带符号的结果 0 0d 除外 IE 123 45d gt 123 45 123 45d gt 123 45 0 0d gt 0 我调用format setPositivePrefix 在 DecimalFormat 的实例上 强制结果中
  • 使用 iconv 将 UTF-16BE 转换为无 BOM 的 UTF-8

    我正在尝试使用 iconv 将 UTF 16BE 编码文件 字节顺序标记 0xFE 0xFF 转换为 UTF 8 如下所示 iconv f UTF 16BE t UTF 8 myfile txt 然而 生成的输出具有 UTF 8 字节顺序标
  • 使用 SSL 的 Xamarin.Forms Image.Source

    我正在使用一个在线商店来存储通过我们的应用程序上传的用户图像 并受 SSL 保护 上传工作一切顺利 因为我使用的是带有附加证书的 WebClient 但是当我尝试使用 Xamarin Forms Image 组件时 例如将源设置为 http
  • 不要将连续匹配的上下文与 grep 合并

    如果我跑grep C 1 match在以下文件上 a b match1 c d e match2 f match3 g 我得到以下输出 b match1 c e match2 f match3 g 正如您所看到的 由于连续匹配 match2
  • 如何使用javascript检查图像url是否为404

    使用案例 当 src 不为空并且 alt 标签不为空时 则显示 src 的图像 然后检查 src 图片 url 不是 404 当 src 为空且 alt 不为空时 显示名字的图像 当 src 和 alt 为空时显示默认图像 HTML img
  • 在python中将二维数组转换为彩色图像

    我有这样的二维整数列表 list1 1 30 50 21 45 9 97 321 100 接下来我将把它转换为 numpy 数组 myarr np asarray list1 接下来我将使用 PIL 将其转换为图像 如下所示 img Ima
  • 无法通过电子应用程序在discordjs上发送附加到消息的图像

    我正在尝试为我使用discordjs 编写的discord 机器人构建图形界面 但是 我在发送图像时遇到了问题 这是我的代码中负责向用户发送消息的部分 utilsateur createDM then channeltemp gt let
  • 在单个显示器中绘制多个 jpeg 图像

    我需要在单个组合显示器 或画布 中绘制和显示多个 jpeg 图像 例如 假设我有图像 a b c d jpg 每个图像的大小不同 我想将它们绘制在 2x2 网格的一页上 能够为每个子图设置标题也很好 我一直在彻底寻找解决方案 但不知道如何去
  • 使用无图像按钮有哪些优点?

    讨论关于这个答案 https stackoverflow com questions 520640 how can i use googles new imageless button how could i reverse enginee
  • WPF 中按钮的启用和禁用状态的不同图像

    我想根据按钮的状态更改下面代码中按钮的图像 即使用不同的图像来启用和禁用状态
  • SVG 文本无法在 Chrome 或 Safari 中呈现

    我有一些 SVG 文本在 Firefox 上运行良好 但在 Chrome 和 Safari 中却没有出现 我努力了 向 svg 容器添加填充 以防文本被隔断 从文本中删除 xml space preserve 添加内联填充颜色
  • Javascript - 检测 Youtube 默认缩略图

    有什么方法可以查看 Youtube 缩略图是否真的存在 或者 Youtube 只是用默认缩略图替换了它 例如 没有此缩略图的视频 http img youtube com vi G75WApUdYJ4 maxresdefault jpg h
  • 在 android 中使用 MediaStore.ACTION_IMAGE_CAPTURE 意图捕获图像

    我正在使用 MediaStore ACTION IMAGE CAPTURE 意图捕获图像 它在大多数设备上运行良好 但它无法按预期在某些最新的 Android 设备中正常工作 我的目的是使用相机捕获图像并将其发送到服务器 但不将该图像存储在
  • JavaFX 图像未在舞台中显示

    我尝试了很多次 尝试了很多方法 但都无法让自己的形象在舞台上如我所愿 我认为这可能与java寻找资源的路径有关 但我不确定 因为我刚刚开始使用视觉库 在本例中为JavaFX 这是我的目录结构 MyProject assets img myI
  • 将纯文本转换为 HTML

    我有一个脚本 在某个时刻我可以通过 Ajax 调用获取 HTML 数据 我必须将此 HTML 转换为纯文本 如下所示 div text data 我现在想扭转这一局面 再次将文本设为 HTML 我有一个简单的 Jquery 方法可以做到这一
  • Java-如何将黑白图像加载到二进制中?

    我在 FSE 模式下使用 Java 和 swing 我想将完全黑白图像加载为二进制格式 最好是二维数组 并将其用于基于掩码的每像素碰撞检测 我什至不知道从哪里开始 过去一个小时我一直在研究 但没有找到任何相关的东西 只需将其读入Buffer

随机推荐

  • 【STM32】基础篇 ST-Link下载器接线方式和SWD,JTAG协议简介

    在开发STM32等基于arm内核的单片机时 xff0c 选择一款载调试器必不可少 市面上有各式各样的下载调试器可供我们选择 xff0c 常用的下载器包括J Link xff0c ST Link xff0c J Link0B xff0c CM
  • 【Linux学习】正点原子裸机篇 C语言LED实验实现

    上一篇使用汇编语言编写LED等驱动实验 xff0c 在实际工作中较少使用汇编编写嵌入式驱动 xff0c 毕竟汇编过于底层 xff0c 难度较大 绝大部分情况下都是使用C语言编写主体程序 xff0c 只是开始部分使用汇编来初始化C语言环境 x
  • Nginx

    1 基本介绍 Nginx是由俄罗斯的设计师开发的 Nginx不像Apache那样 xff0c 不论功能是否常用 xff0c 统统都给你 自带了 xff0c 虽然功能 很强大 xff0c 但是也很消耗性能 xff0c 而Nginx只是自带了常
  • linux运维经典面试题总结

    1 Linux常见的日志文件都有哪些 xff0c 各自的用途 xff1f 日志轮询配置文件在哪里 xff1f 欢迎界面配置文件在哪里 xff1f 答 xff1a var log messages 内核及公共消息日志 var log cron
  • openair-cn-cups

    Github openair cn cups openair cn cups descriptions openair cn cups是在openair cn的基础上将spgw控制面与用户面分离 xff0c 实现从LTE EPC向5G Co
  • 5GS NAS SM Elementary Procedures(EP) -- General

    参考 xff1a clause 6 2 3GPP TS24 501 1 Procedure Transaction Identifier PTI PTI procedure transaction identifier用来指示message
  • keil5(MDK)美化文本编辑区

    1 常规的改法 xff1a 在MDK菜单栏中选择 编辑 gt 配置 gt Color amp Fonts xff0c 如下界面 xff1a 可以在以上界面配置对应的选项更改代码编辑区数字 xff08 number xff09 关键字 xff
  • oai-5gcn-smf prototype testbed

    Deployment Scenario Repository Of SMF git clone https gitlab eurecom fr oai oai cn5g smf git SMF gt build amp run cd oai
  • OAI LTE系统搭建 -- OAI EPC

    OAI EPC搭建 1 系统环境 xff1a Ubuntu 16 04 2 基础软件安装 xff1a vim git ssh server sudo apt get install vim sudo apt get install git
  • OAI LTE系统搭建 -- OAI eNB

    OAI eNB 搭建 接着OAI EPC搭建教程 1 下载源代码 1 1 加载gitlab eurecom fr证书 echo n openssl s client showcerts connect gitlab eurecom fr 4
  • 端到端5G核心网测试方式

    1 系统搭建 2 网元功能运行 2 1 运行顺序 xff1a UDM Server SMF AMF UPF VPP UPF N4 Huawei CPE配置保存 gNB 2 2 UDM Server运行方式 密码123 1 可执行文件位置 s
  • 无线通信知识回顾(2) - 《5G移动通信系统设计与标准详解》

    Reference 5G移动通信系统设计与标准详解 王映民等 第10章 功率控制 10 1 概述 功率控制对基站或者终端发送信号功率进行调节 xff0c 达到有效地实现路径损耗补偿 克服阴影衰落 抑制干扰等目的 xff1b 如果单纯提高信号
  • python讲解from ctypes import *调用C语言动态链接库

    文章目录 前言一 from ctypes import 二 调用举例1 代码 前言 顾名思义 一 from ctypes import 在写python程序时 有时会用到C语言库函数 Python 的 ctypes 要使用 C 函数 xff
  • Docker随笔,从基础到入门

    实验环境 xff1a centos7 7 防火墙和selinux提前关闭 一 Docker基本概念 Docker系统有两个程序 xff1a docker服务端和docker客户端 docker服务端是一个服务进程 xff0c 管理着所有的容
  • cuda、torch、torchvision对应版本以及安装

    查找torch与torchvision对应版本 匹配情况如下 xff1a 1 在线下载 xff1a 在pytorch官网选择相应的历史版本 xff0c 使用conda或者pip安装 xff0c 使用官网的镜像下载很慢 xff0c 建议使用其
  • CUDA在VS下编程出现MSB3721错误

    CUDA在VS下编程出现MSB3721错误 一 错误示范二 解决方式 一 错误示范 我们在VS环境下进行CUDA编程的时候可能会出现如下MSB1721的错误 二 解决方式 首先确保好是在x64平台下运行 xff1a 确定无误然后如果还有问题
  • ROS:关于node启动问题

    相关代码 xff1a lt node pkg 61 34 turn on wheeltec robot 34 type 61 34 wheeltec robot node 34 name 61 34 wheeltec robot 34 ou
  • Altium Designer 的一些使用技巧(纯属爱好,不定期更新)

    目录 1 鼠标所到之处的 net 高亮显示 2 导出PCB所有图层的快捷键 3 同一个工程中不同的原理图导入到不同的PCB中 4 设置元件旋转步进角为45 5 添加LOGO的方法 6 删除已经放置的 LOGO 的方法 7 一些快捷键 1 鼠
  • C++中vector的size()类型

    span class token keyword int span span class token function main span span class token punctuation span span class token
  • 【论文笔记】FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval

    文章来源 xff1a SIGIR 20 摘要 文章基于BERT提出了一个跨模态检索模型 xff0c 该模型并不是一个通用的检索模型 xff0c 主要用于电商领域时尚用品 xff08 Fashon xff09 检索 xff0c 作者是阿里巴巴