【多模态】1、几种多模态 vision-language 任务和数据集介绍

2023-11-13


现在多模态任务越来越火,但之前没接触过的朋友们可能一脸懵,这些专有名词到底是什么意思?这任务到底要干一件什么事情?很茫然,我也是多模态小白,所以在做多模态之前,让我们一起先整明白这些任务到底在干什么。

一、Phrase Grounding

1.1 概念介绍

这个很难直接翻译,直译的话就是 “短语接地”,所以到底指的是啥?

其实最好不要直接翻译,要从任务中理解,这个任务就指的是给定一个文本输入,如 “一个穿绿衣服的人”,从图像中找到这个文本描述指向的目标并框出来

所以,phrase grounding 就是将自然语言中提到的有效目标和图像中特定区域对应起来的任务,注意是全部提到的目标,如下图所示

在这里插入图片描述

现在也有方法将目标检测构建成了 phrase grounding 任务了(GLIP),将 prompt 改成如下格式即可:

在这里插入图片描述

1.2 常用数据集介绍

1、Flickr30k Entities

论文:Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models

官网下载链接:http://shannon.cs.illinois.edu/DenotationGraph/data/index.html

github 链接:https://github.com/BryanPlummer/flickr30k_entities

标注文件在 github 链接中下载!!!

  • 主要是用于图像描述的一个数据集,region-to-phrase 形式的对应,
  • 包含 31783 张 image
  • 每张图会对应 5 个不同的 caption,共 158915 个英文 caption
  • 还包含 275775 个 phrase-box 标注。对于每个 phrase 还细分为 people, clothing, body parts, animals, vehicles, instruments, scene, othera八个不同的类别,如下图所示

在这里插入图片描述

在这里插入图片描述

1.3 评估指标

1、准确率

prediction box 和 groud-truth box 的 IoU 大于0.5记为一次正确定位,以此来计算准确率(Accuracy)

2、Recall@k

表示预测概率前 k 大的 prediction box 和 ground-truth box 的 IoU 大于 0.5 的定位准确率。

3、Point game

选择最终预测的 attention mask 中权重最大的像素位置,如果该点落在 ground-truth 区域内,记为一次正确定位。相比 Acc 指标更加宽松。

二、Referring Expression Comprehension(REC)

2.1 概念介绍

这个任务是框出文本中提到的一个特定目标

如输入文本为 “穿红短袖且背球拍的人”,则输出就会框出一个目标 person

在这里插入图片描述

2.2 常用数据集介绍

Refcoco 论文:Modeling Context in Referring Expressions

标注文件下载:https://github.com/lichengunc/refer

RefCOCO, RefCOCO+, RefCOCOg:

  • 是三个从 MSCOCO 中选取图像得到的数据集,数据集中对所有的 phrase 都有 bbox 的标注
  • RefCOCO 有19,994幅图像,包含142,210个引用表达式,包含50,000个对象实例。
  • RefCOCO+ 共有19,992幅图像,包含 49,856 个对象实例的 141,564 个引用表达式。
  • Ref COCOg 有25,799幅图像,指称表达式 95,010 个,对象实例 49,822个。

在这里插入图片描述

下图是论文中的一个图,每个图的 caption 描述在图片正下方,绿色是根据下面的 caption 标注的 gt,蓝色是预测正确的框,红色是预测错误的框

在这里插入图片描述

在这里插入图片描述

三、Visual Question Answer(VQA)

3.1 概念介绍

该任务是输入问题和图像,输出模型的回答

如输入 “左侧女孩手里拿的是什么”,模型会回答 “雨伞”

在这里插入图片描述

四、Image Caption

4.1 概念介绍

该任务是给图像生成描述,一般输入 prompt 为:“ a picture of {}”

模型的回答为:girls holding umbrellas.

在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【多模态】1、几种多模态 vision-language 任务和数据集介绍 的相关文章

随机推荐

  • arm基础知识

    目录 arm基础知识 谈谈对嵌入式的理解 计算机基本理论 计算机的组成 指令的解析 编译原理 ARM相关知识介绍 1 认识ARM ARM含义 架构 内核 SOC ARM的发展历史 指令集 ARM公司产品分布 ARM体系结构 ARM v8 A
  • 机器学习笔记:李宏毅ChatGPT Finetune VS Prompt

    1 两种大语言模型 GPT VS BERT 2 对于大语言模型的两种不同期待 2 1 专才 2 1 1 成为专才的好处 Is ChatGPT A Good Translator A Preliminary Study 2023 Arxiv
  • 华为OD机试 - 英文输入法(Java)

    题目描述 主管期望你来实现英文输入法单词联想功能 需求如下 依据用户输入的单词前缀 从已输入的英文语句中联想出用户想输入的单词 按字典序输出联想到的单词序列 如果联想不到 请输出用户输入的单词前缀 注意 英文单词联想时 区分大小写 缩略形式
  • requests库学习

    requests库学习 requests快速上手 http 2 python requests org zh CN latest user quickstart html Requests库是用来发送HTTP请求 接收HTTP响应的一个Py
  • ES使用中遇到的坑

    1 ES分页超过10000条报错 es 默认采用的分页方式是 from size 的形式 是一种逻辑上的分页 在深度分页的情况下 采用from to方式进行分页效率会非常的低 例如以下查询 1 GET student doc search
  • 记一次在k8s集群搭建的Harbor私有仓库无法提供服务之镜像迁移恢复实践

    本章目录 记一次在k8s集群搭建的Harbor私有仓库无法提供服务之镜像迁移恢复实践 描述 Harbor 是一个用于存储和分发Docker镜像的企业级Registry服务器 通过添加一些企业必需的功能特性 例如安全 标识和管理等 扩展了开源
  • 内网隧道代理技术(十七)之 NPS的使用

    NPS的介绍和使用 NPS介绍 nps是一款轻量级 高性能 功能强大的内网穿透代理服务器 目前支持tcp udp流量转发 可支持任何tcp udp上层协议 访问内网网站 本地支付接口调试 ssh访问 远程桌面 内网dns解析等等 此外还支持
  • [752]压力测试工具-ab工具

    在学习ab工具之前 我们需了解几个关于压力测试的概念 吞吐率 Requests per second 概念 服务器并发处理能力的量化描述 单位是reqs s 指的是某个并发用户数下单位时间内处理的请求数 某个并发用户数下单位时间内能处理的最
  • JS进阶第三篇:开发中对数组及对象的判断方法

    系列文章传送门 JS进阶第一篇 手写call apply bind JS进阶第二篇 函数参数按值传递 文章目录 JS判断数组 1 通过instanceof运算符判断 2 通过constructor判断 3 通过数组自带的isArray方法判
  • ESP32-C3 应用 篇(实例二、通过蓝牙将传感器数据发送给手机,手机端控制 SK6812 LED)

    ESP32 C3 蓝牙部分我们学习了GATT 本文尝试使用蓝牙做一个简单的小应用 目录 前言 一 整体框架 二 数据传输部分 2 1 添加温湿度驱动组件 2 2 传感器数据传输程序 再次说明 ESP GATTS READ EVT 事件 2
  • Git版本控制器的基本使用

    摘要 Git 是一个分布式版本控制软件 最初本是为了更好的管理Linux内核开发而被林纳斯 托瓦兹开发 后来因为项目开发中版本控制的强烈需求 而git也日趋成熟 最终成为了一个独立的版本控制软件 git 分布式 版本控制 目录 关于git
  • 正则表达式匹配第一个单个字符

    匹配单字符 数字 d表示0 9的数字 只匹配一个 import re result re match r d 3python print result result re match r d python3 print result 运行结
  • ipsec.secrets

    IPSEC SECRETS 5 strongSwan IPSEC SECRETS 5 NAME ipsec secrets secrets for IKE IPsec authentication DESCRIPTION The file
  • 多元共进|科技促进艺术发展,助力文化传承

    科技发展助力文化和艺术的传播 融合传统与创新 碰撞独特魅力 一起来了解 2023 Google 开发者大会上 谷歌如何依托科技创新 推动艺术与文化连接 传承和弘扬传统文化 自 2011 年成立以来 谷歌艺术与文化致力于提供体验艺术和文化的新
  • 使用OpenResty搭建简单的文件服务器

    前言 前几天使用nginx nginx upload module python 回调处理程序 搭建了一个简单的文件服务器 网上很多人都建议使用Lua去扩展nginx的功能 所以琢磨了下如何使用Lua语言去对nginx去做功能扩展 网上查阅
  • 网络上的学习笔记 Hadoop

    1 如今有10个文件夹 每个文件夹都有1000000个url 如今让你找出top1000000url 1 运用2个job 第一个job直接用filesystem读取10个文件夹作为map输入 url做key reduce计算个url的sum
  • 【弹性分布式EMA】在智能电网中DoS攻击和虚假数据注入攻击(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 1 1 FDIA攻击 1 2 DoS攻击 2 运行结果 3 参考文献 4 Matlab代码实现 1 概述
  • Java 正则提取短信签名

    使用java 正则表达式提取短信签名 import java util regex Matcher import java util regex Pattern public class ExtractSmsSignature 匹配中括号内
  • 安装ESXi

    1 简介 ESXi是vmware推出的一款优秀的服务器级别的虚拟机 它与我们常用的虚拟机不同的是 日常使用的虚拟机是需要依赖于一个操作系统的 比如在window上使用vmware 或者linux上使用virtualbox 而ESXi不依赖于
  • 【多模态】1、几种多模态 vision-language 任务和数据集介绍

    文章目录 一 Phrase Grounding 1 1 概念介绍 1 2 常用数据集介绍 1 3 评估指标 二 Referring Expression Comprehension REC 2 1 概念介绍 2 2 常用数据集介绍 三 Vi