Paper Reading:《LISA: Reasoning Segmentation via Large Language Model》

2023-11-18

在这里插入图片描述

简介

《LISA: Reasoning Segmentation via Large Language Model》基于大型语言模型的推理分割

日期:2023.8.1(v1)
单位:香港中文大学,思谋科技,微软亚洲研究院
论文地址:https://arxiv.org/abs/2308.00692
GitHub:https://github.com/dvlab-research/LISA

作者:

赖昕,香港中文大学三年级博士生,师从贾佳亚教授。主要研究方向是三维点云感知,迁移学习,半监督学习,小样本学习。已发表顶会顶刊论文8篇,其中一作4篇。
在这里插入图片描述
同等贡献
在这里插入图片描述

其他作者


(Jiaya Jia:贾佳亚)

  • 原文摘要

    ​ 尽管近年来感知系统取得了显著进步,但它们在执行视觉识别任务之前,仍然依赖于明确的人类指令来识别目标对象或类别。这类系统缺乏主动推理和理解用户隐含意图的能力。在这项工作中,我们提出了一项新的分割任务–推理分割。该任务旨在根据复杂而隐含的查询文本输出分割掩码。此外,我们还建立了一个由一千多个图像-指令对组成的基准,其中包含用于评估目的的复杂推理和世界知识。最后,我们介绍了 LISA:大型语言指令分割助手,它继承了多模态大型语言模型(LLM)的语言生成能力,同时还具备生成分割掩码的能力。我们用 标记扩展了原始词汇,并提出了embedding-as-mask paradigm来解锁分割能力。值得注意的是,LISA 可以处理涉及以下方面的情况:1)复杂推理;2)世界知识;3)解释性回答;4)多回合对话。此外,当完全在无推理数据集上进行训练时,LISA 还表现出强大的zero-shot能力。此外,仅使用 239 个推理分割图像-指令对,对模型进行微调,也能进一步提高性能。实验表明,我们的方法不仅解锁了新的推理分割能力,而且在复杂推理分割和标准referring分割任务中都证明了其有效性。

目标

动机是想要实现推理分割Reasoning segmentation,即根据复杂而隐含的查询文本输出分割掩码

如图1所示,可以处理各种场景,包括:1)复杂推理;2)世界知识;3)解释性答案;4)多回合对话。
在这里插入图片描述

我们为当前的多模态LLMs解锁了新的细分功能。所得到的模型(LISA)能够处理以下情况:1)复杂推理;2)世界知识;3)解释性答案;4)多回合对话

提出了模型LISA,一个大型语言指导分割助手,是一个能够产生分割掩码的多模态大语言模型。

它继承了多模态大型语言模型(LLM)的语言生成能力,同时还具备生成分割掩码的能力。我们用 标记扩展了原始词汇,并提出了嵌入作为掩码范式来解锁分割能力。

此外,为了验证有效性,我们建立了一个用于推理分割评估的基准,称为ReasonSeg。该基准包含超过1000个图像指令对,为任务提供了有说服力的评估指标。(Fig2为该数据集实例)

带注释的图像指令对的示例。左:短查询。右:长查询。

我看了一下提供的代码,个人认为,本质上就是LLaVA多模态大语言模型和SAM图像分割基础模型的组合应用。

创新点

提出了一种新的分割任务-推理分割(reasoning segmentation task)

建立了一个推理分割基准–ReasonSeg,其中包含一千多个图像指令对。

提出模型–LISA,该模型采用了嵌入作为掩码范式,增加了新的分割功能。当在不涉及推理的数据集上进行训练时,LISA 在推理分割任务上表现出了强大的zero-shot能力,并且通过在涉及推理的 239 对图像-指令对上进行微调,进一步提高了性能。

方法

在这里插入图片描述

给定输入图像和文本查询,多模态LLM生成文本输出。<SEG> token的最后一层嵌入然后通过解码器解码到分割掩码中。vision backbone的选择可以是灵活的(例如,SAM、Mask2Former)

在这里插入图片描述

LoRA:大型语言模型的低秩适配器

微调大模型的方法,可以在使用大模型适配下游任务时只需要训练少量的参数即可达到一个很好的效果。流程很简单,LoRA利用对应下游任务的数据,只通过训练新加部分参数来适配下游任务。

而当训练好新的参数后,利用重参的方式,将新参数和老的模型参数合并,这样既能在新任务上到达fine-tune整个模型的效果,又不会在推断的时候增加推断的耗时。

在这里插入图片描述

使用LLaVA-7B-v1-1或LLaVA-13B-v1-1作为多模态LLM ,并采用ViT-H SAM backbone 作为vision backbone Fenc。解码器**Fdec**使用的是微调的SAM的mask decoder。投影层γ是一个大小为[256,4096,4096]的MLP。

LLM: Large Language Model
LoRA: Low-Rank Adaptation of Large Language Models
LLaVA: Large Language and Vision Assistan,大型语言和视觉助手

训练

训练目标。使用文本生成损失Ltxt和分割掩码损失Lmask对模型进行端到端训练。总目标L是这些损失的加权和,由**λtxtλmask**决定:
在这里插入图片描述

具体来说,Ltxt是文本生成的自回归交叉熵损失CE(auto-regressive cross-entropy),Lmask是掩码损失。为了计算Lmask,我们采用了逐像素二元交叉熵BCE损失(per-pixel binary cross-entropy)和DICE损失的组合,相应的损失权重分别为λbceλdice。给定真值目标ytxtM,这些损失可表示为:
在这里插入图片描述
在这里插入图片描述

从不同类型的数据(包括语义分割数据、referring分割数据和视觉问题解答(VQA)数据)中提取训练数据进行说明。

训练数据由三部分组成:

  1. 语义分割数据集。(使用ADE20K, COCO-Stuff, PACO-LVIS, PartImageNet, PASCAL-Part)

  2. 基于文本的分割(Referring Segmentation)数据集。refCOCO, refCOCO+, refCOCOg, and refCLEF 数据集

    原文里是”Vanilla Referring Segmentation Dataset“,说明一下”vanilla“什么意思。

    Vanilla原义香草,香草味就是老美的原味,所以vanilla这个单词引申含义就有“普通的、原始的”的意思。

  3. 可视化问答(VQA)数据集。使用GPT-4生成的LLaVA-Instruct-150k数据

可训练的参数

为了保持预训练的多模态 LLM(即我们实验中的 LLaVA)的泛化能力,利用 LoRA进行了有效的微调,并完全冻结了vision backbone Fenc
解码器 Fdec 是完全微调的。此外,LLM 的词嵌入和 γ 的投影层也是可训练的

实验

  • 训练数据:语义分割数据集、基于文本的分割(Referring Segmentation)数据集、可视化问答(VQA)数据集,再加上本篇paper建立的ReasonSeg数据集(收集了1218张图像,其中239张训练,200张验证和779张测试),该数据集作为推理分割的基准,主要目的是用于评估。

  • 评价指标有gIoU和cIoU。 由于cIoU较偏向大面积物体,且波动较大,所以首选评价指标是gIoU。
    gIoU: generalized IoU
    cIoU: complete IoU
    ft:表示使用 239 个推理分割图像-指令对来微调模型

Tab1:reasoning segmentation推理分割结果,超过20%的gIoU性能提升来完成涉及复杂推理的任务

Tab2:vanilla referring segmentation任务的比较

Tab3:消融实验,为了验证SAM以外的Vision Backbone也适用于我们的框架,分别使用SAM和Mask2FormerSwin-L的Vision Backbone,无论我们是否在ReasonSeg训练集上微调模型,SAM都比Mask2FormerSwin-L表现更好;

同时发现对SAM的vision backbone进行LoRA微调的效果没有更好,所以没有使用LoRA微调

Tab4:在实验1和实验3,证明SAM预训练权重的有效性;实验2和3中,使γ成为MLP在gIoU中的性能几乎没有下降,但在cIoU中具有相对较高的性能;实验3和4中,比较了是否使用GPT3.5重新表述文本指令,结果证明,使用重新表述是一种有效的数据增强策略

Tab5:展示了每种类型的数据对性能的贡献,影响最大的是语义分割数据集的使用(实验4)

Fig5:提供了与现有相关工作的视觉比较,包括开放词汇语义分割模型(OVSeg)、referring分割模型(GRES)和广义分割模型(X-Decoder和SEEM)。这些模型无法处理具有各种错误的显示案例,而我们的方法产生了准确和高质量的分割结果。

在这里插入图片描述

LISA 和之前相关工作的推理分割结果。ft "表示使用 239 个推理分割图像-指令对来微调模型。

在这里插入图片描述

参考LISA(我们的)和现有方法之间的分割结果(cIoU)ft’表示使用参考分割数据集(refCOCO(+/g))来微调模型

在这里插入图片描述

3:视觉主干设计选择的消融研究ft表示对ReasonSeg训练集进行微调

4:SAM预训练重量、投影层MLPγ的消融研究和重新表述

在这里插入图片描述

训练数据的消融研究

在这里插入图片描述

LISA(我们的)与现有相关方法的视觉比较。更多的例子在附录中给出。

总结

  • 原文conclusion

在这项工作中,我们提出了一种新的分割任务——推理分割。该任务比普通参考分割任务更具挑战性,因为它需要模型根据隐含的用户指令进行主动推理。为了进行有效的评估,我们为这项任务引入了一个基准,即ReasonSeg。我们希望这一基准将有利于相关技术的发展。最后,我们介绍了我们的模型——LISA。通过采用嵌入作为掩模范式,它为当前的多模态LLM注入了新的分割能力,并且在推理分割任务上表现得出奇地好,即使在无推理数据集上进行训练也是如此。因此,它展示了在各种场景中与分割掩码输出聊天的能力。我们相信,我们的工作将为LLM和以vision为中心的任务相结合的方向提供新的线索。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Paper Reading:《LISA: Reasoning Segmentation via Large Language Model》 的相关文章

随机推荐

  • 微信公众号网页开发jweixin.js的使用

    首先申请测试账号 获取以下信息 使用你的appId和appsecret获取token https api weixin qq com cgi bin token grant type client credential appid wxa4
  • ESP32-cam 初体验 从esp32-cam的购买到局域网监控的实现

    ESP32 cam小项目 helloworld项目 前言 手头有一块esp32 cam闲置很久了 因为比赛和找工作的事情导致许欸小延期了很久 还是因为懒 最近从小仓库把板子捞出来了 上手玩一玩 本次学习参考了B站up 小铭同学 的教程 教程
  • 力扣 2697. 字典序最小回文串

    题目来源 https leetcode cn problems lexicographically smallest palindrome C 题解 从两端往中间判断 不同时则用字典序小的替换字典序大的 class Solution pub
  • mysql存储引擎

    目录 一 存储引擎概念 二 MyISAM特点介绍 三 MyISAM适用的生产场景举例 四 InnoDB特点介绍 五 InnoDB适用生产场景分析 六 企业选择存储引擎的依据 1 需要考虑每个存储引擎提供了哪些不同的核心功能及应用场景 2 支
  • 机器学习算法:特征工程-特征提取

    学习目标 了解什么是特征提取 知道字典特征提取操作流程 知道文本特征提取操作流程 知道tfidf的实现思想 什么是特征提取呢 1 特征提取 1 1 定义 将任意数据 如文本或图像 转换为可用于机器学习的数字特征 注 特征值化是为了计算机更好
  • xdg-open 未找到命令

    安装 apt get install xdg utils root kylinos xdg open bash xdg open 未找到命令 root kylinos apt get install xdg utils 正在读取软件包列表
  • EC-IDE v0.4.1发布

    主要改动包括 在IDE中使用新版的文本编辑器 除去非标准的caller属性 修改 init 的参数 增加类成员浏览功 可至以下地址下载 http www supertree org home user fwg ec ide gb ec id
  • 2021-1-7-一文掌握git/github使用,内容详细,适合新手入门~

    文章目录 前言 一 git是什么 二 github 1 了解github 2 注册github账户 三 git安装 1 windows安装git 2 linux安装git 四 git github使用 1 git工作流简介 2 git基本命
  • jenkins自动部署分布式项目(一)——linux安装Jenkins(war包方式安装)

    1 将jenkins war 上传到服务器 我这里传带了 opt目录下 2 进入文件所在目录 cd opt 3 在文件目录新建一个日志文件 vim nohup out wq 4 执行命令安装并启动Jenkins nohup java jar
  • Coverity 代码静态安全扫描工具 : 认识Coverity

    摘要 Coverity是一款快速 准确且高度可扩展的静态分析 SAST 解决方案 可帮助开发和安全团队在软件开发生命周期 SDLC 的早期解决安全和质量缺陷 跟踪和管理整个应用组合的风险 并确保符合安全和编码标准 1 概述 Coverity
  • Spring不能解决的三种循环依赖问题示例及其解决方案

    文章目录 一 Spring不能解决的三种循环依赖问题 1 构造器注入类型循环依赖 1 代码示例 2 错误信息 2 Async类型循环依赖 1 代码示例 2 错误信息 3 prototype类型循环依赖 1 代码示例 2 错误信息 二 解决方
  • 【分享】分享一个压缩 PNG 的网站 TinyPNG

    TinyPNG 能做什么 TinyPNG 采用智能的有损压缩技术来减少你的 PNG 文件的文件大小 通过选择性地减少图像中的颜色数量 更少的字节用于存储数据 效果几乎是看不见的 但它在文件大小方面差别很大 我为什么要用 TinyPNG PN
  • python实现广义线性模型

    广义线性模型 核心就是最小二乘法 最小二乘法简而言之就是求较小值 在极小值的时候值最小 一阶导数为0 import matplotlib pyplot as plt import numpy as np from sklearn impor
  • Stream流体系

    员工属性类 package Java project 1 public class Employee private String name 姓名 private char sex 性别 private double salary 薪水 p
  • CTF练习WP(week1)之二

    目录 1 flag in your hand1 2 HCTF 2018 WarmUp 1 flag in your hand1 题目链接 题目 xctf org cn 打开附件里的html 在网页上输入token获取flag 会发现每次输入
  • [Vue warn]: Error in render: “TypeError: Cannot read properties of undefined(reading“toString“)

    描述 在我们写了大量的标签但是实际上却出现了无任何东西 一查看控制台就出现了这样的错误提示 解决思路 渲染错误 TypeError 无法读取未定义的属性 读取 toString 全局搜友toSrtring 无变量toString 但是有一个
  • 数据链路层相关协议

    网络类型 根据数据链路层协议进行划分 MA 多点接入网络 BMA广播型 NBMA非广播型 P2P 点到点的网络 以太网协议 需要使用MAC地址对不同的主机设备进行区分和标识 主要因为利用以太网组件的二层网络可以包含 两个和两个以上 的接口
  • 学完责任链之后,逻辑思维上升了一个段位,我马上写了一个月薪3万的简历,HR看了让我去上班

    经过上一篇的文章 我们学习了责任链模式和策略模式 设计模式相对重要 对架构 项目拓展性 移植性要求比较高 下面我会说到简历 对于开发来说 简历是程序员的第二生命 技术是第一生命 简历第二生命 学历第三生命 简历到底是什么 简历是你的第二生命
  • js密码验证

    js密码验证
  • Paper Reading:《LISA: Reasoning Segmentation via Large Language Model》

    目录 简介 目标 创新点 方法 训练 实验 总结 简介 LISA Reasoning Segmentation via Large Language Model 基于大型语言模型的推理分割 日期 2023 8 1 v1 单位 香港中文大学