Paper Reading：《LISA: Reasoning Segmentation via Large Language Model》

2023-11-18

在这里插入图片描述

简介

《LISA: Reasoning Segmentation via Large Language Model》基于大型语言模型的推理分割

日期：2023.8.1(v1)
单位：香港中文大学，思谋科技，微软亚洲研究院
论文地址：https://arxiv.org/abs/2308.00692
GitHub：https://github.com/dvlab-research/LISA

作者：

赖昕，香港中文大学三年级博士生，师从贾佳亚教授。主要研究方向是三维点云感知，迁移学习，半监督学习，小样本学习。已发表顶会顶刊论文8篇，其中一作4篇。
在这里插入图片描述
同等贡献

其他作者

（Jiaya Jia：贾佳亚）

原文摘要

尽管近年来感知系统取得了显著进步，但它们在执行视觉识别任务之前，仍然依赖于明确的人类指令来识别目标对象或类别。这类系统缺乏主动推理和理解用户隐含意图的能力。在这项工作中，我们提出了一项新的分割任务–推理分割。该任务旨在根据复杂而隐含的查询文本输出分割掩码。此外，我们还建立了一个由一千多个图像-指令对组成的基准，其中包含用于评估目的的复杂推理和世界知识。最后，我们介绍了 LISA：大型语言指令分割助手，它继承了多模态大型语言模型（LLM）的语言生成能力，同时还具备生成分割掩码的能力。我们用标记扩展了原始词汇，并提出了embedding-as-mask paradigm来解锁分割能力。值得注意的是，LISA 可以处理涉及以下方面的情况：1）复杂推理；2）世界知识；3）解释性回答；4）多回合对话。此外，当完全在无推理数据集上进行训练时，LISA 还表现出强大的zero-shot能力。此外，仅使用 239 个推理分割图像-指令对，对模型进行微调，也能进一步提高性能。实验表明，我们的方法不仅解锁了新的推理分割能力，而且在复杂推理分割和标准referring分割任务中都证明了其有效性。

目标

动机是想要实现推理分割Reasoning segmentation，即根据复杂而隐含的查询文本输出分割掩码。

如图1所示，可以处理各种场景，包括:1)复杂推理;2)世界知识;3)解释性答案;4)多回合对话。
在这里插入图片描述

我们为当前的多模态LLMs解锁了新的细分功能。所得到的模型(LISA)能够处理以下情况:1)复杂推理;2)世界知识;3)解释性答案;4)多回合对话

提出了模型LISA，一个大型语言指导分割助手，是一个能够产生分割掩码的多模态大语言模型。

它继承了多模态大型语言模型（LLM）的语言生成能力，同时还具备生成分割掩码的能力。我们用标记扩展了原始词汇，并提出了嵌入作为掩码范式来解锁分割能力。

此外，为了验证有效性，我们建立了一个用于推理分割评估的基准，称为ReasonSeg。该基准包含超过1000个图像指令对，为任务提供了有说服力的评估指标。（Fig2为该数据集实例）

带注释的图像指令对的示例。左:短查询。右:长查询。

我看了一下提供的代码，个人认为，本质上就是LLaVA多模态大语言模型和SAM图像分割基础模型的组合应用。

创新点

提出了一种新的分割任务-推理分割(reasoning segmentation task)

建立了一个推理分割基准–ReasonSeg，其中包含一千多个图像指令对。

提出模型–LISA，该模型采用了嵌入作为掩码范式，增加了新的分割功能。当在不涉及推理的数据集上进行训练时，LISA 在推理分割任务上表现出了强大的zero-shot能力，并且通过在涉及推理的 239 对图像-指令对上进行微调，进一步提高了性能。

方法

在这里插入图片描述

给定输入图像和文本查询，多模态LLM生成文本输出。<SEG> token的最后一层嵌入然后通过解码器解码到分割掩码中。vision backbone的选择可以是灵活的（例如，SAM、Mask2Former）

在这里插入图片描述

LoRA：大型语言模型的低秩适配器

微调大模型的方法，可以在使用大模型适配下游任务时只需要训练少量的参数即可达到一个很好的效果。流程很简单，LoRA利用对应下游任务的数据，只通过训练新加部分参数来适配下游任务。

而当训练好新的参数后，利用重参的方式，将新参数和老的模型参数合并，这样既能在新任务上到达fine-tune整个模型的效果，又不会在推断的时候增加推断的耗时。

在这里插入图片描述

使用LLaVA-7B-v1-1或LLaVA-13B-v1-1作为多模态LLM ，并采用ViT-H SAM backbone 作为vision backbone F_enc。解码器**F_dec**使用的是微调的SAM的mask decoder。投影层γ是一个大小为[256，4096，4096]的MLP。

LLM: Large Language Model
LoRA: Low-Rank Adaptation of Large Language Models
LLaVA: Large Language and Vision Assistan，大型语言和视觉助手

训练

训练目标。使用文本生成损失L_txt和分割掩码损失L_mask对模型进行端到端训练。总目标L是这些损失的加权和，由**λ_txt和λ_mask**决定:

具体来说，L_txt是文本生成的自回归交叉熵损失CE(auto-regressive cross-entropy)，L_mask是掩码损失。为了计算L_mask，我们采用了逐像素二元交叉熵BCE损失(per-pixel binary cross-entropy)和DICE损失的组合，相应的损失权重分别为λ_bce和λ_dice。给定真值目标y_txt和M，这些损失可表示为:

在这里插入图片描述

从不同类型的数据（包括语义分割数据、referring分割数据和视觉问题解答（VQA）数据）中提取训练数据进行说明。

训练数据由三部分组成：

语义分割数据集。（使用ADE20K, COCO-Stuff, PACO-LVIS, PartImageNet, PASCAL-Part）
基于文本的分割(Referring Segmentation)数据集。refCOCO, refCOCO+, refCOCOg, and refCLEF 数据集

原文里是”Vanilla Referring Segmentation Dataset“，说明一下”vanilla“什么意思。

Vanilla原义香草，香草味就是老美的原味，所以vanilla这个单词引申含义就有“普通的、原始的”的意思。
可视化问答(VQA)数据集。使用GPT-4生成的LLaVA-Instruct-150k数据

可训练的参数

为了保持预训练的多模态 LLM（即我们实验中的 LLaVA）的泛化能力，利用 LoRA进行了有效的微调，并完全冻结了vision backbone F_enc。
解码器 F_dec 是完全微调的。此外，LLM 的词嵌入和 γ 的投影层也是可训练的

实验

训练数据：语义分割数据集、基于文本的分割(Referring Segmentation)数据集、可视化问答(VQA)数据集，再加上本篇paper建立的ReasonSeg数据集（收集了1218张图像，其中239张训练，200张验证和779张测试），该数据集作为推理分割的基准，主要目的是用于评估。

评价指标有gIoU和cIoU。由于cIoU较偏向大面积物体，且波动较大，所以首选评价指标是gIoU。
gIoU: generalized IoU
cIoU: complete IoU
ft：表示使用 239 个推理分割图像-指令对来微调模型

Tab1：reasoning segmentation推理分割结果，超过20%的gIoU性能提升来完成涉及复杂推理的任务

Tab2：vanilla referring segmentation任务的比较

Tab3：消融实验，为了验证SAM以外的Vision Backbone也适用于我们的框架，分别使用SAM和Mask2FormerSwin-L的Vision Backbone，无论我们是否在ReasonSeg训练集上微调模型，SAM都比Mask2FormerSwin-L表现更好；

同时发现对SAM的vision backbone进行LoRA微调的效果没有更好，所以没有使用LoRA微调

Tab4：在实验1和实验3，证明SAM预训练权重的有效性；实验2和3中，使γ成为MLP在gIoU中的性能几乎没有下降，但在cIoU中具有相对较高的性能；实验3和4中，比较了是否使用GPT3.5重新表述文本指令，结果证明，使用重新表述是一种有效的数据增强策略

Tab5：展示了每种类型的数据对性能的贡献，影响最大的是语义分割数据集的使用（实验4）

Fig5：提供了与现有相关工作的视觉比较，包括开放词汇语义分割模型（OVSeg）、referring分割模型（GRES）和广义分割模型（X-Decoder和SEEM）。这些模型无法处理具有各种错误的显示案例，而我们的方法产生了准确和高质量的分割结果。

在这里插入图片描述

LISA 和之前相关工作的推理分割结果。ft "表示使用 239 个推理分割图像-指令对来微调模型。

在这里插入图片描述

参考LISA（我们的）和现有方法之间的分割结果（cIoU）ft’表示使用参考分割数据集（refCOCO（+/g））来微调模型

在这里插入图片描述

3：视觉主干设计选择的消融研究ft表示对ReasonSeg训练集进行微调

4：SAM预训练重量、投影层MLPγ的消融研究和重新表述

在这里插入图片描述

训练数据的消融研究

在这里插入图片描述

LISA(我们的)与现有相关方法的视觉比较。更多的例子在附录中给出。

总结

原文conclusion

在这项工作中，我们提出了一种新的分割任务——推理分割。该任务比普通参考分割任务更具挑战性，因为它需要模型根据隐含的用户指令进行主动推理。为了进行有效的评估，我们为这项任务引入了一个基准，即ReasonSeg。我们希望这一基准将有利于相关技术的发展。最后，我们介绍了我们的模型——LISA。通过采用嵌入作为掩模范式，它为当前的多模态LLM注入了新的分割能力，并且在推理分割任务上表现得出奇地好，即使在无推理数据集上进行训练也是如此。因此，它展示了在各种场景中与分割掩码输出聊天的能力。我们相信，我们的工作将为LLM和以vision为中心的任务相结合的方向提供新的线索。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Paper Reading：《LISA: Reasoning Segmentation via Large Language Model》的相关文章

用通俗易懂的方式讲解：内容讲解+代码案例，轻松掌握大模型应用框架 LangChain

本文介绍了 LangChain 框架它能够将大型语言模型与其他计算或知识来源相结合从而实现功能更加强大的应用接着对LangChain的关键概念进行了详细说明并基于该框架进行了一些案例尝试旨在帮助读者更轻松地理解 LangChai
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
用CHAT写一份标题为职业教育教师教学能力提升培训总结

CHAT回复标题职业教育教师教学能力提升培训总结一活动概述本次由学校组织的职业教育教师教学能力提升培训于8月15日至8月20日顺利进行来自全校的60位职业教育教师参与了此次培训主讲人为享有盛名的教育专家马丁先生二培训内容与
利用CHAT写实验结论

问CHAT 通过观察放置在玻璃表面上的单个水滴人们可以观察到水滴充当成像系统探究这样一个透镜的放大倍数和分辨率 CHAT回复实验报告标题利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率一实验目的通过对比和测量研究和探索玻
面对AI革新时，Soul App等社交应用的“出圈”解法是什么？

2023年初 ChatGPT掀开海内外互联网 AI革新的序幕公众在惊讶于ChatGPT对于海量信息富有逻辑的整合归纳帮助大家提升工作及学习效率之余更为期待的莫过于有一天人工智能的意识觉醒十余年前由斯派克琼斯 Spike Jon
明日 15:00 | NeurIPS 2023 Spotlight 论文

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入哔哩哔哩直播通道扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍黄若孜腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
毕业设计：基于卷积神经网络的验证码识别系统机器视觉人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 字符分割算法 2 2 深度学习三检测的实现 3 1 数据集 3 2 实验环境搭建 3 3 实验及结果分析最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实
毕业设计：基于深度学习的微博谣言检测系统人工智能

目录前言设计思路一课题背景与意义二算法理论原理三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
2023最新pytorch安装（超详细版）

前言一判断是否有Nvidia 英伟达显卡二 CPU版 2 1 安装Anaconda 2 2 创建虚拟环境 2 3安装pytorch 2 4 验证pytorch是否安装成功三 GPU版 3 1 安装Anaconda 3 2 创建虚拟环
人工智能 AI 如何让我们的生活更加便利

每个人都可以从新技术中获益一想到工作或生活更为便利简捷且拥有更多空余时间谁会不为之高兴呢借助人工智能每天能够多一些空余时间或丰富自己的业余生活为培养日常兴趣爱好增添一点便利从电子阅读器到智能家居再到植物识别应用和智能室内花
AI在广告中的应用——预测性定位和调整

营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前从而增加他们购买的可能性随着时间的推移营销人员能够深入挖掘越来越精准的客户细分市场他们不仅具备了实现上述目标的能力而且这种能力还在呈指数级提升在AI技术帮助下现在的营销
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本
开始弃用NeRF？为什么Gaussian Splatting在自动驾驶场景如此受欢迎？（浙江大学最新）...

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取今天自动驾驶之心为大家分享浙大刚刚出炉的3D Gaussian Splatting综述文章首先回顾了3D Gaussian的原理和应用借着全面比较了3D GS在静态
深度学习(5)--Keras实战

一 Keras基础概念 Keras是深度学习中的一个神经网络框架是一个高级神经网络API 用Python编写可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计用户友好性模块化和可扩
自动驾驶离不开的仿真！Carla-Autoware联合仿真全栈教程

随着自动驾驶技术的不断发展研发技术人员开始面对一系列复杂挑战特别是在确保系统安全性处理复杂交通场景以及优化算法性能等方面这些挑战中尤其突出的是所谓的长尾问题即那些在实际道路测试中难以遇到的罕见或异常驾驶情况这些问题暴露了实车
实力认证！鼎捷软件荣膺“领军企业”和“创新产品”两大奖项

近日由中国科学院软件研究所中科软科技股份有限公司联合主办的 2023中国软件技术大会于北京成功举办本届大会以大模型驱动下的软件变革为主题数十位来自知名互联网公司和软件巨头企业的技术大咖不同领域行业专家畅销书作者等分享嘉宾

随机推荐

微信公众号网页开发jweixin.js的使用

首先申请测试账号获取以下信息使用你的appId和appsecret获取token https api weixin qq com cgi bin token grant type client credential appid wxa4
ESP32-cam 初体验从esp32-cam的购买到局域网监控的实现

ESP32 cam小项目 helloworld项目前言手头有一块esp32 cam闲置很久了因为比赛和找工作的事情导致许欸小延期了很久还是因为懒最近从小仓库把板子捞出来了上手玩一玩本次学习参考了B站up 小铭同学的教程教程
力扣 2697. 字典序最小回文串

题目来源 https leetcode cn problems lexicographically smallest palindrome C 题解从两端往中间判断不同时则用字典序小的替换字典序大的 class Solution pub
mysql存储引擎

目录一存储引擎概念二 MyISAM特点介绍三 MyISAM适用的生产场景举例四 InnoDB特点介绍五 InnoDB适用生产场景分析六企业选择存储引擎的依据 1 需要考虑每个存储引擎提供了哪些不同的核心功能及应用场景 2 支
机器学习算法：特征工程-特征提取

学习目标了解什么是特征提取知道字典特征提取操作流程知道文本特征提取操作流程知道tfidf的实现思想什么是特征提取呢 1 特征提取 1 1 定义将任意数据如文本或图像转换为可用于机器学习的数字特征注特征值化是为了计算机更好
xdg-open 未找到命令

安装 apt get install xdg utils root kylinos xdg open bash xdg open 未找到命令 root kylinos apt get install xdg utils 正在读取软件包列表
EC-IDE v0.4.1发布

主要改动包括在IDE中使用新版的文本编辑器除去非标准的caller属性修改 init 的参数增加类成员浏览功可至以下地址下载 http www supertree org home user fwg ec ide gb ec id
2021-1-7-一文掌握git/github使用，内容详细，适合新手入门~

文章目录前言一 git是什么二 github 1 了解github 2 注册github账户三 git安装 1 windows安装git 2 linux安装git 四 git github使用 1 git工作流简介 2 git基本命
jenkins自动部署分布式项目（一）——linux安装Jenkins(war包方式安装)

1 将jenkins war 上传到服务器我这里传带了 opt目录下 2 进入文件所在目录 cd opt 3 在文件目录新建一个日志文件 vim nohup out wq 4 执行命令安装并启动Jenkins nohup java jar
Coverity 代码静态安全扫描工具：认识Coverity

摘要 Coverity是一款快速准确且高度可扩展的静态分析 SAST 解决方案可帮助开发和安全团队在软件开发生命周期 SDLC 的早期解决安全和质量缺陷跟踪和管理整个应用组合的风险并确保符合安全和编码标准 1 概述 Coverity
Spring不能解决的三种循环依赖问题示例及其解决方案

文章目录一 Spring不能解决的三种循环依赖问题 1 构造器注入类型循环依赖 1 代码示例 2 错误信息 2 Async类型循环依赖 1 代码示例 2 错误信息 3 prototype类型循环依赖 1 代码示例 2 错误信息二解决方
【分享】分享一个压缩 PNG 的网站 TinyPNG

TinyPNG 能做什么 TinyPNG 采用智能的有损压缩技术来减少你的 PNG 文件的文件大小通过选择性地减少图像中的颜色数量更少的字节用于存储数据效果几乎是看不见的但它在文件大小方面差别很大我为什么要用 TinyPNG PN
python实现广义线性模型

广义线性模型核心就是最小二乘法最小二乘法简而言之就是求较小值在极小值的时候值最小一阶导数为0 import matplotlib pyplot as plt import numpy as np from sklearn impor
Stream流体系

员工属性类 package Java project 1 public class Employee private String name 姓名 private char sex 性别 private double salary 薪水 p
CTF练习WP(week1)之二

目录 1 flag in your hand1 2 HCTF 2018 WarmUp 1 flag in your hand1 题目链接题目 xctf org cn 打开附件里的html 在网页上输入token获取flag 会发现每次输入
[Vue warn]: Error in render: “TypeError: Cannot read properties of undefined（reading“toString“）

描述在我们写了大量的标签但是实际上却出现了无任何东西一查看控制台就出现了这样的错误提示解决思路渲染错误 TypeError 无法读取未定义的属性读取 toString 全局搜友toSrtring 无变量toString 但是有一个
数据链路层相关协议

网络类型根据数据链路层协议进行划分 MA 多点接入网络 BMA广播型 NBMA非广播型 P2P 点到点的网络以太网协议需要使用MAC地址对不同的主机设备进行区分和标识主要因为利用以太网组件的二层网络可以包含两个和两个以上的接口
学完责任链之后，逻辑思维上升了一个段位，我马上写了一个月薪3万的简历，HR看了让我去上班

经过上一篇的文章我们学习了责任链模式和策略模式设计模式相对重要对架构项目拓展性移植性要求比较高下面我会说到简历对于开发来说简历是程序员的第二生命技术是第一生命简历第二生命学历第三生命简历到底是什么简历是你的第二生命
js密码验证

js密码验证
Paper Reading：《LISA: Reasoning Segmentation via Large Language Model》

目录简介目标创新点方法训练实验总结简介 LISA Reasoning Segmentation via Large Language Model 基于大型语言模型的推理分割日期 2023 8 1 v1 单位香港中文大学

Paper Reading：《LISA: Reasoning Segmentation via Large Language Model》

目录

简介

目标

创新点

方法

训练

实验

总结

Paper Reading：《LISA: Reasoning Segmentation via Large Language Model》 的相关文章

随机推荐

热门标签

Paper Reading：《LISA: Reasoning Segmentation via Large Language Model》的相关文章