仅需一个样本即可定制个性化的SAM

2023-11-20

Personalize Segment Anything Model with One Shot https://arxiv.org/pdf/2305.03048.pdf https://github.com/ZrrSkywalker/Personalize-SAM

1.摘要

在大数据预训练的驱动下, Segment Anything 模型(SAM)已被证明是一个强大且可推广的框架,彻底改变了分割模型。尽管具有普遍性,但在没有人工提示的情况下为特定视觉概念定制SAM的探索不足,例如,在不同的图像中自动分割宠物狗。在本文中,我们为SAM提出了一种 training-free的个性化方法,称为PerSAM。仅给定具有参考掩码的单个图像,PerSAM首先通过位置先验定位目标概念,并通过三种技术将其分割到其他图像或视频中:目标引导注意力、目标语义提示和级联后细化。通过这种方式,我们在没有任何训练的情况下有效地调整SAM以供私人使用。为了进一步缓解掩码的模糊性,我们提出了一种有效的一次性微调变体PerSAM-F。冻结整个SAM,我们为多尺度掩码引入了两个可学习的权重,仅在10秒内训练2个参数以提高性能。为了证明我们的有效性,我们构建了一个新的分割数据集PerSeg,用于个性化评估,并在具有竞争性能的视频对象分割上测试了我们的方法。此外,我们的方法还可以增强DreamBooth,以个性化文本到图像生成的稳定扩散,从而丢弃背景干扰,实现更好的目标外观学习。

2.动机

Segment Anything(SAM)开发了一个用于收集11M图像掩码数据的精细数据引擎,随后训练了一个强大的分割基础模型,称为SAM。它首先定义了一种新的可提示分割范式,即将手工制作的提示作为输入,并返回期望的掩码。SAM的可接受提示足够通用,包括点、框、掩码和自由格式文本,这允许在视觉上下文中分割任何内容。

然而,SAM本质上失去了细分特定视觉概念的能力。想象一下,打算在相册中剪下你可爱的宠物狗,或者从你卧室的照片中找到丢失的时钟。使用普通SAM模型既耗费人力,又耗时。对于每张图像,需要在不同的姿势或上下文中定位目标对象,然后激活SAM并精确提示进行分割。因此,我们要问:我们能否个性化SAM,以简单高效的方式自动分割独特的视觉概念?

3.改进工作

为此,我们提出了PerSAM,这是一种针对分段任意模型的无训练个性化方法。如图1所示,我们的方法只使用一次拍摄数据,即用户提供的图像和指定个人概念的粗略掩码,就可以有效地定制SAM。具体来说,我们首先利用SAM的图像编码器和给定的掩模来对参考图像中目标对象的嵌入进行编码。然后,我们计算对象和新测试图像上所有像素之间的特征相似度。最重要的是,选择两个点作为正负对,它们被编码为提示token,并作为SAM的位置先验。在SAM的解码器处理测试图像中,我们引入了三种技术来释放其个性化潜力,而无需参数调整。

  • Target-guided Attention。我们通过计算的特征相似性来引导每个token在SAM的解码器中映射 cross-attention层。这迫使prompt tokens主要集中在前景目标区域,以进行有效的特征交互。

  • Target-semantic Prompting。为了更好地为SAM提供高级目标语义,我们将原始的低级提示token与目标对象的embedding 相融合,这为解码器提供了更充分的视觉线索来进行个性化分割。

  • Cascaded Post-refinement。为了获得更精细的分割结果,我们采用了两步后细化策略。我们利用SAM逐步完善其生成的掩码。这个过程只需要额外花费100毫秒。

如图2所示,通过上述设计,PerSAM在各种姿势或背景下为独一无二的物体提供了良好的个性化分割性能。然而,可能偶尔会出现故障情况,其中物体包括要分割的分层结构,例如泰迪熊顶部的帽子、机器人玩具的头部或罐子的顶部。这种模糊性给PerSAM确定适当的掩模比例作为分割输出带来了挑战,因为局部部分和全局形状都可以被SAM从像素级别视为有效的掩模。

为了缓解这种情况,我们进一步引入了我们方法的微调变体PerSAM-F我们冻结整个SAM以保留其预先训练的知识,并且仅在10秒内微调2个参数。详细地说,我们使SAM能够产生具有不同掩模尺度的多个分割结果。为了自适应地为不同的对象选择最佳尺度,我们对每个尺度使用可学习的相对权重,并进行加权求和作为最终的掩码输出。通过这种高效的一次性训练,PerSAM-T表现出更好的分割精度,如图2(右)所示。不使用即时调整或适配器,可以通过有效地加权多尺度掩码来有效地抑制模糊性问题

此外,如图3所示,我们观察到,我们的方法还可以帮助DreamBooth更好地微调Stable Diffusion,以生成个性化的文本到图像。给定一些包含特定视觉概念的图像,例如,你的宠物猫,DreamBooth及其其他作品将这些图像转换为单词嵌入空间中的标识符,然后用于表示句子中的目标对象。然而,标识符同时包括给定图像中背景的视觉信息,例如楼梯。这不仅会覆盖生成的图像中的新背景,还会干扰目标对象的表示学习。因此,我们建议利用我们的PerSAM来有效地分割目标对象,并且只通过少数拍摄图像中的前景区域来监督稳定扩散,从而实现更多样、更高保真的合成。

我们将论文的贡献总结如下:

Personalized Segmentation Task。从一个新的角度来看,我们研究了如何以最低的费用将细分基础模型定制到个性化场景中,即从通用到专用。

Efficient Adaption of SAM。我们首次研究仅通过微调2个参数即可将SAM适配为下游应用,并提出了两种轻量级解决方案:PerSAM和PerSAM-F

Personalization Evaluation。我们注释了一个新的分割数据集PerSeg,该数据集包含不同上下文中的各种类别。我们还在视频对象分割方面测试了我们的方法,并取得了有竞争力的结果。

Better Personalization of Stable Diffusion。通过在少量拍摄的图像中分割目标对象,我们减轻了背景的干扰,提高了DreamBooth的个性化生成。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

仅需一个样本即可定制个性化的SAM 的相关文章

随机推荐

  • bp神经网络时间序列预测,bp神经网络有几个阶段

    什么是BP神经网络 BP算法的基本思想是 学习过程由信号正向传播与误差的反向回传两个部分组成 正向传播时 输入样本从输入层传入 经各隐层依次逐层处理 传向输出层 若输出层输出与期望不符 则将误差作为调整信号逐层反向回传 对神经元之间的连接权
  • SwiftUI接入穿山甲开屏广告

    研究了一下SwiftUI怎么接入穿山甲 基于穿山甲sdk版本 4 7 0 8 例子地址 1 首先要先注册一个账号 穿山甲地址 在广告变现 gt 流量 gt 应用中创建一个应用并记录下应用ID 在广告变现 gt 流量 gt 代码位创建一个代码
  • vue-excel导出-单表头,多表头导出,Export2Excel.js Blob.js

    效果如图 一级导出 二级导出 如下图 三级导出 Export2Excel js Blob js 等 安装依赖 npm install S file saver npm install save xlsx 0 10 0 npm install
  • 蓝牙ble tips3-MAC地址

    和计算机网络IP地址类似 BLE也会有属于自己的一个地址 BLE设备地址 蓝牙地址 也称作 Bluetooth MAC Media Access Control 地址 是一个48位的唯一硬件标识符 用于在蓝牙设备之间建立连接和通信 它由全球
  • TRMF 辅助论文:最小二乘法复现TRMF

    1 目标函数 总 论文笔记 Temporal Regularized Matrix Factorization forHigh dimensional Time Series Prediction UQI LIUWJ的博客 CSDN博客 1
  • 蓝桥杯第23天(Python)(疯狂刷题第6天)

    题型 1 思维题 杂题 数学公式 分析题意 找规律 2 BFS DFS 广搜 递归实现 深搜 deque实现 3 简单数论 模 素数 只需要判断到 int sqrt n 1 gcd lcm 快速幂 位运算移位操作 大数分解 分解为质数的乘积
  • Deque接口简介说明

    转自 Deque接口简介说明 下文笔者讲述Deque接口的简介说明 如下所示 Deque简介 Deque接口是一个双端队列 可以对队列的头尾进行操作 所以也可以当做栈来使用 Queue和Deque接口的相对应方法 Queue方法 Deque
  • 完美解决SpringMVC中org.springframework.web.servlet.DispatcherServlet.noHandlerFound No mapping 404错误

    错误原因描述 出现该错误的原因主要是无法扫描注册 Controller注解的类的实例进入IOC容器而导致的 从而从一下几个方面来分析 MVC配置文件中 component scan 标签扫描包路径是否正确 且是否误写了排除 Controll
  • 《深入理解计算机系统》实验四Architecture Lab

    前言 深入理解计算机系统 实验四Architecture Lab下载和官方文档机翻请看 深入理解计算机系统 实验四Architecture Lab下载和官方文档机翻 我觉得这个文档对整个实验很有帮助 如果你的Y86 64环境还没安装好可以看
  • 一个互联网研发团队的标准配置

    做一件大事 通常会产生一个组织 对于一个组织来说 确定了梦想和目标之后 首要的事情是 组织分工和明确 权责 权利和责任分不清楚 效率必定低下 读书阶段的时候 无论是学习 还是做事 从来没有深刻地感受过 事倍功半 和 事半功倍 工作之后 经历
  • JavaEE简单示例——在使用Tomcat的时候可能出现的一些报错

    简单介绍 在我们之前使用Tomcat的时候 经常会出现在启动的时候因为一些报错导致项目无法正常的启动 我们就对一些比较常见的报错来看一下可能导致的原因 以及出现报错之后如何去解决 严重 Failed to initialize end po
  • 汇率之谜:揭秘黄金折算与真实人民币汇率的神秘差距

    导言 人民币是中国的官方货币 其汇率在国际贸易和金融市场中扮演着至关重要的角色 然而 观察到黄金折算的人民币汇率与真实人民币汇率之间存在显著差距 本文将探讨这一差距的原因以及它所暗示的经济现象 汇率基础知识 首先 让我们了解一下汇率的基础知
  • Linux服务器远程访问通过Tomcat部署的静态资源

    一 安装Java和Tomcat 1 1 安装Java 下载jdk8 切换到root用户 创建文件夹 usr local java 将下载的jdk压缩包上传到该目录下 解压 mkdir usr local java cd usr local
  • 8、配置多生成树技术(MSTP协议)

    什么是生成树技术 在局域网通信中 为了能确保网络连接的可靠性和稳定性 常常需要网络提供冗余链路 而所谓的 冗余链路 就是当一条通信信道遇到堵塞或者不通畅时 就启用别的通信信道 冗余就是准备两条以上的链路 如果主链路不通了 就启用备用链路 什
  • 树梅派应用19:树莓派安装OpenWRT做路由器图文详解

    在玩OP之前 你需要一个靠谱的以太网卡 一个型号为RTL8192CU AR9271的无线网卡 官方芯片的无线网卡都可以 随便大小的SD卡或者TF卡 都是可以的 由于没有高手指导 我算是走了不少弯路 废话不多说 首先 下载OpenWRT的系统
  • 若依单体版添加免密登录

    若依单体版添加 免密登录 的流程在其官网有流程 若依常见问题地址 可以查询到 如何实现用户免密登录配置方法 具体代码官网都有 记录一下实际操作部分细节 1 LoginService添加login方法 去掉密码验证 可能是若依框架更新频繁 网
  • mysql8.0.18数据恢复方法-ibd文件恢复(innodb引擎)

    1 创建同名数据库 2 创建相同的表 3 使用ALTER TABLE 数据库名 表名 DISCARD TABLESPACE 4 将ibd文件拷贝到数据库的数据目录下 5 使用ALTER TABLE 数据库名 表名 IMPORT TABLES
  • apt-get: command not found

    CentOS5 4 apt get install gcc bash apt get command not found 解答 CentOS的软件安装工具不是apt get 是yum yum y install gcc 在ubuntu下安装
  • 检索 COM 类工厂中 CLSID 为 {} 的组件时失败,原因是出现以下错误: 80040154没有注册类.(注册组件的方法)

    执行程序报错如下 原因 没有注册rmReport组件 解决办法 注册组件 注册组件方法如下 首先你要知道你要注册哪个文件 并且找到它 上图报错位置那个变量是我要注册的文件 并且我在自己的项目中找到了它 之后打开C Windows Syste
  • 仅需一个样本即可定制个性化的SAM

    Personalize Segment Anything Model with One Shot https arxiv org pdf 2305 03048 pdf https github com ZrrSkywalker Person