Visual Prompt

2023-11-12

始于NLP

简单来讲，Prompt就是对原来的输入文本进行一定的处理，使得在不改变预训练模型参数的情况下，相应任务的性能变高。例如，原输入文本为：I received the offer from ETH. ，对于文本分类，我们将其修改为I received the offer form ETH, I’m so [MASK]；[MASK]可以为一些表示情绪的词，比如happy，那么相对于原文，修改后的句子更容易被分为happy类。如果将其改为I received the offer from ETH. Chinese:[MASK]，则对于翻译任务来讲，更容易取得正确的翻译效果。所谓的修改方式在大佬论文中提到的有（如下图）：

NLP中的Prompt算法步骤：

Prompt Addition：这一步就是如何修改原文本。

Answer Search：构建相应的answer空间，例如，文本分类，设置为（happy， good， terrible等）。

Answer Mapping：在某些时候answer并不是我们最终想要的结果，比如我们最终想要的结果为positive和negative；那么则需要将happy,good映射为positive，将terrible映射为negative。

VPT（Visual prompt tuning）

一、论文信息

论文名称：Visual Prompt Tuning

作者团队：

会议：ECCV2022

Github: https://github.com/kmnp/vpt

二、动机与创新

动机：

目前调整预训练模型的方法是full fine-tuning，即完全微调。预训练好的模型利用full fine-tuning的方式迁移到下游任务上时，需要存储整个模型，而且在会对模型的所有参数都进行训练，造成计算量大的问题；
随着计算机视觉领域的发展，基于Transformer的模型相较于基于CNN的模型更大，导致模型参数急剧上升，也致使训练难度的增大；
近年来，NLP已经进入大模型阶段，对于如何迁移NLP预训练好的大模型到下游任务，相关人员提出了不同于Fine-tuning的方法，即Prompt-tuning，在保持预训练模型冻结的情况下，只需要训练少量额外的参数即可将该大模型迁移到下游任务，而且效果不错。
如何更加有效地 adapt 预训练的Transformer用于下游任务？

创新：

这篇文章提出了一个简单、有效的方法调整预训练好的Transformer模型用于下游任务，即Visual-Prompt Tuning (VPT)。

三、方法

VPT-Deep变体为Transformer编码器每层的输入预先设置一组可学习的参数；

VPT-Shallow变体则仅将提示参数插入第一层的输入。

两者在下游任务的训练过程中，只有特定于任务的提示和线性头的参数会更新，而整个Transformer编码器被冻结。

四、实验结果 20/24

实验的数据集有两组，一共涉及24个跨不同领域的下游识别任务，包括：

（1）由5个基准细粒度视觉分类任务组成的FGVC；

（2）由19个不同视觉分类集合组成的VTAB-1k，细分为使用标准相机拍摄的自然图像任务（Natural）、用专用设备（如卫星图像）捕获的图像任务（Specialized）以及需要几何理解的任务（Structured），比如物体计数。测得每项任务上的平均准确度后，得出的主要结果如下：

VPT-Deep在24个任务中有20个的表现都优于全面微调，同时使用的总模型参数显著减少（1.18× vs. 24.02×）；

在NLP领域中Prompt再厉害，性能也不会超过全面微调。这说明Prompt很适用于视觉Transformer模型。

Exploring Visual Prompts for Adapting Large-Scale Models

一、论文信息

论文名称：Exploring Visual Prompts for Adapting Large-Scale Models

作者团队：

Github: https://hjbahng.github.io/visual_prompting/

二、动机

正如随着attention机制和transformer在NLP成为主流，attention+CNN、Vit、Swin-transformer、ShiftVit等基于attention和transformer的CV模型不断涌出一样；在看到prompting在NLP变得越来越火时，作者自然问道：Why not visual prompting?为证明在CV领域，Prompt是可行的，并且在某些任务和数据集上效果不错。

三、方法

使用（迁移）预训练模型的方法：

在CV中，将一个预训练模型迁移到新任务上的方法主要包括Fine-tuning，Linear Probe，Visual Prompting ；三种方法的不同如下图所示：

Fine-tuning会修改预训练模型参数，Linear Probe不会修改预训练模型参数，但是会在预训练模型后增加和任务相关的线性层，Visual Prompting则是不修改预训练模型参数，只修改原图像。

Prompt形式：

对于图片，给原图增加prompt，自然想到的是添加一些像素；其实以像素形式添加prompt的好处就是可以做到task-special和input-agnostic；也就是因为prompt中含有大量数据中学到的信息，所以是任务相关的；因为对于同一个任务，在测试时，直接使用得到的prompt就可以，不管你输入哪张图片，因此时输入无关的。
如何添加：作者提到了三种方式：1）在随机位置添加像素块(pixel patch)；2）在固定位置添加像素块(pixel patch)；3）在图像内部边缘pad一些像素（类似卷积中的padding）第三种方式效果最好。
Padding：使用pad方式添加，添加的宽度为p ；图像的尺寸为C,H,W；则一共需要添加 2*C*p*(H-p)+2*C*p*(W-p)，如图：

如何得来：对于一个任务，需要通过训练得到于该任务相关的prompt，得到之后就可以直接应用了。

四、实验结果

文章的目的不是达到state-of-the-art，只是为了证明visual prompting的有效性，实验效果不错。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Visual Prompt 的相关文章

用通俗易懂的方式讲解：内容讲解+代码案例，轻松掌握大模型应用框架 LangChain

本文介绍了 LangChain 框架它能够将大型语言模型与其他计算或知识来源相结合从而实现功能更加强大的应用接着对LangChain的关键概念进行了详细说明并基于该框架进行了一些案例尝试旨在帮助读者更轻松地理解 LangChai
用通俗易懂的方式讲解：如何用大语言模型构建一个知识问答系统

传统搜索系统基于关键字匹配在面向游戏攻略技术图谱知识库等业务场景时缺少对用户问题理解和答案二次处理能力本文探索使用大语言模型 Large Language Model LLM 通过其对自然语言理解和生成的能力揣摩用户意图并对
【信道估计】【MIMO】【FBMC】未来移动通信的滤波器组多载波调制方案（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
问CHAT很繁琐的问题会不会有答案呢？

问CHAT 什么已有的基于极值理论的极端温度重现期主要针对极端高温事件对极端低温事件研究较少 CHAT 回复为这主要可能是由于以下几个原因 1 气候变化与全球变暖当前全球变暖和气候变化的问题备受关注这导致科研者更加关注极端高温事件
明日 15:00 | NeurIPS 2023 Spotlight 论文

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入哔哩哔哩直播通道扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍黄若孜腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
基于opencv的大米计数统计（详细处理流程＋代码）

在我每周的标准作业清单中有一项是编写计算机视觉算法来计算该图像中米粒的数量因此当我的一个好朋友M给我发了一张纸上的扁豆照片显然是受到上述转发的启发请我帮他数一下谷物的数量时它勾起了我怀旧的回忆因此我在我的旧硬盘上寻找很久以前
毕业设计：基于深度学习的微博谣言检测系统人工智能

目录前言设计思路一课题背景与意义二算法理论原理三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有
如何快速申请GPT账号？

详情点击链接如何快速申请GPT账号一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
做大模型也有1年多了，聊聊这段时间的感悟！

自ChatGPT问世以来做大模型也有1年多了今天给大家分享这一年后的感悟过去一年应该是AI圈最万千瞩目的一年了大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注以至于有一年的时间好像经
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
机器学习算法实战案例：Informer实现多变量负荷预测

文章目录机器学习算法实战案例系列答疑技术交流 1 实验数据集 2 如何运行自己的数据集 3 报错分析机器学习算法实战案例系
不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！

AI 大模型技术经过2023年的狂飙 2024年必将迎来应用的落地对 IT 同学来讲这里蕴含着大量的技术机会越来越多的企业开始招聘 AI 大模型岗位本文梳理了 AI 大模型开发技术的面试之道从 AI 大模型基础面 AI 大模型进阶
AI在保护环境、应对气候变化中的作用

对于AI生命周期数据领域的全球领导者而言暂时搁置我们惯常的AI见解和AI生命周期数据内容产出来认识诸如世界地球日这样的自然环境类活动日似乎是个奇怪的事情我们想要知道数据是否真的会影响我们的地球环境简而言之是确实如此但作为一
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
AI-基于Langchain-Chatchat和chatglm3-6b部署私有本地知识库

目录参考概述部署安装环境准备原理和流程图一键启动启动WebAPI 服务启动WebUI服务 Docker部署
主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据

随机推荐

系统错误！！！VCRUNTIME140.dll找不到的解决方案

相信各位很多一定有过这样的经历当你打开steam 打算开开心心玩一场游戏当你打开电脑想登个QQ 然后太淦了对不对笔者百度了一下教程挺多不过试试我的也是可以的至少我觉得简单实用吧而且以后电脑软件有什么小毛病都可以试试通过
使用百度API进行情感分析（python）（二）

编写代码将代码中的token值改为上一篇得到的Access token值即可该值的时间期限约是一个月一个月之后需要重新获取Access token值获取方法与之前相同代码示例 import re import requests
基于.Net的权限管理快速开发框架

一项目简介基于 Net的权限管理快速开发框架二实现功能支持基础功能系统设置角色管理用户管理组织机构字典管理支持功能模块权限管理 url权限按钮权限支持定时任务在线的定时任务任务调度执行结果支持基本的日志管
C++实例（十二）图形绘制

一特殊曲线绘制蜗牛线绘制贝塞尔曲线拖动绘制曲线绘制正弦曲线绘制立体模型交叉线条绘制尼哥米德蚌线艺术图案万花筒绘制抛物线等电位面图沙丘图案绘制艺术图案立体三棱锥二图形基础创建不同的画刷指定颜色填充矩形区域
更多提高正则表达式效率的方法

原文 http wyzws iteye com blog 1274020 让匹配更快失败尤其是匹配很长的字符串时匹配失败的位置要比成功的位置多得多以简单必须的字元开始排除明显不匹配的位置如锚点或特殊字符 x或 u263A 字
win32 消息循环

windows系统把应用程序的输入事件传递给各个窗口每个窗口有一个函数称为窗口消息处理函数窗口消息处理函数处理各种用户输入处理完成后再将控制权交还给系统窗口消息处理函数一般是在注册一个窗口的时候指定的在Windows下只有那些
linear-gradient为啥只能background不能background-color

background 可以设置背景颜色背景图片定位等而background color 只能设置背景颜色设置background color aaa 此时仅仅改专变了背景色但此时有一个默认的的background repeat
什么是OAuth

什么是OAuth OAuth 全称 Open Authorization 中文翻译开放授权是一种基于令牌的身份验证允许组织跨第三方服务共享信息而无需公开用户的用户名密码本质上 OAuth是为第三方服务提供令牌的中间人该令牌只允许
android按日期函数查询,Android开发中SQLite存储时间和按日期函数查询

Android开发中SQLite存储时间和按日期函数查询 Android开发中SQLite存储时间和按日期函数查询在Android开发中在消息模块中消息做数据库缓存处理排序查询或指定时间查询需要用时间和日期函数本篇简括存储时间字
QT 完美实现圆形按钮

QT 版本 5 6 0 官方的按钮有些普通如果我们想要换成自己喜欢的按钮而却无从下手那么请继续往下阅读皮一下首先可以在网络上搜索一下自己喜欢的按钮图形或者可以自行绘制我以下面的图形为例开始制作一建立 QT 工程并加入图
基于画布canvas进行图片压缩

Canvas 压缩图片的原理主要是通过重新绘制图片调整图片质量或大小来达到压缩图片的目的具体实现步骤如下 1 使用 JavaScript 中的 Image 对象将图片加载到内存中 var img new Image img src im
mkp勒索病毒怎么处理

目录前言简介一 mkp勒索病毒的特征二 mkp后缀勒索病毒是如何传播的三如何预防与处理mkp勒索病毒攻击前言简介当今勒索病毒已成为企业网络安全的一大威胁而其中mkp勒索病毒则是一种新近出现的变种与其他勒索病毒一样 m
关于redis密码

如何更改密码直接配置文件里更改配置文件里开放 requirepass 之后客户端更改用Redis命令查询密码可以使用以下Redis命令来查询密码 config get requirepass 得到的结果第一行固定是requirepa
设计模式-备忘录模式（Memento Pattern）

文章目录前言一备忘录模式的概念二备忘录模式的实现三备忘录优缺点优点缺点总结前言备忘录模式 Memento Pattern 是一种行为型设计模式它用于捕获和存储对象的内部状态以便在以后可以恢复到先前的状态备忘录模
pthread_detach函数

int pthread detach pthread t thread 成功 0 失败错误号作用从状态上实现线程分离注意不是指该线程独自占用地址空间线程分离状态指定该状态线程主动与主控线程断开关系线程结束后不会产生僵尸线程
jwt编码解码

import jwt 创建 JWT payload user id 1234 secret key your secret key 密钥用于签名和验证 algorithm HS256 签名算法 token jwt encode paylo
NPM导入模块报错

npm WARN enoent ENOENT no such file or directory open C Program Files nodejs package json 找不到package json文件一般情况下npm安装时都
python 删除文件、清空目录的方法总结

Python os remove 方法 os remove 方法用于删除指定路径的文件如果指定的路径是一个目录将抛出OSError 在Unix Windows中有效以下实例演示了 remove 方法的使用 usr bin python
python---面向对象（一）

类和对象面向对象编程的2个非常重要的概念类和对象对象是面向对象编程的核心在使用对象的过程中为了将具有共同特征和行为的一组对象抽象定义提出了另外一个新的概念类类就相当于制造飞机时的图纸用它来进行创建的飞机就相当于对象类是抽
Visual Prompt

始于NLP 简单来讲 Prompt就是对原来的输入文本进行一定的处理使得在不改变预训练模型参数的情况下相应任务的性能变高例如原输入文本为 I received the offer from ETH 对于文本分类我们将其修改为I r

Visual Prompt

始于NLP

VPT（Visual prompt tuning）

一、论文信息

二、动机与创新

四、实验结果 20/24

Exploring Visual Prompts for Adapting Large-Scale Models

一、论文信息

二、动机

三、方法

四、实验结果

Visual Prompt 的相关文章

随机推荐

热门标签