HyDE、UDAPDR（LLM大模型用于信息检索）

2023-11-18

本篇博文继续整理LLM在搜索推荐领域的应用，往期文章请往博主主页查看更多。

Precise Zero-Shot Dense Retrieval without Relevance Labels
这篇文章主要做zero-shot场景下的稠密检索，通过借助LLM的力量不需要Relevance Labels，开箱即用。作者提出Hypothetical Document Embeddings (HyDE)方法，即“假设”文档嵌入。具体的做法是通过GPT生成虚构的文档，并使用无监督检索器对其进行编码，并在其嵌入空间中进行搜索，从而不需要任何人工标注数据。
s i m ( q , d ) = < e n c q ( q ) , e n c d ( d ) = < v q , v d > > sim(q,d)=<enc_q(q),enc_d(d)=<v_q,v_d>> sim(q,d)=<encq(q),encd(d)=<vq,vd>>模型结构如下图所示，HyDE将密集检索分解为两个任务，即 instruction-following的LM生成任务和对比编码器执行的文档相似性任务。
在这里插入图片描述

write a document that answers the question。对于给定一个query，将由InstructGPT生成一个能回答该query的假设文档，即a hypothetical document。
relevance。然后使用无监督的稠密检索模型（Contriever）把该文档表示为稠密向量。
最后基于最近邻从语料库中找到相似的文档即可。

paper：https://arxiv.org/pdf/2212.10496
code：https://github.com/texttron/hyde

在这里插入图片描述

UDAPDR: Unsupervised Domain Adaptation via LLM Prompting and Distillation of Rerankers
来自斯坦福和IBM。motivation在于目前很多信息检索任务需要在大型标记数据集上微调，但是此类数据集通常不可用，并且由于领域转移，它们在现实世界应用程序中的实用性可能会迅速降低。因此，作者们提出了一种利用LLM来生成大量合成查询的方法，即先使用昂贵的 LLM 生成少量合成查询，然后创建大量合成查询，最后用这些合成结果进行模型训练精排模型并蒸馏到一个高效的稠密检索模型。这种技术可以提高长尾域中的zero-shot准确性，即使在仅使用 2K 合成查询进行微调的情况下，效果就很好。

在这里插入图片描述

具体来说，本文设计了一个两阶段的LLM pipeline，包括一个能力强大且昂贵的LLM，以及一个小且便宜的LLM，用于在zero-shot场景下生成query。

Stage 1：使用LLM（text-davinci-002）生成大量的query，如上图，该过程会使用多种提示策略。
Stage 2：基于Stage1中生成的查询，与来自目标域T的好/坏结果的合成查询配对，如下图所示。
Stage 3：使用生成的query文档对，以in-context learning的形式使用小LLM（FLAN-T5 XXL）更高效地生成query。
Stage 4：利用Stage 3的结果，从头训练单个的passage reranker（DeBERTaV3-large），以当作教师教师机来蒸馏。
Stage 5：Stage4的领域特定通道通道作为多教师在多教师蒸馏过程中蒸馏到ColBERTv2中。
Stage 6：在目标域t的评估集上测试这个自适应域的ColBERTv2检索器。

paper：https://arxiv.org/pdf/2303.00807
code：https://github.com/primeqa/primeqa/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

HyDE、UDAPDR（LLM大模型用于信息检索）的相关文章

阻止 TensorFlow 访问 GPU？ [复制]

这个问题在这里已经有答案了有没有一种方法可以纯粹在CPU上运行TensorFlow 我机器上的所有内存都被运行 TensorFlow 的单独进程占用我尝试将 per process memory fraction 设置为 0 但未成功
如何覆盖 Django 的默认管理模板和布局

我正在尝试覆盖 Django 的默认模板现在只有base site html 我正在尝试更改 django 管理文本我做了以下事情我在我的应用程序目录中创建了一个文件夹 opt mydjangoapp templates admin
上传时的 Google Drive API——这些额外的空行从何而来？

总结一下该程序我从我的 Google 云端硬盘下载一个文件然后在本地计算机中打开并读取一个文件 file a txt 然后在我的计算机中打开另一个文件 file b txt 处于附加模式并且在使用这个新的 file b 更新我的 Go
将 transaction.commit_manually() 升级到 Django > 1.6

我继承了为 Django 1 4 编写的应用程序的一些代码我们需要更新代码库以使用 Django 1 7 并最终更新到 1 8 作为下一个长期支持版本在一些地方它使用旧风格 transaction commit manually and
numpy python 中的“AttributeError：'matrix'对象没有属性'strftime'”错误

我有一个维度为 72000 1 的矩阵该矩阵涉及时间戳我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
在 python 3 中使用子进程

我使用 subprocess 模块在 python 3 中运行 shell 命令这是我的代码 import subprocess filename somename py in practical i m using a real fil
无故运行测试时 PyCharm 抛出“AttributeError: 'module' object has no attribute”

因此我有一个 Django REST Framework 项目有一天它无法在 PyCharm 中运行测试从命令行我可以使用它们来运行它们paver or the manage py直接地曾经有一段时间当我们没有在文件顶部导入类的超
cv2.drawContours() - 取消填充字符内的圆圈（Python，OpenCV）

根据 Silencer的建议我使用了他发布的代码here https stackoverflow com questions 48244328 copy shape to blank canvas opencv python 482465
编辑 Jupyter Notebook 时 VS Code 中缺少“在选择中查找”

使用 Jupyter Notebook 时 VSCode 中缺少在选择中查找按钮它会减慢开发速度所以我想请问有人知道如何激活它吗第一张图显示了在 python 文件中的搜索替换第二张图显示了笔记本电脑中缺少的按钮 Python
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
Python、subprocess、call()、check_call 和 returncode 来查找命令是否存在

我已经弄清楚如何使用 call 让我的 python 脚本运行命令 import subprocess mycommandline lumberjack sleep all night work all day subprocess cal
在 Spyder 的变量资源管理器中查看局部变量

我是 python 新手正在使用 Spyder 的 IDE 我欣赏它的一项功能是它的变量资源管理器然而根据一些研究我发现它只显示全局变量我找到的解决方法是使用检查模块 import inspect local vars def m
以编程方式使用 Sphinx 特定指令解析 .rst 文件

我希望能够在 Python 中解析基于 sphinx 的 rst 以便进一步处理和检查就像是 import sphinx p sphinx parse path to file rst do something with p 似乎在 do
从 python 检测 macOS 中的暗模式

我正在编写一个 PyQt 应用程序我必须添加一个补丁以便在启用暗模式的 Macos 上可以读取字体 app QApplication Fix for the font colours on macos when running dark
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
字符串列表，获取n个元素的公共子串，Python

我的问题可能类似于this https stackoverflow com questions 37514193 count the number of occurrences of n length not given string in
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru
使用 Python 将对象列表转为 JSON

我在转换时遇到问题Object实例到 JSON ob Object list name scaping myObj base url u number page for ob in list name json string json du
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这

随机推荐

【往届均已检索】2023年控制理论与应用国际会议（ICoCTA 2023）

往届均已检索 2023年控制理论与应用国际会议 ICoCTA 2023 重要信息会议网址 www icocta org 会议时间 2023年10月20 22日召开地点福建厦门截稿时间 2023年8月30日录用通知投稿后2周内
时间格式2019-06-27T16:00:00.000Z转换为北京时间

时间的描述 UTC 国际时间 UTC 8 伦敦时间 UTC 8就是国际时加八小时是东八区时间也就是北京时间 String dateTime 2019 06 27T16 00 00 000Z dateTime dateTime repla
让ChatGPT帮你写一个剧情脚本

最近很多视频制作者正在使用AI编写视频脚本效率直接提升20倍以上而ChatGPT作为一个强大的AI模型在各个领域都得到了广泛应用尽管对于ChatGPT的介绍不是很多但是它已经在很多自媒体平台上被广泛利用来处理工作了如果你想学习
激活函数及其各自的优缺点

原文链接感谢原作者温故知新激活函数及其各自的优缺点 1 什么是激活函数所谓激活函数 Activation Function 就是在人工神经网络的神经元上运行的函数负责将神经元的输入映射到输出端激活函数对于人工神经网络模型去学习
整体学习法之信息分类

在学习的时候我们都是有一个流程获取信息 gt 理解信息 gt 扩展信息 gt 纠正信息 gt 应用信息信息分成以下几类随意信息比如太阳半径多少苹果的价格这些都是一些毫无规律的东西这些就是靠机械记忆几乎不需要什么处理也没有
[YOLO专题-16]：YOLO V5 - 如何把labelme json训练数据集批量转换成yolo数据集

作者主页文火冰糖的硅基工坊文火冰糖王文兵的博客文火冰糖的硅基工坊 CSDN博客本文网址 https blog csdn net HiWangWenBing article details 122334367 目录前言第1章
Java高级开发工程师面试题汇总

面试主要涉及到的技术点概述以Java编程基础 JVM原理 Spring Spring Boot Redis Zookeeper 消息队列 Kafka Rocket MQ MySQL等为主也包括Dubbo Tomcat性能优化容器化技
被腾讯云的AI绘画整破防了

购买 618活动贪便宜29 9买了个腾讯云的AI绘画问题主要遇到了两个问题整破防了兄弟们 1 文档问题只封装了请求之后获取base64格式的图片没有封装如何从base64转换成图片展示出来这个还需要自己去开发 2 sdk 安装
mysql 续行符_继续字符集——「一个命令行搞懂Mysql字符集」

其实我纠结挺久要不要写这一篇文章不怎么想让大家感觉我好像只会字符集一样 Mysql在数据的存储上提供了不同的字符集支持在数据的比对上又提供了不同的字符序支持与Oracle实例级别的设置不同 Mysql很灵活它提供了不同级别的设
蓝桥杯算法训练VIP-求先序排列

题目题目链接题解递归首先要了解什么是先序遍历中序遍历和后序遍历大佬讲解树的遍历一般同学们应该都知道如何遍历这个题有点像模拟实现题就是把你手算的过程实现一遍整体思路先从后序遍历中确定根再去中序遍历中找到根的左右两侧的子
超线程技术

超线程 HT Hyper Threading 是英特尔研发的一种技术于2002年发布超线程技术原先只应用于Xeon 处理器中当时称为 Super Threading 之后陆续应用在Pentium 4 HT中早期代号为Jackson
字体图标的使用方式

字体图标的使用无论用哪种方法咋们首先都得引入文件如何使用字体图标呢首先咋们要先了解到一个东西这个东西就是字体图标库 https www iconfont cn 字体图标有四种引入方式无论何种引入方式都要先下载本地字体包引入c
Anaconda Navigator打不开 This application failed to start because it could not find or load the QT ....

anaconda Navigator打不开直接弹出错误窗口在网上试了很多方法都没有成功折腾了好久卸载重装还是一样的错误手动添加过如下的环境变量网上有的人成功了但是我没有还是报错下面分享以下我最后解决的方法给大家参考 1 删除
多元有序logistic回归_stata速学

NO 07 ZEYI 06 2020 正文共 2010字 28图预计阅读时间 6分钟嘿喽我是则已这是stata的第七期学习前面学习了最小二乘回归分析非线性回归分析都要求因变量是连续变量但很多时候因变量是离散的即1就是1 2就
CUDA使用结构体传输时出现写入位置的访问冲突

这是我的之前写的关于在CUDA中传输结构体的代码 CUDA结构体传输 include cuda runtime h include device launch parameters h include
混合分布(mixture distribution)

文章目录 1 基本概念 2 基本性质 1 基本概念在概率与统计中如果我们有一个包含多个随机变量的随机变量集合再基于该集合生成一个新的随机变量则该随机变量的分布称为混合分布 mixture distribution 具体来说首先根
对Fiber架构的理解？解决了什么问题？

一问题 JavaScript引擎和页面渲染引擎两个线程是互斥的当其中一个线程执行时另一个线程只能挂起等待如果 JavaScript 线程长时间地占用了主线程那么渲染层面的更新就不得不长时间地等待界面长时间不更新会导致页面响应度
LaTeX表格处理

关于LaTeX中对表格的一些处理在使用latex撰写文档时可能会遇到表格太大超过页面范围表格太小显示不美观以及生成跨行表格表头斜线等问题以下是一些调整表格的命令调整表格大小使用以下的latex命令之前需要在latex文件中
Python学习之路_day_05(元组、字典、集合类型及字符编码)

一基本使用 tuple 1 用途记录多个值当多个值没有改的需求此时用元组更合适 2 定义方式在内用逗号分隔开多个任意类型的值 t 1 1 3 xx a b 1 2 t tuple 1 1 3 xx a b 1 2 print t
HyDE、UDAPDR（LLM大模型用于信息检索）

本篇博文继续整理LLM在搜索推荐领域的应用往期文章请往博主主页查看更多 Precise Zero Shot Dense Retrieval without Relevance Labels 这篇文章主要做zero shot场景下的稠密检索

HyDE、UDAPDR（LLM大模型用于信息检索）

HyDE、UDAPDR（LLM大模型用于信息检索） 的相关文章

随机推荐

热门标签

HyDE、UDAPDR（LLM大模型用于信息检索）的相关文章