In-Context Retrieval-Augmented Language Models

2023-11-20

本文是LLM系列文章,针对《In-Context Retrieval-Augmented Language Models》的翻译。

摘要

检索增强语言建模(RALM)方法在生成过程中对基础语料库中的相关文档设置语言模型(LM),可以显著提高语言建模性能。此外,它们可以缓解事实上不准确的文本生成问题,并提供自然的来源归因机制。现有的RALM方法侧重于修改LM体系结构,以促进外部信息的合并,从而使部署显著复杂化。本文考虑了一个简单的替代方案,我们称之为上下文RALM:保持LM架构不变,并为输入准备基础文档,而不需要对LM进行任何进一步的训练。我们发现,建立在现成的通用检索器上的上下文RALM在模型大小和不同的语料库中提供了惊人的大LM增益。我们还证明了文档检索和排序机制可以专门用于RALM设置,以进一步提高性能。我们得出的结论是,In-Context RALM在增加LM基准的流行率方面具有相当大的潜力,特别是在必须在不修改甚至通过API访问的情况下使用预训练的LM的情况下。

1 引言

2 相关工作

3 我们的框架

4 实验细节

5 具有现成检索器的上下文RALM的有效性

6 用面向LM的重新排序改进上下文RALM

7 用于开放域问答的上下文RALM

8 讨论

从外部来源检索已成为知识密集型任务中的一种常见做法(如事实问答、事实核查等)。与此同时,LM生成能力的最新突破使LM能够生成有用的长文本。然而,事实上的不准确仍然是机器生成的文本可能达不到要求的常见方式,而且缺乏直接出处使人们很难信任机器生成的文字。这使得语言建模成为知识基础的一个有前途和紧迫的新应用领域,并推动了RALM方法的推广。当然,先前的研究已经对RALM进行了研究,但尚未广泛部署。一个可能的原因是,现有的方法依赖于对LM的微调,这通常是困难和昂贵的,并且对于仅通过API访问的LM来说甚至是不可能的。
本文提出了InContext RALM的框架,使冻结的现成LMs能够从检索中受益。我们证明了使用通用检索器可以获得显著的性能增益,并表明通过根据LM设置调整文档选择可以获得额外的增益。Muhlgay等人最近的一项工作(2023)表明,上下文RALM确实能够提高大型LMs的真实性。
今后的工作还有几个需要进一步改进的方向。首先,本文只考虑将单个外部文件置于上下文中的情况;增加更多的文档可以推动进一步的收益(例如,使用Ratner等人的框架)。其次,我们每隔一个固定的 s s s个token间隔就检索文档,但通过更稀疏的检索,例如只有在专门的模型预测需要检索时,我们才看到了巨大的延迟和成本收益的潜力。
我们发布了这项工作中使用的代码,供社区使用和改进。我们希望它能推动对RALM的进一步研究,从而使其得到更广泛的采用。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

In-Context Retrieval-Augmented Language Models 的相关文章

随机推荐

  • 中国互联网技术联盟推出国内首个“互联网+”资讯门户

    ITA1024中国互联网技术联盟7月正式推出专注 互联网 的资讯门户网站http abc ita1024 com 这也是国内首个专注于帮助中国企业有效落地 互联网 的服务平台 如果你是负责企业 互联网 转型战略的CEO CIO CFO CM
  • C++ MFC 导出ListControl数据到Excel

    一 导入对应的类 二 开启线程 void CLDITxtQueryDlg OnBnClickedBnExportToXLS TODO 在此添加控件通知处理程序代码 if ui ListCtrlDataResult GetItemCount
  • 并发编程 (6)一不小心就死锁了,怎么办?

    在上一篇文章中 我们用 Account class 作为互斥锁 来解决银行业务里面的转账问题 虽然这个方案不存在并发问题 但是所有账户的转账操作都是串行的 例如账户 A 转账户 B 账户 C 转账户 D 这两个转账操作现实世界里是可以并行的
  • 机器学习之LDA算法

    目录 LDA算法 LDA目标 LDA原理推导 LDA除法模型 LDA减法模型 LDA除法正则模型 LDA减法正则模型 证明 St Sw Sb LDA算法流程 LDA优点 LDA缺点 基于LDA的人脸识别 LDA算法 线性判别分析 linea
  • 2022Java面试题大全(整理版)面试题附答案详解,最全面详细

    目录 JAVA八股文 Java基础 String 和StringBuffer和 StringBuilder的区别 sleep 区间wait 区间有什么区别 Object 中有哪些方法 其中clone 怎么实现一个对象的克隆 Java如何实现
  • 安装MySQL出现Job for mysqld.service failed because the control process exited with error code

    这是因为无法再次初始化 解决办法 rm rf var lib mysql 然后重启service
  • 解决使用EasyPoi导入读取日期格式列获取值为null

    最近在做导入的时候发现 使用EasyPoi读取的日期值为null 这是我的Excel数据 如图 只是设置了列格式 我这里使用的是注解bean的方式解析读取 Map自由导入也尝试过 得到的结果都是null bean定义如下 Data Buil
  • 导出离散傅里叶变换(DFT)的两种方法

    1 原理部分 在这里首先确定DFT的对象为一个有限长的离散非周期序列 这主要因为计算机处理的都是有限长的离散序列 如果你要处理的序列本身不是离散非周期的序列 可以通过截取或者离散化等方法获得所需的有限长的离散非周期序列 对于有限长的离散非周
  • 第三周作业 token防爆破 (基于pikachu平台)burp token的暴力破解

    一 什么是token 简单的说token是由服务端生成的一串字符串 作为客户端向服务端请求的一个标识 在前端使用用户名 密码向服务端发送请求认证 服务端认证成功 那么在服务端会返回token给前端 前端在每次请求时会带上服务端发来的toke
  • SQL实现次日、三日及七日用户留存率的计算

    本篇博客学习如何用SQL来实现次日 三日及七日留存率的计算 假设有一个表 role login back 有字段 event time表示登陆日期时间和device id表示设备ID event time device id 2020 01
  • 【Flowable】Flowable工作流教程

    开始 Flowable是什么 Flowable是一个使用Java编写的轻量级业务流程引擎 Flowable流程引擎可用于部署BPMN 2 0流程定义 用于定义流程的行业XML标准 创建这些流程定义的流程实例 进行查询 访问运行中或历史的流程
  • Fedora 34成哑巴了?

    原由 前几天刚更新了Fedora34 完全沉浸在Gnome40的喜悦中 但是今天用耳机听Apple Music的时候完全傻了 音量控制旋钮调了半天也没有声音 难道声卡坏了 于是 我试探性的用Parrot下的FireFox听听网易云音乐 结果
  • 基于Matlab的故障检测的核PCA轮廓图

    作者简介 热爱科研的Matlab仿真开发者 修心和技术同步精进 matlab项目合作可私信 个人主页 Matlab科研工作室 个人信条 格物致知 内容介绍 早期故障监测在大型工业工厂中变得非常重要 因为早期故障的早期检测有助于避免重大工厂故
  • Java 中do...while()的使用

    博主前些天发现了一个巨牛的人工智能学习网站 通俗易懂 风趣幽默 忍不住也分享一下给大家 点击跳转到网站 do while语句 基本格式 do 循环体语句 while 条件判断语句 完整格式 初始化语句 do 循环体语句 条件控制语句 whi
  • 3. 从0开始学ARM-ARM模式、寄存器、流水线

    关于ARM的一些基本概念 大家可以参考我之前的文章 到底什么是Cortex ARMv8 arm架构 ARM指令集 soc 一文帮你梳理基础概念 科普 关于ARM指令用到的IDE开发环境可以参考下面这篇文章 1 从0开始学ARM 安装Keil
  • Python爬虫被封ip解决方案

    在使用 Python 程序进行网络爬虫开发时 可能因以下原因导致被封 IP 或封禁爬虫程序 1 频繁访问网站 爬虫程序可能会在很短的时间内访问网站很多次 从而对目标网站造成较大的负担和压力 这种行为容易引起目标网站的注意并被封禁IP或限制访
  • python 文件、文件夹和路径操作笔记

    记录python关于文件夹 文件和路径的一些常用操作 方便用时查询 常用的函数备注 os listdir 列出文件夹中所有文件 os path splitext 获取文件的后缀名 返回list 后缀在list 1 中 os path joi
  • 解决win10应用程序图标丢失问题

    1 问题 sublime 软件图标莫名其妙不显示 2 解决办法 1 进入cmd命令提示符 2 输入如下内容 taskkill im explorer exe f cd d userprofile appdata local del icon
  • 数据库之MySQL大全

    目录 1 MySQL数据库概述 2 MySQL的安装 Install MySQL 3 MySQL的配置 4 E R模型 5 创建数据库 6 数据类型 7 创建数据表 8 修改数据表 9 数据表约束 非空与默认值 10 数据表约束 唯一键与自
  • In-Context Retrieval-Augmented Language Models

    本文是LLM系列文章 针对 In Context Retrieval Augmented Language Models 的翻译 上下文检索增强语言模型 摘要 1 引言 2 相关工作 3 我们的框架 4 实验细节 5 具有现成检索器的上下文