LONGQLORA: EFFICIENT AND EFFECTIVE METHOD TO EXTEND CONTEXT LENGTH OF LARGE LANGUAGE MODELS

2024-01-04

本文是LLM系列文章,针对《LONGQLORA: EFFICIENT AND EFFECTIVE METHOD TO EXTEND
CONTEXT LENGTH OF LARGE LANGUAGE MODELS》的翻译。

LONGQLORA:扩展大型语言模型上下文长度的高效方法

摘要

我们提出了LongQLoRA,这是一种用较少的训练资源扩展大型语言模型上下文长度的有效方法。LongQLoRA融合了LongLoRA的位置插值、QLoRA和移位短注意的优点。使用单个32GB V100 GPU,LongQLoRA可以在1000个微调步骤内将LLaMA2 7B和13B的上下文长度从4096扩展到8192,甚至扩展到12k。LongQLoRA在PG19和Proof pile数据集上实现了竞争性困惑性能,我们的模型优于LongLoRA,在8192的评估上下文长度内非常接近MPT-7B-8K。我们收集并构建了39k长的指令数据,将Vicuna-13B的上下文长度从4096扩展到8192,并在长上下文和短上下文生成任务中都获得了良好的性能。我们还做了一些消融实验来研究LoRA等级、微调步骤和注意力模式在推理中的影响。模型权重、训练数据和代码在 https://github.com/yangjianxin1/LongQLoRA 上可用.

1 引言

2 方法

3 实验

4 结论

总之,我们提出了LongQLoRA,这是一种有效的方法来扩展基于RoPE的大型语言模型的上下文长度。使用LongQLoRA,我们可以在具有32GB内存的单个V100 GPU上将LLaMA2 7B和13B的上下文长度扩展到8192或12k,并实现与完全微调相比具有竞争力的性能。由于移位短注意力和标准全局注意力之间的兼容性,使用LongQLoRA微调的模型可以很容易地与现有的推理框架兼容。由于训练资源的限制,我们还没有进一步探索更大的上下文长度,我们计划在未来进行调查。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

LONGQLORA: EFFICIENT AND EFFECTIVE METHOD TO EXTEND CONTEXT LENGTH OF LARGE LANGUAGE MODELS 的相关文章

随机推荐

  • 按照层次遍历结果打印完全二叉树

    按照层次遍历结果打印完全二叉树 按照推论结果 l 层首个节点位置 2 h l 1 l 层节点间距 2 h l 1 1 编码实现 public static
  • 八股文打卡day20——操作系统(3)

    面试题 线程同步的方式有哪些 我的回答 多线程同时访问和修改某个数据的话 会造成数据的不一致和冲突问题 所以就需要线程同步 线程同步的方式有 1 互斥锁 互斥锁就是 当一个资源被访问和操作时 会对这个资源加锁 把这个资源锁定 其他线程不能对
  • 题解 | #删除字符串中出现次数最少的字符# 利用map统计

    比预期的要低 HR打电话说是14级 不分ABC 说制造类供应链类工资和研发体系不一样 整体就要低一些 offer选择 大家帮忙看看 offer选择 大家帮忙看看 有奖活动 什么事是你实习了才知道的 春招会有好的国央企吗 招前端实习生 北京快
  • 题解 | #删除字符串中出现次数最少的字符# 利用map统计

    比预期的要低 HR打电话说是14级 不分ABC 说制造类供应链类工资和研发体系不一样 整体就要低一些 offer选择 大家帮忙看看 offer选择 大家帮忙看看 有奖活动 什么事是你实习了才知道的 春招会有好的国央企吗 招前端实习生 北京快
  • EasyRecovery2024永久免费版电脑数据恢复软件

    EasyRecovery是一款操作安全 价格便宜 用户自主操作的非破坏性的只读应用程序 它不会往源驱上写任何东西 也不会对源驱做任何改变 它支持从各种各样的存储介质恢复删除或者丢失的文件 其支持的媒体介质包括 硬盘驱动器 光驱 闪存 以及其
  • 智康护居家养老服务上门介绍

    近年来 我国老龄化进程不断加速 养老服务成为社会关注的热点之一 居家养老服务上门作为养老服务的一项重要服务方式 受到越来越多老人和家庭的青睐 居家养老服务上门分为生活照料 基础照护 健康管理 探访服务等几个方面 下面我们就来详细介绍它们 生
  • css学习之路:sass学习基础篇

    SCSS 一 动态的样式语言 让CSS有变量的概念 css有很多的缺点 语法不够强大 没有变量和合理的样式复用机制 导致难以维护 我们就可以使用动态样式语言 赋予CSS新的特性 常见的动态样式语言 scss sass scss兼容sass
  • 设计创新,流程优化:3D开发HOOPS在数字化工厂中的多面应用

    随着科技的不断发展 数字化转型已经成为各行各业的共同趋势 而工业领域也不例外 在这一浩大的变革浪潮中 Tech Soft 3D的 HOOPS 正以其卓越的性能和多功能性 成为数字化工厂领域的关键推动力 数字化工厂概述 数字化工厂是指通过将传
  • Ontrack EasyRecovery(易恢复中国)2024专业数据文件恢复软件

    Ontrack EasyRecovery 易恢复中国 是全球著名数据厂商Kroll Ontrack出品的一款专业数据文件恢复软件 EasyRecovery数据恢复软件支持恢复不同存储介质数据 硬盘 光盘 U盘 移动硬盘 数码相机 RAID磁
  • CSS学习之路: 基础学习篇

    css基础 一 css3 概述 1 1 什么是css Cascading style sheets 层叠样式表 级联样式表 简称样式表 1 2 css作用 对页面中html元素进行美化 1 3 HTML和css的关系 HTML 负责页面结构
  • LeetCode-数组-双指针-中等难度

    文章目录 双指针 1 删除有序数组中的重复项 入门 1 1 题目描述 1 2 解题思路 1 3 代码实现 2 删除有序数组中的重复项 II 简单
  • 时间序列平稳性相关检验方法

    理解平稳性 一般来说 平稳时间序列是指随着时间的推移具有相当稳定的统计特性的时间序列 特别是在均值和方差方面 平稳性可能是一个比较模糊的概念 将序列排除为不平稳可能比说序列是平稳的更容易 通常不平稳序列有几个特征 平均值随时间推移发生变化
  • 内网穿透常用方法系列总结

    前言 在内网渗透时 一个WebShell或CobaltStrike Metasploit上线等 只是开端 更多是要内网横向移动 扩大战果 打到核心区域 但后渗透的前提是需要搭建一条通向内网的 专属通道 才能进一步攻击 可实战中因为网络环境不
  • 智康护智慧养老院建设之养老院护工的排班系统

    智康护是一种针对养老院护工的排班系统 主要目的是优化养老院护工的排班管理 提高护工工作效率并降低工作负担 下面从排班调休 人员定位 排班班次和工单申请等几个方面来阐述智康护的功能 排班调休 智康护系统可以根据养老院的护工资源和护理需求 智能
  • iOS手机查看蓝牙底层日志

    文章目录 一 需要的环境 二 在iOS设备上安装Profiles文件 三 安装Xcode 四 安装packetLogger 五 启动蓝牙数据包分析 参考文档 A New Way to Debug iOS Bluetooth Applicat
  • 用友签约新奥集团,共建智慧资产管理平台

    近日 用友成功签约新奥集团数智资产项目 项目将以数据驱动 资产创值为牵引 将全集团所有板块的资产数据按照标既定模型全面可视化展示 通过数据分析 模型沉淀 智能识别低效闲置资产 预警 赋能资产处置 盘点等事项形成处理闭环 通过数智驱动处置等活
  • 振弦采集仪在地基沉降监测中的应用研究

    振弦采集仪在地基沉降监测中的应用研究 振弦采集仪是一种专门用于测量地基沉降的仪器 它采用振弦原理来测量地基的沉降情况 振弦采集仪通过在地基上安装一根细长的弹性振弦 并测量振弦的变形来获得地基沉降的数据 在地基沉降监测中 振弦采集仪可以提供精
  • promethues grafana 安装和使用

    文章目录 1 promethues安装 2 node exporter安装 3 grafana安装 4 配置promethues监控node节点 5 grafana操作 外传 Docker 镜像下载地址 https hub docker c
  • uniapp微信小程序投票系统实战 (SpringBoot2+vue3.2+element plus ) -小程序端TabBar搭建

    锋哥原创的uniapp微信小程序投票系统实战 uniapp微信小程序投票系统实战课程 SpringBoot2 vue3 2 element plus 火爆连载更新中 哔哩哔哩 bilibili uniapp微信小程序投票系统实战课程 Spr
  • LONGQLORA: EFFICIENT AND EFFECTIVE METHOD TO EXTEND CONTEXT LENGTH OF LARGE LANGUAGE MODELS

    本文是LLM系列文章 针对 LONGQLORA EFFICIENT AND EFFECTIVE METHOD TO EXTEND CONTEXT LENGTH OF LARGE LANGUAGE MODELS 的翻译 LONGQLORA 扩