LLM论文周报|来自清华、MetaAI、Nous Research等机构论文研究

2023-10-26

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

本周精选了10篇LLM领域的优秀论文,来自清华大学、MetaAI、Nous Research等机构。

为了方便大家阅读,只列出了论文标题、作者、ChatPaper综述等信息,如果感兴趣可点击链接查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

1. GPT Can Solve Mathematical Problems Without a Calculator

这篇论文的摘要表明,GPT 可以在没有计算器的情况下解决数学问题。以前的研究通常认为大型语言模型无法在没有使用计算器工具的情况下准确执行多位数乘法运算,特别是乘法 8 位以上的数字,以及涉及小数和分数的运算。然而,本文旨在挑战这一误解。在充足的训练数据下,一个 200 亿参数的语言模型可以准确地执行多位数算术运算,准确率接近 100%,而没有数据泄露,明显超过了 GPT-4(其多位数乘法准确率仅为 4.3%)。此外,文章还展示了他们的 MathGLM(从 GLM-10B 在包含额外多步算术运算和文本描述的数学问题的数据集上进行微调)在 5000 个样品的中文数学问题测试集上取得了与 GPT-4 相似的性能。

链接:https://www.aminer.cn/pub/64fa84403fda6d7f06700708

2. Large Language Models as Optimizers

这篇论文的摘要表明,GPT 可以在没有计算器的情况下解决数学问题。以前的研究通常认为大型语言模型无法在没有使用计算器工具的情况下准确执行多位数乘法运算,特别是乘法 8 位以上的数字,以及涉及小数和分数的运算。然而,本文旨在挑战这一误解。在充足的训练数据下,一个 200 亿参数的语言模型可以准确地执行多位数算术运算,准确率接近 100%,而没有数据泄露,明显超过了 GPT-4(其多位数乘法准确率仅为 4.3%)。此外,文章还展示了他们的 MathGLM(从 GLM-10B 在包含额外多步算术运算和文本描述的数学问题的数据集上进行微调)在 5000 个样品的中文数学问题测试集上取得了与 GPT-4 相似的性能。

链接:https://www.aminer.cn/pub/64fa84403fda6d7f067007b3

3. Relay Diffusion: Unifying diffusion process across resolutions for image synthesis

这篇论文探讨了一种利用大型语言模型(LLM)作为优化器的方法,称为优化器通过提示(OPRO)。在各种应用中,导数为基础的算法是强大的工具,但其缺乏梯度在许多实际应用中带来了挑战。在本文中,作者提出了一种简单而有效的方法,利用自然语言描述优化任务的提示,将大型语言模型(LLM)作为优化器。在每次优化步骤中,LLM 会根据包含先前生成解决方案及其值的提示生成新解决方案,然后对新解决方案进行评估,并将其添加到下一次优化步骤的提示中。作者首先在线性回归和旅行商问题(TSP)上展示了 OPRO,然后转向提示优化,目标是找到最大化任务准确性的指令。通过使用各种 LLM,作者证明了通过 OPRO 优化最佳提示在 GSM8K 上比人类设计的提示提高了最多 8%,在 Big-Bench Hard 任务上提高了最多 50%。

链接:https://www.aminer.cn/pub/64fa84403fda6d7f06700777

4. Physically Grounded Vision-Language Models for Robotic Manipulation

这篇论文研究了物理基础的视觉语言模型(VLM)在机器人操作任务中的应用。尽管最近的视觉语言模型在视觉问答和图片描述等任务上取得了显著进步,但它们在理解物理概念(如物体材质、易碎性等)方面存在局限性,这限制了它们在涉及物体交互和物理推理的机器人操作任务中的实用性。为解决这一问题,作者提出了 PhysObjects 数据集,包含 36,900 个众包和 417,000 个自动生成的常见家庭物体物理概念注释。作者通过捕捉物体视觉外观中的人类先验知识,展示了在 PhysObjects 上对 VLM 进行微调可以提高其对物理对象概念的理解。他们将这种基于物理基础的 VLM 融入了一个与大型语言模型相结合的交互式框架,并在需要推理物理对象概念的任务中,与不利用基于物理基础的 VLM 的基线相比,展示了规划性能的提高。此外,他们还在真实的机器人上展示了这种基于物理基础的 VLM 的优势,显著提高了任务成功率。作者在
https://iliad.stanford.edu/pg-vlm/上发布了他们的数据集,并提供了有关结果的更多详细信息和可视化。

链接:https://www.aminer.cn/pub/64f933e53fda6d7f067a11b7

5. SLiMe: Segment Like Me

这篇论文介绍了一种名为 SLiMe(Segment Like Me)的新方法,用于在图像分割任务中使用大型视觉语言模型(如 Stable Diffusion)。SLiMe 通过将问题转化为优化任务来实现在任意所需粒度上分割图像,仅使用一个标注样本。具体而言,给定一个训练图像及其分割掩码,SLiMe 首先提取注意力图,包括我们新颖的“加权累积自注意力图”来自 SD 先验。然后,利用提取到的注意力图,优化 Stable Diffusion 的文本嵌入,使每个嵌入学习训练图像中的单个分割区域。这些学到的嵌入随后在注意力图中突出显示分割区域,进而可以用来提取分割图。这使得 SLiMe 在推理过程中能够使用训练图像中分割区域的粒度,仅用一个示例对任何实际图像进行分割。此外,当有额外的训练数据可用时(例如,少量样本),可以提高 SLiMe 的性能。通过进行一系列丰富的实验来研究各种设计因素,作者展示了 SLiMe 优于其他现有的单样本和少量样本分割方法。

链接:https://www.aminer.cn/pub/64f933e53fda6d7f067a142a

6. RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

这篇论文介绍了一种名为 SLiMe(Segment Like Me)的新方法,用于在图像分割任务中使用大型视觉语言模型(如 Stable Diffusion)。SLiMe 通过将问题转化为优化任务来实现在任意所需粒度上分割图像,仅使用一个标注样本。具体而言,给定一个训练图像及其分割掩码,SLiMe 首先提取注意力图,包括我们新颖的“加权累积自注意力图”来自 SD 先验。然后,利用提取到的注意力图,优化 Stable Diffusion 的文本嵌入,使每个嵌入学习训练图像中的单个分割区域。这些学到的嵌入随后在注意力图中突出显示分割区域,进而可以用来提取分割图。这使得 SLiMe 在推理过程中能够使用训练图像中分割区域的粒度,仅用一个示例对任何实际图像进行分割。此外,当有额外的训练数据可用时(例如,少量样本),可以提高 SLiMe 的性能。通过进行一系列丰富的实验来研究各种设计因素,作者展示了 SLiMe 优于其他现有的单样本和少量样本分割方法。

链接:https://www.aminer.cn/pub/64f59fc23fda6d7f0648f1fb

7. FLM-101B: An Open LLM and How to Train It with $100K Budget

这篇论文介绍了 FLM-101B 的开放性大型语言模型 (LLM) 及其如何使用 10 万美元的预算进行训练。尽管大型语言模型 (LLM) 在 NLP 和多模态任务中取得了显著的成功,但它们的开发面临着两个主要挑战:高昂的计算成本和难以进行公平客观的评估。LLM 的开发成本过高,使得只有少数大玩家才能承担其训练,从而限制了研究和应用机会。因此,低成本的 LLM 训练非常重要。在本文中,作者利用生长策略显著降低了 LLM 训练成本,并证明了一个具有 101B 参数和 0.31TB 标记符的 LLM 可以在 10 万美元的预算下进行训练。此外,作者还采用了一种系统的评估范式来评估 LLM 的 IQ,以补充现有评估更多地关注知识导向的能力。作者引入了包括符号映射、IT 规则理解、模式挖掘和抗干扰在内的智力的关键方面评估,以最小化记忆的影响。实验结果表明,作者的模型 FLM-101B(使用 10 万美元的预算进行训练)在 IQ 基准评估方面,尤其是在训练数据中未见过的上下文中,与强大且著名的模型(例如 GPT-3 和 GLM-130B)表现相当。FLM-101B 的检查点将在
https://huggingface.co/CofeAI/FLM-101B 上开源。

链接:https://www.aminer.cn/pub/64fa84403fda6d7f06700975

8. YaRN: Efficient Context Window Extension of Large Language Models

这篇论文介绍了 FLM-101B 的开放性大型语言模型 (LLM) 及其如何使用 10 万美元的预算进行训练。尽管大型语言模型 (LLM) 在 NLP 和多模态任务中取得了显著的成功,但它们的开发面临着两个主要挑战:高昂的计算成本和难以进行公平客观的评估。LLM 的开发成本过高,使得只有少数大玩家才能承担其训练,从而限制了研究和应用机会。因此,低成本的 LLM 训练非常重要。在本文中,作者利用生长策略显著降低了 LLM 训练成本,并证明了一个具有 101B 参数和 0.31TB 标记符的 LLM 可以在 10 万美元的预算下进行训练。此外,作者还采用了一种系统的评估范式来评估 LLM 的 IQ,以补充现有评估更多地关注知识导向的能力。作者引入了包括符号映射、IT 规则理解、模式挖掘和抗干扰在内的智力的关键方面评估,以最小化记忆的影响。实验结果表明,作者的模型 FLM-101B(使用 10 万美元的预算进行训练)在 IQ 基准评估方面,尤其是在训练数据中未见过的上下文中,与强大且著名的模型(例如 GPT-3 和 GLM-130B)表现相当。FLM-101B 的检查点将在
https://huggingface.co/CofeAI/FLM-101B 上开源。

链接:https://www.aminer.cn/pub/64f59fc23fda6d7f0648f11d

9. Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning

这篇论文介绍了一种名为 CM3Leon 的多模态语言模型,具有生成和填充文本和图像的能力。CM3Leon 使用了 CM3 多模态架构,但进一步显示了在更多样化的指令式数据上进行扩展和调整的极端好处。这是第一个使用从纯文本语言模型改编的食谱进行训练的多模态模型,包括大规模检索增强预训练阶段和第二个多任务监督微调 (SFT) 阶段。它还是一个通用的模型,可以同时进行文本到图像和图像到文本的生成,让我们可以引入自包含的对比解码方法,产生高质量的输出。大量实验证明,这种食谱对于多模态模型非常有效。CM3Leon 在文本到图像生成方面实现了最先进的性能,训练计算量只有可比方法的 1/5(零射线 MS-COCO FID 为 4.88)。在 SFT 后,CM3Leon 也可以在各种任务中表现出前所未有的可控性,从语言指导图像编辑到图像控制的生成和分割。

链接:https://www.aminer.cn/pub/64f933e53fda6d7f067a11d5

10. XGen-7B Technical Report

这篇论文介绍了 XGen-7B 模型,它是一系列具有 70 亿参数的模型,能够处理长达 8K 的序列长度,并在多达 1.5 万亿个标记的数据上进行训练。为了更好地支持长序列长度,作者还将模型在公共领域的教学数据上进行了微调,生成了指令调整后的 XGen-Inst 模型。这些模型既可以用于研究进展,也可以用于商业应用。作者在标准基准测试上的评估结果显示,XGen 模型在与最先进的开源 LLM 进行比较时,取得了可比较或更好的结果。作者还针对长序列建模任务进行了针对性评估,表明其 8K 序列模型优于开源的 2K 序列 LLM。

链接:https://www.aminer.cn/pub/64fa84403fda6d7f067007dd


如何使用ChatPaper?

使用ChatPaper的方法很简单,打开AMiner首页,从页面顶部导航栏或者右下角便可进入ChatPaper页面。

ChatPaper使用教程:点此查看

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

LLM论文周报|来自清华、MetaAI、Nous Research等机构论文研究 的相关文章

随机推荐

  • SpringMVC的全注解开发

    文章目录 一 spring mvc xml 中组件转化为注解形式 二 DispatcherServlet加载核心配置类 三 消除web xml 一 spring mvc xml 中组件转化为注解形式 跟之前全注解开发思路一致 xml配置文件
  • 2.c语言中将两个整数相加

    上一个文章 我讲述了如何输出文字 接下来我就来讲讲有一丢丢难度的算法了 这个算法就是学习如何将两个整数相加 这是学习如何编写一个计算机软件的第一步 现在我就为你们来一一讲解 代码如下 include
  • StringBuffer integer

    StringBuffer 一 1 StringBuffer是一个容器 而容器的特点是可以修改 基本操作是增添删改 这也是它与StringBuffer的主要区别 2 线程安全 可变的字符序列 是一个字符缓冲区 也是final型 不能被继承 3
  • java基础-垃圾收集器及其回收算法的介绍

    文章目录 前言 一 垃圾收集器管理的区域 二 垃圾收集器的回收步骤 1 阶段一 判断对象是否存活 2 阶段二 筛选 三 垃圾收集算法 1 分代收集理论 理论基础 2 标记 清除算法 3 标记 复制算法 4 标记 整理算法 四 补充 前言 最
  • v8所有例子在里面

    https github com nodejs nan blob master doc methods md
  • 线程间怎么交换数据_在LLVM后端实现跨通道数据搬移

    作者 汪岩 AMD GPU的每个CU有一个64kB的存储空间 称为本地数据共享 Local Data Share LDS 用于同一计算单元中的work group内各个work item之间的低延迟通信和数据共享 LDS配置为32个bank
  • 为了通过面试,要刷多少道leetcode题?一文解答你的疑惑。

    想要学习算法 应付笔试或者应付面试手撕算法题 相信大部分人都会去刷 Leetcode 有读者问 如果我在 leetcode 坚持刷它个 500 道题 以后笔试 面试稳吗 这里我说下我的个人看法 我认为不稳 下面说说为啥不稳以及算法题应该如何
  • Acwing 908. 最大不相交区间数量

    include
  • VTM中YUV-PSNR的计算

    名词解释 参见文章cnblogs 什么是SAD SAE SATD SSD SSE MAD MAE MSD MSE PSNR的计算 较为标准的MSE计算公式和PSNR计算公式如下 引用链接 CSDN 图像的峰值信噪比 PSNR 的计算方法 这
  • linux用户态使用gpio中断方法

    一 用户空间gpio的调用文件 用户空间访问gpio 即通过sysfs接口访问gpio 下面是 sys class gpio目录下的三种文件 export unexport文件 gpioN指代具体的gpio引脚 gpio chipN指代gp
  • 数字化转型的成熟度模型

    来啦 坐 我是冠军 数据赋能 IT团队技术管理实战 作者 四季逗文风创始人 这是 数字化转型系列 第五篇 数字化转型的成熟度模型 一句话解释下 要想搞清楚企业数字化转型的目标 就需要确定企业现在处于什么数字化阶段 只有如此 才可以根据现状目
  • Golang

    欢迎关注 全栈工程师修炼指南 公众号 点击 下方卡片 即可关注我哟 设为 星标 每天带你 基础入门 到 进阶实践 再到 放弃学习 专注 企业运维实践 网络安全 系统运维 应用开发 物联网实战 全栈文章 等知识分享 花开堪折直须折 莫待无花空
  • 2023校招联想汽车C++开发一面

    飞书面试 C 开发 全程无手撕代码 开放性面试 1 翻译英文 给几段英文句子 是和专业相关的 要求英译汉 2 给好几组计算机专业名词 从中选择最熟悉的 进行解释 比如https dns smtp等等 3 一个电路 求其中一个电阻电压 4 代
  • NB!更方便Xshell本地密码破解工具

    工具介绍 XshellCrack是基于SharpXDecrypt的二次开发 用go语言重写 增加了注册表查询设置 更方便xshell本地密码破解 关注 Hack分享吧 公众号 回复关键字 230717 获取下载链接 工具使用 Usage r
  • JavaScript--修改 HTML 元素

    这些是一些用于修改 HTML 元素的常见方法 1 document createElement element 创建 HTML 元素节点 可以使用这个方法创建一个新的 HTML 元素 例如 document createElement di
  • Docker进阶学习:Compose配置编写规则

    docker compose yaml 是Compose的核心 以下是compose的官方文档地址 https docs docker com compose compose file compose file structure and
  • rabbitmq集群故障处理

    rabbitmq集群故障处理 故障现象 rabbitmq启动失败 手动kill掉rabbit的后台进程 杀完后进程又会自动起来 故障处理 1 手动更改rabbitmq故障节点的erl crash dump为erl crash dump ba
  • JavaScript 的面向对象基础,设计模式中的原型模式(设计模式与开发实践 P2)

    文章目录 1 1 动态类型语言和鸭子类型 1 2 多态 1 3 封装 封装数据 封装实现 封装类型 1 4 原型模式和基于原型继承的 JavaScript 对象系统 C 原型模式 JS 原型模式 在学习 JS 设计模式之前需要了解一些设计模
  • 嵌入式开发课程简介

    最近几年 几乎所有的IT企业对应届毕业生都有抱怨 动手能力太差 编程水平低下 大学期间 老师授课以理论为主 学生缺少各种实践 这造成很多学生就业难 学生找不到工作 而企业招不到合适的人 本课程不仅系统的梳理了一遍工作中常用的知识 更是通过大
  • LLM论文周报|来自清华、MetaAI、Nous Research等机构论文研究

    大模型 LLM 是一种人工智能模型 旨在理解和生成人类语言 它们在大量的文本数据上进行训练 可以执行广泛的任务 包括文本总结 翻译 情感分析等等 LLM的特点是规模庞大 包含数十亿的参数 帮助它们学习语言数据中的复杂模式 这些模型通常基于深