LLM论文周报｜来自清华、MetaAI、Nous Research等机构论文研究

2023-10-26

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底，OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT，由于其优秀的表现，ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题，吸引了广大科研人员和开发者的关注和参与。

本周精选了10篇LLM领域的优秀论文，来自清华大学、MetaAI、Nous Research等机构。

为了方便大家阅读，只列出了论文标题、作者、ChatPaper综述等信息，如果感兴趣可点击链接查看原文，PC端数据同步（收藏即可在PC端查看），每日新论文也可登录小程序查看。

1. GPT Can Solve Mathematical Problems Without a Calculator

这篇论文的摘要表明，GPT 可以在没有计算器的情况下解决数学问题。以前的研究通常认为大型语言模型无法在没有使用计算器工具的情况下准确执行多位数乘法运算，特别是乘法 8 位以上的数字，以及涉及小数和分数的运算。然而，本文旨在挑战这一误解。在充足的训练数据下，一个 200 亿参数的语言模型可以准确地执行多位数算术运算，准确率接近 100%，而没有数据泄露，明显超过了 GPT-4（其多位数乘法准确率仅为 4.3%）。此外，文章还展示了他们的 MathGLM（从 GLM-10B 在包含额外多步算术运算和文本描述的数学问题的数据集上进行微调）在 5000 个样品的中文数学问题测试集上取得了与 GPT-4 相似的性能。

链接：https://www.aminer.cn/pub/64fa84403fda6d7f06700708

2. Large Language Models as Optimizers

链接：https://www.aminer.cn/pub/64fa84403fda6d7f067007b3

3. Relay Diffusion: Unifying diffusion process across resolutions for image synthesis

这篇论文探讨了一种利用大型语言模型（LLM）作为优化器的方法，称为优化器通过提示（OPRO）。在各种应用中，导数为基础的算法是强大的工具，但其缺乏梯度在许多实际应用中带来了挑战。在本文中，作者提出了一种简单而有效的方法，利用自然语言描述优化任务的提示，将大型语言模型（LLM）作为优化器。在每次优化步骤中，LLM 会根据包含先前生成解决方案及其值的提示生成新解决方案，然后对新解决方案进行评估，并将其添加到下一次优化步骤的提示中。作者首先在线性回归和旅行商问题（TSP）上展示了 OPRO，然后转向提示优化，目标是找到最大化任务准确性的指令。通过使用各种 LLM，作者证明了通过 OPRO 优化最佳提示在 GSM8K 上比人类设计的提示提高了最多 8％，在 Big-Bench Hard 任务上提高了最多 50％。

链接：https://www.aminer.cn/pub/64fa84403fda6d7f06700777

4. Physically Grounded Vision-Language Models for Robotic Manipulation

这篇论文研究了物理基础的视觉语言模型（VLM）在机器人操作任务中的应用。尽管最近的视觉语言模型在视觉问答和图片描述等任务上取得了显著进步，但它们在理解物理概念（如物体材质、易碎性等）方面存在局限性，这限制了它们在涉及物体交互和物理推理的机器人操作任务中的实用性。为解决这一问题，作者提出了 PhysObjects 数据集，包含 36,900 个众包和 417,000 个自动生成的常见家庭物体物理概念注释。作者通过捕捉物体视觉外观中的人类先验知识，展示了在 PhysObjects 上对 VLM 进行微调可以提高其对物理对象概念的理解。他们将这种基于物理基础的 VLM 融入了一个与大型语言模型相结合的交互式框架，并在需要推理物理对象概念的任务中，与不利用基于物理基础的 VLM 的基线相比，展示了规划性能的提高。此外，他们还在真实的机器人上展示了这种基于物理基础的 VLM 的优势，显著提高了任务成功率。作者在
https://iliad.stanford.edu/pg-vlm/上发布了他们的数据集，并提供了有关结果的更多详细信息和可视化。

链接：https://www.aminer.cn/pub/64f933e53fda6d7f067a11b7

5. SLiMe: Segment Like Me

这篇论文介绍了一种名为 SLiMe（Segment Like Me）的新方法，用于在图像分割任务中使用大型视觉语言模型（如 Stable Diffusion）。SLiMe 通过将问题转化为优化任务来实现在任意所需粒度上分割图像，仅使用一个标注样本。具体而言，给定一个训练图像及其分割掩码，SLiMe 首先提取注意力图，包括我们新颖的“加权累积自注意力图”来自 SD 先验。然后，利用提取到的注意力图，优化 Stable Diffusion 的文本嵌入，使每个嵌入学习训练图像中的单个分割区域。这些学到的嵌入随后在注意力图中突出显示分割区域，进而可以用来提取分割图。这使得 SLiMe 在推理过程中能够使用训练图像中分割区域的粒度，仅用一个示例对任何实际图像进行分割。此外，当有额外的训练数据可用时（例如，少量样本），可以提高 SLiMe 的性能。通过进行一系列丰富的实验来研究各种设计因素，作者展示了 SLiMe 优于其他现有的单样本和少量样本分割方法。

链接：https://www.aminer.cn/pub/64f933e53fda6d7f067a142a

6. RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

链接：https://www.aminer.cn/pub/64f59fc23fda6d7f0648f1fb

7. FLM-101B: An Open LLM and How to Train It with $100K Budget

这篇论文介绍了 FLM-101B 的开放性大型语言模型 (LLM) 及其如何使用 10 万美元的预算进行训练。尽管大型语言模型 (LLM) 在 NLP 和多模态任务中取得了显著的成功，但它们的开发面临着两个主要挑战：高昂的计算成本和难以进行公平客观的评估。LLM 的开发成本过高，使得只有少数大玩家才能承担其训练，从而限制了研究和应用机会。因此，低成本的 LLM 训练非常重要。在本文中，作者利用生长策略显著降低了 LLM 训练成本，并证明了一个具有 101B 参数和 0.31TB 标记符的 LLM 可以在 10 万美元的预算下进行训练。此外，作者还采用了一种系统的评估范式来评估 LLM 的 IQ，以补充现有评估更多地关注知识导向的能力。作者引入了包括符号映射、IT 规则理解、模式挖掘和抗干扰在内的智力的关键方面评估，以最小化记忆的影响。实验结果表明，作者的模型 FLM-101B（使用 10 万美元的预算进行训练）在 IQ 基准评估方面，尤其是在训练数据中未见过的上下文中，与强大且著名的模型（例如 GPT-3 和 GLM-130B）表现相当。FLM-101B 的检查点将在
https://huggingface.co/CofeAI/FLM-101B 上开源。

链接：https://www.aminer.cn/pub/64fa84403fda6d7f06700975

8. YaRN: Efficient Context Window Extension of Large Language Models

链接：https://www.aminer.cn/pub/64f59fc23fda6d7f0648f11d

9. Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning

这篇论文介绍了一种名为 CM3Leon 的多模态语言模型，具有生成和填充文本和图像的能力。CM3Leon 使用了 CM3 多模态架构，但进一步显示了在更多样化的指令式数据上进行扩展和调整的极端好处。这是第一个使用从纯文本语言模型改编的食谱进行训练的多模态模型，包括大规模检索增强预训练阶段和第二个多任务监督微调 (SFT) 阶段。它还是一个通用的模型，可以同时进行文本到图像和图像到文本的生成，让我们可以引入自包含的对比解码方法，产生高质量的输出。大量实验证明，这种食谱对于多模态模型非常有效。CM3Leon 在文本到图像生成方面实现了最先进的性能，训练计算量只有可比方法的 1/5(零射线 MS-COCO FID 为 4.88)。在 SFT 后，CM3Leon 也可以在各种任务中表现出前所未有的可控性，从语言指导图像编辑到图像控制的生成和分割。

链接：https://www.aminer.cn/pub/64f933e53fda6d7f067a11d5

10. XGen-7B Technical Report

这篇论文介绍了 XGen-7B 模型，它是一系列具有 70 亿参数的模型，能够处理长达 8K 的序列长度，并在多达 1.5 万亿个标记的数据上进行训练。为了更好地支持长序列长度，作者还将模型在公共领域的教学数据上进行了微调，生成了指令调整后的 XGen-Inst 模型。这些模型既可以用于研究进展，也可以用于商业应用。作者在标准基准测试上的评估结果显示，XGen 模型在与最先进的开源 LLM 进行比较时，取得了可比较或更好的结果。作者还针对长序列建模任务进行了针对性评估，表明其 8K 序列模型优于开源的 2K 序列 LLM。

链接：https://www.aminer.cn/pub/64fa84403fda6d7f067007dd

如何使用ChatPaper？

使用ChatPaper的方法很简单，打开AMiner首页，从页面顶部导航栏或者右下角便可进入ChatPaper页面。

ChatPaper使用教程：点此查看

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

LLM论文周报｜来自清华、MetaAI、Nous Research等机构论文研究的相关文章

【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
【信道估计】【MIMO】【FBMC】未来移动通信的滤波器组多载波调制方案（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【路径规划】基于A*算法路径规划研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
面对AI革新时，Soul App等社交应用的“出圈”解法是什么？

2023年初 ChatGPT掀开海内外互联网 AI革新的序幕公众在惊讶于ChatGPT对于海量信息富有逻辑的整合归纳帮助大家提升工作及学习效率之余更为期待的莫过于有一天人工智能的意识觉醒十余年前由斯派克琼斯 Spike Jon
活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
台积电再被坑，2纳米光刻机优先给Intel和三星，美国太霸道了

外媒指出今年ASML的10台2纳米光刻机分配已经基本确定了 Intel拿到6台三星获得3台台积电只能得到一台考虑到美国对ASML的强大影响力外媒的这些消息应该有较高的可信性 Intel在先进工艺制程方面自从2014年量产14纳米之
如何快速申请GPT账号？

详情点击链接如何快速申请GPT账号一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
做大模型也有1年多了，聊聊这段时间的感悟！

自ChatGPT问世以来做大模型也有1年多了今天给大家分享这一年后的感悟过去一年应该是AI圈最万千瞩目的一年了大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注以至于有一年的时间好像经
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！

AI 大模型技术经过2023年的狂飙 2024年必将迎来应用的落地对 IT 同学来讲这里蕴含着大量的技术机会越来越多的企业开始招聘 AI 大模型岗位本文梳理了 AI 大模型开发技术的面试之道从 AI 大模型基础面 AI 大模型进阶
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类
CorelDRAW2024官方中文版重磅发布更新

35年专注于矢量设计始于1988年并不断推陈出新致力为全球设计工作者提供更高效的设计工具 CorelDRAW 滋养并见证了一代设计师的成长在最短的时间内交付作品 CorelDRAW的智能高效会让你一见钟情 CorelDRAW 全称 Co
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
深度学习(5)--Keras实战

一 Keras基础概念 Keras是深度学习中的一个神经网络框架是一个高级神经网络API 用Python编写可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计用户友好性模块化和可扩
自动驾驶离不开的仿真！Carla-Autoware联合仿真全栈教程

随着自动驾驶技术的不断发展研发技术人员开始面对一系列复杂挑战特别是在确保系统安全性处理复杂交通场景以及优化算法性能等方面这些挑战中尤其突出的是所谓的长尾问题即那些在实际道路测试中难以遇到的罕见或异常驾驶情况这些问题暴露了实车
Making Large Language Models Perform Better in Knowledge Graph Completion论文阅读

文章目录摘要 1 问题的提出引出当前研究的不足与问题 KGC方法 LLM幻觉现象解决方案 2 数据集和模型构建

随机推荐

SpringMVC的全注解开发

文章目录一 spring mvc xml 中组件转化为注解形式二 DispatcherServlet加载核心配置类三消除web xml 一 spring mvc xml 中组件转化为注解形式跟之前全注解开发思路一致 xml配置文件
2.c语言中将两个整数相加

上一个文章我讲述了如何输出文字接下来我就来讲讲有一丢丢难度的算法了这个算法就是学习如何将两个整数相加这是学习如何编写一个计算机软件的第一步现在我就为你们来一一讲解代码如下 include
StringBuffer integer

StringBuffer 一 1 StringBuffer是一个容器而容器的特点是可以修改基本操作是增添删改这也是它与StringBuffer的主要区别 2 线程安全可变的字符序列是一个字符缓冲区也是final型不能被继承 3
java基础-垃圾收集器及其回收算法的介绍

文章目录前言一垃圾收集器管理的区域二垃圾收集器的回收步骤 1 阶段一判断对象是否存活 2 阶段二筛选三垃圾收集算法 1 分代收集理论理论基础 2 标记清除算法 3 标记复制算法 4 标记整理算法四补充前言最
v8所有例子在里面

https github com nodejs nan blob master doc methods md
线程间怎么交换数据_在LLVM后端实现跨通道数据搬移

作者汪岩 AMD GPU的每个CU有一个64kB的存储空间称为本地数据共享 Local Data Share LDS 用于同一计算单元中的work group内各个work item之间的低延迟通信和数据共享 LDS配置为32个bank
为了通过面试，要刷多少道leetcode题？一文解答你的疑惑。

想要学习算法应付笔试或者应付面试手撕算法题相信大部分人都会去刷 Leetcode 有读者问如果我在 leetcode 坚持刷它个 500 道题以后笔试面试稳吗这里我说下我的个人看法我认为不稳下面说说为啥不稳以及算法题应该如何
Acwing 908. 最大不相交区间数量

include
VTM中YUV-PSNR的计算

名词解释参见文章cnblogs 什么是SAD SAE SATD SSD SSE MAD MAE MSD MSE PSNR的计算较为标准的MSE计算公式和PSNR计算公式如下引用链接 CSDN 图像的峰值信噪比 PSNR 的计算方法这
linux用户态使用gpio中断方法

一用户空间gpio的调用文件用户空间访问gpio 即通过sysfs接口访问gpio 下面是 sys class gpio目录下的三种文件 export unexport文件 gpioN指代具体的gpio引脚 gpio chipN指代gp
数字化转型的成熟度模型

来啦坐我是冠军数据赋能 IT团队技术管理实战作者四季逗文风创始人这是数字化转型系列第五篇数字化转型的成熟度模型一句话解释下要想搞清楚企业数字化转型的目标就需要确定企业现在处于什么数字化阶段只有如此才可以根据现状目
Golang

欢迎关注全栈工程师修炼指南公众号点击下方卡片即可关注我哟设为星标每天带你基础入门到进阶实践再到放弃学习专注企业运维实践网络安全系统运维应用开发物联网实战全栈文章等知识分享花开堪折直须折莫待无花空
2023校招联想汽车C++开发一面

飞书面试 C 开发全程无手撕代码开放性面试 1 翻译英文给几段英文句子是和专业相关的要求英译汉 2 给好几组计算机专业名词从中选择最熟悉的进行解释比如https dns smtp等等 3 一个电路求其中一个电阻电压 4 代
NB！更方便Xshell本地密码破解工具

工具介绍 XshellCrack是基于SharpXDecrypt的二次开发用go语言重写增加了注册表查询设置更方便xshell本地密码破解关注 Hack分享吧公众号回复关键字 230717 获取下载链接工具使用 Usage r
JavaScript--修改 HTML 元素

这些是一些用于修改 HTML 元素的常见方法 1 document createElement element 创建 HTML 元素节点可以使用这个方法创建一个新的 HTML 元素例如 document createElement di
Docker进阶学习：Compose配置编写规则

docker compose yaml 是Compose的核心以下是compose的官方文档地址 https docs docker com compose compose file compose file structure and
rabbitmq集群故障处理

rabbitmq集群故障处理故障现象 rabbitmq启动失败手动kill掉rabbit的后台进程杀完后进程又会自动起来故障处理 1 手动更改rabbitmq故障节点的erl crash dump为erl crash dump ba
JavaScript 的面向对象基础，设计模式中的原型模式（设计模式与开发实践 P2）

文章目录 1 1 动态类型语言和鸭子类型 1 2 多态 1 3 封装封装数据封装实现封装类型 1 4 原型模式和基于原型继承的 JavaScript 对象系统 C 原型模式 JS 原型模式在学习 JS 设计模式之前需要了解一些设计模
嵌入式开发课程简介

最近几年几乎所有的IT企业对应届毕业生都有抱怨动手能力太差编程水平低下大学期间老师授课以理论为主学生缺少各种实践这造成很多学生就业难学生找不到工作而企业招不到合适的人本课程不仅系统的梳理了一遍工作中常用的知识更是通过大
LLM论文周报｜来自清华、MetaAI、Nous Research等机构论文研究

大模型 LLM 是一种人工智能模型旨在理解和生成人类语言它们在大量的文本数据上进行训练可以执行广泛的任务包括文本总结翻译情感分析等等 LLM的特点是规模庞大包含数十亿的参数帮助它们学习语言数据中的复杂模式这些模型通常基于深

LLM论文周报｜来自清华、MetaAI、Nous Research等机构论文研究

如何使用ChatPaper？

LLM论文周报｜来自清华、MetaAI、Nous Research等机构论文研究 的相关文章

随机推荐

热门标签

LLM论文周报｜来自清华、MetaAI、Nous Research等机构论文研究的相关文章