中文羊驼大模型Alpaca-Plus-13B、Alpaca-33B效果大比拼

2023-10-27

写在前面

之前更新过两期关于中文羊驼模型的效果体验:

【类ChatGPT】本地CPU部署中文羊驼大模型LLaMA和Alpaca_nlpstarter的博客-CSDN博客

【类ChatGPT】中文羊驼大模型Alpaca-13B体验_nlpstarter的博客-CSDN博客

实际这段期间,这个项目还有持续不断更新,今天正好有时间可以和大家分享一下体验效果。

项目地址:https://github.com/ymcui/Chinese-LLaMA-Alpaca

比拼模型

之前这个项目最好的模型是Alpaca-Plus-13B,使用了120G语料做了预训练,指令精调阶段用了大概400万的数据。这个项目还最新推出了33B版本的模型(但不是plus版),基本已经快达到我的电脑能承受的最大限制了。

今天就以这两个模型为例做一些PK,正好也能看看是训练数据量更多效果更好,还是模型规模更大会更好。

  • Alpaca-Plus-13B:120G预训练,400万指令精调
  • Alpaca-33B:20G预训练,400万指令精调

评测中,13B版本使用的是Q8量化版,33B用的是Q4量化版,虽然对33B不太公平但我的机器也只能跑这个量化级别了,再高就不出字了。运行还是用的是llama.cpp这个工具。

测试开始!

还是问一下关于温室效应的问题

Plus-13B:

33B:

小结:Plus-13B 相比我之前测试的7B和13B都有显著的提升,内容更加丰富了,回复长度也有所增长。33B的回答比较简练,内容长度上不占优,看来还是需要用更多数据训练才行,希望后续也能有plus版。

数学问题:骑7个猴

Plus-13B:

33B:

小结:33B的完胜Plus-13B,可能模型量级对于这种数值计算和推理类的有较大优势吧。Plus-13B的虽然也能答对部分内容,但对问题的理解还不算透彻。

如何制作宫保鸡丁?

Plus-13B:

 33B:

小结:两个都比之前的7b/13b效果好,至少不会出现猪肉了。Plus-13b多了个青椒,但我印象中宫保鸡丁好像没有这个材料?33B的回复也差不多,口味方面少了甜味?

写一封信

Plus-13B:

33B:

 小结:Plus-13B占优一些,内容详实。可能33B吃了训练数据少的亏,写的内容不是特别生动。

代码方面

Plus-13B:

 33B:

 小结:33B显著胜出,以下是GPT-4作为裁判的点评结果,可以看到33B有一些小瑕疵,但整体上没有大问题。

角色扮演

Plus-13B:

 33B:

小结:两个回答都比较好,可能Plus-13B的更好一点,因为回复长度会更长一些,不过事实性方面其实没有太大的差别。

总结

Plus-13B相比之前的7B/13B已经有显著性能提升了,尤其是在生成类的任务上内容更加详实。33B的优缺点比较明显,优点是代码能力和数值计算方面确实比之前高出一截,但是在文本生成类的任务上效果略低于plus-13B。不过33B是基础版,这么比可能有点不讲武德,哈哈。这样其实就比较期待后续plus-33b的效果了,生成类任务的效果应该会有一个提升。

整体而言,两者优缺点都比较明显,主要看使用场景和资源限制了。33B的4比特量化模型也得将近20G,可能一般机器也带不起来,量力而行吧。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

中文羊驼大模型Alpaca-Plus-13B、Alpaca-33B效果大比拼 的相关文章

  • NLTK 中的 FreqDist 未对输出进行排序

    我是 Python 新手 我正在尝试自学语言处理 python 中的 NLTK 有一个名为 FreqDist 的函数 可以给出文本中单词的频率 但由于某种原因它无法正常工作 这是教程让我写的 fdist1 FreqDist text1 vo
  • doc2vec 获得良好性能所需的最小数据集大小是多少?

    在不同大小的数据集上进行训练时 doc2vec 的表现如何 原始语料库中没有提到数据集大小 所以我想知道从 doc2vec 中获得良好性能所需的最小大小是多少 有很多东西被称为 doc2vec 但它似乎最常指的是 Le 和 Mikolov
  • word2vec中单词的向量代表什么?

    word2vec https code google com p word2vec 是 Google 的开源工具 它为每个单词提供一个浮点值向量 它们到底代表什么 还有一篇论文关于段落向量 http cs stanford edu quoc
  • 如何有效计算文档流中文档之间的相似度

    我收集文本文档 在 Node js 中 其中一个文档i表示为单词列表 考虑到新文档以文档流的形式出现 计算这些文档之间相似性的有效方法是什么 我目前对每个文档中单词的归一化频率使用余弦相似度 我不使用 TF IDF 词频 逆文档频率 因为我
  • 如何计算两个文本文档之间的相似度?

    我正在考虑使用任何编程语言 尽管我更喜欢 Python 来从事 NLP 项目 我想获取两个文档并确定它们的相似程度 常见的方法是将文档转换为 TF IDF 向量 然后计算它们之间的余弦相似度 任何有关信息检索 IR 的教科书都涵盖了这一点
  • 词干函数错误:词干需要一个位置参数

    这里的stem函数显示错误 指出stem需要循环中的一个位置参数 如所讨论的 from nltk stem import PorterStemmer as ps text my name is pythonly and looking fo
  • 这个 NLP 问题层次结构描述中的最大池化是什么类型

    我正在尝试实现这个描述以及我所做的 我生成了形状的 uni gram bi gram tri gram 15 512 使用填充 然后对于每个单词 我连接三个特征向量 3 512 然后我向他们申请 Globalmaxpooling1D 我不知
  • Spacy 中的自定义句子分割

    I want spaCy使用我提供的句子分割边界而不是它自己的处理 例如 get sentences Bob meets Alice SentBoundary They play together gt Bob meets Alice Th
  • 生成易于记忆的随机标识符

    与所有开发人员一样 我们在日常工作中不断处理某种标识符 大多数时候 它与错误或支持票有关 我们的软件在检测到错误后 会创建一个包 该包的名称由时间戳和版本号格式化 这是创建合理唯一标识符以避免混淆包的一种廉价方法 例子 错误报告 20101
  • 将单引号替换为双引号并排除某些元素

    我想用双引号替换字符串中的所有单引号 但出现的情况除外 例如 n t ll m 等 input the stackoverflow don t said hey what output the stackoverflow don t sai
  • 将 python NLTK 解析树保存到图像文件[重复]

    这个问题在这里已经有答案了 这可能会复制这个 stackoverflowquestion https stackoverflow com questions 23429117 saving nltk drawn parse tree to
  • BERT 输出不确定

    BERT 输出是不确定的 当我输入相同的输入时 我希望输出值是确定性的 但我的 bert 模型的值正在变化 听起来很尴尬 同一个值返回两次 一次 也就是说 一旦出现另一个值 就会出现相同的值并重复 如何使输出具有确定性 让我展示我的代码片段
  • gensim如何计算doc2vec段落向量

    我正在看这篇论文http cs stanford edu quocle paragraph vector pdf http cs stanford edu quocle paragraph vector pdf 它指出 段落向量和词向量被平
  • 快速 shell 命令删除文本文件中的停用词

    我有一个 2GB 的文本文件 我正在尝试从此文件中删除经常出现的英语停用词 我有 stopwords txt 包含这样的 a an the for and I 使用 shell 命令 例如 tr sed 或 awk 执行此操作的快速方法是什
  • 保存具有自定义前向功能的 Bert 模型并将其置于 Huggingface 上

    我创建了自己的 BertClassifier 模型 从预训练开始 然后添加由不同层组成的我自己的分类头 微调后 我想使用 model save pretrained 保存模型 但是当我打印它并从预训练上传时 我看不到我的分类器头 代码如下
  • 缩短文本并仅保留重要句子

    德国网站 nandoo net 提供了缩短新闻文章的可能性 如果使用滑块更改百分比值 文本会发生变化并且某些句子会被遗漏 您可以在这里看到它的实际效果 http www nandoo net read article 299925 http
  • Fine-Tuning DistilBertForSequenceClassification:不是学习,为什么loss没有变化?权重没有更新?

    我对 PyTorch 和 Huggingface transformers 比较陌生 并对此尝试了 DistillBertForSequenceClassificationKaggle 数据集 https www kaggle com c
  • 如何将标记化中的多单词名称保留在一起?

    我想使用 TF IDF 特征对文档进行分类 一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n
  • PHP 和 NLP:嵌套括号(解析器输出)到数组?

    想要将带有嵌套括号的文本转换为嵌套数组 以下是 NLP 解析器的输出示例 TOP S NP PRP I VP VBP love NP NP DT a JJ big NN bed PP IN of NP NNS roses 原文 我喜欢一大床
  • 斯坦福 CoreNLP:使用部分现有注释

    我们正在尝试利用现有的 代币化 句子分割 和命名实体标记 同时我们希望使用斯坦福 CoreNlp 额外为我们提供 词性标注 词形还原 和解析 目前 我们正在尝试以下方式 1 为 pos lemma parse 创建一个注释器 Propert

随机推荐

  • Pycharm的使用技巧与效率提升

    总第010篇 本文主要梳理了pycharm在使用过程中的一些技巧 便于提升工作效率 pycharm主要分为两个版本 一个是专业版本 此版本功能强大 主要是为python和web开发者准备的 需要付费 另一个是社区版本 比较轻量级 主要是为p
  • 读别人写的代码 VS 自己写代码

    概述 专业程序员非常重要的一项技能是读别人写的代码 这项技能甚至比自己写代码更重要 分析 这让我想到很多程序员讨厌去阅读代码 来接受它吧 人人都喜欢编写代码 写代码是很有乐趣的事 但阅读代码却是一种困难的工作 它不仅仅繁重 而且很无聊 让我
  • 使用Docker进行模型部署

    文章目录 1 思路 2 实现步骤 2 1 数据 模型准备 2 2 镜像制作 2 3 使用 1 思路 因为多数公司正式集群都不能使用公网环境 对于模型部署比较麻烦 所以想这在公网环境下完成模型调试 然后根据相关环境和参数直接制作一个docke
  • C++中static_cast/const_cast/dynamic_cast/reinterpret_cast的区别和使用

    C风格的强制转换较简单 如将float a转换为int b 则可以这样 b int a 或者b int a C 类型转换分为隐式类型转换和显示类型转换 隐式类型转换又称为标准转换 包括以下几种情况 1 算术转换 在混合类型的算术表达式中 最
  • gsonformat java代码_插件GsonFormat快速實現JavaBean

    寫在前面的話 本文章只適合使用AndroidStudio的小伙伴觀看 還在糾結eclipse的小伙伴趕緊洗洗睡吧 最近看見一篇快速實現javaBean的屎丟丟插件 這是一個根據JSONObject格式的字符串 自動生成實體類參數 如果想要使
  • windows编程中wParam和lParam消息

    windows编程中wParam和lParam消息 1 WM PAINT消息 LOWORD lParam 是客户区的宽 HIWORD lParam 是客户区的高 2 滚动条WM VSCROLL或WM HSCROLL消息 LOWORD wPa
  • 【Vim】Vim 常用编辑操作

    目录 正则表达式 vim 命令 vim的工作模式 撤销修改 重做与保存 光标移动命令 文本插入操作 文本删除操作 文本复制 剪切与粘贴 文本的修改与替换 多窗口操作 正则表达式 简单地说 正则表达式是一种符号表示法 用于识别文本模式 在某种
  • 神经网络中epoch、batch、batch_size、epoch、iteration理解

    1 epoch 当一个完整的数据集通过神经网络一次并且返回一次的过程称为一个epoch 然而 当一个epoch对于计算机太过庞大时 就需要把它分成多个小块 2 batch 在不能将数据一次性通过神经网络的适合 就需要将数据集分成几个batc
  • 记录服务器上,不定时出现io.lettuce.core.RedisCommandTimeoutException: Command timed out after xxx millisecond(s)

    记录服务器上 不定时出现io lettuce core RedisCommandTimeoutException Command timed out after 12 millisecond s 日志 org springframework
  • E--释怀的RT--2023河南萌新联赛第(二)场:河南工业大学

    示例1 输入 5 0 1 0 0 10 输出 4 说明 前四个方格被最后一个心岩照亮 示例2 输入 5 0 1 0 0 1 输出 3 说明 第一个方格和第三个方格被第二个格子的心岩照亮 第四个方格被第五个格子的心岩照亮 一共有三个格子被照亮
  • SQLZOO习题(我的错题)

    SQLZOO习题 目录 SQLZOO习题 一 All the vowels 参考答案 备注 二 Nobel Quiz 解释 三 Knights of the realm 答案 备注 四 Chemistry and Physics last
  • shell转义,单引号与双引号,反撇号

    http www cnblogs com mydomain archive 2011 10 15 2213017 html 1 转义 单引号和双引号都能关闭shell对特殊字符的处理 不同的是 双引号没有单引号严格 单引号关闭所有有特殊作用
  • 我们的那些故事(写给1987—1990年出生的同学,希望您能够看看)

    花开无声 岁月无痕 突然回首 人生的旅途已经走了四分之一 我们这一辈 也就是96 97年开始上小学 02年上初中 05年上高中 07 08 09年上大学的 12年或者13年毕业的 我们知道的太多 看到了太多 听到了太多 新的 旧的 保守的
  • linux 查看内存 udimm rdimm,服务器UDIMM、LRDIMM、RDIMM三种内存如何区别

    随着应用程序的不断增长 内存被迫承担着更大压力 目前不管是服务器还是PC领域 DDR4内存技术依旧是主流 由于DDR4采用并行传输 为保证并行数据能有效传输 必须在内存条上下功夫 而在服务器领域 目前使用的内存条类型 DIMM 主要有三种
  • 关于STM32通用定时器更新事件中断

    定时器3中断服务程序 void TIM3 IRQHandler void if TIM3 gt SR 0X0001 产生更新事件 LED1 LED1 LED0 LED0 TIM3 gt SR 1 lt lt 0 清除中断标志位 通用定时器中
  • iOS常用类库

    ios 常用第三方类库 分享类型 游戏开发相关 http blog csdn net wstarx article details 6317779 http iosdeveloper diandian com post 2011 05 21
  • 【项目】小帽外卖(十四)

    小帽外卖 第十四章 Nginx 一 Nginx 概述 1 Nginx 介绍 Nginx是一款轻量级的Web 服务器 反向代理服务器及电子邮件 IMAP POP3 代理服务器 其特点是占有内存少 并发能力强 事实上nginx的并发能力在同类型
  • android linkToDeath内存泄露分析

    Register the recipient for a notification if this binder goes away 注册binder死亡的通知 public void linkToDeath NonNull DeathRe
  • 安装DirectX SDK时提示Error Code s1023 的解决办法

    安装Microsoft DirectX SDK June 2010 时 提示如下图所示的Error Code s1023 解决办法 可以参考stack overflow上的 地址是 http stackoverflow com questi
  • 中文羊驼大模型Alpaca-Plus-13B、Alpaca-33B效果大比拼

    写在前面 之前更新过两期关于中文羊驼模型的效果体验 类ChatGPT 本地CPU部署中文羊驼大模型LLaMA和Alpaca nlpstarter的博客 CSDN博客 类ChatGPT 中文羊驼大模型Alpaca 13B体验 nlpstart