使用sentencepiece模型替换词表

2023-11-17

最近在用DeBERTa模型跑一些下游任务，了解到了sentencepiece模型，用于替代预训练模型中的词表。

sentencepiece 是google开源的文本Tokenzier工具，本身提供四种切分方法。包括：char, word, byte-pair-encoding(bpe), unigram language model(unigram 默认类别)。

经过实验对比，我发现针对中文文本，采用bpe的效果还算可以，但也存在一些问题，最好手动再进行对其进行调整。

通过对自己的文本进行训练，最后得到.model 和.vocab文件可供使用。

整个过程流程如下：

安装 sentencepiece

整个过程比较简单，Github上有详细的介绍，这里我使用vcpkg进行安装。

Installation

Python module

SentencePiece provides Python wrapper that supports both SentencePiece training and segmentation. You can install Python binary package of SentencePiece with.
% pip install sentencepiece
For more detail, see Python module

Build and install SentencePiece command line tools from C++ source

The following tools and libraries are required to build SentencePiece:

cmake

C++11 compiler

gperftools library (optional, 10-40% performance improvement can be obtained.)

On Ubuntu, the build tools can be installed with apt-get:
% sudo apt-get install cmake build-essential pkg-config libgoogle-perftools-dev
Then, you can build and install command line tools as follows.
% git clone https://github.com/google/sentencepiece.git 
% cd sentencepiece
% mkdir build
% cd build
% cmake ..
% make -j $(nproc)
% sudo make install
% sudo ldconfig -v
On OSX/macOS, replace the last command with sudo update_dyld_shared_cache

Build and install using vcpkg

You can download and install sentencepiece using the vcpkg dependency manager:
git clone https://github.com/Microsoft/vcpkg.git
cd vcpkg
./bootstrap-vcpkg.sh
./vcpkg integrate install
./vcpkg install sentencepiece
The sentencepiece port in vcpkg is kept up to date by Microsoft team members and community contributors. If the version is out of date, please create an issue or pull request on the vcpkg repository.

训练sentencepiece模型

很简单，也是一句话的事，不过如果采用bpe进行训练的话，随着vocab_size的上升，时间会变得很长。我针对一个20GB+的中文文本进行训练，将vocab_size设置为320000，后台运行了一整天。

Train SentencePiece Model
% spm_train --input=<input> --model_prefix=<model_name> --vocab_size=8000 --character_coverage=1.0 --model_type=<type>
--input: one-sentence-per-line raw corpus file. No need to run tokenizer, normalizer or preprocessor. By default, SentencePiece normalizes the input with Unicode NFKC. You can pass a comma-separated list of files.

--model_prefix: output model name prefix. <model_name>.model and <model_name>.vocab are generated.

--vocab_size: vocabulary size, e.g., 8000, 16000, or 32000

--character_coverage: amount of characters covered by the model, good defaults are: 0.9995 for languages with rich character set like Japanese or Chinese and 1.0 for other languages with small character set.

--model_type: model type. Choose from unigram (default), bpe, char, or word. The input sentence must be pretokenized when using word type.

代码如图所示：

import sentencepiece as spm

spm.SentencePieceTrainer.Train(input='/data/data.txt', model_prefix='/data/sentencepiece/mypiece', vocab_size=320000, character_coverage=1, model_type='bpe', num_threads=96)

再之后就可以导入训练好的模型进行使用啦。

关于效果：

首先有个疑问，是不是词表越大越好？是不是vocab_size越大越好？

针对这个问题，我在网上简单检索了一下发现知乎上有位作者烛之文做了相关实验，对比了中文新闻文本数据集下的spm+cnn模型，词表8000,20000,320000(sentencepiece能训练的最大词表）的效果。https://zhuanlan.zhihu.com/p/307485012

从他的实验结果可以看出，随着词表增大，在训练集上更早的达到“潜在的最好效果”，而在验证集上的表现越来越差。理论上不是词表越大越好吗，它毕竟降低了未登录词出现的概率。他认为是该新闻数据集的每个label的特征都是很明显的，而且这些影响特征都是可用高频词汇组合出来的。如果加大词表，就相当于training过程中，让model学到很多label的噪声特征，导致在验证集上效果降低。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用sentencepiece模型替换词表的相关文章

【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
【信道估计】【MIMO】【FBMC】未来移动通信的滤波器组多载波调制方案（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
问CHAT很繁琐的问题会不会有答案呢？

问CHAT 什么已有的基于极值理论的极端温度重现期主要针对极端高温事件对极端低温事件研究较少 CHAT 回复为这主要可能是由于以下几个原因 1 气候变化与全球变暖当前全球变暖和气候变化的问题备受关注这导致科研者更加关注极端高温事件
Soul App：年轻人的社交状态，还有多少种可能？

查尔斯狄更斯在双城记的开篇写下这是最好的时代这是最坏的时代这是智慧的时代这是愚蠢的时代这是信仰的时期这是怀疑的时期人们面前有着各样事物人们面前一无所有既然万事万物都和狄更斯所说般好坏参半那又何必执着于过去苦恼于
明日 15:00 | NeurIPS 2023 Spotlight 论文

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入哔哩哔哩直播通道扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍黄若孜腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
基于opencv的大米计数统计（详细处理流程＋代码）

在我每周的标准作业清单中有一项是编写计算机视觉算法来计算该图像中米粒的数量因此当我的一个好朋友M给我发了一张纸上的扁豆照片显然是受到上述转发的启发请我帮他数一下谷物的数量时它勾起了我怀旧的回忆因此我在我的旧硬盘上寻找很久以前
作物叶片病害识别系统

介绍由于植物疾病的检测在农业领域中起着重要作用因为植物疾病是相当自然的现象如果在这个领域不采取适当的护理措施就会对植物产生严重影响进而影响相关产品的质量数量或产量植物疾病会引起疾病的周期性爆发导致大规模死亡这些问题需要在初
如何快速申请GPT账号？

详情点击链接如何快速申请GPT账号一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Gemini以及大模型
用通俗易懂的方式讲解：使用 LlamaIndex 和 Eleasticsearch 进行大模型 RAG 检索增强生成

检索增强生成 Retrieval Augmented Generation RAG 是一种结合了检索 Retrieval 和生成 Generation 的技术它有效地解决了大语言模型 LLM 的一些问题比如幻觉知识限制等随着 RAG
AI在保护环境、应对气候变化中的作用

对于AI生命周期数据领域的全球领导者而言暂时搁置我们惯常的AI见解和AI生命周期数据内容产出来认识诸如世界地球日这样的自然环境类活动日似乎是个奇怪的事情我们想要知道数据是否真的会影响我们的地球环境简而言之是确实如此但作为一
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本
开始弃用NeRF？为什么Gaussian Splatting在自动驾驶场景如此受欢迎？（浙江大学最新）...

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取今天自动驾驶之心为大家分享浙大刚刚出炉的3D Gaussian Splatting综述文章首先回顾了3D Gaussian的原理和应用借着全面比较了3D GS在静态
深度学习：人脸识别系统 Tensorflow 人脸检测 Python语言 facenet人脸识别算法毕业设计（源码）✅

博主介绍全网粉丝10W 前互联网大厂软件研发集结硕博英豪成立工作室专注于计算机相关专业毕业设计项目实战6年之久选择我们就是选择放心选择安心毕业感兴趣的可以先收藏起来点赞关注不迷路毕业设计 2023 2024年计算机毕业
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
实力认证！鼎捷软件荣膺“领军企业”和“创新产品”两大奖项

近日由中国科学院软件研究所中科软科技股份有限公司联合主办的 2023中国软件技术大会于北京成功举办本届大会以大模型驱动下的软件变革为主题数十位来自知名互联网公司和软件巨头企业的技术大咖不同领域行业专家畅销书作者等分享嘉宾
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来
AI 赋能绿色制冷，香港岭南大学开发 DEMMFL 模型进行建筑冷负荷预测

近年来城市化进程加速所带来的碳排放量骤增已经严重威胁到了全球环境多个国家均已给出了碳达峰碳中和的明确时间点一场覆盖全球全行业的绿色革命已经拉开序幕在一众行业中建筑是当之无愧的能耗大户其中又以暖通空调 Heating

随机推荐

docker基础1——架构组成、安装配置

文章目录一发展起源 1 1 传统虚拟化与容器虚拟化 1 2 docker底层核心技术 1 2 1 命名空间 1 2 2 控制组 1 3 docker工作方式 1 4 docker容器编排 1 5 docker优劣势 1 6 docker
iframe的替代品

面试题使用过iframe框架那你对于iframe框架的优缺点知道多少并且由于iframe的一些缺点国内外针对这个框架的替代品你知道有哪些呢知识点1 iframe框架的优缺点优点 1 可以跨域请求其他网站并将网站完整展示出来 2
[课程复习] 数据结构之线性表、树、图、查找、排序经典算法复习

作者最近在复习考博乘此机会分享一些计算机科学与技术软件工程等相关专业课程考题一方面分享给考研考博找工作的博友另一方面也是自己今后完成这些课程的复习资料同时也是在线笔记基础知识希望对您有所帮助不喜勿喷无知乐观低调谦
【Qt Modbus通信】QModbus实现modbus的主机功能源码分享

前言 modbus在上下位机数据交互时被广泛使用因此写了这篇笔记和大家一起学习 Qt Modbus通信 libmodbus实现modbus的主机功能从机功能源码分享之前使用libmodbus实现了modbus的主从功能但发现主机查
docker frp 搭建内网穿透

docker frp 搭建内网穿透可运行的云服务器 docker pull snowdreamtech frps mkdir p root docker frp cd root docker frp touch frps ini comm
企业微信如何简单实现定时发送文件到群：企业微信群机器人操作（Java代码实现）

前言不知道小伙伴们的公司组织架构通勤用的啥软件我公司用的企业微信然后业务销售部那边需要每天统计销售数据报表然后发在群里我是开发我不配在群里知道这个背景以后产品给我们的需求是直接统计数据按照业务那边的报表模板直接生成销售报表
ARM-A架构入门基础（三）MMU

14天学习训练营导师课程周贺贺 ARMv8 ARMv9架构快速入门 1 MMU Memory Management Unit 内存管理单元 MMU的意义在于将软件程序的虚拟地址转换为真实的物理地址 2 MMU种类 Secure EL1
数据结构——图解循环队列长度计算问题

队列定义是这样的 define MAXSIZE 10 typedef struct ElemType data MAXSIZE int front rear SeqQueue 一个队列一个存放元素的数组一个队头指针一个队尾指针 fro
np.array与list的内存大小比较

1 np array与list 比较 a 1 2 3 4 需要4个指针和四个数据增加了存储和消耗cpu a np array 1 2 3 4 只需要存放四个数据读取和计算更加方便 2 np array与list所占内存 def test
sqlserver语言转mysql_SQLSERVER 脚本转MYSQL 脚本的方法总结

标签 1 MYSQL中SQL脚步都要以分号结尾这点比SQLSERVER要严谨 2 所有关键字都要加上比如 Status 替换成 Status 按是有个的键 3 SQLSERVER的dbo 在mysql中不支持都要去掉 4 isnu
java field static_Java基础之关键字static

static是Java中的一个关键字用来修饰成员变量与成员方法还可以用于编写静态代码块对于被static修饰的东西 JVM在加载类的时候就给这些变量在内存中分配了一定的空间即在编译阶段时就为这些成员变量的实例分配了空间一静态变
机器学习入门之流浪地球

机器学习入门之流浪地球 1 引言 2 问题描述 3 问题分析 4 问题求解 4 1 数据集 4 2 模型构造 4 3 损失函数 4 4 梯度下降 4 5 模型训练 4 6 预测 4 7 完整实现代码 5 总结与思考 1 引言我国里程碑式科
求n边形周长的k等分点坐标（今日头条）

题目本题来自今天头条的笔试有一个n边形 P0 P1 Pn 每一条边皆为垂直或水平线段现给定数值k 以P0为起点将n边形的周长分为k段每段的长度相等请打印出k等分点的坐标 T0 T1 Tk 的坐标分析 1 可以计算出从第0个点到
线程池ExecutorService

1 线程池创建方式 1 通过Executors创建线程池 import java util concurrent ExecutorService import java util concurrent Executors public cl
Ubuntu18.04未安装Qt报qt.qpa.plugin could not load the Qt platform plugin xcb问题的解决方法

在Ubuntu 18 04开发机上安装了Qt 5 14 2 当将其可执行程序拷贝到另一台未安装Qt的Ubuntu 18 04上报错拷贝可执行程序前使用ldd将此执行程序依赖的动态库也一起拷贝过去包括Qt5 14 2 5 14 2 gc
JS ES6 单链表2种插入尾部方式

一种是类里加一个指向尾部最后一个元素指针通过他添加一个元素到队列最后一种是每次增一个元素都从头开始遍历直到最后一个然后添加打开出来有单链表结构是一样的除了上面的多了一个队尾指针 class Node 单个结点 data next
Cadence 生成gerber文件，嘉立创下单助手解析不了PCB板的问题

概述最近由于公司的原因使用Cadence EDA工具绘制一块 TMC2300电机驱动板遇到一些问题在这记录一下坑也方便遇到这个问题的硬件攻城狮得到解决 1 EDA Cadence 17 4 在生成gerber文件时使用CAM35
type_traits技术与C++

引言一个方法实现过程中业务逻辑很多都是相似的但是与具体的特化类型的不同有一定的差异这个时候可以采用特化模板的方式实现不同的类型使用不同的特化实现但是这种情况造成一定的业务逻辑的冗余而trait技术可以将特化类型通过封装以一个
windows10进行Colmap配置

colmap下载 https demuc de colmap 新的colmap按照官网的编译方式仅需要预装好CMake Boost QT5 CUDA和CGAL 1 CMake CMake安装最简单去官网下载好压缩包解压即可建议下载新版
使用sentencepiece模型替换词表

最近在用DeBERTa模型跑一些下游任务了解到了sentencepiece模型用于替代预训练模型中的词表 sentencepiece 是google开源的文本Tokenzier工具本身提供四种切分方法包括 char word byt

使用sentencepiece模型替换词表

Installation

Python module

Build and install SentencePiece command line tools from C++ source

Build and install using vcpkg

Train SentencePiece Model

使用sentencepiece模型替换词表 的相关文章

随机推荐

热门标签

使用sentencepiece模型替换词表的相关文章