GPT2-Chinese：中文的GPT2训练代码

2023-10-27

推荐一个中文的GPT2项目

Chinese version of GPT2 training code, using BERT tokenizer.

作者提供了一份中文的GPT2训练代码，使用BERT的Tokenizer。可以写诗，新闻，小说，或是训练通用语言模型。支持字为单位或是分词模式。支持大语料训练。

以下来在该项目主页描述。

GPT2-Chinese

Description

Chinese version of GPT2 training code, using BERT tokenizer. It is based on the extremely awesome repository from HuggingFace team Pytorch-Transformers. Can write poems, news, novels, or train general language models. Support char level and word level. Support large training corpus.
中文的GPT2训练代码，使用BERT的Tokenizer。可以写诗，新闻，小说，或是训练通用语言模型。支持字为单位或是分词模式。支持大语料训练。

项目状态

目前项目主要架构已经稳定。如发现任何bug或是有功能意见与改进欢迎提交Issue，PR或是联系作者。

使用方法

在项目根目录建立data文件夹。将训练语料以train.json为名放入data目录中。train.json里是一个json列表，列表的每个元素都分别是一篇要训练的文章。
运行train.py文件，勾选 --raw ，会自动预处理数据。
预处理完成之后，直接运行train.py文件，即可开始训练。

文件结构

generate.py 与 train.py 分别是生成与训练的脚本。
train_single.py 是 train.py的延伸，可以用于一个很大的单独元素列表（如训练一本书）。
eval.py 用于评估生成模型的ppl分值。
generate_texts.py 是 generate.py 的延伸，可以以一个列表的起始关键词分别生成若干个句子并输出到文件中。
train.json 是训练样本的格式范例，可供参考。
cache 文件夹内包含若干BERT词表，make_vocab.py 是一个协助在一个train.json语料文件上建立词表的脚本。vocab.txt 是原始BERT词表， vocab_all.txt 额外添加了古文词， vocab_small.txt 是小词表， no_word_piece的是没有word piece的词表。
tokenizations 文件夹内是可以选用的三种tokenizer，包括默认的Bert Tokenizer，分词版Bert Tokenizer以及没有word piece的Bert Tokenizer。

注意

本项目使用Bert的tokenizer处理中文字符。
如果使用分词版的tokenizer，不需要自己事先分词，tokenizer会帮你分。
如果使用分词版的tokenizer，最好先使用cache文件夹内的make_vocab.py文件建立针对你的语料的词表。
模型需自行运算。各位如果完成了预训练的话欢迎进行交流。
如果你的内存非常大或者语料较小的话，可以改掉train.py内build files内的对应代码，不做拆分直接预处理语料。

语料

可以从这里与这里下载。
斗破苍穹语料可以从这里下载。

FP16与Gradient Accumulation支持

我在train.py文件中加入了fp16与gradient accumulation支持，如果你安装了apex并且知道fp16是什么的话，可以修改变量fp16=True来启用。但是目前fp16不收敛，原因不明。

Citing

@misc{GPT2-Chinese,
  author = {Zeyao Du},
  title = {GPT2-Chinese: Tools for training GPT2 model in Chinese language},
  year = {2019},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/Morizeyao/GPT2-Chinese}},
}

GitHub地址

https://github.com/Hansen06/GPT2-Chinese

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

深度学习

自然语言处理

GPT2-Chinese：中文的GPT2训练代码的相关文章

用python画星空的代码简单,python星空浪漫表白源码

大家好给大家分享一下用python画星空的代码简单很多人还不知道这一点下面详细解释一下现在让我们来看看用python画星空源代码是什么用python画星空源代码是from turtle import from random im
计算机主机采用的电子器件发展顺序,计算机采用的主机电子器件的发展顺序是什么？...

计算机采用的主机电子器件的发展顺序是电子管晶体管中小规模集成电路大规模和超大规模集成电路按照计算机采用的电子器件不同将计算机划分为电子管晶体管中小规模集成电路大规模和超大规模集成电路四代计算机采用的主机电子器件的发展顺序是
海神祭司被机器人拉出来_那一抹勾魂的蓝色，卡西欧海神Oceanus 系列介绍

本内容来源于什么值得买APP 观点仅代表作者本人作者木木滚滚先前写的卡西欧G shock系列介绍的文章下面有挺多老哥说想要看卡西欧海神的介绍文章于是说写就写也开启一个新的专栏系列文章希望能坚持写下去一卡西欧手表的分类我
使用lightdm启动dwm或桌面

简介 LightDM 是一个跨桌面环境的显示管理器它的特点有跨桌面支持不同的桌面环境支持多种显示技术 X Wayland 轻量级低内存使用高性能支持定制会话支持远程登录 XDMCP VNC XDMCP 可插拔完善的测试组件
Unity中的一些问题

Unity代码编写标准流程 1 建议按照执行流程写代码这样减少忘记写功能的可能性 2 复杂的类型的初始化赋值不要在初始化中赋值应该设为private 因为不用在窗口中赋值所以在start 中初始化常规问题一些Unit bug 脚
《Code_Complete_2》持续更新中......

如何阅读这本书这本书有意设计成使你既可以从头到尾阅读也可以按主题阅读 1 如果你想从头到尾阅读那么你可以直接从第2章用隐喻来更充分地理解软件开发开始钻研 2 如果你想学习特定的编程技巧那么你可以从第6章可以工作的类开始然后

随机推荐

为什么美国程序员工作比中国程序员工作轻松、加班少？

作者 LJ说责编伍杏玲本文经授权转载自LJ说 ID LjNotes 先问是不是再问为什么难道美国的程序员就不加班吗他们就一天八小时工作还想来就来想走就走非工作时间完全找不到人还有什么食物饮料都免费提供让我来告诉你真实的
webpack

看一下完整报错 asset static js index js 4 04 KiB compared for emit name main src main js 39 bytes not cacheable built code gene
基于Neptune开发板的键盘蓝牙模块DIY指南

本期我们带来基于润和Neptune开发板以下简称Neptune开发板的键盘蓝牙模块DIY指南利用Neptune开发板支持串口和蓝牙功能等特性将有线键盘改造成蓝牙键盘实现一个键盘被多操作系统终端设备识别使用的功能达到提高工作效率
C++ 检测内存泄露工具 -- Windows平台

平台 Windows7 64bit 编译器G mingw 工具 Dr Memory 项目主页 https code google com p drmemory 可能要FQ 可能会很慢所以可以直接按照下面官方主页给出的链接下载我也放了一
人工智能应用实例：图片降噪

人工智能应用实例图片降噪场景设置对白色背景黑色前景的黑白图片进行降噪处理可以假定背景部分多于前景图1 从左往右原图噪声图降噪图降噪模型我们可以对图片建立这样一个两层的二维模型底层表示原图顶层表示任意的噪声图 xi为
Power BI 数据模型设计及搭建——星型模型&雪花模型

前言之前的笔记提到了 Power BI 数据模型的核心概念本文继续深入讨论数据模型的设计架构同时介绍两种常用的数据模型星型模型和雪花模型 BI 的数据模型和数仓模型有什么不同数据仓库和Power BI中使用的数据架构模型有一些相似
创建SpringBoot项目时修改Server URL（下载路径）

使用spring initializr创建Springboot项目时 IDEA默认的Server URL为 https start spring io 使用该下载路径缺点 1 从中央仓库进行下载下载速度慢 2 当网络不稳定时或网络访问限
《动手学深度学习 Pytorch版》 4.6 暂退法

import torch from torch import nn from d2l import torch as d2l 4 6 1 重新审视过拟合整节理论详见书本 4 6 2 扰动的稳健性整节理论详见书本 4 6 3 实践中的
js去掉小数点后面多余的0

用parseFloat 如 var a 23 8000 alert parseFloat a 结果 23 8 当然这个也有可能有想不到的结果 document write parseFloat 12dream3456 789 documen
4、编写程序，根据用户输入的数字转换成相应的中文的大写数字。例如，1.23转换为“壹点贰叁”。

Python 4 编写程序根据用户输入的数字转换成相应的中文的大写数字例如 1 23转换为壹点贰叁问题遇到的现象和发生背景输入含有0就不会输出问题相关代码 import jieba ChineseNum 零壹贰叁肆伍
读书：滑铁卢

又到4月23日国际读书日又是一年轮回有些老朋友可能知道 TC研修实验室有一条不成文的老传统每逢此时都会按书年度进行读书总结至今已是第4个年头只不过是遭遇读书滑铁卢的一年当我到豆瓣查看这一年的读书记录时我震惊了纳尼
模拟CMOS集成电路设计中的电流基准源及用Cadence Virtuoso IC617设计并仿真有关电路

前言本文为我自己的学习笔记属于Cadence Virtuoso系列的进阶部分采用的软件版本是Cadence Virtuoso IC617 其他文章请点击上方看我制作的Cadence Virtuoso专栏内容在前面的文章中记录了电
sql_model

关于sql mode sql mode是MySQL数据库中的一个环境变量定义了mySQL应该支持的SQL语法数据校验等可以通过select sql mode 查看当前数据库使用的sql mode 查看当前数据库的sql mode sel
汉字统计

题目统计给定文本文件中汉字的个数输入格式输入文件首先包含一个整数n 表示测试实例的个数然后是n段文本输出格式对于每一段文本输出其中的汉字的个数每个测试实例的输出占一行 Hint 从汉字机内码的特点考虑数据范围无样例输入
Js 逆向：微博登录

1 先分析参数 su sp是必要的其中su是加密后的账号很简单就是个bs64 不再说了 2 直接搜参数这个时候要搜代表性的特殊的例如pwencode 很好只有一个两种加密一个是RSA 一个是sha 这里判断用的是RSA 3 直
VUE的认识及基础语法

VUE的认识及基础语法我们先来了解一下什么是VUE 什么是渐进式库插件和框架的区别 vue从而出现了一种开发模式那就是mv 插值表达式的使用指令关于属性循环 v model 自定义指令过滤器修饰符 v on 指令常用修饰符
光线追踪(ray tracing)介绍与细节推导

背景最近因为找到关于光线追踪相关不错的教程所以边学习边做记录并希望将相关资料进行分享光线追踪作为计算机图形学中一种可以获得良好的效果的渲染算法有着非常广泛的应用历史背景相关的介绍可参考百度百科或者维基百科本文中的参考资料来自于P
【爬虫】JS逆向解决反爬问题系列5—sign破解

欢迎来到我的博客作者秋无之地简介 CSDN爬虫后端大数据领域创作者目前从事python爬虫后端和大数据等相关工作主要擅长领域有爬虫后端大数据开发数据分析等欢迎小伙伴们点赞收藏留言本次博客内容将讲解关于sign
COM基础

曾经看过潘老师的 lt
GPT2-Chinese：中文的GPT2训练代码

推荐一个中文的GPT2项目 Chinese version of GPT2 training code using BERT tokenizer 作者提供了一份中文的GPT2训练代码使用BERT的Tokenizer 可以写诗新闻小说