预训练模型的教育政策文档关键字提取

基于Bert预训练模型的教育政策文档关键字提取

数据集准备设置停用词去掉一些政策文件中惯用词汇可能选取的有点偏差 xff0c 以免影响最后的关键词提取 jieba分词 jieba分词采用的是前缀词典 xff0c 而不是字典树 xff0c 减少内存开销同时加入自定义词汇 xff0c

Bert 预训练模型的教育政策文档关键字提取