2020第八届“泰迪杯”特等奖（基于 BERT 深度语言模型的“智慧政务”文本挖掘应用）

2023-11-11

目录
1绪论
1.1“智慧政务”文本挖掘的意义
1.2“智慧政务”文本挖掘的目标
1.3语言智能的里程碑技术：BERT 深度语言模型介绍
1.4本文的总体框架
1.5本文主要的创新之处
2基于 BERT 模型的留言自动分类
2.1任务介绍与实验数据集
2.2实验流程
2.3BERT 分类效果及其与其他模型的对比分析
3基于语义相似度与 BERT 命名实体识别的热点问题挖掘
3.1任务介绍与实验数据集
3.2无须预设聚类数目的 AP 聚类算法介绍
3.3热点问题总体挖掘流程
3.4热度评价指标 L 设计
3.5实验结果分析
4多特征融合的答复意见质量评价
4.1任务介绍与实验数据集
4.2答复意见的质量评价指标
4.3实验结果分析
5 结语
参考文献

1.绪论

1.1“智慧政务”文本挖掘的意义

近年来，随着“互联网+政务”服务的推进，市长信箱、民意留言板、阳光热线等网络问政平台逐步成为政府已经成为政府了解民情、听取民声、体察民意、汇聚民智的一个重要桥梁。同时，随着大数据、云计算、人工智能特别是语言智能等技术的不断突破，建立起基于自然语言处理（Natural Language Processing, NLP）技术的智慧政务系统，已成为社会治理创新发展的迫切需求与新趋势。如何运用NLP 技术，批量、智能、高效地处理海量的政务文本，进而建立智能化的电子政务系统，是服务型政府建设中的一个重要子课题。这对于提升政府的施政效率与治理水平，增强人民群众的幸福感，促进社会和谐，都具有重大的积极意义。

1.2“智慧政务”文本挖掘的目标

“智慧政务”文本挖掘的目标主要包含 3 部分，分别是（1）群众留言的自动分类；（2）群众留言的热点话题发现；（3）留言答复意见的质量评价。

（1）群众留言的自动分类

许多网络问政平台，每天都会接收大量的群众留言。平台的工作人员首先按照预先设置的分类体系，对留言进行归类。这便于将数目浩繁的留言分派至相应的职能部门处理，对症下药。目前，大部分政务系统的群众留言，还依赖于人工凭直觉分类。不仅工作量大、效率低，而且差错率高。因此，利用自然语言处理中的文本分类（Text classification）技术实现留言自动分类，能极大地减轻政务工作人员的负担。
（2）群众留言的热点话题发现
在海量的群众留言中，存在着许多反映共同问题、表达共同诉求的留言。对它们进行针对性地处理，有利于分清民情诉求的轻重缓急，提升政府服务的质量与效率。这属于 NLP 中的话题检测与跟踪（Topic Detection and Tracking， TDT）的课题范畴。因此，我们需要探索如何从大量留言中，自动发现某一时段内群众集中反映的热点问题。

（3）留言答复意见的质量评价

对于每一条群众留言，政府工作人员会对其答复，回应问题的处理情况，告知相关政策规定，或提供建议意见等。自动地评价答复意见的质量，有助于将群众的诉求落到实处，改善政府的办事水平。因此，在论文的第四章，我们将融合 9 项指标，从相关性、完整性、可解释性、条理性等角度，自动地综合评价答复意见的质量。

1.3语言智能的里程碑技术：BERT 深度语言模型介绍

基于神经网络架构的深度学习算法由于其能自动提取数据特征，以及其强大的拟合泛化能力，已经在计算机视觉（CV）、自然语言处理（NLP）、机器人（robotics）、推荐系统（recommendation system）等多个人工智能领域取得了重大突破。自从 2013 年谷歌的Mikolov 团队提出词汇语义表示模型 word2vec[1]后，海量文本中的每一个词都被表示为一个稠密、低维的实值向量，自然语言处理领域也进入了深度学习时代。

近年来，NLP 界以ELMo[2]、BERT[3]代表的预训练深度语言模型（Pre-trained Language Model）在以往神经网络模型的基础上，进一步改善了文本语义表示的效果，并在文本分类、命名实体识别、信息抽取、人机对话、机器翻译、阅读理解等 NLP 各项下游任务中取得了重大突破，频繁且大幅度刷新了之前地最好结果。例如 2018 年 Google 团队发布的 BERT 模型，在 11 项不同的 NLP 测试中，均表现出最佳效果，将通用语言理解评估（GLUE）基准提升至 80.4%，超出以往最佳模型 7.6%[4]。以 BERT 为代表的深度语言模型已经成为 NLP 里程碑式的技术。

预训练深度模型应用于下游任务，主要分为两种策略：

一是基于特征的（feature based）策略，即固定的语言特征向量从模型中提取出来服务于后续任务，以ELMo 模型为代表。

二是微调（Fine-tuning）策略，即在模型顶部添加着眼于具体任务的分类层，并且模型所有的参数也随着下游任务的训练适度优化。微调策略实质上是一种迁移学习（Transfer Learning），可以充分利用已训练的深度模型，迁移到新的任务上。与从零开始训练模型相比，微调不仅节省了大量的计算开销，也显著提高了模型的精度。而BERT 模型就是采用微调策略的预训练模型的代表[3]。

BERT (Bidirectional Encoder Representations from Transformers）是一种基于Transformer 架构的预训练深度学习语言模型，其结构主要如图 1 所示：
在这里插入图片描述
图 1 BERT 模型基本架构

以中文的 BERT 预训练模型为例，图 1 的 E1,E2,…EN 表示在首尾分别添加[CLS]和[SEP]标记的中文字符。它们依次经过 12 或 24 层双向的Transformer（Trm）编码器，就可以得到文本字符语境化的向量表示（ Contextual Embedding）。 Transformer 是一个基于自注意力（self-attention）机制的编码-解码器[5]。最底层的 Transformer 编码器的输入为字符向量、字符位置向量与句子片段向量之和。模型内每一层均由多头自注意力(Multi-head Self-attention) 和前馈神经网络
（Feed-forward Neural Networks）两部分构成，前者使编码器在给每个字符编码时，能关注到周围其他字符的信息；后者用于增强模型的拟合能力。模型的每一层经过一个相加与归一化（add & norm）操作后，生成新的字符向量，作为下一层编码器的输入。顶层编码器输出的[CLS]标记的向量 T1，可以视为整个句子的语义表征；而顶层编码器输出的向量T2,T3……则分别是字符 E2,E3 语境化的向量表示。它们为文本分类、命名实体识别等后续任务提供了重要支撑。

另外，为增强语义表示的能力，BERT 提出了两个预训练的目标任务：遮罩语言模型（Masked LM, MLM）和下句预测（Next Sentence Prediction, NSP）。MLM实质是一个完型填空任务，中文语料中 15%的字会被选中，其中的 80%被替换为[MASK]，10%被随机替换为另一个字，剩下的 10%保持原字。模型需要根据句中的其他字，生成被选中字位置的向量，经由一个线性分类器，预测被选中的字。被选中的 15%的字之所以没有全部替换为[MASK]，是因为该遮罩标记在实际下游任务的语料中并不存在。出于与后面任务保持一致的考虑，BERT 需按一定的比例在预测的字的位置放置原字或者某个随机字，使得模型更偏向于利用上下文信息预测被选中字。在下句预测任务中，模型选择若干句子对，其中有 50%的概率两句相邻，50%的概率两句不相邻。模型通过上述两个目标任务，能够较好地学习到文本中字词和句间的语义信息。

考虑到 BERT 模型在语言智能领域的显著优势，本文拟将该模型运用到“智慧政务”文本挖掘之中。采取微调（Fine-tuning）的迁移学习策略，在文本分类、文本聚类、命名实体识别（Named Entity Recognition, NER）等具体任务上，充分发挥BERT 中文模型1的功效。

1.4本文的总体框架

本文的总体组织框架如下：

第1章绪论

介绍“智慧政务”文本挖掘的意义和总体目标；介绍本文主要采用的深度语言模型 BERT 的原理；介绍本文的总体框架与主要创新点。

第2章基于 BERT 模型的留言自动分类

首先，介绍该任务的目标与实验数据集；第二，设计基于 BERT 模型的留言自动分类算法；最后，对比分析 BERT 模型、LSTM 模型、FastText 模型在文本分类上的效果（各类的F1 值与整体的 F-score）。

第3章基于语义相似度与 BERT 命名实体识别的留言热点问题挖掘

首先，介绍该任务的目标与实验数据集；第二，基于 BERT 模型，将每条留言的语义向量与命名实体2（Named Entity）作为特征表示；第三，利用基于图的 Affinity Propagation（AP）聚类算法，实现留言的无监督自动聚类；

最后，对于每个聚类后的话题（问题），综合考虑（1）话题时长、（2）话题包含的留言数量；（3）每条留言的点赞数与反对数 3 项指标，设计话题热度评价体系并予以实现。

第4章多特征融合的答复意见质量评价

首先，介绍该任务的目标与实验数据集；第二，根据答复意见的长度、答复的及时性、关键词覆盖率、答复与留言的相关性、答复的专业性等 9 项特征指标，综合评价答复意见的质量。最后，在程序上实现质量评价系统，并进行效果分析。

第5章结语

总结本文的工作，展望今后的改进方向。

1.5本文主要的创新之处

（1）将语言智能领域最新的 BERT 深度模型应用于政务文本挖掘。基于BERT的留言分类模型明显优于前人的LSTM 模型与 Fasttext 模型。

（2）针对以往热点话题聚类模型健壮性（Robustness）差、效果不佳的问题，提出了利用命名实体识别（NER）任务增强留言区分度的策略，进而显著改善了留言无监督聚类的效果。

（3）针对以往无监督聚类任务不知如何预设聚类数量的问题，采用了基于距离的 Affinity Propagation（AP，亲和力传播）的聚类算法。使得自动确定聚类数量成为可能，节省了大量的试错成本。

（4）从内容丰富度、答复相关度、答复专业性、答复时效性等角度，提出了“9 项合一”答复意见质量的评测方法。更加全面地反映了政府工作人员反馈群众留言的水平。

2.基于 BERT 模型的留言自动分类

2.1任务介绍与实验数据集

该任务属于自然语言处理中的文本分类任务。附件 2 包含了 9210 条群众在网络平台上发布的留言，分为城乡建设、环境保护、交通运输、教育文体、劳动和社会保障、商贸旅游、卫生计生共 7 类。每条留言均包含留言主题、留言详情的
字段。我们将数据集打乱顺序后，按照 8:1:1 的比例，分别划分训练集、验证集和测试集。包括 BERT 在内的所有模型，均在相同的训练集、验证集上进行训练、调整超参数，并在相同的测试集上进行测试。

2.2实验流程

在输入的文本方面，考虑到 BERT 模型允许单一文本的最长长度为 512 个字符，加之有 Sun（2019）[6]等人的相关实验表明，长文本截取前 512 个字符，已能在BERT 模型中取得理想的分类效果，我们拼接了每一条留言的主题文本与详情文本，截取前 512 个字符作为模型的输入。

在超参数设置方面，我们参考 Sun（2019）[6]等人在 BERT 上的文本分类经验，如下设置超参数：学习率 lr=2e-5，衰变因子 ξ=0.95。此外，训练遵循早停（early stopping）原则，当模型的损失在验证集上不再下降，就视为模型在验证集上已经收敛，可以停止训练。这能够有效地避免过拟合（Overfitting）问题，保证模型的泛化能力以及在测试集上的表现。

如 1.3 节所述，对于文本分类任务，BERT 模型提取顶层的符号[CLS]的特征向量 v（768 维），作为整个文本的特征表示，再后接一个 768*n 的全连接层（Fully- connected layer）W（n 为文本类别数），最后通过 softmax 函数归一化，输出一个文本分别属于各个类别c 的概率：

P ( c ∣ v ) = s o f t m a x ( W ⋅ v ) P(c|v) = softmax(W·v) P(c∣v)=softmax(W⋅v)

其中softmax 函数：

s o f t m a x ( X c ) = e x p ( x c ) ∑ i = 1 n e x p ( x i ) softmax(X_c) =\frac{exp(x_c)}{\sum_{i=1}^{n}exp(x_i)} softmax(Xc)=∑i=1nexp(xi)exp(xc)

在训练过程中，模型会调整全连接层 W 以及BERT 12 层模型的参数，使得每个文本的正确类别所对应的概率最大化。

在这里插入图片描述图 2 BERT 模型在验证集上的损失变化图

如图 2 所示，当 BERT 模型在训练第 3 轮（epoch）时，在验证集上的损失开始上升。
在这里插入图片描述图 3 BERT 模型在验证集上的 accuracy 随训练轮数的变化情况

图 3 关于 BERT 模型在验证集上的正确率（accuracy）变化情况也表明，在第 2 轮训练时，分类的正确率较前一次明显提升约 0.76%；但第 3 轮训练的accuracy 提升已不明显。因此，综合模型在验证集上的损失与正确率，根据早停
（early stopping）原则，我们认为第 2 轮训练结束后的BERT 分类模型已经收敛，可以作为最终模型。

2.3BERT 分类效果及其与其他模型的对比分析

最终收敛的BERT 模型在测试集上测试的结果如表 1 所示：
在这里插入图片描述
表 1: BERT 模型在测试集上的各类分类效果

为证明 BERT 模型在留言分类任务上的良好能力，我们将基于字向量的LSTM(Long Short-Term Memory)[7]和基于 Fasttext[8]的 2 个文本分类模型作为基线（baseline）模型，比较 BERT 与基线模型的效果。

LSTM 模型作为循环神经网络（RNN）的变种，是一种基于时间序列的链式结构。它克服了传统 RNN 模型梯度消失的缺陷，成为近年来 NLP 领域应用较广泛的特征提取器。我们使用的 LSTM 模型为加入了dropout 机制的通用改良版本[9]。dropout 机制能有效避免 LSTM 模型的过拟合问题。与基于 BERT 的文本分类模型类似，输入的文本经过 LSTM 隐层后，通过 softmax 归一化层，对 LSTM 隐层传递来的信息进行学习, 并计算出待分类文本属于各类别的概率[10]。

Fasttext 模型是 2017 年Facebook 公司 AI 团队提出的一种快速文本分类的模型。其基本架构如图 4 所示，它包含 3 个部分：input layer 输入层、hidden layer 隐藏层和output layer 输出层。首先；输入层的 x1,x2,…,xN−1,xN 表示一个文本中的N 个 n-gram 向量。其次，隐藏层将向量特征求和取平均，并采用单层神经网络学习。最后在输出层，通过一个线性分类器，输出一个文本分别属于各类别的概率[8]。

在这里插入图片描述

图 4 Fasttext 文本分类模型的基本结构

在这里插入图片描述
表 2: LSTM 与 Fasttext 模型的超参数设置情况

LSTM 和 Fasttext 模型超参数设置情况如表 2 所示。BERT 模型与上述两个基线模型均使用相同的训练、验证、测试集。

文本分类通用评价指标为查准率（Precision, P）、查全率（Recall, R）与 F1值。如表 3 所示，各模型在测试集上预测了每条留言所属的类别后，可以得到一个分类结果的混淆矩阵：

在这里插入图片描述表 3 分类结果混淆矩阵

已知每一类的混淆矩阵后，该类的查准率、查全率如下两式计算：

查准率 P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP

查全率 R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP

F1 值综合了上述两个指标，是它们的调和均值：
F 1 = 2 ∗ P ∗ R P + R F1=\frac{2*P*R}{P+R} F1=P+R2∗P∗R

如果要评测一个模型在综合的分类能力，可用F-Score 衡量：

F − s c o r e = 1 n ∑ i = 1 n 2 P i R i P i + R i F-score =\frac{1}{n}\sum_{i=1}^n \frac{2P_iR_i}{P_i+R_i} F−score=n1i=1∑nPi+Ri2PiRi

其中 n 为类别数量，

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

泰迪杯论文