【NLP】主题模型文本分类

2023-05-16

自然语言处理之主题模型文本分类

LDA主题模型

1.主题模型（Topic Model）

主题模型是以非监督学习的方式对文集的隐含语义结构进行聚类的统计模型。主题模型主要被用于自然语言处理中的语义分析和文本挖掘问题，例如按主题对文本进行收集、分类和降维。隐含狄利克雷分布是常见的主题模型。

2.隐含狄利克雷分布LDA（Latent Dirichlet Allocation）

1）贝叶斯模型

LDA模型基于贝叶斯模型，
在这里插入图片描述

2）多项式分布

多项分布，是二项分布扩展到多维的情况。多项分布是指单次试验中的随机变量的取值不再是0-1的，而是有多种离散值可能。概率密度函数为：
在这里插入图片描述

3）狄利克雷分布

Dirichlet的概率密度函数为：

在这里插入图片描述

其中，
在这里插入图片描述

4）共轭分布

在贝叶斯概率理论中，如果后验概率 P ( θ ∣ x ) P(θ|x) P(θ∣x)和先验概率 p ( θ ) p(θ) p(θ)满足同样的分布律，那么，先验分布和后验分布被叫做共轭分布，同时，先验分布叫做似然函数的共轭先验分布。狄利克雷(Dirichlet)分布是多项式分布的共轭分布。

5）LDA主题模型

假设有 M M M篇文档，对应第d个文档中有有 N d N_d Nd个词。

在这里插入图片描述

目标是找到每一篇文档的主题分布和每一个主题中词的分布。在LDA模型中，我们需要先假定一个主题数目 K K K，这样所有的分布就都基于 K K K个主题展开。
在这里插入图片描述

LDA假设文档主题的先验分布是Dirichlet分布，即对于任一文档 d d d, 其主题分布 θ d \theta_d θd为：
θ d = D i r i c h l e t ( α ⃗ ) \theta_d = Dirichlet(\vec \alpha) θd=Dirichlet(α )
其中， α \alpha α为分布的超参数，是一个 K K K维向量。

LDA假设主题中词的先验分布是Dirichlet分布，即对于任一主题 k k k, 其词分布 β k \beta_k βk为：
β k = D i r i c h l e t ( η ⃗ ) \beta_k=Dirichlet(\vec \eta) βk=Dirichlet(η )

其中， η \eta η为分布的超参数，是一个 V V V维向量。 V V V代表词汇表里所有词的个数。

对于数据中任一一篇文档 d d d中的第 n n n个词，我们可以从主题分布 θ d \theta_d θd中得到它的主题编号 z d n z_{dn} zdn的分布为：
z d n = m u l t i ( θ d ) z_{dn} = multi(\theta_d) zdn=multi(θd)

而对于该主题编号，得到我们看到的词 w d n w_{dn} wdn的概率分布为：
w d n = m u l t i ( β z d n ) w_{dn} = multi(\beta_{z_{dn}}) wdn=multi(βzdn)
理解LDA主题模型的主要任务就是理解上面的这个模型。这个模型里，我们有 M M M个文档主题的Dirichlet分布，而对应的数据有 M M M个主题编号的多项分布，这样( α → θ d → z ⃗ d \alpha \to \theta_d \to \vec z_{d} α→θd→z d)就组成了Dirichlet-multi共轭，可以使用前面提到的贝叶斯推断的方法得到基于Dirichlet分布的文档主题后验分布。

如果在第d个文档中，第k个主题的词的个数为： n d ( k ) n_d^{(k)} nd(k), 则对应的多项分布的计数可以表示为
n ⃗ d = ( n d ( 1 ) , n d ( 2 ) , . . . n d ( K ) ) \vec n_d = (n_d^{(1)}, n_d^{(2)},...n_d^{(K)}) n d=(nd(1),nd(2),...nd(K))
利用Dirichlet-multi共轭，得到 θ d \theta_d θd的后验分布为：
D i r i c h l e t ( θ d ∣ α ⃗ + n ⃗ d ) Dirichlet(\theta_d | \vec \alpha +\vec n_d) Dirichlet(θd∣α +n d)
同样的道理，对于主题与词的分布，我们有 K K K个主题与词的Dirichlet分布，而对应的数据有 K K K个主题编号的多项分布，这样( η → β k → w ⃗ ( k ) \eta \to \beta_k \to \vec w_{(k)} η→βk→w (k))就组成了Dirichlet-multi共轭，可以使用前面提到的贝叶斯推断的方法得到基于Dirichlet分布的主题词的后验分布。

如果在第k个主题中，第v个词的个数为： n k ( v ) n_k^{(v)} nk(v), 则对应的多项分布的计数可以表示为
n ⃗ k = ( n k ( 1 ) , n k ( 2 ) , . . . n k ( V ) ) \vec n_k = (n_k^{(1)}, n_k^{(2)},...n_k^{(V)}) n k=(nk(1),nk(2),...nk(V))
利用Dirichlet-multi共轭，得到 β k \beta_k βk的后验分布为：
D i r i c h l e t ( β k ∣ η ⃗ + n ⃗ k ) Dirichlet(\beta_k | \vec \eta+\vec n_k) Dirichlet(βk∣η +n k)
由于主题产生词不依赖具体某一个文档，因此文档主题分布和主题词分布是独立的。

程序实现

运行环境：Anaconda 4.9.2

1.生成段落数据库

在16篇小说中选取了7篇小说在DatabaseChinese中，随机选取三篇，每篇随机抽取不小于500字的段落150段，存到DataExcel中。

def txt_convert_2_excel(file_path, data_path, K=3):
    logging.info('Converting txt to excel...')
    files = []
    for x in os.listdir(file_path):
        files.append(x)
    selected_files = random.sample(files, k=3)

    txt = []
    txtname = []
    n = 150

    for file in selected_files:
        filename = os.path.join(file_path, file)
        with open(filename, 'r', encoding='ANSI') as f:
            full_txt = f.readlines()
            lenth_lines = len(full_txt)
            i = 200
            for j in range(n):
                txt_j = ''
                while(len(txt_j) < 500):
                    txt_j += full_txt[i]
                    i += 1
                txt.append(txt_j)
                txtname.append(file.split('.')[0])
                i += int(lenth_lines / (3 * n))

    dic = {'Content': txt, 'Txtname': txtname}
    df = pd.DataFrame(dic)
    out_path = data_path+'\\data.xlsx'
    df.to_excel(out_path, index=False)
    logging.info('Convert done!')
    return out_path

选取的数据形式如下，

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KGknKLBE-1621347180920)(pic/image-20210428204530774.png)]

2.分词

创建Paragraph类，断句分词。

class Paragraph:
    def __init__(self, txtname='', content='', sentences=[], words=''):
        self.fromtxt = txtname
        self.content = content
        self.sentences = sentences
        self.words = words
        global punctuation
        self.punctuation = punctuation
        global stopwords
        self.stopwords = stopwords

    def sepSentences(self):
        line = ''
        sentences = []
        for w in self.content:
            if w in self.punctuation and line != '\n':
                if line.strip() != '':
                    sentences.append(line.strip())
                    line = ''
            elif w not in self.punctuation:
                line += w
        self.sentences = sentences

    def sepWords(self):
        words = []
        dete_stopwords = 1
        if dete_stopwords:
            for i in range(len(self.sentences)):
                words.extend([x for x in jieba.cut(
                    self.sentences[i]) if x not in self.stopwords])
        else:
            for i in range(len(self.sentences)):
                words.extend([x for x in jieba.cut(self.sentences[i])])
        reswords = ' '.join(words)
        self.words = reswords

3.词频模型

主要参数：特征词数40个。

    cntVector = CountVectorizer(max_features=40)
    cntTf = cntVector.fit_transform(corpus)

4.LDA模型求解

主要参数：主题3个，迭代次数1000次。

    lda = LatentDirichletAllocation(
        n_components=3, learning_offset=50., max_iter=1000, random_state=0)
    docres = lda.fit_transform(cntTf)

5.SVM分类

主要参数：训练集150*0.2=30个段落。

    X = docres
    y = [data_list[i].fromtxt for i in range(len(data_list))]
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
    svm_model = LinearSVC()  # model = SVC()
    svm_model.fit(X_train, y_train)
    y_pred = svm_model.predict(X_test)

6.输出结果

输出：测试集真值与分类估计对比，输出每个主题主要词10个，绘制SVM三维三分类图片结果。

    # show test result
    print('Topic real:', '\t', 'Topic predict:', '\n')
    for i in range(len(y_test)):
        print(y_test[i], '\t', y_pred[i], '\n')

    # show LDA result
    feature_names = cntVector.get_feature_names()
    print_top_words(lda, feature_names, 10)

    # show SVM result
    draw_svm_result(X, y, svm_model)

运行结果

1.笑傲江湖/神雕侠侣/ 射雕英雄传

结果评估：

P r e c i s i o n : 0.962 Precision:0.962 Precision:0.962

R e c a l l : 0.953 Recall:0.953 Recall:0.953

F 1 : 0.956 F1:0.956 F1:0.956

SVM依据LDA降频后特征的分类结果：

主题关键字：

Topic #0:
令狐冲师父剑法岳不群弟子田伯光仪琳师妹长剑便是
Topic #1:
杨过小龙女李莫愁陆无双师父武功当下心中功夫弟子
Topic #2:
郭靖黄蓉欧阳锋丘处机师父心中两人黄药师武功心想

完整代码

https://github.com/AngeloG98/TopicModelLda

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

主题模型文本分类