逐步视频讲解--用Tensorflow进行中文自然语言处理--情感分析

2023-11-17

本教程为原创，转载请注明教学视频地址，

视频教程链接：https://www.bilibili.com/video/av30543613

书面教程和代码链接：https://github.com/aespresso/chinese_sentiment 如果想在本地运行代码，请下载书面教程中的词向量库，并解压"语料.zip"覆盖根目录

用Tensorflow进行中文自然语言处理--情感分析
f(′真好喝′)=1
f(′太难喝了′)=0
简介
大家好，我是Espresso，这是我制作的第一个教程，是一个简单的中文自然语言处理的分类实践。
制作此教程的目的是什么呢？虽然现在自然语言处理的学习资料很多，英文的资料更多，但是网上资源很乱，尤其是中文的系统的学习资料稀少，而且知识点非常分散，缺少比较系统的实践学习资料，就算有一些代码但因为缺少注释导致要花费很长时间才能理解，我个人在学习过程中，在网络搜索花费了一整天时间，才把处理中文的步骤和需要的软件梳理出来。
所以我觉得自己有义务制作一个入门教程把零散的资料结合成一个实践案例方便各位同学学习，在这个教程中我注重的是实践部分，理论部分我推荐学习deeplearning.ai的课程，在下面的代码部分，涉及到哪方面知识的，我推荐一些学习资料并附上链接，如有侵权请e-mail：a66777@188.com。
另外我对自然语言处理并没有任何深入研究，欢迎各位大牛吐槽，希望能指出不足和改善方法。
需要的库
numpy
jieba
gensim
tensorflow
matplotlib
In [2]:

# 首先加载必用的库
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import re
import jieba # 结巴分词
# gensim用来加载预训练word vector
from gensim.models import KeyedVectors
import warnings
warnings.filterwarnings("ignore")
c:\users\jinan\appdata\local\programs\python\python36\lib\site-packages\gensim\utils.py:1209: UserWarning: detected Windows; aliasing chunkize to chunkize_serial
  warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")
预训练词向量
本教程使用了北京师范大学中文信息处理研究所与中国人民大学 DBIIR 实验室的研究者开源的"chinese-word-vectors" github链接为：
https://github.com/Embedding/Chinese-Word-Vectors
如果你不知道word2vec是什么，我推荐以下一篇文章：
https://zhuanlan.zhihu.com/p/26306795
这里我们使用了"chinese-word-vectors"知乎Word + Ngram的词向量，可以从上面github链接下载，我们先加载预训练模型并进行一些简单测试：
In [3]:

# 使用gensim加载预训练中文分词embedding
cn_model = KeyedVectors.load_word2vec_format('chinese_word_vectors/sgns.zhihu.bigram', 
                                          binary=False)
词向量模型
在这个词向量模型里，每一个词是一个索引，对应的是一个长度为300的向量，我们今天需要构建的LSTM神经网络模型并不能直接处理汉字文本，需要先进行分次并把词汇转换为词向量，步骤请参考下图，步骤的讲解会跟着代码一步一步来，如果你不知道RNN，GRU，LSTM是什么，我推荐deeplearning.ai的课程，网易公开课有免费中文字幕版，但我还是推荐有习题和练习代码部分的的coursera原版：

In [29]:

# 由此可见每一个词都对应一个长度为300的向量
embedding_dim = cn_model['山东大学'].shape[0]
print('词向量的长度为{}'.format(embedding_dim))
cn_model['山东大学']
词向量的长度为300
Out[29]:
array([-2.603470e-01,  3.677500e-01, -2.379650e-01,  5.301700e-02,
       -3.628220e-01, -3.212010e-01, -1.903330e-01,  1.587220e-01,
       -7.156200e-02, -4.625400e-02, -1.137860e-01,  3.515600e-01,
       -6.408200e-02, -2.184840e-01,  3.286950e-01, -7.110330e-01,
        1.620320e-01,  1.627490e-01,  5.528180e-01,  1.016860e-01,
        1.060080e-01,  7.820700e-01, -7.537310e-01, -2.108400e-02,
       -4.758250e-01, -1.130420e-01, -2.053000e-01,  6.624390e-01,
        2.435850e-01,  9.171890e-01, -2.090610e-01, -5.290000e-02,
       -7.969340e-01,  2.394940e-01, -9.028100e-02,  1.537360e-01,
       -4.003980e-01, -2.456100e-02, -1.717860e-01,  2.037790e-01,
       -4.344710e-01, -3.850430e-01, -9.366000e-02,  3.775310e-01,
        2.659690e-01,  8.879800e-02,  2.493440e-01,  4.914900e-02,
        5.996000e-03,  3.586430e-01, -1.044960e-01, -5.838460e-01,
        3.093280e-01, -2.828090e-01, -8.563400e-02, -5.745400e-02,
       -2.075230e-01,  2.845980e-01,  1.414760e-01,  1.678570e-01,
        1.957560e-01,  7.782140e-01, -2.359000e-01, -6.833100e-02,
        2.560170e-01, -6.906900e-02, -1.219620e-01,  2.683020e-01,
        1.678810e-01,  2.068910e-01,  1.987520e-01,  6.720900e-02,
       -3.975290e-01, -7.123140e-01,  5.613200e-02,  2.586000e-03,
        5.616910e-01,  1.157000e-03, -4.341190e-01,  1.977480e-01,
        2.519540e-01,  8.835000e-03, -3.554600e-01, -1.573500e-02,
       -2.526010e-01,  9.355900e-02, -3.962500e-02, -1.628350e-01,
        2.980950e-01,  1.647900e-01, -5.454270e-01,  3.888790e-01,
        1.446840e-01, -7.239600e-02, -7.597800e-02, -7.803000e-03,
        2.020520e-01, -4.424750e-01,  3.911580e-01,  2.115100e-01,
        6.516760e-01,  5.668030e-01,  5.065500e-02, -1.259650e-01,
       -3.720640e-01,  2.330470e-01,  6.659900e-02,  8.300600e-02,
        2.540460e-01, -5.279760e-01, -3.843280e-01,  3.366460e-01,
        2.336500e-01,  3.564750e-01, -4.884160e-01, -1.183910e-01,
        1.365910e-01,  2.293420e-01, -6.151930e-01,  5.212050e-01,
        3.412000e-01,  5.757940e-01,  2.354480e-01, -3.641530e-01,
        7.373400e-02,  1.007380e-01, -3.211410e-01, -3.040480e-01,
       -3.738440e-01, -2.515150e-01,  2.633890e-01,  3.995490e-01,
        4.461880e-01,  1.641110e-01,  1.449590e-01, -4.191540e-01,
        2.297840e-01,  6.710600e-02,  3.316430e-01, -6.026500e-02,
       -5.130610e-01,  1.472570e-01,  2.414060e-01,  2.011000e-03,
       -3.823410e-01, -1.356010e-01,  3.112300e-01,  9.177830e-01,
       -4.511630e-01,  1.272190e-01, -9.431600e-02, -8.216000e-03,
       -3.835440e-01,  2.589400e-02,  6.374980e-01,  4.931630e-01,
       -1.865070e-01,  4.076900e-01, -1.841000e-03,  2.213160e-01,
        2.253950e-01, -2.159220e-01, -7.611480e-01, -2.305920e-01,
        1.296890e-01, -1.304100e-01, -4.742270e-01,  2.275500e-02,
        4.255050e-01,  1.570280e-01,  2.975300e-02,  1.931830e-01,
        1.304340e-01, -3.179800e-02,  1.516650e-01, -2.154310e-01,
       -4.681410e-01,  1.007326e+00, -6.698940e-01, -1.555240e-01,
        1.797170e-01,  2.848660e-01,  6.216130e-01,  1.549510e-01,
        6.225000e-02, -2.227800e-02,  2.561270e-01, -1.006380e-01,
        2.807900e-02,  4.597710e-01, -4.077750e-01, -1.777390e-01,
        1.920500e-02, -4.829300e-02,  4.714700e-02, -3.715200e-01,
       -2.995930e-01, -3.719710e-01,  4.622800e-02, -1.436460e-01,
        2.532540e-01, -9.334000e-02, -4.957400e-02, -3.803850e-01,
        5.970110e-01,  3.578450e-01, -6.826000e-02,  4.735200e-02,
       -3.707590e-01, -8.621300e-02, -2.556480e-01, -5.950440e-01,
       -4.757790e-01,  1.079320e-01,  9.858300e-02,  8.540300e-01,
        3.518370e-01, -1.306360e-01, -1.541590e-01,  1.166775e+00,
        2.048860e-01,  5.952340e-01,  1.158830e-01,  6.774400e-02,
        6.793920e-01, -3.610700e-01,  1.697870e-01,  4.118530e-01,
        4.731000e-03, -7.516530e-01, -9.833700e-02, -2.312220e-01,
       -7.043300e-02,  1.576110e-01, -4.780500e-02, -7.344390e-01,
       -2.834330e-01,  4.582690e-01,  3.957010e-01, -8.484300e-02,
       -3.472550e-01,  1.291660e-01,  3.838960e-01, -3.287600e-02,
       -2.802220e-01,  5.257030e-01, -3.609300e-02, -4.842220e-01,
        3.690700e-02,  3.429560e-01,  2.902490e-01, -1.624650e-01,
       -7.513700e-02,  2.669300e-01,  5.778230e-01, -3.074020e-01,
       -2.183790e-01, -2.834050e-01,  1.350870e-01,  1.490070e-01,
        1.438400e-02, -2.509040e-01, -3.376100e-01,  1.291880e-01,
       -3.808700e-01, -4.420520e-01, -2.512300e-01, -1.328990e-01,
       -1.211970e-01,  2.532660e-01,  2.757050e-01, -3.382040e-01,
        1.178070e-01,  3.860190e-01,  5.277960e-01,  4.581920e-01,
        1.502310e-01,  1.226320e-01,  2.768540e-01, -4.502080e-01,
       -1.992670e-01,  1.689100e-02,  1.188860e-01,  3.502440e-01,
       -4.064770e-01,  2.610280e-01, -1.934990e-01, -1.625660e-01,
        2.498400e-02, -1.867150e-01, -1.954400e-02, -2.281900e-01,
       -3.417670e-01, -5.222770e-01, -9.543200e-02, -3.500350e-01,
        2.154600e-02,  2.318040e-01,  5.395310e-01, -4.223720e-01],
      dtype=float32)
Cosine Similarity for Vector Space Models by Christian S. Perone http://blog.christianperone.com/2013/09/machine-learning-cosine-similarity-for-vector-space-models-part-iii/
In [33]:

# 计算相似度
cn_model.similarity('橘子', '橙子')
Out[33]:
0.66128117
In [34]:

# dot（'橘子'/|'橘子'|， '橙子'/|'橙子'| ）
np.dot(cn_model['橘子']/np.linalg.norm(cn_model['橘子']), 
cn_model['橙子']/np.linalg.norm(cn_model['橙子']))
Out[34]:
0.66128117
In [35]:

# 找出最相近的词，余弦相似度
cn_model.most_similar(positive=['大学'], topn=10)
Out[35]:
[('高中', 0.7247823476791382),
 ('本科', 0.6768535375595093),
 ('研究生', 0.6244412660598755),
 ('中学', 0.6088204979896545),
 ('大学本科', 0.595908522605896),
 ('初中', 0.5883588790893555),
 ('读研', 0.5778335332870483),
 ('职高', 0.5767995119094849),
 ('大学毕业', 0.5767451524734497),
 ('师范大学', 0.5708829760551453)]
In [36]:

# 找出不同的词
test_words = '老师 会计师 程序员 律师 医生 老人'
test_words_result = cn_model.doesnt_match(test_words.split())
print('在 '+test_words+' 中:\n不是同一类别的词为: %s' %test_words_result)
在 老师 会计师 程序员 律师 医生 老人 中:
不是同一类别的词为: 老人
In [ ]:

cn_model.most_similar(positive=['女人','出轨'], negative=['男人'], topn=1)
训练语料
本教程使用了谭松波老师的酒店评论语料，即使是这个语料也很难找到下载链接，在某博客还得花积分下载，而我不知道怎么赚取积分，后来好不容易找到一个链接但竟然是失效的，再后来尝试把链接粘贴到迅雷上终于下载了下来，希望大家以后多多分享资源。
训练样本分别被放置在两个文件夹里： 分别的pos和neg，每个文件夹里有2000个txt文件，每个文件内有一段评语，共有4000个训练样本，这样大小的样本数据在NLP中属于非常迷你的：
In [38]:

# 获得样本的索引，样本存放于两个文件夹中，
# 分别为 正面评价'pos'文件夹 和 负面评价'neg'文件夹
# 每个文件夹中有2000个txt文件，每个文件中是一例评价
import os
pos_txts = os.listdir('pos')
neg_txts = os.listdir('neg')
In [39]:

print( '样本总共: '+ str(len(pos_txts) + len(neg_txts)) )
样本总共: 4000
In [40]:

# 现在我们将所有的评价内容放置到一个list里

train_texts_orig = [] # 存储所有评价，每例评价为一条string

# 添加完所有样本之后，train_texts_orig为一个含有4000条文本的list
# 其中前2000条文本为正面评价，后2000条为负面评价

for i in range(len(pos_txts)):
    with open('pos/'+pos_txts[i], 'r', errors='ignore') as f:
        text = f.read().strip()
        train_texts_orig.append(text)
        f.close()
for i in range(len(neg_txts)):
    with open('neg/'+neg_txts[i], 'r', errors='ignore') as f:
        text = f.read().strip()
        train_texts_orig.append(text)
        f.close()
In [41]:

len(train_texts_orig)
Out[41]:
4000
In [42]:

# 我们使用tensorflow的keras接口来建模
from tensorflow.python.keras.models import Sequential
from tensorflow.python.keras.layers import Dense, GRU, Embedding, LSTM, Bidirectional
from tensorflow.python.keras.preprocessing.text import Tokenizer
from tensorflow.python.keras.preprocessing.sequence import pad_sequences
from tensorflow.python.keras.optimizers import RMSprop
from tensorflow.python.keras.optimizers import Adam
from tensorflow.python.keras.callbacks import EarlyStopping, ModelCheckpoint, TensorBoard, ReduceLROnPlateau
分词和tokenize
首先我们去掉每个样本的标点符号，然后用jieba分词，jieba分词返回一个生成器，没法直接进行tokenize，所以我们将分词结果转换成一个list，并将它索引化，这样每一例评价的文本变成一段索引数字，对应着预训练词向量模型中的词。
In [43]:

# 进行分词和tokenize
# train_tokens是一个长长的list，其中含有4000个小list，对应每一条评价
train_tokens = []
for text in train_texts_orig:
    # 去掉标点
    text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。？、~@#￥%……&*（）]+", "",text)
    # 结巴分词
    cut = jieba.cut(text)
    # 结巴分词的输出结果为一个生成器
    # 把生成器转换为list
    cut_list = [ i for i in cut ]
    for i, word in enumerate(cut_list):
        try:
            # 将词转换为索引index
            cut_list[i] = cn_model.vocab[word].index
        except KeyError:
            # 如果词不在字典中，则输出0
            cut_list[i] = 0
    train_tokens.append(cut_list)
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\jinan\AppData\Local\Temp\jieba.cache
Loading model cost 0.672 seconds.
Prefix dict has been built succesfully.
索引长度标准化
因为每段评语的长度是不一样的，我们如果单纯取最长的一个评语，并把其他评填充成同样的长度，这样十分浪费计算资源，所以我们取一个折衷的长度。
In [44]:

# 获得所有tokens的长度
num_tokens = [ len(tokens) for tokens in train_tokens ]
num_tokens = np.array(num_tokens)
In [45]:

# 平均tokens的长度
np.mean(num_tokens)
Out[45]:
71.4495
In [46]:

# 最长的评价tokens的长度
np.max(num_tokens)
Out[46]:
1540
In [89]:

plt.hist(np.log(num_tokens), bins = 100)
plt.xlim((0,10))
plt.ylabel('number of tokens')
plt.xlabel('length of tokens')
plt.title('Distribution of tokens length')
plt.show()

In [48]:

# 取tokens平均值并加上两个tokens的标准差，
# 假设tokens长度的分布为正态分布，则max_tokens这个值可以涵盖95%左右的样本
max_tokens = np.mean(num_tokens) + 2 * np.std(num_tokens)
max_tokens = int(max_tokens)
max_tokens
Out[48]:
236
In [49]:

# 取tokens的长度为236时，大约95%的样本被涵盖
# 我们对长度不足的进行padding，超长的进行修剪
np.sum( num_tokens < max_tokens ) / len(num_tokens)
Out[49]:
0.9565
反向tokenize
我们定义一个function，用来把索引转换成可阅读的文本，这对于debug很重要。
In [50]:

# 用来将tokens转换为文本
def reverse_tokens(tokens):
    text = ''
    for i in tokens:
        if i != 0:
            text = text + cn_model.index2word[i]
        else:
            text = text + ' '
    return text
In [51]:

reverse = reverse_tokens(train_tokens[0])
以下可见，训练样本的极性并不是那么精准，比如说下面的样本，对早餐并不满意，但被定义为正面评价，这会迷惑我们的模型，不过我们暂时不对训练样本进行任何修改。
In [52]:

# 经过tokenize再恢复成文本
# 可见标点符号都没有了
reverse
Out[52]:
'早餐太差无论去多少人那边也不加食品的酒店应该重视一下这个问题了房间本身很好'
In [53]:

# 原始文本
train_texts_orig[0]
Out[53]:
'早餐太差，无论去多少人，那边也不加食品的。酒店应该重视一下这个问题了。\n\n房间本身很好。'
准备Embedding Matrix
现在我们来为模型准备embedding matrix（词向量矩阵），根据keras的要求，我们需要准备一个维度为(numwords,embeddingdim)
的矩阵，num words代表我们使用的词汇的数量，emdedding dimension在我们现在使用的预训练词向量模型中是300，每一个词汇都用一个长度为300的向量表示。
注意我们只选择使用前50k个使用频率最高的词，在这个预训练词向量模型中，一共有260万词汇量，如果全部使用在分类问题上会很浪费计算资源，因为我们的训练样本很小，一共只有4k，如果我们有100k，200k甚至更多的训练样本时，在分类问题上可以考虑减少使用的词汇量。
In [90]:

embedding_dim
Out[90]:
300
In [55]:

# 只使用前20000个词
num_words = 50000
# 初始化embedding_matrix，之后在keras上进行应用
embedding_matrix = np.zeros((num_words, embedding_dim))
# embedding_matrix为一个 [num_words，embedding_dim] 的矩阵
# 维度为 50000 * 300
for i in range(num_words):
    embedding_matrix[i,:] = cn_model[cn_model.index2word[i]]
embedding_matrix = embedding_matrix.astype('float32')
In [56]:

# 检查index是否对应，
# 输出300意义为长度为300的embedding向量一一对应
np.sum( cn_model[cn_model.index2word[333]] == embedding_matrix[333] )
Out[56]:
300
In [57]:

# embedding_matrix的维度，
# 这个维度为keras的要求，后续会在模型中用到
embedding_matrix.shape
Out[57]:
(50000, 300)
padding（填充）和truncating（修剪）
我们把文本转换为tokens（索引）之后，每一串索引的长度并不相等，所以为了方便模型的训练我们需要把索引的长度标准化，上面我们选择了236这个可以涵盖95%训练样本的长度，接下来我们进行padding和truncating，我们一般采用'pre'的方法，这会在文本索引的前面填充0，因为根据一些研究资料中的实践，如果在文本索引后面填充0的话，会对模型造成一些不良影响。
In [58]:

# 进行padding和truncating， 输入的train_tokens是一个list
# 返回的train_pad是一个numpy array
train_pad = pad_sequences(train_tokens, maxlen=max_tokens,
                            padding='pre', truncating='pre')
In [59]:

# 超出五万个词向量的词用0代替
train_pad[ train_pad>=num_words ] = 0
In [60]:

# 可见padding之后前面的tokens全变成0，文本在最后面
train_pad[33]
Out[60]:
array([    0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
           0,     0,     0,     0,     0,     0,     0,     0,     0,
         290,  3053,    57,   169,    73,     1,    25, 11216,    49,
         163, 15985,     0,     0,    30,     8,     0,     1,   228,
         223,    40,    35,   653,     0,     5,  1642,    29, 11216,
        2751,   500,    98,    30,  3159,  2225,  2146,   371,  6285,
         169, 27396,     1,  1191,  5432,  1080, 20055,    57,   562,
           1, 22671,    40,    35,   169,  2567,     0, 42665,  7761,
         110,     0,     0, 41281,     0,   110,     0, 35891,   110,
           0, 28781,    57,   169,  1419,     1, 11670,     0, 19470,
           1,     0,     0,   169, 35071,    40,   562,    35, 12398,
         657,  4857])
In [61]:

# 准备target向量，前2000样本为1，后2000为0
train_target = np.concatenate( (np.ones(2000),np.zeros(2000)) )
In [62]:

# 进行训练和测试样本的分割
from sklearn.model_selection import train_test_split
In [63]:

# 90%的样本用来训练，剩余10%用来测试
X_train, X_test, y_train, y_test = train_test_split(train_pad,
                                                    train_target,
                                                    test_size=0.1,
                                                    random_state=12)
In [64]:

# 查看训练样本，确认无误
print(reverse_tokens(X_train[35]))
print('class: ',y_train[35])
                                                                                                                                                                                                                        房间很大还有海景阳台走出酒店就是沙滩非常不错唯一遗憾的就是不能刷 不方便
class:  1.0
现在我们用keras搭建LSTM模型，模型的第一层是Embedding层，只有当我们把tokens索引转换为词向量矩阵之后，才可以用神经网络对文本进行处理。 keras提供了Embedding接口，避免了繁琐的稀疏矩阵操作。
在Embedding层我们输入的矩阵为：
(batchsize,maxtokens)
输出矩阵为：
(batchsize,maxtokens,embeddingdim)
In [65]:

# 用LSTM对样本进行分类
model = Sequential()
In [66]:

# 模型第一层为embedding
model.add(Embedding(num_words,
                    embedding_dim,
                    weights=[embedding_matrix],
                    input_length=max_tokens,
                    trainable=False))
In [67]:

model.add(Bidirectional(LSTM(units=32, return_sequences=True)))
model.add(LSTM(units=16, return_sequences=False))
构建模型
我在这个教程中尝试了几种神经网络结构，因为训练样本比较少，所以我们可以尽情尝试，训练过程等待时间并不长：
GRU：如果使用GRU的话，测试样本可以达到87%的准确率，但我测试自己的文本内容时发现，GRU最后一层激活函数的输出都在0.5左右，说明模型的判断不是很明确，信心比较低，而且经过测试发现模型对于否定句的判断有时会失误，我们期望对于负面样本输出接近0，正面样本接近1而不是都徘徊于0.5之间。
BiLSTM：测试了LSTM和BiLSTM，发现BiLSTM的表现最好，LSTM的表现略好于GRU，这可能是因为BiLSTM对于比较长的句子结构有更好的记忆，有兴趣的朋友可以深入研究一下。
Embedding之后第，一层我们用BiLSTM返回sequences，然后第二层16个单元的LSTM不返回sequences，只返回最终结果，最后是一个全链接层，用sigmoid激活函数输出结果。
In [68]:

# GRU的代码
# model.add(GRU(units=32, return_sequences=True))
# model.add(GRU(units=16, return_sequences=True))
# model.add(GRU(units=4, return_sequences=False))
In [69]:

model.add(Dense(1, activation='sigmoid'))
# 我们使用adam以0.001的learning rate进行优化
optimizer = Adam(lr=1e-3)
In [70]:

model.compile(loss='binary_crossentropy',
              optimizer=optimizer,
              metrics=['accuracy'])
In [71]:

# 我们来看一下模型的结构，一共90k左右可训练的变量
model.summary()
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
embedding_1 (Embedding)      (None, 236, 300)          15000000  
_________________________________________________________________
bidirectional_1 (Bidirection (None, 236, 64)           85248     
_________________________________________________________________
lstm_2 (LSTM)                (None, 16)                5184      
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 17        
=================================================================
Total params: 15,090,449
Trainable params: 90,449
Non-trainable params: 15,000,000
_________________________________________________________________
In [72]:

# 建立一个权重的存储点
path_checkpoint = 'sentiment_checkpoint.keras'
checkpoint = ModelCheckpoint(filepath=path_checkpoint, monitor='val_loss',
                                      verbose=1, save_weights_only=True,
                                      save_best_only=True)
In [73]:

# 尝试加载已训练模型
try:
    model.load_weights(path_checkpoint)
except Exception as e:
    print(e)
In [74]:

# 定义early stoping如果3个epoch内validation loss没有改善则停止训练
earlystopping = EarlyStopping(monitor='val_loss', patience=3, verbose=1)
In [75]:

# 自动降低learning rate
lr_reduction = ReduceLROnPlateau(monitor='val_loss',
                                       factor=0.1, min_lr=1e-5, patience=0,
                                       verbose=1)
In [76]:

# 定义callback函数
callbacks = [
    earlystopping, 
    checkpoint,
    lr_reduction
]
In [77]:

# 开始训练
model.fit(X_train, y_train,
          validation_split=0.1, 
          epochs=20,
          batch_size=128,
          callbacks=callbacks)
结论
我们首先对测试样本进行预测，得到了还算满意的准确度。
之后我们定义一个预测函数，来预测输入的文本的极性，可见模型对于否定句和一些简单的逻辑结构都可以进行准确的判断。
In [78]:

result = model.evaluate(X_test, y_test)
print('Accuracy:{0:.2%}'.format(result[1]))
400/400 [==============================] - 5s 12ms/step
Accuracy:87.50%
In [79]:

def predict_sentiment(text):
    print(text)
    # 去标点
    text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。？、~@#￥%……&*（）]+", "",text)
    # 分词
    cut = jieba.cut(text)
    cut_list = [ i for i in cut ]
    # tokenize
    for i, word in enumerate(cut_list):
        try:
            cut_list[i] = cn_model.vocab[word].index
        except KeyError:
            cut_list[i] = 0
    # padding
    tokens_pad = pad_sequences([cut_list], maxlen=max_tokens,
                           padding='pre', truncating='pre')
    # 预测
    result = model.predict(x=tokens_pad)
    coef = result[0][0]
    if coef >= 0.5:
        print('是一例正面评价','output=%.2f'%coef)
    else:
        print('是一例负面评价','output=%.2f'%coef)
In [80]:

test_list = [
    '酒店设施不是新的，服务态度很不好',
    '酒店卫生条件非常不好',
    '床铺非常舒适',
    '房间很凉，不给开暖气',
    '房间很凉爽，空调冷气很足',
    '酒店环境不好，住宿体验很不好',
    '房间隔音不到位' ,
    '晚上回来发现没有打扫卫生',
    '因为过节所以要我临时加钱，比团购的价格贵'
]
for text in test_list:
    predict_sentiment(text)
酒店设施不是新的，服务态度很不好
是一例负面评价 output=0.14
酒店卫生条件非常不好
是一例负面评价 output=0.09
床铺非常舒适
是一例正面评价 output=0.76
房间很凉，不给开暖气
是一例负面评价 output=0.17
房间很凉爽，空调冷气很足
是一例正面评价 output=0.66
酒店环境不好，住宿体验很不好
是一例负面评价 output=0.06
房间隔音不到位
是一例负面评价 output=0.17
晚上回来发现没有打扫卫生
是一例负面评价 output=0.25
因为过节所以要我临时加钱，比团购的价格贵
是一例负面评价 output=0.06
错误分类的文本 经过查看，发现错误分类的文本的含义大多比较含糊，就算人类也不容易判断极性，如index为101的这个句子，好像没有一点满意的成分，但这例子评价在训练样本中被标记成为了正面评价，而我们的模型做出的负面评价的预测似乎是合理的。
In [81]:

y_pred = model.predict(X_test)
y_pred = y_pred.T[0]
y_pred = [1 if p>= 0.5 else 0 for p in y_pred]
y_pred = np.array(y_pred)
In [82]:

y_actual = np.array(y_test)
In [83]:

# 找出错误分类的索引
misclassified = np.where( y_pred != y_actual )[0]
In [92]:

# 输出所有错误分类的索引
len(misclassified)
print(len(X_test))
400
In [85]:

# 我们来找出错误分类的样本看看
idx=101
print(reverse_tokens(X_test[idx]))
print('预测的分类', y_pred[idx])
print('实际的分类', y_actual[idx])
                                                                                                                                                        由于2007年 有一些新问题可能还没来得及解决我因为工作需要经常要住那里所以慎重的提出以下 ：1 后 的 淋浴喷头的位置都太高我换了房间还是一样很不好用2 后的一些管理和服务还很不到位尤其是前台入住和 时代效率太低每次 都超过10分钟好像不符合 宾馆的要求
预测的分类 0
实际的分类 1.0
In [86]:

idx=1
print(reverse_tokens(X_test[idx]))
print('预测的分类', y_pred[idx])
print('实际的分类', y_actual[idx])
                                                                                                                                                                                                                 还是很 设施也不错但是 和以前 比急剧下滑了 和客房 的服务极差幸好我不是很在乎
预测的分类 0
实际的分类 1.0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

tensorflow

中文自然语言处理

Keras

词向量

逐步视频讲解--用Tensorflow进行中文自然语言处理--情感分析的相关文章

Tensorflow conv2d_transpose 大小错误“out_backprop 的行数与计算的不匹配”

我正在张量流中创建一个卷积自动编码器我得到了这个确切的错误 tensorflow python framework errors InvalidArgumentError Conv2DBackpropInput Number of row
LibreOffice 并行将 .docx 转换为 .pdf 效果不佳

我有很多 docx 文件需要转换为 pdf 将它们一一转换需要很长时间所以我编写了一个 python 脚本来并行转换它们 from subprocess import Popen import time import os os chdi
ValueError：请使用“Layer”实例初始化“TimeDistributed”层

我正在尝试构建一个可以在音频和视频样本上进行训练的模型但出现此错误ValueError Please initialize TimeDistributed layer with a Layer instance You passed Te
如何使用 python 的 http.client 准确读取一个响应块？

Using http client在 Python 3 3 或任何其他内置 python HTTP 客户端库中如何一次读取一个分块 HTTP 响应一个 HTTP 块我正在扩展现有的测试装置使用 python 编写 http clie
如何调整 matplotlib 单选按钮的大小和纵横比？

我已经尝试了几个小时来使简单的单选按钮列表的大小和纵横比正确但没有成功首先导入模块 import matplotlib pyplot as plt from matplotlib widgets import RadioButtons
如何使用 Python boto3 获取 redshift 中的列名称

我想使用 python boto3 获取 redshift 中的列名称创建Redshift集群将数据插入其中配置的机密管理器配置 SageMaker 笔记本打开Jupyter Notebook写入以下代码 import boto3
使用 Python 3 动态插入到 sqlite

我想使用 sqlite 写入多个表但我不想提前手动指定查询有数十种可能的排列例如 def insert sqlite tablename data list global dbc dbc execute insert into tab
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
以类型化内存视图作为成员的结构定义

目前我正在尝试让一个具有类型化内存视图的结构能够工作例如 ctypedef struct node unsigned int inds 如果 inds 不是内存视图据我所知它可以完美地工作然而通过内存视图并使用类似的东西 def
将 pandas 剪切操作转换为常规字符串

我明白了 pandas cut 操作的输出 0 0 20 1 0 20 2 0 20 3 0 20 4 0 20 5 0 20 6 0 20 7 0 20 8 0 20 9 0 20 如何将 0 20 转换为 0 20 我正在这样做 str
如何使用 opencv python 计算乐高积木上的孔数？

我正在开发我的 python 项目我需要计算每个乐高积木组件中有多少个孔我将从输入 json 文件中获取有关需要计算哪个程序集的信息如下所示 img 001 red 0 blue 2 white 1 grey 1 yellow 1 r
Jupyter 笔记本中未显示绘图图表

我已经尝试解决这个问题几个小时了我按照上面的步骤操作情节网站 https plot ly python getting started start plotting online并且图表仍然没有显示在笔记本中这是我的情节代码 color
NumPy 相当于 Keras 函数 utils.to_categorical

我有一个使用 Keras 进行机器学习的 Python 脚本我正在构建 X 和 Y 它们分别是特征和标签标签的构建方式如下 def main depth 10 nclass 101 skip True output True video
numpy：如何连接数组？（获得多个范围的并集）

我使用Pythonnumpy 我有一个 numpy 索引数组a gt gt gt a array 5 7 12 18 20 29 gt gt gt type a
无法在 PyCharm 版本 9.3.3 中安装 NumPy。 Python版本3.8.2

在 PyCharm 中安装 NumPy 时出错尝试安装 Microsoft Visual C 14 0 还是行不通 NumPy 正在通过命令安装pip3 install numpy在 cmd 终端中但是当尝试将其安装在 PyCharm
确定分割形状几何体的“左”侧和“右”侧

我的问题是我怎样才能确定哪一个Aside and Bside的侧面已经分割的旋转矩形几何体 http nbviewer jupyter org urls dl dropbox com s ll3mchnx0jwzjnf determine
仅允许正小数

在我的 Django 模型中我创建了一个如下所示的小数字段 price models DecimalField u Price decimal places 2 max digits 12 显然价格为负或零是没有意义的有没有办法将小数
django jet 中的自定义徽标

我目前正在尝试对 django 管理面板的皮肤进行一些定制以使其更符合我们的品牌目前我们使用 django jet 来美化管理面板 django jet 可以自定义 css html 吗所有评论都说我应该更改一些 html 文件但我
Python 中的 Unix cat 函数 (cat * > merged.txt)？ [复制]

这个问题在这里已经有答案了一旦建立了目录有没有办法在Python中使用Unix中的cat函数或类似的函数我想将 files 1 3 合并到 merged txt 我通常会在 Unix 中找到该目录然后运行 cat gt merged
描述符“join”需要“unicode”对象，但收到“str”

代码改编自here http wiki geany org howtos convert camelcase from foo bar to Foo Bar def lower case underscore to camel case s

随机推荐

一个数组中有N个数，要求去除其中重复的数字（重复的数字只保留一个）

算法思想 include
【荣耀机试题】（2022.4.9）超级左旋

超级左旋题目小立是一个乒乓球手他的超级左旋非常强大小立给自己制定了一份n天的训练计划来锻炼超级左旋并旦他每天会记录下失误的次数每天的训练结束后小立都会进行反思自己是否退步之前每有一天的失误次数比今天的多都会使他的能力值
剑指 Offer 31. 栈的压入、弹出序列

栈的压入弹出序列思路解题 package swordPointingToTheOffer import java util Stack public class ThirtyOne param pushed 入栈的序列 param p
2013春季巡讲讲稿—从大学生到CTO—肖江—西南大学CSDN高校俱乐部

巡讲主题从大学生到CTO 巡讲讲师肖江推荐阅读对象对创业感兴趣对编程感兴趣的学生主要内容讲述自身的经历从一个普通的大学生到现在电商企业的CTO 一路走来经历的各种事情以及很多的工作经历其中最宝贵的是肖江老师分享他好几次
Druid LogFilter输出可执行的SQL

配置测试代码 DruidDataSource dataSource new DruidDataSource dataSource setUrl xxx dataSource setUsername xxx dataSource setPa
mysql非安装板启动的问题 err1067

链接
包装类&简单认识泛型（数据结构系列2）

目录前言 1 泛型 1 1什么是泛型 1 2为什么要使用泛型 1 3泛型的语法及使用 1 4泛型是如何编译的 1 4 1擦除机制 1 5泛型类的上界 1 6为什么不能实例化泛型类数组 1 7泛型方法 2 包装类 2 1基本数据类型所对应的
华为OD机试真题-补种未成活胡杨-2023年OD统一考试（B卷）

题目描述近些年来我国防沙治沙取得显著成果某沙漠新种植N棵胡杨编号1 N 排成一排一个月后有M棵胡杨未能成活现可补种胡杨K棵请问如何补种只能补种不能新种可以得到最多的连续胡杨树输入描述 N 总种植数量 1 lt N l
「-2103」： error in line:1 。invalid schema name[***]

create table pfyh emp emp id integer emp name varchar 20 回显 2103 error in line 1 翻译无效的模式名 xxx 的错误行中的错误 1 invalid schem
JAVA 进制转换工具

进制转换工具类 package com import java math BigInteger import java util Arrays ClassName BaseConversionUtils Author Kochiya Dat
实战案例，手把手教你用 Python 构建电商用户画像

大家好本文以真实案为例手把手教你搭建电商系统的用户画像先来看该电商用户画像用到的标签数据内容包括user id 用户身份 item id 商品 IDbehavior type 用户行为类型包含点击收藏加购物车支付四种行为分别
C语言--swap交换函数

目录 1 swap1 int a int b 不变 2 swap2 int a int b 不变 3 swap3 int a int b 改变 4 swap4 int a b 改变 1 swap1 int a int b 不变 void s
conda 创建、激活、查看、删除env

conda 创建激活查看删除env Anaconda能够帮助我们在系统中配置python环境该环境独立于系统配置可以配置不同版本的python包比如我们想要使用不同版本的python来运行程序可以创建不同的conda环境来将不
Centos7安装elasticsearch及kibana并进行安全设置

Centos7安装elasticsearch及kibana并进行安全设置每天多学一点点话不多说这就开始吧文章目录 Centos7安装elasticsearch及kibana并进行安全设置 1 前言 2 环境要求 3 安装elasti
超分辨率数据集（待填坑版）

超分辨率数据集待填坑版数据集来源 Super Resolution 超分辨率 DIV2K Urban100 BSD Berkeley Segmentation Dataset EarVN1 0 TextZoom Cardiac supe
干了六年Android开发现在裸辞失业了，再过2个月就30了，该怎么继续生活？

这是我在某论坛看到别人分享的故事觉得可以展开聊一下对于我们这些中年程序员可以裸辞吗前言首先介绍一下主人公的情况目前所在的是一家小的创业公司待了3年多薪资一般吧之前在一家中型上市企业也干了三年因为想涨薪所以跳到现在这家小公
【数据结构】KMP算法

算法简介传统暴力算法和KMP算法设定主串的长度为n 字串的的长度为m 传统的暴力字符串匹配算法理论上最多需要花费O nm 的时间复杂度才能完成串的匹配操作但是在实际使用中往往也能够以接近O m n 的时间复杂的完成匹配操作因此现在
【js】JSON.stringify 语法实例讲解

语法 JSON stringify value replacer space value 是必选字段就是你输入的对象比如数组类等 replacer 这个是可选的它又分为2种方式一种是数组第二种是方法情况一 replacer为数
Tcp建立连接为什么需要三次握手

前言众所周知tcp传输层协议在建立连接的时候需要三次才能建立起一个真正的可靠连接可是为什么是三次呢不可以是两次四次等等呢可以自己思考一番带着疑问可以看下文三次握手在计算机网络一书中其中有提到三次握手的目的是为了防止已
逐步视频讲解--用Tensorflow进行中文自然语言处理--情感分析

本教程为原创转载请注明教学视频地址视频教程链接 https www bilibili com video av30543613 书面教程和代码链接 https github com aespresso chinese sentiment

逐步视频讲解--用Tensorflow进行中文自然语言处理--情感分析

逐步视频讲解--用Tensorflow进行中文自然语言处理--情感分析 的相关文章

随机推荐

热门标签

逐步视频讲解--用Tensorflow进行中文自然语言处理--情感分析的相关文章