具体用法我就不赘述了,可以参考中文文档https://keras.io/zh/layers/recurrent/#lstm
我主要记录一下坑,网络结构如下:
model = Sequential()
model.add(Embedding(257, 150, weights=[embedding_matrix], input_length=X.shape[1], trainable=False))
model.add(SpatialDropout1D(0.55))
# return_sequences: 布尔值。是返回输出序列中的最后一个输出,还是全部序列,默认false。
model.add(LSTM(128, dropout=0.2, recurrent_dropout=0.2, input_shape=(1600, 150), return_sequences=True))
model.add(Dense(32))
# model.add(Dense(2, activation='softmax'))
model.add(Dense(1, activation='sigmoid'))
因为上面网络中LSTM层 return_sequences设置为True,表示返回全部时间序列,而不是仅仅最后一个,导致经过全连接层Dense输出后是一个矩阵而不是一个向量,与标签(二分类,标签为0或1)不匹配,但最坑的一点是竟然不报错,而且还能训练。这是之前的网络结果:
之前一直没咋关注最后一层的output shape不是1,而是1600*1,直到我预测的时候,调用model.predict()的时候才发现不太对,白白训练了。
这是100个样本predict的结果,本来预期是100个0或1标签结果是100个1600*1的矩阵。
令该参数为False后output shape就正常了: