我写了一个使用 TensorFlow 的 RNN 语言模型 https://github.com/wpm/tfrnnlm。该模型被实现为RNN
班级。图结构是在构造函数中构建的,而RNN.train
and RNN.test
方法运行它。
当我移动到训练集中的新文档时,或者当我想在训练期间运行验证集时,我希望能够重置 RNN 状态。我通过管理训练循环内的状态,通过提要字典将其传递到图中来实现这一点。
在构造函数中我像这样定义了 RNN
cell = tf.nn.rnn_cell.LSTMCell(hidden_units)
rnn_layers = tf.nn.rnn_cell.MultiRNNCell([cell] * layers)
self.reset_state = rnn_layers.zero_state(batch_size, dtype=tf.float32)
self.state = tf.placeholder(tf.float32, self.reset_state.get_shape(), "state")
self.outputs, self.next_state = tf.nn.dynamic_rnn(rnn_layers, self.embedded_input, time_major=True,
initial_state=self.state)
训练循环看起来像这样
for document in document:
state = session.run(self.reset_state)
for x, y in document:
_, state = session.run([self.train_step, self.next_state],
feed_dict={self.x:x, self.y:y, self.state:state})
x
and y
是文档中的批量训练数据。我的想法是,我在每批之后传递最新的状态,除非我开始一个新文档,当我通过运行将状态清零时self.reset_state
.
这一切都有效。现在我想更改我的 RNN 以使用推荐的state_is_tuple=True
。但是,我不知道如何通过 feed 字典传递更复杂的 LSTM 状态对象。我也不知道要传递什么参数self.state = tf.placeholder(...)
我的构造函数中的行。
这里正确的策略是什么?仍然没有太多示例代码或文档dynamic_rnn
可用的。
TensorFlow 问题2695 https://github.com/tensorflow/tensorflow/issues/2695 and 2838 https://github.com/tensorflow/tensorflow/issues/2838显得相关。
A 博客文章 http://www.wildml.com/2016/08/rnns-in-tensorflow-a-practical-guide-and-undocumented-features/on WILDML 解决了这些问题,但没有直接阐明答案。
也可以看看TensorFlow:记住下一批的 LSTM 状态(有状态 LSTM) https://stackoverflow.com/questions/38241410/tensorflow-remember-lstm-state-for-next-batch-stateful-lstm.