我正在深入研究 LSTM RNNKeras and Theano后端。在尝试使用 keras 存储库中的 lstm 示例时github上lstm_text_ Generation.py的完整代码 https://github.com/fchollet/keras/blob/master/examples/lstm_text_generation.py,我有一件事不太清楚:它矢量化输入数据(文本字符)的方式:
# cut the text in semi-redundant sequences of maxlen characters
maxlen = 40
step = 3
sentences = []
next_chars = []
for i in range(0, len(text) - maxlen, step):
sentences.append(text[i: i + maxlen])
next_chars.append(text[i + maxlen])
print('nb sequences:', len(sentences))
#np - means numpy
print('Vectorization...')
X = np.zeros((len(sentences), maxlen, len(chars)), dtype=np.bool)
y = np.zeros((len(sentences), len(chars)), dtype=np.bool)
for i, sentence in enumerate(sentences):
for t, char in enumerate(sentence):
X[i, t, char_indices[char]] = 1
y[i, char_indices[next_chars[i]]] = 1
在这里,正如您所看到的,它们生成零列表Numpy然后将“1”放入由输入字符编码序列定义的每个列表的特定位置。
问题是:他们为什么使用该算法?是否有可能以某种方式优化它?也许可以以其他方式对输入数据进行编码,而不是使用巨大的列表列表?问题在于它对输入数据有严格的限制:为 >10 Mb 的文本生成此类向量会导致 Python 的 MemoryError(需要数十 Gbs RAM 来处理它!)。
预先感谢各位。