我正在尝试通过使用自动编码器进行重建来学习文本序列的潜在表示(多个特征(3))。由于某些序列比最大 pad 长度或我正在考虑的时间步长 (seq_length=15) 短,我不确定重建是否会学会忽略时间步长或不计算损失或准确性。
我遵循了来自的建议这个答案来裁剪输出,但我的损失是 nan 以及一些精度。
input1 = keras.Input(shape=(seq_length,),name='input_1')
input2 = keras.Input(shape=(seq_length,),name='input_2')
input3 = keras.Input(shape=(seq_length,),name='input_3')
input1_emb = layers.Embedding(70,32,input_length=seq_length,mask_zero=True)(input1)
input2_emb = layers.Embedding(462,192,input_length=seq_length,mask_zero=True)(input2)
input3_emb = layers.Embedding(84,36,input_length=seq_length,mask_zero=True)(input3)
merged = layers.Concatenate()([input1_emb, input2_emb,input3_emb])
activ_func = 'tanh'
encoded = layers.LSTM(120,activation=activ_func,input_shape=(seq_length,),return_sequences=True)(merged) #
encoded = layers.LSTM(60,activation=activ_func,return_sequences=True)(encoded)
encoded = layers.LSTM(15,activation=activ_func)(encoded)
# Decoder reconstruct inputs
decoded1 = layers.RepeatVector(seq_length)(encoded)
decoded1 = layers.LSTM(60, activation= activ_func , return_sequences=True)(decoded1)
decoded1 = layers.LSTM(120, activation= activ_func , return_sequences=True,name='decoder1_last')(decoded1)
解码器一的输出形状为(None, 15, 120)。
input_copy_1 = layers.TimeDistributed(layers.Dense(70, activation='softmax'))(decoded1)
input_copy_2 = layers.TimeDistributed(layers.Dense(462, activation='softmax'))(decoded1)
input_copy_3 = layers.TimeDistributed(layers.Dense(84, activation='softmax'))(decoded1)
对于每个输出,我尝试按照建议裁剪 O 填充时间步长这个答案. padding
has 0
实际输入丢失(由于填充为零)并且1
否则
@tf.function
def cropOutputs(x):
#x[0] is softmax of respective feature (time distributed) on top of decoder
#x[1] is the actual input feature
padding = tf.cast( tf.not_equal(x[1][1],0), dtype=tf.keras.backend.floatx())
print(padding)
return x[0]*tf.tile(tf.expand_dims(padding, axis=-1),tf.constant([1,x[0].shape[2]], tf.int32))
将裁剪函数应用于所有三个输出。
input_copy_1 = layers.Lambda(cropOutputs, name='input_copy_1', output_shape=(None, 15, 70))([input_copy_1,input1])
input_copy_2 = layers.Lambda(cropOutputs, name='input_copy_2', output_shape=(None, 15, 462))([input_copy_2,input2])
input_copy_3 = layers.Lambda(cropOutputs, name='input_copy_3', output_shape=(None, 15, 84))([input_copy_3,input3])
我的逻辑是裁剪每个特征的时间步长(序列的所有 3 个特征具有相同的长度,这意味着它们一起错过了时间步长)。但对于时间步长,它们已根据其特征大小(70,462,84)应用了 softmax,因此我必须通过在 mask 的帮助下制作一个由 0 或 1 组成的多维掩码数组等于此特征大小,将时间步长归零padding
,并使用多维掩码数组乘以相应的 softmax 表示。
我不确定我这样做是否正确Nan
这些输入的损失以及其他准确性是我正在与此任务一起学习的(它仅发生在裁剪过程中)。