首先,您实际上并不需要 tf.transform 。您需要做的就是编写一个从训练/评估 input_fn 和服务 input_fn 调用的函数。
例如,假设您在整个数据集上使用了 Pandas 来计算出最小值和最大值
def add_engineered(features):
min_x = 22
max_x = 43
features['x'] = (features['x'] - min_x) / (max_x - min_x)
return features
然后,在您的 input_fn 中,通过调用 add_engineered 包装您返回的功能:
def input_fn():
features = ...
label = ...
return add_engineered(features), label
在您的serving_input fn中,确保通过调用add_engineered类似地包装返回的功能(而不是feature_placeholders):
def serving_input_fn():
feature_placeholders = ...
features = feature_placeholders.copy()
return tf.estimator.export.ServingInputReceiver(
add_engineered(features), feature_placeholders)
现在,您在预测时的 JSON 输入只需要包含原始的、未缩放的值。
这是此方法的完整工作示例。
https://github.com/GoogleCloudPlatform/training-data-analyst/blob/master/courses/machine_learning/feateng/taxifare/trainer/model.py#L130 https://github.com/GoogleCloudPlatform/training-data-analyst/blob/master/courses/machine_learning/feateng/taxifare/trainer/model.py#L130
tf.transform 提供了一个两阶段过程:一个用于计算最小值、最大值的分析步骤,以及一个用于将缩放比例插入到 TensorFlow 图中的图形修改步骤。因此,要使用 tf.transform,您首先需要编写一个数据流管道来进行分析,然后在 TensorFlow 代码中插入对 tf.scale_0_to_1 的调用。下面是执行此操作的示例:
https://github.com/GoogleCloudPlatform/cloudml-samples/tree/master/criteo_tft https://github.com/GoogleCloudPlatform/cloudml-samples/tree/master/criteo_tft
add_engineered() 方法更简单,也是我建议的方法。如果您的数据分布会随着时间的推移而变化,并且您希望自动化整个管道(例如用于连续训练),则需要 tf.transform 方法。