使用张量流 tf-transform 进行数据标准化

2024-06-28

我正在使用 Tensorflow 对我自己的数据集进行神经网络预测。我做的第一个模型是与我计算机中的小数据集一起使用的模型。之后,我稍微更改了代码,以便使用具有更大数据集的 Google Cloud ML-Engine 在 ML-Engine 中实现训练和预测。

我正在标准化 panda 数据框中的特征,但这会引入偏差,并且我得到的预测结果很差。

我真正想要的是使用图书馆tf-transform对图中的数据进行标准化。为此,我想创建一个函数preprocessing_fn并使用 'tft.scale_to_0_1'. https://github.com/tensorflow/transform/blob/master/getting_started.md https://github.com/tensorflow/transform/blob/master/getting_started.md

我发现的主要问题是当我尝试进行预测时。我正在寻找互联网,但没有找到任何导出模型的示例,其中数据在训练中标准化。在我发现的所有示例中,数据在任何地方都没有标准化。

我想知道的是如果我在训练中对数据进行归一化,并发送一个包含新数据的新实例来进行预测,那么如何对这些数据进行归一化?

¿也许在 Tensorflow 数据管道中?进行标准化的变量保存在某个地方?

总之:我正在寻找一种方法来标准化模型的输入,然后新实例也变得标准化。


首先,您实际上并不需要 tf.transform 。您需要做的就是编写一个从训练/评估 input_fn 和服务 input_fn 调用的函数。

例如,假设您在整个数据集上使用了 Pandas 来计算出最小值和最大值

def add_engineered(features):
  min_x = 22
  max_x = 43
  features['x'] = (features['x'] - min_x) / (max_x - min_x)
  return features

然后,在您的 input_fn 中,通过调用 add_engineered 包装您返回的功能:

def input_fn():
  features = ...
  label = ...
  return add_engineered(features), label

在您的serving_input fn中,确保通过调用add_engineered类似地包装返回的功能(而不是feature_placeholders):

def serving_input_fn():
    feature_placeholders = ...
    features = feature_placeholders.copy()
    return tf.estimator.export.ServingInputReceiver(
         add_engineered(features), feature_placeholders)

现在,您在预测时的 JSON 输入只需要包含原始的、未缩放的值。

这是此方法的完整工作示例。

https://github.com/GoogleCloudPlatform/training-data-analyst/blob/master/courses/machine_learning/feateng/taxifare/trainer/model.py#L130 https://github.com/GoogleCloudPlatform/training-data-analyst/blob/master/courses/machine_learning/feateng/taxifare/trainer/model.py#L130

tf.transform 提供了一个两阶段过程:一个用于计算最小值、最大值的分析步骤,以及一个用于将缩放比例插入到 TensorFlow 图中的图形修改步骤。因此,要使用 tf.transform,您首先需要编写一个数据流管道来进行分析,然后在 TensorFlow 代码中插入对 tf.scale_0_to_1 的调用。下面是执行此操作的示例:

https://github.com/GoogleCloudPlatform/cloudml-samples/tree/master/criteo_tft https://github.com/GoogleCloudPlatform/cloudml-samples/tree/master/criteo_tft

add_engineered() 方法更简单,也是我建议的方法。如果您的数据分布会随着时间的推移而变化,并且您希望自动化整个管道(例如用于连续训练),则需要 tf.transform 方法。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用张量流 tf-transform 进行数据标准化 的相关文章

随机推荐