我正在使用 java Sagemaker SDK 调用 Sagemaker 端点。我发送的数据在模型可以使用它进行预测之前几乎不需要清理。我怎样才能在 Sagemaker 中做到这一点。
我在 Jupyter 笔记本实例中有一个预处理功能,它在传递数据来训练模型之前清理训练数据。现在我想知道我是否可以在调用端点时使用该函数或者该函数是否已被使用?
如果有人愿意,我可以展示我的代码吗?
EDIT 1基本上,在预处理中,我正在进行标签编码。这是我的预处理函数
def preprocess_data(data):
print("entering preprocess fn")
# convert document id & type to labels
le1 = preprocessing.LabelEncoder()
le1.fit(data["documentId"])
data["documentId"]=le1.transform(data["documentId"])
le2 = preprocessing.LabelEncoder()
le2.fit(data["documentType"])
data["documentType"]=le2.transform(data["documentType"])
print("exiting preprocess fn")
return data,le1,le2
这里的“数据”是一个 pandas 数据框。
现在我想在调用端点时使用这些le1,le2。我想在 sagemaker 本身而不是我的 java 代码中进行此预处理。
SageMaker 现在有一个新功能,称为推理管道。这使您可以构建一个由两到五个容器组成的线性序列,用于预处理/后处理请求。然后将整个管道部署在单个端点上。
https://docs.aws.amazon.com/sagemaker/latest/dg/inference-pipelines.html
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)