我将模型上传到 ML-engine,当尝试进行预测时,我收到以下错误:
ERROR: (gcloud.ml-engine.predict) HTTP request failed. Response: { "error": {
"code": 429,
"message": "Prediction server is out of memory, possibly because model size is too big.",
"status": "RESOURCE_EXHAUSTED" } }
我的模型大小是 151.1 MB。我已经执行了谷歌云网站建议的所有操作,例如量化。有没有可能的解决方案或我可以做的任何其他事情来使其发挥作用?
Thanks
通常,这种大小的模型不应导致 OOM。由于 TF 进行了大量的延迟初始化,因此一些 OOM 直到第一次请求初始化数据结构时才会被检测到。在极少数情况下,某些图可能会在内存中爆炸 10 倍,从而导致 OOM。
1)您是否始终看到预测错误?由于 Tensorflow 调度节点的方式,同一图的内存使用情况在不同的运行中可能会有所不同。确保多次运行预测,看看每次是否都是 429。
2) 请确保您的 SavedModel 目录的大小为 151.1MB。
3)您还可以在本地调试峰值内存,例如使用top
跑步时gcloud ml-engine local predict
或者通过将模型加载到 docker 容器的内存中并使用 docker stats 或其他方式来监控内存使用情况。您可以尝试使用tensorflow services进行调试(https://www.tensorflow.org/serving/serving_basic https://www.tensorflow.org/serving/serving_basic)并发布结果。
4) 如果您发现内存问题持续存在,请联系[电子邮件受保护] /cdn-cgi/l/email-protection如需进一步帮助,请确保包含您的项目编号和关联帐户以进行进一步调试。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)