job脚本
# foo.job
type=command
command=su olc_pro -c "bash /app/script/python_common_file/pymain.sh coupon_user_active.py"
retries=3
retry.backoff=100000 #代表重试间隔时间
现象:
最近几次,在新上线的任务中,发现其中一个job报错并没有执行失败重试的操作,更糟糕的是也导致其他job都无法运行,且无日志可查看
如图,第一个任务失败,第二个任务会一直running,打开右边的log发现全部都是空白。且整体任务已经显示了failed
经追查,打开flow_log发现
发现任务已经在准备retry,但是在retry的过程中好像把重试时间间隔识别成了字符串。
解决方案:
经过多次尝试发现 retry.backoff=100000 后面不能添加任何东西,且不能有空字符串,这样才可以正常重试且不报错
```# foo.job
type=command
command=su olc_pro -c "bash /app/script/python_common_file/pymain.sh coupon_user_active.py"
retries=3
retry.backoff=100000