Stable Diffusion在运行过程中,常常因为各种原因导致服务挂掉,所以希望能定时检查程序是否存活,如果dead则重启一下。
思路:stable diffusion运行时需要使用GPU,如果GPU没有在用,并且GPU对应的进程也找不到,则判断sd服务已经挂掉了。
脚本代码:
#!/bin/bash
output=$(nvidia-smi)
echo "$output"
# 根据需求从输出结果中提取所需信息
gpu_usage=$(echo "$output" | sed -n 10p | awk '{print $9}' | sed 's/[a-zA-Z]//g')
pid_info=$(echo "$output" | sed -n 19p | awk '{print $5}')
echo "显存使用量:$gpu_usage"
echo "进程信息:$pid_info"
if [ $gpu_usage == "0" ] && [ $pid_info == "found" ];then
echo "$(date) need to restart sd!!" >> /data/work/xiehao/start_sd_output.log
cd /data/work/xiehao/stable-diffusion-webui
/data1/work/anaconda3/envs/chatgpt/bin/python launch.py --listen --port 12346 --theme dark --xformers --enable-insecure-extension-access --disable-safe-unpickl >> /data/work/xiehao/start_sd_output.log 2>&1 &
else
echo "$(date) sd is running..." >> /data/work/xiehao/start_sd_output.log
fi
然后在crontab中指定脚本执行:
注意点:
1、crontab时的执行环境,不是当前的conda环境,所以需要明确指定conda对应的python的可执行命令的路径信息
2、crontab执行时的路径并非当前路径,即使launch.py写了绝对路径,但是launch.py依赖的包并非绝对路径,所以需要cd到固定目录后,再执行sd的启动脚本