ddp的时候默认等待时间是1800s, 如果超出这个时间程序就会退出。
更新transformers库(低版本不支持如下方式),并添加参数 --ddp_timeout 3600。 这里3600s只是demo,具体根据自身程序来设置。
transformers