最近一个同学加载一个新的预训练模型时候碰到了这样一个问题,帮他排查解决一下:
File "/data/anaconda3/envs/nlp/lib/python3.6/site-packages/torch/utils/cpp_extension.py", line 1362, in _jit_compile return _import_module_from_library(name, build_directory, is_python_module)
File "/data/anaconda3/envs/nlp/lib/python3.6/site-packages/torch/utils/cpp_extension.py", line 1752, in _import_module_from_library module = importlib.util.module_from_spec(spec)
File "<frozen importlib._bootstrap>", line 541, in module_from_spec File "<frozen importlib._bootstrap_external>", line 912, in create_module File "<frozen importlib._bootstrap>", line 229, in _call_with_frames_removed
ImportError: /data/.cache/torch_extensions/py36_cu111/fused_adam/fused_adam.so: cannot open shared object file: No such file or directory
Google搜了一下也没搜到什么相关的内容,分析有大概几种可能:
1. 看到No such file or directory分析可能是路径设置问题 写成绝对路径可能会解决
2. 也可能是checkpoint文件本身的问题 是否加载的文件有损坏?
3. 环境配置是否有问题?torch 或者tensorflow的版本与Cuda版本不匹配?
经过逐一排查,发现前两者都没有问题,最后发现是tensorflow的版本与cuda版本不匹配导致的问题,cuda版本过高。
将Cuda版本降级后问题解决~ 以上~
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)