fused_adam.so: cannot open shared object file: No such file or directory问题排查与解决

2023-05-16

最近一个同学加载一个新的预训练模型时候碰到了这样一个问题,帮他排查解决一下:

File "/data/anaconda3/envs/nlp/lib/python3.6/site-packages/torch/utils/cpp_extension.py", line 1362, in _jit_compile return _import_module_from_library(name, build_directory, is_python_module)

File "/data/anaconda3/envs/nlp/lib/python3.6/site-packages/torch/utils/cpp_extension.py", line 1752, in _import_module_from_library module = importlib.util.module_from_spec(spec)

File "<frozen importlib._bootstrap>", line 541, in module_from_spec File "<frozen importlib._bootstrap_external>", line 912, in create_module File "<frozen importlib._bootstrap>", line 229, in _call_with_frames_removed

ImportError: /data/.cache/torch_extensions/py36_cu111/fused_adam/fused_adam.so: cannot open shared object file: No such file or directory

 Google搜了一下也没搜到什么相关的内容,分析有大概几种可能:

1. 看到No such file or directory分析可能是路径设置问题 写成绝对路径可能会解决

2. 也可能是checkpoint文件本身的问题 是否加载的文件有损坏?

3. 环境配置是否有问题?torch 或者tensorflow的版本与Cuda版本不匹配?

经过逐一排查,发现前两者都没有问题,最后发现是tensorflow的版本与cuda版本不匹配导致的问题,cuda版本过高。

将Cuda版本降级后问题解决~ 以上~

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

fused_adam.so: cannot open shared object file: No such file or directory问题排查与解决 的相关文章

随机推荐