在 virtualenv 中的 GPU 集群上运行 TensorFlow

2023-12-08

我按照这些在 virtualenv 中安装了 GPU 版本的张量流指示。问题是,我在启动会话时遇到分段错误。也就是说,这段代码:

import tensorflow as tf
sess = tf.InteractiveSession()

退出并出现以下错误:

(tesnsorflowenv)user@machine$ python testtensorflow.py 
I tensorflow/stream_executor/dso_loader.cc:101] successfully opened CUDA library libcublas.so.7.0 locally
I tensorflow/stream_executor/dso_loader.cc:93] Couldn't open CUDA library libcudnn.so.6.5. LD_LIBRARY_PATH: :/vol/cuda/7.0.28/lib64
I tensorflow/stream_executor/cuda/cuda_dnn.cc:1382] Unable to load cuDNN DSO
I tensorflow/stream_executor/dso_loader.cc:101] successfully opened CUDA library libcufft.so.7.0 locally
I tensorflow/stream_executor/dso_loader.cc:101] successfully opened CUDA library libcuda.so locally
I tensorflow/stream_executor/dso_loader.cc:101] successfully opened CUDA library libcurand.so.7.0 locally
I tensorflow/core/common_runtime/local_device.cc:40] Local device intra op parallelism threads: 40
Segmentation fault

我尝试使用 gdb 进行更深入的挖掘,但只得到以下附加输出:

[New Thread 0x7fffdf880700 (LWP 32641)]
[New Thread 0x7fffdf07f700 (LWP 32642)]
... lines omitted 
[New Thread 0x7fffadffb700 (LWP 32681)]
[Thread 0x7fffadffb700 (LWP 32681) exited]
Program received signal SIGSEGV, Segmentation fault.
0x0000000000000000 in ?? ()

您知道这里发生了什么以及如何解决它吗?

这是 nvidia-smi 的输出:

+------------------------------------------------------+                       
| NVIDIA-SMI 352.63     Driver Version: 352.63         |                       
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla K80           On   | 0000:06:00.0     Off |                    0 |
| N/A   65C    P0   142W / 149W |    235MiB / 11519MiB |     81%   E. Process |
+-------------------------------+----------------------+----------------------+
|   1  Tesla K80           On   | 0000:07:00.0     Off |                    0 |
| N/A   25C    P8    30W / 149W |     55MiB / 11519MiB |      0%   E. Process |
+-------------------------------+----------------------+----------------------+
|   2  Tesla K80           On   | 0000:0D:00.0     Off |                    0 |
| N/A   27C    P8    26W / 149W |     55MiB / 11519MiB |      0%   Prohibited |
+-------------------------------+----------------------+----------------------+
|   3  Tesla K80           On   | 0000:0E:00.0     Off |                    0 |
| N/A   25C    P8    28W / 149W |     55MiB / 11519MiB |      0%   E. Process |
+-------------------------------+----------------------+----------------------+
|   4  Tesla K80           On   | 0000:86:00.0     Off |                    0 |
| N/A   46C    P0    85W / 149W |    206MiB / 11519MiB |     97%   E. Process |
+-------------------------------+----------------------+----------------------+
|   5  Tesla K80           On   | 0000:87:00.0     Off |                    0 |
| N/A   27C    P8    29W / 149W |     55MiB / 11519MiB |      0%   E. Process |
+-------------------------------+----------------------+----------------------+
|   6  Tesla K80           On   | 0000:8D:00.0     Off |                    0 |
| N/A   28C    P8    26W / 149W |     55MiB / 11519MiB |      0%   Prohibited |
+-------------------------------+----------------------+----------------------+
|   7  Tesla K80           On   | 0000:8E:00.0     Off |                    0 |
| N/A   23C    P8    30W / 149W |     55MiB / 11519MiB |      0%   E. Process |
+-------------------------------+----------------------+----------------------+

感谢您对这个问题的任何帮助!


它没有找到 CuDNN -

我tensorflow/stream_executor/dso_loader.cc:93]无法打开CUDA库> libcudnn.so.6.5。 LD_LIBRARY_PATH::/vol/cuda/7.0.28/lib64 我tensorflow/stream_executor/cuda/cuda_dnn.cc:1382]无法加载cuDNN DSO

您需要安装它。请参见TensorFlow CUDA 安装说明

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 virtualenv 中的 GPU 集群上运行 TensorFlow 的相关文章

随机推荐

  • 输入带小数点的数值的最佳方法是什么?

    在我的应用程序中 用户需要能够输入带小数位的数值 iPhone 不提供专门用于此目的的键盘 仅提供数字键盘和带有数字和符号的键盘 有没有一种简单的方法可以使用后者并防止输入任何非数字输入 而无需对最终结果进行正则表达式 Thanks 我认为
  • 段落内的 HTML 标签

    我正在开展一个小型 鞋子尺寸 项目 用户应该能够阅读有关特殊鞋子的文章 读者可以通过按钮选择在文章中获取欧盟或美国尺寸 我的问题是 我怎样才能最好地做到这一点 因为我实际上不想创建一个新的 p 标签内的 p p tag p p This i
  • 在 Swift 中以编程方式制作 UIButton

    我正在尝试使用 Swift 以编程方式构建 UI 我怎样才能让这个动作发挥作用 override func viewDidLoad super viewDidLoad Do any additional setup after loadin
  • 如何使用 POCO 库将 C++ 对象传输到 Web 服务

    我有一个使用 Qt 和 openCV 的图像处理应用程序 对于每一帧 我应该将捕获的 cv Mat 图像对象发送到服务器以对其进行处理并获取结果 我应该使用 REST 架构 因为它的负载较低 我应该使用什么工具将 cv Mat 发送到服务器
  • 使用 Solver Foundation 进行约束规划的缺点

    使用 Microsoft Solver Foundation for CLP 有哪些缺点 Solver 确实在 Express Standard 版本中提供了一些支持 但可以想象 人们需要购买昂贵的 Gurobi Knitro 附加组件才能
  • 使用 #pragma GCC Optimize 优化 C 代码

    我正在尝试使用 GCC pragma optimization 在我的 C 代码中设置全局优化 Ubuntu 上的 GCC 版本是 4 4 3 基本思想是使用特定于功能的优化级别 pragma GCC optimize O3 我收到编译错误
  • Jackson 使用 Spring MVC 重复嵌套对象未反序列化

    我正在尝试将以下 POJO 转换为 JSON RestController Entity Table name user location NamedQuery name UserLocation findAll query SELECT
  • Swift Admob 控制台显示模拟器设备 ID,但在 iPhone 上运行时不显示?

    我已经在我的项目中实现了 Admob 但是我无法为我的 iPhone 添加测试设备 ID 这是代码 let request GADRequest myAd GADInterstitial adUnitID ca app pub 441173
  • OpenMP 大大减慢了 for 循环速度

    我正在尝试通过 OpenMP 并行化来加速这个 for 循环 我的印象是这应该将工作分成多个线程 然而 也许开销太大 无法给我带来任何加速 我应该提到这个循环发生了很多很多次 并且循环的每个实例都应该并行化 循环迭代次数 newNx 可以小
  • 如何 db:seed 模型及其所有嵌套模型?

    我有这些课程 class User has one user profile accepts nested attributes for user profile attr accessible email password passwor
  • 仅使用 Javascript 将事件监听器添加到不存在的对象

    我搜索了整个 stackoverflow 但没有针对这个问题得到任何好的结果 如果我错了 请纠正我 我想向 DOM 中存在或不存在的对象添加EventListener 在Jquery中我们可以简单地执行以下代码 document on cl
  • aspnet core实体框架7自引用“作业”1对多表

    我有一个包含职位的 职位 表 事实上 工作并不总是一次性完成的 您可以拥有一份需要多次访问的工作 我打算将其表示为另一项工作 但通过自引用 linkId 链接回原始工作 我无法使用 Fluent API 来表示这一点 它是一对多的关系 一项
  • 有没有办法在没有 GUI 的情况下从特定行运行 MATLAB 脚本?

    有没有办法在不使用 GUI 的情况下从特定行运行 MATLAB 脚本 在 GUI 中我使用 Thanks 可以写入一个函数 该函数将读取脚本 m 文件 跳过行直到需要的行 并将其余行写入临时 m 文件 然后运行它 或者从 line1 到 l
  • Flutter 升级 Flutter 版本后运行 pod install 时出错

    flutter版本升级到最新的Flutter 2 2 1后 在ios模拟器上运行app时 运行pod install时报错 我尝试通过执行以下命令来清洁 Pod 但它没有解决问题 flutter clean flutter pub get
  • 将委托作为变量存储/传递

    我对 C 相当陌生 正在研究一种使用串行通信来实现动态 GUI 的方法 我是C出身 所以函数指针的概念很熟悉 基本上我想在处理串行命令时调用answerFunction 函数 理论上 我有一个类 lbl txtBox Pair 它是在运行时
  • 可以从服务中检测到后退按钮按下吗?

    可以从服务中检测到后退按钮按下吗 真的如标题所说吗 我已经做了很多谷歌搜索 但找不到明确的答案 也没有办法做到吗 可以从服务中检测到后退按钮按下吗 不 抱歉 如果您在前台有一个 Activity 该 Activity 可以检测到 BACK
  • WordPress - 向 wp_posts 添加额外的列,然后发布到其中

    我试图在 添加帖子 或 添加页面 中添加一个额外的字段 我将该字段的值插入到数据库中 wp posts 表中添加的手动添加的列中 我知道我可以使用自定义字段模板 但问题是这些自定义字段将值插入 wp postmeta 而不是 wp post
  • 从 StackPanel 中删除子项

    for int i 0 i lt stackPanel Children Count i stackPanel Children Remove stackPanel Children i int x stackPanel Children
  • 访问 HttpParams 的所有条目

    有没有一种方法可以迭代所有条目HttpParams object 其他人也有类似的问题 打印 HttpParams HttpUriRequest 的内容 但答案并没有真正起作用 当调查时基本Http参数我看到有一个HashMap里面 但无法
  • 在 virtualenv 中的 GPU 集群上运行 TensorFlow

    我按照这些在 virtualenv 中安装了 GPU 版本的张量流指示 问题是 我在启动会话时遇到分段错误 也就是说 这段代码 import tensorflow as tf sess tf InteractiveSession 退出并出现