Google Colaboratory:有关其 GPU 的误导性信息(仅 5% RAM 可供某些用户使用)

2024-02-01

更新:这个问题与Google Colab的“笔记本设置:硬件加速器:GPU”有关。这个问题是在添加“TPU”选项之前写的。

阅读了有关 Google Colaboratory 提供免费 Tesla K80 GPU 的多个令人兴奋的公告,我尝试运行fast.ai http://course.fast.ai/教训它永远不会完成 - 很快就会耗尽内存。我开始调查原因。

最重要的是,“免费 Tesla K80”并不是对所有人来说都是“免费”的——对于某些人来说,只有一小部分是“免费”的。

我从加拿大西海岸连接到 Google Colab,但本应是 24GB GPU RAM 的却只有 0.5GB。其他用户可以使用 11GB GPU RAM。

显然 0.5GB GPU RAM 不足以满足大多数 ML/DL 工作的需要。

如果您不确定会得到什么,这里是我整理的一些调试功能(仅适用于笔记本电脑的 GPU 设置):

# memory footprint support libraries/code
!ln -sf /opt/bin/nvidia-smi /usr/bin/nvidia-smi
!pip install gputil
!pip install psutil
!pip install humanize
import psutil
import humanize
import os
import GPUtil as GPU
GPUs = GPU.getGPUs()
# XXX: only one GPU on Colab and isn’t guaranteed
gpu = GPUs[0]
def printm():
 process = psutil.Process(os.getpid())
 print("Gen RAM Free: " + humanize.naturalsize( psutil.virtual_memory().available ), " | Proc size: " + humanize.naturalsize( process.memory_info().rss))
 print("GPU RAM Free: {0:.0f}MB | Used: {1:.0f}MB | Util {2:3.0f}% | Total {3:.0f}MB".format(gpu.memoryFree, gpu.memoryUsed, gpu.memoryUtil*100, gpu.memoryTotal))
printm()

在运行任何其他代码之前在 jupyter 笔记本中执行它会给我:

Gen RAM Free: 11.6 GB  | Proc size: 666.0 MB
GPU RAM Free: 566MB | Used: 10873MB | Util  95% | Total 11439MB

获得完整卡的幸运用户将看到:

Gen RAM Free: 11.6 GB  | Proc size: 666.0 MB
GPU RAM Free: 11439MB | Used: 0MB | Util  0% | Total 11439MB

您是否发现我从 GPUtil 借用的 GPU RAM 可用性计算有任何缺陷?

您能否确认,如果您在 Google Colab 笔记本上运行此代码,您会得到类似的结果吗?

如果我的计算正确,有什么办法可以在免费盒子上获得更多 GPU RAM 吗?

更新:我不知道为什么我们中的一些人得到的只是其他用户的 1/20。例如帮助我调试这个的人来自印度,他掌握了整个事情!

note:请不要再发送任何有关如何消除可能消耗 GPU 部分的潜在卡住/失控/并行笔记本的建议。不管你如何划分它,如果你和我在同一条船上并运行调试代码,你会发现你仍然获得总共 5% 的 GPU RAM(截至本次更新)。


因此,为了防止另外十几个答案在该线程建议的上下文中无效,建议 !kill -9 -1,让我们关闭该线程:

答案很简单:

截至撰写本文时,Google 仅向我们中的一些人提供 5% 的 GPU,而向其他人提供 100%。时期。

2019 年 12 月更新:问题仍然存在 - 这个问题的赞成票仍在继续。

2019 年 3 月更新:一年后,一位 Google 员工 @AmiF 评论了事情的现状,指出该问题不存在,任何似乎遇到此问题的人都需要简单地重置其运行时来恢复内存。然而,投票仍在继续,对我来说这表明问题仍然存在,尽管@AmiF 提出了相反的建议。

2018 年 12 月更新:我有一个理论认为,当 Google 的机器人检测到非标准行为时,Google 可能会将某些帐户或浏览器指纹列入黑名单。这可能完全是巧合,但在相当长的一段时间里,我在任何需要谷歌重新验证码的网站上都遇到了问题,在这些网站上,我必须先完成数十个谜题才能被允许通过,通常是这样。我花了 10 分钟以上才能完成。这种情况持续了好几个月。突然之间,从这个月开始,我完全没有任何困惑,任何谷歌重新验证码只需单击鼠标即可解决,就像一年前一样。

我为什么要讲这个故事?嗯,因为同时我在 Colab 上获得了 100% 的 GPU RAM。这就是为什么我怀疑如果你在理论上的谷歌黑名单上,那么你就不会被信任获得大量免费资源。我想知道你们中是否有人发现有限的 GPU 访问和重新验证码噩梦之间存在相同的相关性。正如我所说,这也可能完全是巧合。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Google Colaboratory:有关其 GPU 的误导性信息(仅 5% RAM 可供某些用户使用) 的相关文章

随机推荐