问题tensorflow.python.framework.errors_impl.ResourceExhaustedError：OOM

2023-05-16

tensorflow.python.framework.errors_impl.ResourceExhaustedError: 2 root error(s) found.
(0) Resource exhausted: OOM when allocating tensor with shape[16,100,1024] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc
   [[{{node training/Adam/gradients/Transformer-1-MultiHeadSelfAttention-Norm/truediv_grad/Neg}}]]
Hint: If you want to see a list of allocated tensors when OOM happens, add report_tensor_allocations_upon_oom to RunOptions for current allocation info.

   [[Mean/_901]]
Hint: If you want to see a list of allocated tensors when OOM happens, add report_tensor_allocations_upon_oom to RunOptions for current allocation info.

(1) Resource exhausted: OOM when allocating tensor with shape[16,100,1024] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc
   [[{{node training/Adam/gradients/Transformer-1-MultiHeadSelfAttention-Norm/truediv_grad/Neg}}]]
Hint: If you want to see a list of allocated tensors when OOM happens, add report_tensor_allocations_upon_oom to RunOptions for current allocation info.

0 successful operations.
0 derived errors ignored.

这主要是因为模型太大导致GPU显存不足或者剩余显存太小所导致的错误

建议依次采取以下解决方案

解决方案1：缩小模型batchsize大小

尝试逐渐缩小batchsize大小，若batchsize过小严重影响训练时间或者当batchsize=1时依旧存在上述问题，则建议尝试方案2

解决方案2：扩大显存大小

可以采取的方案有解除GPU资源占用或者扩大GPU

1 解除GPU资源占用

在cmd中输入以下命令获取GPU进程情况

nvidia-smi

然后杀死相应进程

taskkill /PID PID号

此方案一般只会在杀死的PID的占用相当大且本身GPU不受限的情况下才会奏效

2 扩大GPU

包括更换硬件或者使用在线GPU进行训练

解决方案3：改用内存CPU训练

import os
os.environ["CUDA_VISIBLE_DEVICES"] = "-1"

总结：方案1是在模型训练大小上进行的修改，方案2和方案3是在硬件使用上进行的修改

建议：有预算的情况下可以更换硬件，如果预算有限建议使用在线GPU进行训练

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

python

Framework

Errors

impl

问题tensorflow.python.framework.errors_impl.ResourceExhaustedError：OOM 的相关文章

从另一个文件导入函数，在哪里导入其他库？

很简单的问题我搜了一下没有结果假设我有一个文件 funcs py 其中有一个我想调用当前脚本的函数该函数使用另一个库例如 pandas 我在哪里导入该库约定是什么我是否将它放在 funcs py 的函数内 funcs py de
类型错误：initial_value 必须是 unicode 或 None，而不是 str，

我正在使用 SOAPpy 来提供 SOAP wsdl 服务我正在关注这个toturail http www diveintopython net soap web services introspection html 我的代码如下 fr
Python：文本覆盖在所有窗口顶部，包括 Linux 中的全屏

我正在尝试用 python 编写一个简单的脚本在所有窗口和全屏应用程序之上输出文本该脚本的目的是以类似于 Steam FPS 计数器工作方式的方式输出平均负载和可用内存以及其他有用的统计数据到目前为止我尝试了 pygame 但据我
调试：获取调用函数的文件名和行号？

我目前正在用 Python 构建一个相当复杂的系统当我调试时我经常在几个脚本中放入简单的打印语句为了保持概览我经常还想打印出打印语句所在的文件名和行号我当然可以手动执行此操作或者使用类似这样的操作 from inspect im
Python 3.4 多重处理不适用于 py2exe

这与以下内容几乎相同这个问题 https stackoverflow com questions 26001133 python multiprocessing process executes a wrong target package
在python中查找文件

我有一个文件可能位于每个用户计算机上的不同位置有没有办法实现文件的搜索我可以传递文件名和目录树进行搜索的方法吗 os walk http docs python org library os html os walk就是答案这将找到第
如何在屏幕上锚定 Tkinter 窗口（不可移动窗口）

我正在尝试在特定位置打开 tkinter 如果它是不可移动的那就更好了我搜索文档和其他内容但没有找到任何相关内容最好的方法是将顶部或底部固定在一个位置 x y 如果需要我可以调整窗口大小 def my functions prin
在Python中的自定义类中实现“with object() as f”的使用

我必须在 python 中打开一个类似文件的对象它是通过 dev 的串行连接然后关闭它在我的班级的几种方法中这已经完成了好几次我的做法是在构造函数中打开文件然后在析构函数中关闭它不过我遇到了奇怪的错误我认为这与垃圾收集器有
Python：将字典转换为字节

我正在尝试将字典转换为字节但在将其转换为正确的格式时遇到问题首先我尝试使用自定义架构映射字典模式定义如下 class User def init self name None code None self name name sel
将 pdf 图像转换为 jpg 图像的最快方法是什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我正在尝试将多个 pdf 10k 转换为 jpg 图像并从中提取文本我目前正在使用pdf2imagepython 库但它相当慢有没有比这更
如何在python中修改html树？

假设有一些可变片段html代码 p span class code string 1 span class code string 2 span class code string 3 span span span p p span cla
Python 模块导入对一个文件有效，对另一个文件则失败

我面临着一个非常奇怪的问题我有三个文件第一个包含基类其他两个文件中的类继承自该基类奇怪的是昨天一切都工作正常但今天其中一个文件不再工作了在此期间我还没有接触过进口 orangecontrib init py prototype
在 python 中检查堆栈中的局部变量

我编写了一个小函数它在堆栈中查找一级并查看其中是否有变量但是我如何将这个函数变成一个可以在堆栈中一直查找直到找到一个局部变量并购买某个特定名称的函数 import inspect def variable lookup variable
使用 python 对 Robot Framework 中的测试套件中的每个测试用例进行测试设置和拆卸

我是机器人框架的新手有人可以帮我看看是否可以为包含大约 20 个测试用例的测试套件中的每个测试用例进行测试设置和拆卸有人可以用例子解释一下吗这是一个例子包含拆解的测试套件如果你想最后执行每个测试用例你可以错过它的拆卸请阅读相应
Selenium/ChromeDriver 未知策略错误

我目前使用 Python v3 5 1 Selenium v3 7 和 Chromedriver v2 33 当我运行以下命令时 from selenium import webdriver driver webdriver Chrome
使用 CustomCallback() 类在训练时实现冻结层

我正在尝试在 TensorFlow 中训练自定义 CNN 模型我想以某种方式在训练仍在运行时冻结特定时期模型的某些层我已经实现了冻结层但我必须在某些时期训练模型然后在我想要冻结的特定层中将可训练属性更改为 False 然后编译模型
带有 unicode 键的字典

Python 中是否可以使用 Unicode 字符作为字典的键我使用 Unicode 中的西里尔字母作为键当尝试通过键获取值时我得到以下回溯 Traceback most recent call last File baseCreat
如何捕获密码提示

我有以下代码更新为包括 pexpect import sys import subprocess import pexpect print 0 ssh subprocess Popen ssh A t email protected cd
如何在 Flask 之外使用 jinja2 及其 i18n 扩展（使用 babel）

如何在 Flask 应用程序之外将 jinja2 与 babel 一起使用假设我有使用 pybabel 命令填充的语言环境目录我想加载翻译文件并翻译我的模板文件我找到了解决方案以下是如何在不集成 Flask 的情况下使用 jinja
从Python中的一行中删除标签

我有一个具有以下架构的文本 word1 word2 br word3 word4 br 我想删除最后一部分并将我的结果存储在另一个文件中我已尝试以下操作仍然没有将结果保存在其他文件中 def main fileR open test

随机推荐

正点原子MiniFly V1.2学习笔记三---atkpRxAnlTask

第5个任务解析处理接收到的指令 xTaskCreate atkpRxAnlTask 34 ATKP RX ANL 34 300 NULL 6 NULL 上面第1个任务 xff0c 把串口接收到的数据解包后得到指令 xff0c 然后把指令发
正点原子MiniFly V1.2学习笔记五---sensorsTask

这里先学习第8个任务sensorsTask xff0c 2 xff0c 3 xff0c 6 xff0c 7任务后面再学 xff0c 先学重要的 xTaskCreate sensorsTask 34 SENSORS 34 450 NULL 4
嵌入式项目管理学习——001重点明确和心态转换

相信做嵌入式的码哥们在参与一定数量的产品设计和生产之后 xff0c 都会发现一个问题 xff0c 如果没有一个负责的产品经理 xff0c 就会陷入到产品延期沟通缺失目标不清晰需求不明确等等的问题 xff0c 我目前也是达到了这样一个状
正点原子MiniFly V1.2学习笔记六---stabilizerTask

第9个任务 xff0c 优先级5 xTaskCreate stabilizerTask 34 STABILIZER 34 450 NULL 5 NULL 一任务函数使用绝对延时 xff0c 周期执行任务二传感器数据是怎么传到这个任务
正点原子MiniFly V1.2学习笔记七---configParamTask

第6个任务 xff0c 优先级1 xff0c 最低优先级配置参数任务 xTaskCreate configParamTask 34 CONFIG TASK 34 150 NULL 1 NULL 一全局参数configParam 1 参数
C++码农要读的经典

刚大四 xff0c 还在忙着找工作 xff0c 读过的书不是很多 xff0c 还有一些好书在读 xff0c 还有一些书将来必读 C语言程序设计谭浩强版本这个版本一致被人说误导子弟 xff0c 当然还有很多人推崇我觉得这本书不是什么好书
解读gazebo_ros_control gazebo_ros

本篇的目的是想解读gazebo ros control 以及 gazebo ros 因为gazebo本身是独立于ros的通过教程Intermediate Control plugin 以及教程 Category Write a plugi
vtaskstartscheduler()； //开启任务调度语句不执行

项目场景 xff1a FreeRTOS实时嵌入式操作系统开发基于stm32 第一章移植代码问题描述 xff1a 任务调度器执行到vtaskstartscheduler 开启任务调度语句不执行 span class token keywo
python3中定义类变量，并使用类函数修改类变量的值

定义类变量的方式有两种 1 在 init 中定义self elements 其中self elements是类变量名 a是传入Difference类的参数名 xff0c 这里的 init 作用是定义了类变量名 xff0c 将外部参数a传给类
printf函数的内涵以及造成的严重内存问题

问题的引出 xff1a 在某型号的核心网络交换机设备中 xff0c 为调试方便 xff0c 实现了一个把内存内容从终端打印的功能 xff0c 也就是dump memory xff0c 屏幕的左边显示十六进制 xff0c 右边以ASCII形式
关于docker那点事儿——Dockerfile编写

Dockerfile编写前言一 Dockerfile创建镜像二 Dockerfile常用指令三示例1 Dockerfile构建nginx镜像2 Dockerfile构建微服务四 CMD与ENTRYPOINT比较前言 Dockerfi
SylixOS信号量（二进制信号量、计数型信号量、互斥信号量（简称互斥量）、读写信号量）

目录二进制信号量互斥信号量计数器信号量读写信号量 SylixOS 信号量多个线程在读写某个共享数据 xff08 全局变量等 xff09 时必须通过某种方法实现共享数据的互斥访问或者同步访问 xff08 例如线程 B 等待线程 A
什么是优先级反转及解决方法

什么是优先级反转优先级反转 xff0c 是指在使用信号量时 xff0c 可能会出现的这样一种不合理的现象 xff0c 即 xff1a 高优先级任务被低优先级任务阻塞 xff0c 导致高优先级任务迟迟得不到调度但其他中等优先级的任务却能抢
STM32CubeMX在F103上的ADC注入通道配置异常问题

前言最近业余时间在搞无刷电机FOC的控制 xff0c 其中有一部分是关于流过电机三相绕组电流采集的 xff0c 需要用到STM32内置的ADC xff0c 核心是需要使用注入通道以确保ADC数据采集的实时性 xff0c 但是我在STM32
C++ static静态成员变量用法

C 43 43 static静态成员变量用法参考网址 xff1a 1 http c biancheng net cpp biancheng view 209 html 2 https www runoob com cplusplus cp
解决AndroidStudio 控制台编译输出中文乱码，黑方块+问号之类的

100 有效解决AndroidStudio 控制台编译输出中文乱码 xff08 黑色方框问号 xff09 xff0c 亲测解决 xff01 xff08 转载 xff09 Pdx 666的博客 CSDN博客背景在AndroidStudio
sphinx安装及简单使用

sphinx安装及简单使用如果你要编写技术文档可以用 reStructuredText 或 Markdown 格式编辑文件 xff0c 然后使用 Sphinx 工具转换成 html PDF ePub等格式 xff0c 或者托管到 git
cmake之CMakelist.txt的使用

文章目录常用命令1 指定 cmake 的最小版本2 打印信息2 1 打印普通信息2 2 打印告警2 3 打印错误 3 项目名称4 设置变量5 查找指定的库文件6 设置包含的目录7 设置链接库搜索目录8 指定编译包含的源文件8 1 明确指定
python爬虫记录一次爬取淘宝的过程

淘宝可以说是一个检验爬虫技术是否过关的最强关卡了 xff0c 下面来打破它吧淘宝的所有操作差不多都是在登录的状态下进行的 xff0c 这时候想要对淘宝进行请求获取信息就必须在登录的状态下进行了方式一 xff1a xff08 seleni
问题tensorflow.python.framework.errors_impl.ResourceExhaustedError：OOM

tensorflow python framework errors impl ResourceExhaustedError 2 root error s found 0 Resource exhausted OOM when alloca

问题tensorflow.python.framework.errors_impl.ResourceExhaustedError：OOM

问题tensorflow.python.framework.errors_impl.ResourceExhaustedError：OOM 的相关文章

随机推荐

热门标签