为什么评估集会耗尽 pytorch 拥抱中的内存？

2024-02-28

我使用的是相当大的 GPU，大约 80 GB。训练纪元运行良好，但由于某种原因在评估时（训练集和验证集或多或少具有相同的长度），我内存不足并收到此错误：

File "/home.../transformers/trainer_pt_utils.py", line 75, in torch_pad_and_concatenate
return torch.cat((tensor1, tensor2), dim=0)
RuntimeError: CUDA out of memory. Tried to allocate 33.84 GiB (GPU 0; 79.35 GiB total 
capacity; 36.51 GiB already allocated; 32.48 GiB free; 44.82 GiB reserved in total by 
PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to 
avoid fragmentation.  See documentation for Memory Management and 
 PYTORCH_CUDA_ALLOC_CONF

训练和验证数据的创建如下：

train_texts, train_labels = read_dataset('basic_train.tsv') 

val_texts, val_labels = read_dataset('basic_val.tsv')  

train_encodings = tokenizer(train_texts, truncation=False, padding=True) 
val_encodings = tokenizer(val_texts, truncation=False, padding=True)

class Dataset(torch.utils.data.Dataset):     
    def __init__(self, encodings, labels):         
        self.encodings = encodings         
        self.labels = labels 
         ...         
        return item 

train_dataset = Dataset(train_encodings, train_labels) 
val_dataset = Dataset(val_encodings, val_labels)

我的训练代码如下所示：

training_args = TrainingArguments(
output_dir='./results',          
num_train_epochs=10,             
per_device_train_batch_size=8,  
per_device_eval_batch_size=8,   
warmup_steps=500,                
weight_decay= 5e-5,              
logging_dir='./logs',            
logging_steps=10,
learning_rate= 2e-5,
eval_steps= 100,
save_steps=30000,
evaluation_strategy= 'steps'
)
model = AutoModelForSeq2SeqLM.from_pretrained("t5-base")


metric = load_metric('accuracy')

def compute_metrics(eval_pred):
  predictions, labels = eval_pred
  predictions = np.argmax(predictions, axis=1)
  return metric.compute(predictions=predictions, references=labels)

def collate_fn_t5(batch):
  input_ids = torch.stack([example['input_ids'] for example in batch])
  attention_mask = torch.stack([example['attention_mask'] for example in batch])
  labels = torch.stack([example['input_ids'] for example in batch])
   return {'input_ids': input_ids, 'attention_mask': attention_mask, 'labels': labels}


trainer = Trainer(
model=model,                       
args=training_args,                  
train_dataset=train_dataset,         
eval_dataset=val_dataset,
compute_metrics=compute_metrics,
data_collator=collate_fn_t5,
        # evaluation dataset
 )

trainer.train()

eval_results = trainer.evaluate()

From

运行时错误：CUDA 内存不足。尝试分配 33.84 GiB（GPU 0；总共 79.35 GiB）容量;已分配 36.51 GiB； 32.48 GiB 免费； PyTorch 总共预留了 44.82 GiB）

最有可能的是，那是因为它需要

79.35 GB 可用空间

然后在内存中

已分配 36.51 GB，最有可能将模型加载到 GPU RAM 上
保留 44.82 GB，应包括 36.51 分配 + pytorch 开销

而你需要

评估批次为 33.84 GB
但只有 32.48 GB 可用

所以我想有几个选择，你可以尝试减少per_device_eval_batch_size，从 7 一直到 1，看看是否有效，例如

training_args = TrainingArguments(
output_dir='./results',          
num_train_epochs=10,   
          
per_device_train_batch_size=8,  
per_device_eval_batch_size=1,                
...)

如果这不起作用，也许是默认累积，请参阅https://huggingface.co/docs/transformers/main_classes/trainer#transformers.TrainingArguments.eval_accumulation_steps https://huggingface.co/docs/transformers/main_classes/trainer#transformers.TrainingArguments.eval_accumulation_steps

你可以试试：

training_args = TrainingArguments(
output_dir='./results',          
num_train_epochs=10,   
          
per_device_train_batch_size=8,  
per_device_eval_batch_size=1,
eval_accumulation_steps=1,                
...)

有时这也是默认情况下不生成预测的原因。我不确定为什么会发生这种情况，但我认为当它只是用model.eval() or with torch.no_grad()当。。。的时候predict_with_generate设置为False，需要一些开销。但这只是我的猜测https://discuss.huggingface.co/t/cuda-out-of-memory-only-during-validation-not-training/18378 https://discuss.huggingface.co/t/cuda-out-of-memory-only-during-validation-not-training/18378

如果是这样，您可以尝试：

training_args = TrainingArguments(
output_dir='./results',          
num_train_epochs=10,   
          
per_device_train_batch_size=8,  
per_device_eval_batch_size=1,
eval_accumulation_steps=1,  
predict_with_generate=True,
...)

或者你可以尝试auto_find_batch_size, i.e.

training_args = TrainingArguments(
output_dir='./results',          
num_train_epochs=10,             

predict_with_generate=True,
auto_find_batch_size=True,
...)

还有一些记忆技巧：

# At the imports part of your code.
# See https://pytorch.org/docs/stable/generated/torch.cuda.set_per_process_memory_fraction.html
import torch
torch.cuda.set_per_process_memory_fraction(0.9)

如果仍然不起作用，请尝试算法技巧。

From https://huggingface.co/docs/transformers/main/en/perf_train_gpu_one https://huggingface.co/docs/transformers/main/en/perf_train_gpu_one

training_args = TrainingArguments(
output_dir='./results',          
num_train_epochs=10,   
          

fp16=True,
optim="adafactor",
gradient_checkpointing=True,


per_device_train_batch_size=8,  
per_device_eval_batch_size=1,
eval_accumulation_steps=1,  
predict_with_generate=True,

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么评估集会耗尽 pytorch 拥抱中的内存？的相关文章

为什么 RNN 需要两个偏置向量？

In Pytorch RNN 实现 http pytorch org docs master nn html highlight rnn torch nn RNN 有两个偏差 b ih and b hh 为什么是这样它与使用一种偏差有什么
从打包序列中获取每个序列的最后一项

我试图通过 GRU 放置打包和填充的序列并检索每个序列最后一项的输出当然我的意思不是 1项目但实际上是最后一个未填充的项目我们预先知道序列的长度因此应该很容易为每个序列提取length 1 item 我尝试了以下方法 impor
下载变压器模型以供离线使用

我有一个训练有素的 Transformer NER 模型我想在未连接到互联网的机器上使用它加载此类模型时当前会将缓存文件下载到 cache 文件夹要离线加载并运行模型需要将 cache 文件夹中的文件复制到离线机器上然而这些文
python 中单词的动名词形式

我想获得字符串的动名词形式我还没有找到调用库来获取动名词的直接方法我应用了以 ing 结尾的单词的规则但是因为异常导致我收到了一些错误然后我检查 cmu 单词以确保生成的动名词单词正确代码如下 import cmudict im
如何有效计算文档流中文档之间的相似度

我收集文本文档在 Node js 中其中一个文档i表示为单词列表考虑到新文档以文档流的形式出现计算这些文档之间相似性的有效方法是什么我目前对每个文档中单词的归一化频率使用余弦相似度我不使用 TF IDF 词频逆文档频率因为我
为什么 pytorch matmul 在 cpu 和 gpu 上执行时得到不同的结果？

我试图找出 numpy pytorch gpu cpu float16 float32 数字之间的舍入差异而我发现的内容让我感到困惑基本版本是 a torch rand 3 4 dtype torch float32 b torch r
比较文本文档含义的最佳方法？

我正在尝试找到使用人工智能和机器学习方法来比较两个文本文档的最佳方法我使用了 TF IDF Cosine 相似度和其他相似度度量但这会在单词或 n gram 级别上比较文档我正在寻找一种方法来比较meaning的文件最好的方法是什
BERT - 池化输出与序列输出的第一个向量不同

我在 Tensorflow 中使用 BERT 有一个细节我不太明白根据文档 https tfhub dev google bert uncased L 12 H 768 A 12 1 https tfhub dev google bert
这个 NLP 问题层次结构描述中的最大池化是什么类型

我正在尝试实现这个描述以及我所做的我生成了形状的 uni gram bi gram tri gram 15 512 使用填充然后对于每个单词我连接三个特征向量 3 512 然后我向他们申请 Globalmaxpooling1D 我不知
target_vocab_size 在方法 tfds.features.text.SubwordTextEncoder.build_from_corpus 中到底意味着什么？

根据这个链接 https www tensorflow org datasets api docs python tfds features text SubwordTextEncoder build from corpus target
BatchNorm 动量约定 PyTorch

Is the 批归一化动量约定 http pytorch org docs master modules torch nn modules batchnorm html 默认 0 1 与其他库一样正确例如Tensorflow默认情况下似乎
Blenderbot 微调

我一直在尝试微调 HuggingFace 的对话模型 Blendebot 我已经尝试过官方拥抱脸网站上给出的传统方法该方法要求我们使用 trainer train 方法来完成此操作我使用 compile 方法尝试了它我尝试过使用 Py
Pytorch Tensor 如何获取元素索引？ [复制]

这个问题在这里已经有答案了我有 2 个名为x and list它们的定义如下 x torch tensor 3 list torch tensor 1 2 3 4 5 现在我想获取元素的索引x from list 预期输出是一个整数 2
ValueError：TextEncodeInput 必须是 Union[TextInputSequence，Tuple[InputSequence，InputSequence]] - 标记 BERT / Distilbert 错误

def split data path df pd read csv path return train test split df test size 0 1 random state 100 train test split data
Node2vec 的工作原理

我一直在读关于node2vec https cs stanford edu jure pubs node2vec kdd16 pdf嵌入算法我有点困惑它是如何工作的作为参考 node2vec 由 p 和 q 参数化并通过模拟来自节点的
Pytorch GPU 使用率低

我正在尝试 pytorch 的例子https pytorch org tutorials beginner blitz cifar10 tutorial html https pytorch org tutorials beginner b
pytorch 的 IDE 自动完成

我正在使用 Visual Studio 代码最近尝试了风筝这两者似乎都没有 pytorch 的自动完成功能这些工具可以吗如果没有有人可以推荐一个可以的编辑器吗谢谢你使用Pycharmhttps www jetbrains co
NLTK 中的 wordnet lemmatizer 不适用于副词 [重复]

这个问题在这里已经有答案了 from nltk stem import WordNetLemmatizer x WordNetLemmatizer x lemmatize angrily pos r Out 41 angrily 这是 nl
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
如何检测文本是否可读？

我想知道是否有一种方法可以告诉给定的文本是人类可读的我所说的人类可读的意思是它有一些含义格式就像某人写的文章或者至少是由软件翻译器生成的供人类阅读的文章这是背景故事最近我正在制作一个应用程序允许用户将短文本上传到数据库在部署

随机推荐

登录页面Cognito的定制

我知道可以在 Cognito 提供的登录页面上自定义一些值但这对我来说还不够是否可以完全定制我只使用网络应用程序中的第三方联合身份验证是否可以更改灰色背景或者放在那里完全不同的观点由于背景灰色无法再修改我们可以使用一些 CSS
如何分析Websphere core*.dmp 文件和Snap*.trc 文件？

全部我的应用程序在 websphere 应用程序服务器 7 0 上运行我得到了一些核心转储和跟踪文件例如核心 20110909 164930 3828 0001 dmp and 快照 20110909 164930 3828 000
使用 Flash、PHP、Red5 从浏览器录制视频

我希望构建一个应用程序使用它可以录制视频以及音频和音频最好仅录制 mp3 格式的音频根据我所做的一些研究我发现我需要一个 Flash 或 Flex 客户端应用程序一个 RTMP 服务器 RED5 最好因为它是免费的这是我用
加载时重置缩放级别

我没有 iPhone 所以无法自己测试这一点但根据客户的说法如果他放大以更轻松地单击链接那么当下一页加载时页面会保持放大状态而用户必须手动缩小再次请注意这不是响应式网站它没有设置元宽度设备宽度有什么办法可以防止这种情况发
何时调用obtainPermanentIDsForObjects:？

我目前遇到一个问题即在后台子线程其父级是主 UI 线程上下文上创建新对象并保存会导致我的NSFetchedResultsController显示两个新对象一个带有临时对象objectID 以及一个具有永久objectID 这似乎是某
在 Chrome 中将焦点设置在 iframe 上

我有一个 iframe id chat with designMode on 在 Chrome 中在 Enter 按键事件上我调用该函数send 它获取 iframe 内容并将其写入套接字我的问题是当清除 iframe 时我失去了焦
开发流程、部署、GitHub

我正在努力为我们的团队制定一个开发流程任何时候我们都有 3 4 分散的开发人员在我们的代码库上工作我们已经开始使用 GIT 我们的想法是工作不仅仅是实时修复然后他们分叉了 master 分支每个人在服务器上都有自己的开发环境并
函数数组和分段错误 - 无效的内存引用

我正在尝试设置我的功能f作为数组但我收到以下错误 Program received signal SIGSEGV Segmentation fault invalid memory reference Backtrace for this
C# UDP广播和接收示例

问题我正在尝试将 udp 套接字绑定到特定地址我会广播一条消息同一个套接字需要能够接收消息当前代码 static void Main UdpClient Configuration new UdpClient new IPEndPo
gnuplot - 彩色刻度线

有什么办法可以拥有gnuplot为 x 和或 y 轴上的刻度线着色我正在使用背景png文件非常暗我希望内部抽动在其上显示为白色而不是默认的黑色 The tics似乎继承了它们的颜色border set style line 50 l
Typescript：推断嵌套 keyof 属性的类型

我想定义一个数组类型它必须包含给定类型的嵌套属性名称链假设我有一个类型 type Foo outer inner any 现在我想定义一个包含 2 个元素的数组类型 type PropertyList
SQL 查询的 NULL NOT IN (Empty_Relation) 在不同引擎上显示不同的行为

我尝试在 Postrgresql Spark 上测试 NULL NOT IN Empty Relation 的查询得到了不同的结果 select count from select 1 where null not in a empty
React js 输入复选框组

是否可以在反应中创建输入复选框组如果我映射了 3 个复选框但只能单击其中一个我是否只给每个状态一个状态当选择一个状态后然后取消选中其他状态我已经尝试过无线电输入但我需要能够将它们全部取消选中就像在无线电组中一样一旦您选择了
python pywin32 拒绝 Excel 访问

我的代码是 Opens template for creating final report excel win32 dynamic Dispatch Excel Application template os path abspath f
R：具有两个变量和 ties.method random 的排名函数

R中有没有一种方法可以使用带有多个条件和ties method的rank函数或类似的函数通常排名用于对向量中的值进行排名如果存在联系您可以使用其中一种联系方法平均随机第一但是当对矩阵中的一列进行排名时我想使用多列and关
在 SWI-Prolog 中打开并检查 Pem 文件

如何打开 Pem 文件来检查 a 不早于和不晚于日期是否正常以及 b pem 文件中是否存在通往路由证书颁发机构的证书链我努力了 use module library http http client url http fm4dd
对 STRUCT 数据类型使用 Like 运算符

我有一个包含结构数组的表有没有办法使用 like 运算符过滤此列中的记录 hive gt desc location location list array
如何更改 RichTextBox 段落间距？

我在 WPF 中使用 RichTextBox 并尝试将默认段落间距设置为 0 这样就没有段落间距虽然我可以在 XAML 中执行此操作但如果可能的话我希望以编程方式实现它有任何想法吗我做到了有风格双关缩进
jQuery 验证插件：验证以逗号作为小数分隔符的小数

HTML
为什么评估集会耗尽 pytorch 拥抱中的内存？

我使用的是相当大的 GPU 大约 80 GB 训练纪元运行良好但由于某种原因在评估时训练集和验证集或多或少具有相同的长度我内存不足并收到此错误 File home transformers trainer pt utils py li

为什么评估集会耗尽 pytorch 拥抱中的内存？

为什么评估集会耗尽 pytorch 拥抱中的内存？ 的相关文章

随机推荐

热门标签

为什么评估集会耗尽 pytorch 拥抱中的内存？的相关文章