【动手学习pytorch笔记】37.4 BERT微调数据集

2023-11-11

BERT微调数据集

自然语言推断任务：

主要研究 假设（hypothesis）是否可以从前提（premise）中推断出来，其中两者都是文本序列。换言之，自然语言推断决定了一对文本序列之间的逻辑关系。这类关系通常分为三种类型：

蕴涵（entailment）：假设可以从前提中推断出来。
矛盾（contradiction）：假设的否定可以从前提中推断出来。
中性（neutral）：所有其他情况。

斯坦福自然语言推断（SNLI）数据集

由500000多个带标签的英语句子对组成的集合

import os
import re
import torch
from torch import nn
from d2l import torch as d2l

#@save

d2l.DATA_HUB['SNLI'] = (
    'https://nlp.stanford.edu/projects/snli/snli_1.0.zip',
    '9fcde07509c7e87ec61c640c1b2753d9041758e4')

data_dir = "D:\environment\data\data\snli_1.0"

读取数据集

#@save
def read_snli(data_dir, is_train):
    """将SNLI数据集解析为前提、假设和标签"""
    def extract_text(s):
        # 删除我们不会使用的信息
        s = re.sub('\\(', '', s)
        s = re.sub('\\)', '', s)
        # 用一个空格替换两个或多个连续的空格
        s = re.sub('\\s{2,}', ' ', s)
        return s.strip()
    label_set = {'entailment': 0, 'contradiction': 1, 'neutral': 2}
    file_name = os.path.join(data_dir, 'snli_1.0_train.txt'
                             if is_train else 'snli_1.0_test.txt')
    with open(file_name, encoding = 'utf-8') as f:
        rows = [row.split('\t') for row in f.readlines()[1:]]
    premises = [extract_text(row[1]) for row in rows if row[0] in label_set]
    hypotheses = [extract_text(row[2]) for row in rows if row[0] \
                in label_set]
    labels = [label_set[row[0]] for row in rows if row[0] in label_set]
    return premises, hypotheses, labels

train_data = read_snli(data_dir, is_train=True)
for x0, x1, y in zip(train_data[0][:3], train_data[1][:3], train_data[2][:3]):
    print('前提：', x0)
    print('假设：', x1)
    print('标签：', y)

前提： A person on a horse jumps over a broken down airplane .
假设： A person is training his horse for a competition .
标签： 2
前提： A person on a horse jumps over a broken down airplane .
假设： A person is at a diner , ordering an omelette .
标签： 1
前提： A person on a horse jumps over a broken down airplane .
假设： A person is outdoors , on a horse .
标签： 0

统计三个关系的数量

test_data = read_snli(data_dir, is_train=False)
for data in [train_data, test_data]:
    print([[row for row in data[2]].count(i) for i in range(3)])

[183416, 183187, 182764]
[3368, 3237, 3219]

上面训练集，下面测试集，挺平均的

data[2]是标签，统计标签数量就行

#@save
class SNLIDataset(torch.utils.data.Dataset):
    """用于加载SNLI数据集的自定义数据集"""
    def __init__(self, dataset, num_steps, vocab=None):
        self.num_steps = num_steps
        all_premise_tokens = d2l.tokenize(dataset[0])
        all_hypothesis_tokens = d2l.tokenize(dataset[1])
        if vocab is None:
            self.vocab = d2l.Vocab(all_premise_tokens + \
                all_hypothesis_tokens, min_freq=5, reserved_tokens=['<pad>'])
        else:
            self.vocab = vocab
        self.premises = self._pad(all_premise_tokens)
        self.hypotheses = self._pad(all_hypothesis_tokens)
        self.labels = torch.tensor(dataset[2])
        print('read ' + str(len(self.premises)) + ' examples')

    def _pad(self, lines):
        return torch.tensor([d2l.truncate_pad(
            self.vocab[line], self.num_steps, self.vocab['<pad>'])
                         for line in lines])

    def __getitem__(self, idx):
        return (self.premises[idx], self.hypotheses[idx]), self.labels[idx]

    def __len__(self):
        return len(self.premises)

vocab需要与BERT预训练时的vocab保持一致，不然他不认识呀，所以下载与训练模型的时候一般都是下载模型和vocab

整理一下

#@save

def load_data_snli(batch_size, num_steps=50):
    """下载SNLI数据集并返回数据迭代器和词表"""
    num_workers = d2l.get_dataloader_workers()
    data_dir = "D:\environment\data\data\snli_1.0"
    train_data = read_snli(data_dir, True)
    test_data = read_snli(data_dir, False)
    train_set = SNLIDataset(train_data, num_steps)
    test_set = SNLIDataset(test_data, num_steps, train_set.vocab)
    train_iter = torch.utils.data.DataLoader(train_set, batch_size,
                                             shuffle=True)
    test_iter = torch.utils.data.DataLoader(test_set, batch_size,
                                            shuffle=False)
    return train_iter, test_iter, train_set.vocab

看看大小

train_iter, test_iter, vocab = load_data_snli(128, 50)
len(vocab)

read 549367 examples
read 9824 examples

18678

for X, Y in train_iter:
    print(X[0].shape)
    print(X[1].shape)
    print(Y.shape)
    break

torch.Size([128, 50])
torch.Size([128, 50])
torch.Size([128])

batchsize = 128

一个句子长度为50

最后说一下这一节的踩坑：

和之前一节的数据加载一样

torch.utils.data.DataLoader(train_set, batch_size, shuffle=True, num_workers = num_workers )

num_workers = num_workers，开多线程读取数据会报错
下载解压数据集时报错
```
OSError: [Errno 22] Invalid argument: '..\\data\\snli_1.0\\Icon\r
```
报错的原因：SNLI数据集的压缩文件"snli_1.0.zip"里面有两个路径为“snli_1.0\Icon\r”和“’__MACOSX/snli_1.0/._Icon\r’”的文件，导致无法解析此路径进而导致整个文件无法解压。

解决方法：手动解压之后把data_dir赋值为数据集解压后的路径
```
data_dir = d2l.download_extract('SNLI')
```
改成
```
data_dir = "D:\environment\data\data\snli_1.0"
```

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pytorch学习笔记

Pytorch

学习

Bert

NLP

【动手学习pytorch笔记】37.4 BERT微调数据集的相关文章

下载变压器模型以供离线使用

我有一个训练有素的 Transformer NER 模型我想在未连接到互联网的机器上使用它加载此类模型时当前会将缓存文件下载到 cache 文件夹要离线加载并运行模型需要将 cache 文件夹中的文件复制到离线机器上然而这些文
在Python或Sklearn中用整数值对具有字符串值的列变量进行编码

如何用整数值对数据表中字符串类型的列值进行编码例如我有两个特征变量颜色可能的字符串值 R G 和 B 和技能可能的字符串值 C Java SQL 和 Python 给定数据表有两列 Color gt R G B B G R B G
pytorch 中的 autograd 可以处理同一模块中层的重复使用吗？

我有一层layer in an nn Module并在一次中使用两次或多次forward步这个的输出layer稍后输入到相同的layer pytorch可以吗autograd正确计算该层权重的梯度 def forward x x self
BatchNorm 动量约定 PyTorch

Is the 批归一化动量约定 http pytorch org docs master modules torch nn modules batchnorm html 默认 0 1 与其他库一样正确例如Tensorflow默认情况下似乎
如何使用pytorch构建多任务DNN，例如超过100个任务？

下面是使用 pytorch 为两个回归任务构建 DNN 的示例代码这forward函数返回两个输出 x1 x2 用于大量回归分类任务的网络怎么样例如 100 或 1000 个输出对所有输出例如 x1 x2 x100 进行硬编码绝对
如何有效地对一个数组中某个值在另一个数组中的位置出现的次数求和

我正在寻找一种有效的 for 循环避免解决方案来解决我遇到的数组相关问题我想使用一个巨大的一维数组 A gt size 250 000 用于一维索引的 0 到 40 之间的值以及用于第二维索引的具有 0 到 9995 之间的值的相同大
语音识别中如何处理同音词？

对于那些不熟悉什么是同音字 https en wikipedia org wiki Homophone是的我提供以下示例我们的是嗨和高到太二在使用时语音API https developer apple com docume
从文本文件中提取与输入单词最相似的前 N 个单词

我有一个文本文件其中包含我使用 BeautifulSoup 提取的网页内容我需要根据给定的单词从文本文件中找到 N 个相似的单词流程如下从中提取文本的网站 https en wikipedia org wiki Football h
SpaCy 模型“en_core_web_sm”的词汇量大小

我尝试在 SpaCy 小模型中查看词汇量 model name en core web sm nlpp spacy load model name len list nlpp vocab strings 只给了我 1185 个单词我也在同
将复数名词转换为单数名词

如何使用 R 将复数名词转换为单数名词我使用 tagPOS 函数来标记每个文本然后提取所有标记为 NNS 的复数名词但是如果我想将这些复数名词转换为单数该怎么办 library openNLP library tm acq o lt
如何对德语文本进行词形还原？

我有一篇德语文本我想对其应用词形还原如果不可能进行词形还原那么我也可以接受词干提取 Data 这是我的德语文本 mails Hallo Ich spielte am fr hen Morgen und ging dann zu ein
pytorch 的 IDE 自动完成

我正在使用 Visual Studio 代码最近尝试了风筝这两者似乎都没有 pytorch 的自动完成功能这些工具可以吗如果没有有人可以推荐一个可以的编辑器吗谢谢你使用Pycharmhttps www jetbrains co
是否可以使用 Google BERT 来计算两个文本文档之间的相似度？

是否可以使用 Google BERT 来计算两个文本文档之间的相似度据我了解 BERT 的输入应该是有限大小的句子一些作品使用 BERT 来计算句子的相似度例如 https github com AndriyMulyar semant
如何从已安装的云端硬盘文件夹中永久删除？

我编写了一个脚本在每次迭代后将我的模型和训练示例上传到 Google Drive 以防发生崩溃或任何阻止笔记本运行的情况如下所示 drive path drive My Drive Colab Notebooks models if p
在 Pytorch 中估计高斯模型的混合

我实际上想估计一个以高斯混合作为基本分布的归一化流所以我有点被火炬困住了但是您可以通过估计 torch 中高斯模型的混合来在代码中重现我的错误我的代码如下 import numpy as np import matplotlib p
SpaCy 中的自定义句子边界检测

我正在尝试在 spaCy 中编写一个自定义句子分段器它将整个文档作为单个句子返回我编写了一个自定义管道组件它使用以下代码来执行此操作here https github com explosion spaCy issues 1850 但
旧版本的 spaCy 在尝试安装模型时抛出“KeyError: 'package'”错误

我在 Ubuntu 14 04 4 LTS x64 上使用 spaCy 1 6 0 和 python3 5 为了安装 spaCy 的英文版本我尝试运行这给了我错误消息 ubun ner 3 NeuroNER master src pyt
将 Pytorch LSTM 的状态参数转换为 Keras LSTM

我试图将现有的经过训练的 PyTorch 模型移植到 Keras 中在移植过程中我陷入了LSTM层 LSTM 网络的 Keras 实现似乎具有三种状态类型的状态矩阵而 Pytorch 实现则具有四种状态矩阵例如对于hidden l
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
PHP 和 NLP：嵌套括号（解析器输出）到数组？

想要将带有嵌套括号的文本转换为嵌套数组以下是 NLP 解析器的输出示例 TOP S NP PRP I VP VBP love NP NP DT a JJ big NN bed PP IN of NP NNS roses 原文我喜欢一大床

随机推荐

JAVA面向对象--继承性

一继承性继承是面向对象的第二大特性而继承性要解决的就是代码重用问题利用继承性可以从已有的类继续派生处新的子类也可以利用子类扩展处更多的操作功能继承性严格来讲就是指扩充一个类已有的功能如法如下 class 子类 extends
华为企业管理经典案例_干货丨华为项目管理案例PPT（54P）

向成功的标杆企业学习向从实践中总结的管理精髓学习永远是我们最明智的选择华为一直非常重视项目管理项目管理在促进公司发展实现商业价值推动人才培养等方面发挥了重要作用华为的项目管理是一种业务运作模式华为以项目为中心的运作不仅仅
Database Collection

RetargetMe https people csail mit edu mrub retargetme Image Retargeting Subjective Quality Databse http ivp ee cuhk edu
python错误 module 'urllib' has no attribute 'request'

因为python3 X有时候不会将子模块自动导入进去所以改成import url request问题就解决了
使用vue+element ui实现el-tabs文字不动鼠标经过背景淡入淡出的动画效果以及改element ui tabs 修改成hover触发点击

el tabs的结构
proxy_set_header导致跨域失败分析

跨域失败分析 proxy set header Host host 这个配置导致跨域失败配置的作用是把原http请求的header中的host字段即域名放到转发请求里面解决方案配置成 proxy set header Host t
【STM32技巧】STM32 CubeMX中定时器四种从机模式说明

四种从机模式说明外部时钟模式1从模式 External Clock Mod1 这个模式比较特别名字也有点奇葩其实这个从模式跟时钟源的外部时钟模式1有渊源在介绍计数器时钟源时讲到过外部时钟模式1 即计数器的时钟来自TI1或TI2的
Java多线程工具包java.util.concurrent---ExecutorService

什么是ExecutorService java util concurrent ExecutorService 接口表示一个异步执行机制使我们能够在后台执行任务因此一个 ExecutorService 很类似于一个线程池实际上存在于
编译原理实验四 LR(1)分析法程序

源代码仓库 CompilePrincipleLearning experiment 4 yusixian CompilePrincipleLearning github com 源代码在demo文件夹中一实验目的掌握LR 1 分析法的
好的博客

RabbitMQ http www ityouknow com springboot 2016 11 30 spring boot rabbitMQ html https www kancloud cn ichenpeng blog 109
Renesas瑞萨电子提供的RcarH3，第一个SOC从第三代R-Car汽车计算平台的自动驾驶领域时代

e mail 174176320 qq com 瑞萨电子株式会社东京证交所 6723 一个英超的先进半导体解决方案供应商今天宣布推出第三代Rcar 汽车计算平台解决方案的安全驾驶辅助系统和车载信息娱乐系统芯片上的新的RcarH3系统
【Vue2.0源码学习】虚拟DOM篇-Vue中的DOM-优化更新子节点

1 前言在上一篇文章中我们介绍了当新的VNode与旧的oldVNode都是元素节点并且都包含子节点时 Vue对子节点是先外层循环newChildren数组再内层循环oldChildren数组每循环外层newChildren数组里的
PaddleDetection算法分析(14)

2021SC SDUSC 三 SSD训练过程源码如下 def vgg cfg i batch norm False 该代码参考vgg官网的代码 layers in channels i for v in cfg 正常的 max pooli
Spring——面向切面编程(AOP)

1 AOP概述 AOP 并不是 Spring 框架的专属名称它的全称是 Aspect Oriented Programming 意为面向切面编程在程序运行某个方法的时候不修改原始执行代码逻辑由程序动态地执行某些额外的功能对原有的
stata怎么判断是否存在异常值_如何用SPSS探测及检验异常值

如何用 SPSS 探测及检验异常值一采用数据探索过程探测异常值 SPSS 菜单实现程序为主菜单 gt Analyze gt Descriptive Statistics gt Explore 选项 gt Statistics 按钮 g
Learning Efficient Convolutional Networks through Network Slimming

该文章是ICCV 2017的一篇模型压缩论文提出了一个针对BN层的剪枝方法利用BN层的权重即缩放系数来评估输入通道的重要程度 score 然后对score对于阈值的通道进行过滤之后在连接成剪枝后的网络时已经过滤的通道的神经元就不
Android Studio创建无图标应用 Default Activity not fount

在Android Studio开发如果你想创建一个没有没有应用图标的应用你会发现修改category修改为default 项目中没有一个Activity是Laucnher的话没法运行直接报Default Activity not
NLP学习（十二）-NLP实战之LSTM进行文本情感分析-tensorflow2+Python3

情感分析简介文本情感分析 Sentiment Analysis 是自然语言处理 NLP 方法中常见的应用也是一个有趣的基本任务尤其是以提炼文本情绪内容为目的的分类它是对带有情感色彩的主观性文本进行分析处理归纳和推理的过程本文将
JavaWeb——邮件发送原理及实现

邮件发送原理及实现一邮件发送原理图张三通过smtp协议连接到Smtp服务器然后发送一封邮件给网易的邮件服务器网易分析发现需要去QQ的邮件服务器通过Smtp协议将邮件转投给QQ的Smtp服务器 QQ将接收到的邮件存储在456789
【动手学习pytorch笔记】37.4 BERT微调数据集

BERT微调数据集自然语言推断任务主要研究假设 hypothesis 是否可以从前提 premise 中推断出来其中两者都是文本序列换言之自然语言推断决定了一对文本序列之间的逻辑关系这类关系通常分为三种类型蕴涵 entail