torchtext0.14 实践手册（0.12版本同理）

2023-05-16

文章目录

实践手册
- 构建词典
- - 0.9版本
  - 0.14版本
  - 总结
- 构建迭代器
- - 0.9版本
  - 0.14版本
  - 总结
- 使用预训练词向量
- - 0.9版本
  - 0.14版本
  - 总结
本文参考

torchtext的API有过两次较大变动：

第一次是在0.9，将一些类库移入了legacy目录。对代码的影响是，import torchtext.data要改成import torchtext.legacy.data
第二次是在0.12，将legacy目录移除，并提供了新的API。对代码的影响是，很多原本在legacy目录中的接口都废弃了，要重新构建代码逻辑。

实践手册

接下来，介绍使用tochtext0.14的各种步骤时的做法。本文会在介绍每一个做法时，对比两个版本下的具体代码，帮助读者更好地从旧版API的思维迁移到新API。

构建词典

假设输入是一个pands Dataframe对象train_df：

train_df = pd.read_csv("processed_data/train.csv")

0.9版本

原本的做法如下。
首先创建Field

TEXT = data.Field(tokenize = 'spacy', include_lengths = True)
LABEL = data.LabelField(dtype = torch.float)

fields = [('text',TEXT), ('label',LABEL)]

再创建torchtext Dataset。DataFrameDataset继承了torchtext.legacy.data.Dataset，其实现复制于github/lextoumbourou。

train_ds, val_ds = DataFrameDataset.splits(fields, train_df=train_df, val_df=valid_df)

最后，传入数据集为参数调用Field::build_vocab，就构建词典了。

TEXT.build_vocab(train_ds,
                 max_size = MAX_VOCAB_SIZE,
                 vectors = 'glove.6B.200d',
                 unk_init = torch.Tensor.zero_)

LABEL.build_vocab(train_ds)

0.14版本

现在讲0.14版本。先定义分词函数yield_tokens，它使用spacy分词器对pandas Dataframe的每一行作分词操作。

这里用了yield语法，不懂的百度一下。

import spacy
spacy_tokenizer = spacy.load("en_core_web_sm")

def yield_tokens(data_df):
    for _, row in data_df.iterrows():
        yield [token.text for token in spacy_tokenizer(row.text)]

然后调用build_vocab_from_iterator，传入回调函数yield_tokens，就构建好词典了。

vocab = build_vocab_from_iterator(yield_tokens(train_df), min_freq=5, specials=['<unk>', '<pad>'])
vocab.set_default_index(vocab["<unk>"])

有了这个词典，可以将单词和序号之间互相转换了。尝试输出一下itos和stoi：

print(vocab.get_itos()[:10])
print(vocab.get_stoi()["<unk>"], vocab.get_stoi()["<pad>"], vocab.get_stoi()["the"])

得到如下输出

['<unk>', '<pad>', 'URL', 'the', '?', 'a', 'to', 'in', 'i', 'of']
0 1 3

总结

原本做分词时，是Field内置spacy分词器，现在是手动调用spacy分词操作，还得提供分词函数
原本是用torchtext的Dataset，现在是用pytorch的Dataset（之后会用到）
原本构建词典时，要先创建Field，再调用Field::build_vocab。现在不用这么冗杂，直接调用build_vocab_from_iterator即可。

构建迭代器

0.9版本

在构建迭代器时，原本是用torchtext的迭代器data.BucketIterator：

train_iterator, valid_iterator = data.BucketIterator.splits(
        (train_ds, val_ds),
        batch_size = BATCH_SIZE,
        sort_within_batch = True,
        device = device)

它会尽可能让长度相近的句子放在一个batch。使用迭代器时，只需要for循环即可。

从batch读出text属性时，是两个参数：句子和它们的长度。这个tuple形式的返回值权且当做是特性吧。

for batch in train_iterator:
      text, text_lengths = batch.text
      ...

0.14版本

在0.14版本里，读取数据只需要复用pytorch的原生接口Dataset。先定义一个DataFrameDataset，其实就是在pandas DataFrame上包了一层。复习Dataset接口可以先参考pytorch dataset dataloader。

class DataFrameDataset(Dataset):
    def __init__(self, content, label):
        self.content = content
        self.label = label

    def __getitem__(self, index):
        return self.content[index], self.label[index]

    def __len__(self):
        return len(self.label)

然后定义train和valid数据集的Dataloader。传入参数有collate_batch函数，它会对每一批数据作预处理。该函数的实现比较自由，根据训练时的需要去实现即可，总之和原生的一样。

这里用到了python的partial语法，不懂的可以百度一下。

train_iter = DataFrameDataset(list(train_df['text']), list(train_df['target']))
train_loader = DataLoader(train_iter, batch_size=8, shuffle=True,
                          collate_fn=partial(collate_batch, vocab=vocab, device=device))

这样，读取数据的时候，用for循环读出来就行。这里batch返回几个参数都由collate_batch的实现决定。

for batch in iterator:
	text, text_lengths, labels = batch

总结

在0.9版本里，必须定义data.BucketIterator才能读取数据。而到了0.14版本，只要复用pytorch原生的接口Dataset、DataLoader，并善用后者的collate_fn参数，就能读取批次数据了。

使用预训练词向量

为了做迁移学习，我们常常要用预训练的词向量，赋值给模型的词向量矩阵，完成初始化。torchtext提供了一些预训练的词库，比如Glove。在版本的变迁中，使用这些预训练向量的方法也在变化。

0.9版本

"使用预训练向量"原本创建词库时附带的功能。在调用Field::build_vocab构建词库之后，调用Field.vocab.vectors就能取到词库的向量矩阵了，然后就能赋值给模型：

pretrained_embeddings = TEXT.vocab.vectors
model.embedding.weight.data.copy_(pretrained_embeddings)

0.14版本

在0.14版本里，Field被移除了，在Vocab中也没找到vectors成员。但是，torchtext留了预训练词库（比如Glove），只要手动地读取向量，一行行地赋值到模型的词向量矩阵中，就能完成迁移学习的初始化了。

model = LSTM_net(INPUT_DIM,
                     EMBEDDING_DIM,
                     HIDDEN_DIM,
                     OUTPUT_DIM,
                     N_LAYERS,
                     BIDIRECTIONAL,
                     DROPOUT,
                     PAD_IDX)

...

# 迁移学习glove预训练词向量
pretrained = torchtext.vocab.GloVe(name="6B", dim=200)
print(f"pretrained.vectors device: {pretrained.vectors.device}, shape: {pretrained.vectors.shape}")
for i, token in enumerate(vocab.get_itos()):
   model.embedding.weight.data[i] = pretrained.get_vecs_by_tokens(token)

这里有几处值得说明：

torchtext.vocab.GloVe是一个预训练词库，name=6B只是词库名前缀，dim=200代表希望加载向量长度为200的那个词库。如果想用其它名字的词库，可以自行百度一下。
vocab.get_itos()可以取得映射数组，完成序号->单词的映射。
pretrained.get_vecs_by_tokens(token)可以完成单词->词向量的映射。

总结

在0.9版本，当调用Field::build_vocab创建词库时，加载预训练词库的操作就顺带完成了。
到了0.14版本，预训练词库占用单独的接口，你需要显式地加载，再逐行赋值给模型的词向量矩阵。

0.14版本看起来麻烦一点，但代码并没有变得复杂，而且for循环效率其实不慢（因为0.9版本的实现里，Field也是用for循环从预训练词库读取向量，再赋值给成员矩阵的）

本文参考

感谢以下文章作者：

torchtext 0.12 中文语料加载
还在手动构造词表？试试torchtext.vocab
Torchtext 0.12+新版API学习与使用示例（1）
基于torchtext的文本分类

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)