Deep learning 八

2023-12-17

(2)使用预训练的词嵌入

有时可用的训练数据很少,以至于只用手头数据无法学习适合特定任务的词嵌人。那么可以从预计算的嵌人空间中加载嵌入向量(这个嵌人空间是高度结构化的,并且具有有用的属性,即抓住了语言结构的一般特点),而不是在解决问题的同时学习词嵌入。在自然语言处理中使用预训练的词嵌人,其背后的原理与在图像分类中使用预训练的卷积神经网络是一样的:没有足够的数据来自己学习真正强大的特征,但需要的特征应该是非常通用的,比如常见的视觉特征或语义特征。在这种情况下,重复使用在其他问题上学到的特征,这种做法是有道理的。

3.整合在一起:从原始文本到词嵌入

该模型与之前刚刚见过的那个类似:将句子嵌人到向量序列中,然后将其展平,最后在上面训练一个 Dense 层。但此处将使用预训练的词嵌入。此外,我们将从头开始,先下载IMDB原始文本数据,而不是使用 Keras内置的已经预先分词的IMDB数据。

(1)下载IMDB数据的原始文本


首先,打开http://mng.bz/0tIo,下载原始IMDB数据集并解压接下来,将训练评论转换成字符串列表,每个字符串对应一条评论。也可以将评论标签(正面/负面)转换成 labels 列表。

'''处理IMDB 原始数据的标签'''
import os

imdb_dir = '/home/ubuntu/data/aclImdb' '''改为自己下载的位置'''
train_dir = os.path.join(imdb_dir, 'train')

labels = []
texts = []

for label_type in ['neg', 'pos']:
    dir_name = os.path.join(train_dir, label_type)
    for fname in os.listdir(dir_name):
        if fname[-4:] == '.txt':
            f = open(os.path.join(dir_name, fname))
            texts.append(f.read())
            f.close()
            if label_type == 'neg':
                labels.append(0)
            else:
                labels.append(1)

(2)对数据进行分词

利用前面介绍过的概念,对文本进行分词,并将其划分为训练集和验证集。因为预训练的词嵌入对训练数据很少的问题特别有用(否则,针对于具体任务的嵌人可能效果更好 ).所以又添加了以下限制:将训练数据限定为前 200个样本。因此,需要在读取 200个样本之后学习对电影评论进行分类。

'''对IMDB 原始数据的文本进行分词'''
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
import numpy as np

maxlen = 100  # We will cut reviews after 100 words '''在100个单词后截断评论'''
training_samples = 200  # We will be training on 200 samples'''在200个样本上训练'''
validation_samples = 10000  # We will be validating on 10000 samples
'''在10000个样本上验证'''
max_words = 10000  # We will only consider the top 10,000 words in the dataset
'''只考虑数据集中前 10000个最常见的单词'''
tokenizer = Tokenizer(num_words=max_words)
tokenizer.fit_on_texts(texts)
sequences = tokenizer.texts_to_sequences(texts)

word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))

data = pad_sequences(sequences, maxlen=maxlen)

labels = np.asarray(labels)
print('Shape of data tensor:', data.shape)
print('Shape of label tensor:', labels.shape)

# Split the data into a training set and a validation set
# But first, shuffle the data, since we started from data
# where sample are ordered (all negative first, then all positive).
'''将数据划分为训练集和验证集,但首先要打乱数据,因为一开始数据中的样本是
排好序的(所有负面评论都在前面然后是所有正面评论)'''
indices = np.arange(data.shape[0])
np.random.shuffle(indices)
data = data[indices]
labels = labels[indices]

x_train = data[:training_samples]
y_train = labels[:training_samples]
x_val = data[training_samples: training_samples + validation_samples]
y_val = labels[training_samples: training_samples + validation_samples]

(3)下载GloVe 词嵌入

打开 https://nlp.stanford.edu/projects/glove,下载2014 年英文维基百科的预计算嵌入。这是个822MB的压缩文件,文件名是 glove.6Bi,里面包含400000个单词(或非单词的标记)的 100 维嵌入向量。解压文件。

(4)对入进行预处理


对解压后的文件(一个.txt 文件)进行解析,构建一个将单词(字符串)映射为其向量表示(数值向量)的索引。

'''解析 GloVe 词嵌人文件'''
glove_dir = '/home/ubuntu/data/' '''自己下载的位置'''

embeddings_index = {}
f = open(os.path.join(glove_dir, 'glove.6B.100d.txt'))
for line in f:
    values = line.split()
    word = values[0]
    coefs = np.asarray(values[1:], dtype='float32')
    embeddings_index[word] = coefs
f.close()

print('Found %s word vectors.' % len(embeddings_index))

接下来,需要构建一个可以加载到 Embedaing层中的嵌入矩阵。它必须是一个形状为(max_words,embedding_dim)的矩阵,对于单词索引(在分词时构建)中索引为i的单词这个矩阵的元素i就是这个单词对应的embedding_dim维向量。注意,索引0不应该代表任何单词或标记,它只是一个占位符。

'''准备 GloVe 词嵌入矩阵'''
embedding_dim = 100

embedding_matrix = np.zeros((max_words, embedding_dim))
for word, i in word_index.items():
    embedding_vector = embeddings_index.get(word)
    if i < max_words:
        if embedding_vector is not None:
            # Words not found in embedding index will be all-zeros.
            '''嵌入索引(embeddings_index)中找不到的词,其嵌入向量全为0'''
            embedding_matrix[i] = embedding_vector

(5)定义模型

将使用与前面相同的模型架构

'''模型定义'''
from keras.models import Sequential
from keras.layers import Embedding, Flatten, Dense

model = Sequential()
model.add(Embedding(max_words, embedding_dim, input_length=maxlen))
model.add(Flatten())
model.add(Dense(32, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
model.summary()

(6)在模型中加载GIoVe嵌入


Embedding层只有一个权重矩阵,是一个二维的浮点数矩阵,其中每个元素i是与索引i相关联的词向量。够简单。将准备好的 GloVe 矩阵加载到 Embeddin 层中,即模型的第一层。

model.layers[0].set_weights([embedding_matrix])
model.layers[0].trainable = False

此外,需要冻结 Embedding层(即将其trainable 属性设为 False),其原理和预训练的卷积神经网络特征相同。如果一个模型的一部分是经过预训练的(如 Embedding层),而另一部分是随机初始化的(如分类器 ),那么在训练期间不应该更新预训练的部分,以避免丢失它们所保存的信息。随机初始化的层会引起较大的梯度更新,会破坏已经学到的特征。

(7)训练模型与评估

模型编译并训练模型

'''训练与评估'''
model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['acc'])
history = model.fit(x_train, y_train,
                    epochs=10,
                    batch_size=32,
                    validation_data=(x_val, y_val))
model.save_weights('pre_trained_glove_model.h5')
'''绘制结果'''
import matplotlib.pyplot as plt

acc = history.history['acc']
val_acc = history.history['val_acc']
loss = history.history['loss']
val_loss = history.history['val_loss']

epochs = range(1, len(acc) + 1)

plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.legend()

plt.figure()

plt.plot(epochs, loss, 'bo', label='Training loss')
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.legend()

plt.show()

训练的模型很快就开始过拟合,考虑到训练样本很少,这一点也不奇怪。出于同样的原因,验证精度的波动很大,但似乎达到了接近 60%。

注意,结果可能会有所不同。训练样本数太少,所以模型性能严重依赖于选择的200个样本,而样本是随机选择的。如果得到的结果很差,可以尝试重新选择 200 个不同的随机样本,你可以将其作为练习(在现实生活中无法选择自己的训练数据)。
也可以在不加载预训练词嵌入、也不冻结嵌入层的情况下训练相同的模型。在这种情况下你将会学到针对任务的输人标记的嵌入。如果有大量的可用数据,这种方法通常比预训练词嵌人更加强大,但本例只有 200 个训练样本。

'''在不使用预训练词嵌入的情况下,训练相同的模型'''
from keras.models import Sequential
from keras.layers import Embedding, Flatten, Dense

model = Sequential()
model.add(Embedding(max_words, embedding_dim, input_length=maxlen))
model.add(Flatten())
model.add(Dense(32, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
model.summary()

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['acc'])
history = model.fit(x_train, y_train,
                    epochs=10,
                    batch_size=32,
                    validation_data=(x_val, y_val))

图6-7 不使用预训练词嵌人时的训练损失和验证损失

图 6-8 不使用预训练词嵌入时的训练精度和验证精度

验证精度停留在 50%多一点。因此,在本例中,预训练词嵌人的性能要优于与任务一起学习的嵌入。如果增加样本数量,情况将很快发生变化,可以把它作为一个练习。最后,在测试数据上评估模型。首先,需要对测试数据进行分词。

'''对测试集数据进行分词'''
test_dir = os.path.join(imdb_dir, 'test')

labels = []
texts = []

for label_type in ['neg', 'pos']:
    dir_name = os.path.join(test_dir, label_type)
    for fname in sorted(os.listdir(dir_name)):
        if fname[-4:] == '.txt':
            f = open(os.path.join(dir_name, fname))
            texts.append(f.read())
            f.close()
            if label_type == 'neg':
                labels.append(0)
            else:
                labels.append(1)

sequences = tokenizer.texts_to_sequences(texts)
x_test = pad_sequences(sequences, maxlen=maxlen)
y_test = np.asarray(labels)
'''在测试集上评估模型'''
model.load_weights('pre_trained_glove_model.h5')
model.evaluate(x_test, y_test)

测试精度达到了令人震惊的 56%!只用了很少的训练样本,得到这样的结果很不容易。

小结

1.将原始文本转换为神经网络能够处理的格式。

2.使用Keras模型的Embedding 层来学习针对特定任务的标记嵌入

3.使用预训练词嵌入在小型自然语言处理问题上获得额外的性能提升。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Deep learning 八 的相关文章

随机推荐

  • 超详细!大模型面经指南(附答案)

    大模型应该算是目前当之无愧的最有影响力的AI技术 它正在革新各个行业 包括自然语言处理 机器翻译 内容创作和客户服务等 成为未来商业环境的重要组成部分 截至目前大模型已超过100个 大模型纵横的时代 不仅大模型越来越卷 就连大模型相关面试也
  • 可观测性是什么?新手入门指南!

    如果您之前对可观测性重要性 益处 以及组成不甚了解 本文是一个合适的指南手册 什么是可观测性 可观测性被定义为根据系统产生的输出数据 如日志 指标和链路追踪 来衡量当前系统运行状态的能力 可观测性目前被广泛的用于提升分布式 IT 系统的稳定
  • Spring AOP 和 Spring Boot 统一功能处理

    文章目录 Spring AOP 是什么 什么是 AOP AOP 组成 切面 Aspect 连接点 Join Point 切点 Pointcut 通知 Advice 实现 Spring AOP
  • 找不到concrt140.dll怎么办?concrt140.dll丢失的5个解决方法

    无法找到concrt140 dll 的错误是一种常见的Windows系统错误信息 它通常表示系统中缺少了Microsoft Visual C 2015 Redistributable中名为concrt140 dll的动态链接库文件 当我们运
  • 大模型微调技巧:在 Embeeding 上加入噪音提高指令微调效果

    大家好 在去年分享过一篇ACL2022的文章 通过微调前给预训练模型参数增加噪音提高预训练语言模型在下游任务的效果方法 NoisyTune方法在BERT XLNET RoBERTa和ELECTRA上均取得不错的效果 那么通过加入噪音的方式
  • 编写http接口api及接口自动化测试

    片言 此文中代码都是笔者工作中源码 所以不会很完整 主要摘常见场景的api片段用以举例说明 另 此文主要针对自动化测试人员 尤其有python基础阅读更佳 笔者使用 python3 6 postgresql10 flask 0 12 的环境
  • 深度学习小白学习路线规划

    作为深度学习的初学者 以下是一个建议的学习路线 可以帮助你逐步掌握图像分类 目标检测与跟踪 实例分割和姿态估计 掌握这些 计算机视觉算是入门了 1 基础知识 学习Python编程语言 它是深度学习最常用的编程语言之一 了解机器学习和深度学习
  • Deep learning 九 循环神经网络

    目前见过的所有神经网络 比如密集连接网络和卷积神经网络 都有一个主要特点 那就是它们都没有记忆 它们单独处理每个输人 在输人与输人之间没有保存任何状态 对于这样的网络 要想处理数据点的序列或时间序列 需要向网络同时展示整个序列 即将序列转换
  • 常用Web安全扫描工具合集

    漏洞扫描是一种安全检测行为 更是一类重要的网络安全技术 它能够有效提高网络的安全性 而且漏洞扫描属于主动的防范措施 可以很好地避免黑客攻击行为 做到防患于未然 那么好用的漏洞扫描工具有哪些 答案就在本文 1 AWVS Acunetix We
  • 八大排序(希尔排序)

    上篇文章我们来看了看插入排序是怎么实现的 本章内容就是在插入排序的基础上完成希尔排序 希尔排序是一个比较强大的排序 我们希尔排序的时间复杂度是比较难算的 这里直接给出的结论就是时间复杂度就是O N 1 3 比较难算的原因就是我们每一次的次数
  • 【亚马逊】2025届暑期实习生 提前批!

    传音控股 重庆 校招待遇 统一给这些23届秋招毁意向 毁约的无良公司发封感谢信 互联网大厂 VS 体制内 薪资福利大对比 wxg 第一周实习感受与总结 1 2 5SlAM岗面经汇总 slam算法岗24届实习 0offer选手总结 211本硕
  • glu32.dll文件缺失导致程序无法运行问题

    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题 如果是新手第一时间会认为是软件或游戏出错了 其实并不是这样 其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库 这时你可以下载这个glu32 d
  • 完美解决msvcr100.dll丢失的三个方法,亲测有效

    在计算机操作中 我们常遇到故障提醒 如 msvcr100 dll丢失 这个问题通常会导致某些程序无法正常运行 给用户带来困扰 为了解决这个问题 网上有很多关于如何修复msvcr100 dll丢失的方法 在本文中 我将介绍三种常见的解决方法
  • 题解 | #输出单向链表中倒数第k个结点#

    滴滴前端日常实习一面 字节跳动前端日常实习 一面 Cider秋招一二面 已拒 贝壳编程题题解 山东offer选择 求助 选择华为还是中电14所 写论文 写论文 华为 煞笔公司 华为待遇问题 已接offer 字节跳动飞书运营实习面经 华为 煞
  • fl studio20中文内测版下载2024最新完美实现汉化

    fl studio20是一款众所周知的水果编曲软件 能够剪辑 混音 录音 它的矢量界面能更好用在4K 5K甚至8K显示器上 还可以可以编曲 剪辑 录音 混音 让你的计算机成为全功能录音室 不论是在功能上面还是用户界面上都是数一数二的 但该软
  • yolov5单目测距+速度测量+目标跟踪

    要在YOLOv5中添加测距和测速功能 您需要了解以下两个部分的原理 单目测距算法 单目测距是使用单个摄像头来估计场景中物体的距离 常见的单目测距算法包括基于视差的方法 如立体匹配 和基于深度学习的方法 如神经网络 基于深度学习的方法通常使用
  • 题解 | #输出单向链表中倒数第k个结点#

    滴滴前端日常实习一面 字节跳动前端日常实习 一面 Cider秋招一二面 已拒 贝壳编程题题解 山东offer选择 求助 选择华为还是中电14所 写论文 写论文 华为 煞笔公司 华为待遇问题 已接offer 字节跳动飞书运营实习面经 华为 煞
  • 题解 | #复制部分字符串#

    拒了华为 重回0 offer 目前在大三 寒假想找个实习 退役大学生 如题 uu们帮忙看看 25届 没有实习过 没有背过八股文 心里感觉很不稳 下学期想去暑期实习 uu们 德赛西威鸽 在中国电信公司工作一年后 我提桶跑路 东北辽宁就业求职好
  • 24届双非一本想转行测试,不知道从哪开始学,求佬指教

    避雷西安华为海思某部门 四大行软开校招值得去吗 细节见品格 北京下大雪后的各大厂动作 回暖分析 战绩结算 on 赛文X 选offer 找实习需要实习经历 华为小奖状 夸夸我导师 别羡慕我 嘿嘿 华为od前端技术面 华为海思本科14级 国家计
  • Deep learning 八

    2 使用预训练的词嵌入 有时可用的训练数据很少 以至于只用手头数据无法学习适合特定任务的词嵌人 那么可以从预计算的嵌人空间中加载嵌入向量 这个嵌人空间是高度结构化的 并且具有有用的属性 即抓住了语言结构的一般特点 而不是在解决问题的同时学习