Deep learning 七

2023-12-05

使用深度学习模型处理文本(可以将其理解为单词序列或字符序列 )、时间序列和一般的序列数据。用于处理序列的两种基本的深度学习算法分别是循环神经网络(recurrentneuralnetwork)和一维卷积神经网络(1D convnet)后者是前面学的二维卷积神经网络的一维版本。

应用场所

文档分类和时间序列分类,比如识别文章的主题或书的作者;

时间序列对比,比如估测两个文档或两支股票行情的相关程度;

序列到序列的学习,比如将英语翻译成法语:

情感分析,比如将推文或电影评论的情感划分为正面或负面;

时间序列预测,比如根据某地最近的天气数据来预测未来天气。

一、处理文本数据

文本是最常用的序列数据之一,可以理解为字符序列或单词序列,但最常见的是单词级处理。后面介绍的深度学习序列处理模型都可以根据文本生成基本形式的自然语言理解,并可用于文档分类、情感分析、作者识别甚至问答(OA,在有限的语境下)等应用。当然这些深度学习模型都没有像人类一样真正地理解文本,而只是映射出书面语言的统计结构,但这足以解决许多简单的文本任务。深度学习用于自然语言处理是将模式识别应用于单词句子和段落,这与计算机视觉是将模式识别应用于像素大致相同。
与其他所有神经网络一样,深度学习模型不会接收原始文本作为输人,它只能处理数值张量文本向量化(vectorize)是指将文本转换为数值张量的过程。实现方法如下

1.将文本分割为单词,并将每个单词转换为一个向量
2.将文本分割为字符,并将每个字符转换为一个向量。
3.提取单词或字符的n-gram,并将每个n-gram 转换为一个向量。n-gram 是多个连续单词或字符的集合(n-gram之间可重叠)。(往往被用于浅层的语言处理模型,而不是深度学习模型,但这个作为特征工程工具在logistic回归和随机森林中使用中不可或缺)

将文本分解而成的单元(单词、字符或 n-gram)叫作标记(token),将文本分解成标记的过程叫作分词 (tokenization)。所有文本向量化过程都是应用某种分词方案,然后将数值向量与生成的标记相关联。这些向量组合成序列张量,被输人到深度神经网络中(见图 6-1)。将向量与标记相关联的方法有很多种。将介绍两种主要方法:对标记做 one-hot 编码(one-hotencoding)与标记嵌入[token embedding,通常只用于单词,叫作词嵌入(wordembedding)]将解释这些方法,并介绍如何使用这些方法,将原始文本转换为可以输人到 Keras网络中的Numpy张量。

图6-1 从文本到标记再到向量

理解n-gram和词袋
n-gram是从一个句子中提取的N个(或更少)连续单词的集合。这一概念中的“单词”也可以替换为“字符”。
下面来看一个简单的例子。考虑句子“The cat sat on the mat.”(“猫坐在垫子上”)。它可以被分解为以下二元语法(2-grams)的集合。
"The""The cat","cat","cat sat","sat""sat on","on","on the","the","the mat","mat"}
这个句子也可以被分解为以下三元语法(3-grams)的集合。
The","The cat"cat""cat sat",“The cat sat""sat","sat on","on","cat sat on","on the","the""sat on the","themat","mat","on the mat"]
这样的集合分别叫作二元语法袋(bag-of-2-grams)及三元语法袋(bag-of-3-grams)。这里袋(bag)这一术语指的是,我们处理的是标记组成的集合,而不是一个列表或序列,即标记没有特定的顺序。这一系列分词方法叫作词袋(bag-of-words )。

1.单词和字符的one-hot 编码

one-hot 编码是将标记转换为向量的最常用、最基本的方法。它将每个单词与一个唯一的整数索引相关联,然后将这个整数索引i转换为长度为 N的二进制向量(N是词表大小),这个向量只有第i个元素是1,其余元素都为 0。

Keras 的内置函数可以对原始文本数据进行单词级或字符级的 one-hot 编码。应该使用这些函数,因为它们实现了许多重要的特性,比如从字符串中去除特殊字符、只考虑数据集中前N个最常见的单词(这是一种常用的限制,以避免处理非常大的输人向量空间)。

from keras.preprocessing.text import Tokenizer

samples = ['The cat sat on the mat.', 'The dog ate my homework.']

# We create a tokenizer, configured to only take
# into account the top-1000 most common words
"""创建一个分词器 (tokenizer),设置为只考虑前 1000个最常见的单词"""
tokenizer = Tokenizer(num_words=1000)
# This builds the word index
#构建单词索引
tokenizer.fit_on_texts(samples)

# This turns strings into lists of integer indices.
#将字符串转换为整数索引组成的列表
sequences = tokenizer.texts_to_sequences(samples)

# You could also directly get the one-hot binary representations.
# Note that other vectorization modes than one-hot encoding are supported!
"""也可以直接得到one-hot 二进制表示这个分词器也支持除 one-hot 编码外的其他向量化模式"""
one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary')

# This is how you can recover the word index that was computed
#找回单词索引
word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))

one-hot 编码的一种变体是所谓的one-hot 散列技巧(one-hot hashing trick),如果词表中唯标记的数量太大而无法直接处理,就可以使用这种技巧。这种方法没有为每个单词显式分配一个索引并将这些索引保存在一个字典中,而是将单词散列编码为固定长度的向量,通常用一个非常简单的散列函数来实现。这种方法的主要优点在于,它避免了维护一个显式的单词索引.从而节省内存并允许数据的在线编码(在读取完所有数据之前,你就可以立刻生成标记向量 )这种方法有一个缺点,就是可能会出现 散列冲突 (hash collision),即两个不同的单词可能具有相同的散列值,随后任何机器学习模型观察这些散列值,都无法区分它们所对应的单词。如果散列空间的维度远大于需要散列的唯一标记的个数,散列冲突的可能性会减小。

samples = ['The cat sat on the mat.', 'The dog ate my homework.']

# We will store our words as vectors of size 1000.
# Note that if you have close to 1000 words (or more)
# you will start seeing many hash collisions, which
# will decrease the accuracy of this encoding method.
"""将单词保存为长度为 1000的向量。如果单词数量接近 1000个(或更多),那么会遇到很多散列冲突,这会降低这种编码方法的准确性"""
dimensionality = 1000
max_length = 10

results = np.zeros((len(samples), max_length, dimensionality))
for i, sample in enumerate(samples):
    for j, word in list(enumerate(sample.split()))[:max_length]:
        # Hash the word into a "random" integer index
        # that is between 0 and 1000
        """将单词散列为0~1000范围内的一个随机整数索引"""
        index = abs(hash(word)) % dimensionality
        results[i, j, index] = 1.

2.使用词嵌入

将单词与向量相关联还有另一种常用的强大方法,就是使用密集的词向量(word vector).也叫词嵌入(word embedding)。one-hot 编码得到的向量是二进制的、稀疏的(绝大部分元素都是0)、维度很高的(维度大小等于词表中的单词个数 ),而词人是低维的浮点数向量(即密集向量,与稀疏向量相对),参见图 6-2。与one-hot 编码得到的词向量不同,词嵌人是从数据中学习得到的。常见的词向量维度是 256、512或1024(处理非常大的词表时)。与此相对,onehot 编码的词向量维度通常为 20 000 或更高(对应包含 20000个标记的表)。因此,词向量可以将更多的信息塞入更低的维度中。

one-hot词向量  稀疏-高维-硬编码                                            词嵌入:-密集低维-从数据中学习得到

图6-2one-hot 编码或one-hot 散列得到的词表示是稀疏的、高维的、硬编码的,

而词嵌入是密集的、相对低维的,而且是从数据中学习得到的

获取词嵌入的两种方式

1->在完成主任务(比如文档分类或情感预测)的同时学习词嵌人。在这种情况下,一开始是随机的词向量,然后对这些词向量进行学习,其学习方式与学习神经网络的权重相同。

2->在不同于待解决问题的机器学习任务上预计算好词嵌人,然后将其加载到模型中。这些词嵌入叫作预训练词嵌入(pretrained wordembedding)。

(1)利用 Embedding 层学习词嵌入

图6-3词嵌入空间的简单示例

在真实的词嵌人空间中,常见的有意义的几何变换的例子包括“性别”向量和“复数”向量。例如,将 king(国王)向量加上female(女性)向量,得到的是 queen(女王)向量。将 king(国王)向量加上 plural(复数)向量,得到的是 kings 向量。词嵌人空间通常具有几千个这种可解释的并且可能很有用的向量。
有没有一个理想的词嵌人空间,可以完美地映射人类语言,并可用于所有自然语言处理任务?可能有,但我们尚未发现。此外,也不存在人类语言 (human language)这种东西。世界上有许多种不同的语言,而且它们不是同构的,因为语言是特定文化和特定环境的反射。但从更实际的角度来说,一个好的词嵌入空间在很大程度上取决于你的任务。英语电影评论情感分析模型的完美词嵌人空间,可能不同于英语法律文档分类模型的完美词嵌人空间,因为某些语义关系的重要性因任务而异。

因此,合理的做法是对每个新任务都学习一个新的嵌入空间。幸运的是,反向传播让这种学习变得很简单,而Keras 使其变得更简单。我们要做的就是学习一个层的权重,这个层就是Embedding 层。

#将一个 Embedaing 层实例化
from keras.layers import Embedding

# The Embedding layer takes at least two arguments:
# the number of possible tokens, here 1000 (1 + maximum word index),
# and the dimensionality of the embeddings, here 64.
"""Embedding 层至少需要两个参数标记的个数(这里是1000,即最大单词索引+1)和入的维度(这里是64)"""
embedding_layer = Embedding(1000, 64)

最好将 Embedding 层理解为一个字典,将整数索引(表示特定单词)映射为密集向量。它接收整数作为输人,并在内部字典中查找这些整数,然后返回相关联的向量。Embedding 层实际上是一种字典查找(见图 6-4)。

"""加载IMDB 数据,准备用于Embedaing 层"""
from keras.datasets import imdb
from keras import preprocessing

# Number of words to consider as features
"""作为特征的单词个数"""
max_features = 10000
# Cut texts after this number of words 
# (among top max_features most common words)
"""在这么多单词后截断文本(这些单词都属于前max_features个最常见的单词)"""
maxlen = 20

# Load the data as lists of integers.
"""将数据加载为整数列表"""
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=max_features)

# This turns our lists of integers
# into a 2D integer tensor of shape `(samples, maxlen)`
"""将整数列表转换成形状为(samples.maxlen)的二维整数张量"""
x_train = preprocessing.sequence.pad_sequences(x_train, maxlen=maxlen)
x_test = preprocessing.sequence.pad_sequences(x_test, maxlen=maxlen)




"""在IMDB 数据上使用Embedaing 层和分类器"""
from keras.models import Sequential
from keras.layers import Flatten, Dense

model = Sequential()
# We specify the maximum input length to our Embedding layer
# so we can later flatten the embedded inputs
"""指定 Embedaing 层的最大输入长度,以便后面将嵌入输入展平。Embedaing 层激活的形状为(samples,maxlen,8)"""
model.add(Embedding(10000, 8, input_length=maxlen))
# After the Embedding layer, 
# our activations have shape `(samples, maxlen, 8)`.

# We flatten the 3D tensor of embeddings 
# into a 2D tensor of shape `(samples, maxlen * 8)`
"""将三维的嵌入张量展平成形状为(samples,maxlen*8)的二维张量"""
model.add(Flatten())

# We add the classifier on top
"""在上面添加分类器"""
model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['acc'])
model.summary()

history = model.fit(x_train, y_train,
                    epochs=10,
                    batch_size=32,
                    validation_split=0.2)

得到的验证精度约为 76%,考虑到仅查看每条评论的前 20 个单词,这个结果还是相当不错的。但请注意,仅仅将嵌人序列展开并在上面训练一个 Dense 层,会导致模型对输入序列中的每个单词单独处理,而没有考虑单词之间的关系和句子结构(举个例子,这个模型可能会将 thismovie is a bomb和this movie is the bomb 两条都归为负面评论,第一句的意思是“这部电影很烂”,而第二句的意思是“这部电影很棒”)更好的做法是在入序列上添加循环层或一维卷积层,将每个序列作为整体来学习特征。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Deep learning 七 的相关文章

随机推荐

  • 牛客周赛 Round 22 解题报告 | 珂学家 | 思维构造 + 最小生成树

    题解 提取不重复的整数 import java util HashSet import java util Scanner 注意类名必须为 Main 不要有任何 package 题解 计算三角形的周长和面积 include
  • 信号间歇性和噪声下的复指数频率估计研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 2 1 实验1 2 2 实验2
  • 如何在线给官网搭建一个帮助文档?

    在数字化时代 帮助文档已成为官网不可或缺的一部分 然而 传统的帮助文档往往只是简单地罗列问题和答案 缺乏互动性和用户体验 那么 如何在线给官网搭建一个富有创意且用户友好的帮助文档呢 一 打造沉浸式体验 传统的帮助文档通常以文字和图片为主 缺
  • 光伏储能虚拟同步发电机并网仿真模型(Simulink仿真实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Simulink仿真实现
  • 冤哥y佬和他的happy茶(2023年四川大学腾讯杯新生赛E题の吐槽)

    第一次发帖 希望大佬们能解答 小弟是今年大二的双非计算机专业学生 在前面一年多里面有效的学习时间学的基本上都是前后端开发 现在是把重心放在了后端的开发上面 最近学校和腾讯云有个校企合作的小项 题解 X形图案 include
  • 扬帆证券:玻璃期价涨势强劲 投资者需理性看待

    上个交易周 国内产品期货商场全体工作平稳 其间 玻璃期货体现较为出色 主力合约上星期五午后忽然大幅拉升 毕竟收涨逾7 周内累计涨幅超越10 业内人士以为 近期玻璃期价走势强劲主要是受地产政策利好和本钱增加的推动 后市行情或将偏震动 上涨持续
  • MS SQL Server fill factor 面试题

    中国信达后援中心面试 有同学了解中国信达后援中心合肥金融科技岗的面试大概形式吗 深入理解和使用volatile关键字 第1章 引言大家好 今天小黑要和大家聊聊Java并发编程的一个重要话题 volatile关键字 在Java的世界里 掌握并
  • 扬帆证券:中概股的认定标准?

    首要 从法则角度来看 中概股的确认标准是什么 现在 中概股的确认标准是根据美国证券交易委员会 SEC 根据 1934年证券交易法案 规矩的 海外私募股票发行 Regulation S 和 海外揭穿发行股票 Rule 144A 的规矩来确认的
  • 扬帆证券:沪股通代表什么?

    沪股通 是指香港与我国大陆 上海 股市之间的互联互通机制 其实质是一个跨境出资项目 目的是为了完成两市彼此敞开 促进本钱商场交融 前进我国本钱商场的世界化水平 在这个机制下 香港境内的本钱可以通过指定的途径买入和卖出上海证券交易所上市的股票
  • 使用多窗口Savitzky-Golay(MWSG)滤波器增强频谱图,用于鲁棒的鸟鸣检测(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码 数据 文章
  • 拼多多财报解读:连接高质量供给与全球消费者,多多跨境动力澎湃

    题解 牛牛的排序 include
  • C语言--每日选择题--Day33

    第一题 1 在以下给出的表达式中 与 do while E 语句中的 E 不等价的表达式是 A E 0 B E gt 0 E lt 0 C E 0 D E 0 答案及解析 C 首先要知道 E 这个条件成立无非两种 0为假 非0为真 所以E
  • 开关电容转换器的合成器研究(Python代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Python代码实现
  • Python 简介和用途

    什么是Python Python是一种流行的编程语言 由Guido van Rossum创建 并于1991年发布 它用于以下领域 网页开发 服务器端 软件开发 数学 系统脚本编写 Python能做什么 Python可用于在服务器上创建Web
  • 如何有效进行测试执行进度计划

    测试执行通常都是处于软件测试生命周期的关键路径上 它不仅在测试过程中占有重要的地位 并且也会花费大量的测试时间 针对测试执行而进行的计划 即测试执行进度计划 是进行测试执行进度控制的基础 在进行测试执行进度计划制订的时候 需要考虑哪些因素会
  • 用AI破局,Bhout、Fiture、Keep亦步亦趋

    秋招捡漏啦 阿里补录进行中 抓紧投递吧 阿里巴巴 控股集团 爱橙科技 CFO产品技术部 base 杭州 上海 小众部门的测试开发岗 帮本小组补录测开 Java技术栈 我们是属于控股集团哈 可提供简 淘天集团顶尖人才计划T STAR全球招募启
  • 医药行业:轻松学会超低温冰箱技能

    超低温冰箱在医疗 科研和生物领域中扮演着至关重要的角色 用于存储和保护对温度极为敏感的样品和药品 然而 由于这些冰箱内的温度波动可能导致样品的损坏 因此对超低温冰箱的监控变得至关重要 客户案例 医疗研究机构 上海某医疗研究机构在其实验室中使
  • 题解 | #Quasi Binary#

    题解 Quasi Binary 这道题只让再可能的数中有0或1出现 那么最少可能方案的数量只可能是每个位上的最大的数字 因为一定要在这个位上减去这个数目的一 才可以将这位变成0 接下来就是按每 题解 奇 妙拆分 这道题思路 很简单 要求最多
  • 求fib数列的第n项,前几项是1,1,2,3,5,每一项都等于前面两项的和

    题解 增加派对名单 二 insert返回None print input split insert 0 Allen insert直接对列表进行操作nam input 题解 删除简历 a input split del a 0 print a
  • Deep learning 七

    使用深度学习模型处理文本 可以将其理解为单词序列或字符序列 时间序列和一般的序列数据 用于处理序列的两种基本的深度学习算法分别是循环神经网络 recurrentneuralnetwork 和一维卷积神经网络 1D convnet 后者是前面