中文NLP的第二步：分词转词表ID，基于 PaddleHub 实现（学习心得）

2023-11-16

上一步我们做了分词：
中文NLP的第一步：分词，基于 PaddleHub 实现，绝对小白友好（学习心得）

第二步是把分词结果，对照词表转化成 ID

词表是什么呢？

首先我们要知道，中文字符是没办法直接计算的，更不要说进一步的操作了，所以我们需要的是词嵌入，获得 word embedding，详见：
为什么NLP中需要词嵌入 word embeddings（学习心得）

而词语要转化为 word embedding 之前，先要根据词表转化为对应的序号 ID，这样转化程序才知道你转化的是哪个词

所以这里面是 2 重对应关系：

这里我们直接使用 PaddleHub 提供的 word2vec_skipgram 模型

Word2vec 是常用的词嵌入（word embedding）模型。该PaddleHub Module基于Skip-gram模型，在海量百度搜索数据集下预训练得到中文单词预训练词嵌入。其支持Fine-tune。Word2vec的预训练数据集的词汇表大小为1700249，word embedding维度为128。

模型介绍：
word2vec_skipgram

模型论文：
Efficient Estimation of Word Representations in
Vector Space

程序实现：

import paddlehub as hub
from paddlehub.reader.tokenization import load_vocab

raw_data = [
    ["你觉得明天是个晴天吗","我看还是下雨的可能性大"],
    ["中国哪家公司的人工智能最牛呢"],
    ["我在山上看见爱因斯坦"],
    ["我把车把一把把住了"]
]

lac = hub.Module(name="lac")

tokens = []
for texts in raw_data:
    results = lac.lexical_analysis(texts=texts, use_gpu=False, batch_size=1)
    for result in results: # 取得结果列表中的一个元素
        print(result)
        tokens.append(result['word'])

# 这是把 中文词语 转化为 词表 中对应 ID 的函数
def convert_tokens_to_ids(vocab, tokens): # 输入为词表，和要转化的 text
    wids = [] # 初始化一个空的集合，用于存放输出
    #tokens = text.split(" ") # 将传入的 text 用 空格 做分割，变成 词语字符串 的列表
    for token in tokens: # 每次从列表里取出一个 词语
        wid = vocab.get(token, None)
        if not wid:
            wid = vocab["unknown"]
        wids.append(wid)
    return wids

module = hub.Module(name="word2vec_skipgram") # 实例化 word2vec_skipgram 模型

vocab = load_vocab(module.get_vocab_path()) # 获得 词表 字典

# 我们要获取词表，直接利用 paddlehub.reader.tokenization 中的 load_vocab 函数即可
# load_vocab 函数的输入是具体的词表文件，这里我们用 word2vec_skipgram 附带的词表
# 模块的实例化对象 module 下，用 get_vocab_path() 方法
# 该方法可以在指定的 Module 中（这里就是word2vec_skipgram）查找 assets 文件夹下面有没有 vocab.txt 文件
# 如果找到，则返回该文件的 具体文件路径
# load_vocab 函数的返回值是一个 字典，里面 key 为 词语，value 是词语对应的 ID

tokens_ids = []
for item in tokens:
    item_ids = convert_tokens_to_ids(vocab, item) # 获得组成句子的 词语 的 ID 列表
    tokens_ids.append(item_ids)

for i in range(len(tokens)):
    print("token: %s; id: %s" % (tokens[i], tokens_ids[i]))

运行结果：

token: ['你', '觉得', '明天', '是', '个', '晴天', '吗']; id: [42, 1405, 3867, 10, 132, 15549, 19]
token: ['我', '看', '还是', '下雨', '的', '可能性', '大']; id: [28, 104, 155, 9785, 4, 15268, 76]
token: ['中国', '哪家', '公司', '的', '人工智能', '最', '牛', '呢']; id: [38, 586, 99, 4, 3258, 115, 1721, 286]
token: ['我', '在', '山上', '看见', '爱因斯坦']; id: [28, 21, 19869, 4500, 18837]
token: ['我', '把', '车', '把', '一把把', '住', '了']; id: [28, 166, 244, 166, 400305, 1827, 17]

OK，词语的 ID 转化完成！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

paddlepaddle

自然语言处理

人工智能

中文NLP的第二步：分词转词表ID，基于 PaddleHub 实现（学习心得）的相关文章

当我在本地运行 CoreNLP 时，为什么“corenlp.run”会产生不同的结果？

网站corenlp run http corenlp run它应该是 CoreNLP 演示站点显示的结果与我在本地计算机上运行 CoreNLP 管道时的结果截然不同网站上确实显示了正确的结果而本地机版本却没有我想知道是否有任何接近
如何获取与某个单词相关的相似单词？

我正在尝试解决一个 nlp 问题其中我有一个单词字典例如 list 1 phone android chair netflit charger macbook laptop sony 现在如果输入是 phone 我可以轻松地使用 in
日期自然语言解析器（.NET）？

我希望能够让用户使用自然语言例如下周五每个工作日输入日期包括重复日期很像以下的例子http todoist com Help timeInsert http todoist com Help timeInsert I found
Keras 文本预处理 - 将 Tokenizer 对象保存到文件中以进行评分

我按照以下步骤大致使用 Keras 库训练了一个情感分类器模型使用 Tokenizer 对象类将文本语料库转换为序列使用 model fit 方法构建模型评估这个模型现在为了使用此模型进行评分我可以将模型保存到文件中并从文
使用 nltk 进行分块

如何从给定模式的句子中获取所有块示例 NP
在Python或Sklearn中用整数值对具有字符串值的列变量进行编码

如何用整数值对数据表中字符串类型的列值进行编码例如我有两个特征变量颜色可能的字符串值 R G 和 B 和技能可能的字符串值 C Java SQL 和 Python 给定数据表有两列 Color gt R G B B G R B G
SGDClassifier 每次为文本分类提供不同的准确度

我使用 SVM 分类器将文本分类为好文本和乱码我正在使用 python 的 scikit learn 并按如下方式执行 Created on May 5 2017 import re import random import numpy
如何计算两个文本文档之间的相似度？

我正在考虑使用任何编程语言尽管我更喜欢 Python 来从事 NLP 项目我想获取两个文档并确定它们的相似程度常见的方法是将文档转换为 TF IDF 向量然后计算它们之间的余弦相似度任何有关信息检索 IR 的教科书都涵盖了这一点
比较文本文档含义的最佳方法？

我正在尝试找到使用人工智能和机器学习方法来比较两个文本文档的最佳方法我使用了 TF IDF Cosine 相似度和其他相似度度量但这会在单词或 n gram 级别上比较文档我正在寻找一种方法来比较meaning的文件最好的方法是什
Spacy 中的自定义句子分割

I want spaCy使用我提供的句子分割边界而不是它自己的处理例如 get sentences Bob meets Alice SentBoundary They play together gt Bob meets Alice Th
将 python NLTK 解析树保存到图像文件[重复]

这个问题在这里已经有答案了这可能会复制这个 stackoverflowquestion https stackoverflow com questions 23429117 saving nltk drawn parse tree to
NLTK 中的无监督 HMM 训练

我只是想进行非常简单的无监督 HMM 训练nltk http www nltk org 考虑 import nltk trainer nltk tag hmm HiddenMarkovModelTrainer from nltk corpu
ANEW 字典可以用于 Quanteda 中的情感分析吗？

我正在尝试找到一种方法来实施英语单词情感规范荷兰语以便使用 Quanteda 进行纵向情感分析我最终想要的是每年的平均情绪以显示任何纵向趋势在数据集中所有单词均由 64 名编码员按照 7 分李克特量表在四个类别上进行评分这提
如何对德语文本进行词形还原？

我有一篇德语文本我想对其应用词形还原如果不可能进行词形还原那么我也可以接受词干提取 Data 这是我的德语文本 mails Hallo Ich spielte am fr hen Morgen und ging dann zu ein
快速 shell 命令删除文本文件中的停用词

我有一个 2GB 的文本文件我正在尝试从此文件中删除经常出现的英语停用词我有 stopwords txt 包含这样的 a an the for and I 使用 shell 命令例如 tr sed 或 awk 执行此操作的快速方法是什
使用正则表达式标记化进行 NLP 词干提取和词形还原

定义一个函数名为performStemAndLemma 它需要一个参数第一个参数 textcontent 是一个字符串编辑器中给出了函数定义代码存根执行以下指定任务 1 对给出的所有单词进行分词textcontent 该单词应包含字
AttributeError：类型对象“Word2Vec”没有属性“load_word2vec_format”

我正在尝试实现 word2vec 模型并收到属性错误 AttributeError 类型对象 Word2Vec 没有属性 load word2vec format 下面是代码 wv Word2Vec load word2vec format
NLTK：包错误？朋克和泡菜？

基本上我不知道为什么会收到此错误只是为了获得更多图像这里有一个代码格式的类似消息由于是最新的该帖子的答案已经在消息中提到 Preprocessing raw texts LookupError Traceback most rec
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
使用“自然”语言编写代码更好吗？

我最近看到一种编程语言叫做超新星 http supernova sourceforge net 他们在网页上说超新星编程语言是现代脚本语言和第一个提出了概念用直接虚构进行编程描述使用纯人类语言的清晰子集你可以编写如下代码 i

随机推荐

cesium+vue-cli安装步骤

1 依赖node所以先安装node 可从官网下载安装安装一直下一步最后选安装目录 2 win r输入cmd运行先输入node v和npm v查看node安装是否正常我这里node是10 5 0 npm是6 1 0 3 安装vue np
Log4net等级说明以及按照不同级别写入多个日志文件

等级说明 Level级别 DEBUG
canvas制作在线画板

上效果图
ubuntu中使用Deb安装VS Code

01 进入VS Code 下载安装包网址 https code visualstudio com 02 将Windows系统中下载的deb安装包复制到虚拟机ubuntu中 03 进入虚拟机ubuntu中通过cd命令进入到deb安装包目录
点云配准注意的地方

1 法向量是局部坐标系的概念因此要将点云中心移到原点再计算法向量类似于先平移再旋转而不是先旋转再平移 2 用kdtree时用近邻点个数而不是距离因为点云各个不同 3 变换矩阵的对角线是目标与源点云的相似度位移为0 x det
Unity小地图制作

Unity小地图制作方法一简易版如果角色有跳跃功能不建议使用原理利用一个新的摄像机来制作小地图步骤 1 先搭建一个简单场景 2 在层级列表先创建一个摄像机移出其中的Audio Listener组件一个场景中只能有一个Audi
题目 1054: 二级C语言-计算素数和

输入两个正整数m和n m
锁消除和锁粗化

一锁消除 JIT 及时编译器对锁的优化因为正常都是多个线程去竞争同一把锁但是当前代码中每调用一次m1方法就会创建一个新的对象也可以理解为每个线程对应了一把新的锁没有竞争的情况毫无意义所以叫锁消除锁消除 public cla
C语言实现数据高低位翻转

通过指针转换为字节类型直接交换 include
73. Set Matrix Zeroes

Given a m x n matrix if an element is 0 set its entire row and column to 0 Do it in place 这题有很多方法一开始想的是用O m n 的空间用vect
使用Freemarker 实现JSP页面的静态化

使用Freemarker 静态化网页一原理 Freemarker 生成静态页面首先需要使用自己定义的模板页面这个模板页面可以是最最普通的html 也可以是嵌套freemarker中的取值表达式标签或者自定义标签等等然后后台读取
【网络】Wireshark分析RST消息

文章目录前言 1 定义 2 有三个条件可以产生RST 3 说明 4 RST数据报文产生情况 1 端口未打开系列文章 Wireshark分析Netty建链过程 tcp三次握手 osi模型 IPV4数据报头部格式 Wireshark分析RS
数据结构双向链表，实现增删改查

一双向链表的描述在单链表中查找直接后继结点的执行时间为O 1 而查找直接前驱的执行时间为O n 为克服单链表这种单向性的缺点可以用双向链表在双向链表的结点中有两个指针域一个指向直接后继另一个指向直接前驱二双向链表的存储结构
Base64 转文件下载

将base64字符串转化为文件 1 将下面代码另存为html文件 2 用浏览器打开 3 点击下载代码如下 div 输入base64字符串 div
opensips之yyparse( )

parse the config file prior to this only default values e g for debugging settings will be used yyin cfg stream if yypar
HTTPS协议详解

文章目录一 HTTPS是什么二 HTTPS的工作过程引入对称加密引入非对称加密引入证书总结三 HTTPS 与 HTTP 的区别区别 HTTPS的优缺点总结一 HTTPS是什么 HTTPS HTTPS 也是一个应用层协议
stm32f10x 时钟系统详解/时钟树/时钟初始化/SystemInit函数全注解

STM32F10x 时钟系统初学总结一时钟系统 1 概述用通俗的话来说时钟是单片机的脉搏是单片机的驱动源使用单片机中的任何一个外设都必须打开此外设相应的时钟这样的好处是在不使用某个外设的时候关闭此时钟外设从而可以降低系
合并两个有序链表（精美图示详解哦）

全文目录引言合并两个有序链表题目描述方法一将第二个链表合并到第一个思路实现方法二尾插到哨兵位的头节点思路实现总结引言在前面两篇文章中我们介绍了几道链表的习题反转链表链表的中间结点链表的倒数第k个结点戳我
深度学习实战28-AIGC项目：自动生成定制化的PPT文件

大家好我是微学AI 今天给大家介绍一下深度学习实战28 AIGC项目自动生成定制化的PPT文件 AIGC项目是一个基于自然语言处理技术的创新性项目旨在利用ChatGPT模型生成定制化的PPT文件该项目主要应用于商务和教育领域可以帮
中文NLP的第二步：分词转词表ID，基于 PaddleHub 实现（学习心得）

上一步我们做了分词中文NLP的第一步分词基于 PaddleHub 实现绝对小白友好学习心得第二步是把分词结果对照词表转化成 ID 词表是什么呢首先我们要知道中文字符是没办法直接计算的更不要说进一步的操作了所以我们需要的

中文NLP的第二步：分词转词表ID，基于 PaddleHub 实现（学习心得）

第二步是把分词结果，对照词表转化成 ID

中文NLP的第二步：分词转词表ID，基于 PaddleHub 实现（学习心得） 的相关文章

随机推荐

热门标签

中文NLP的第二步：分词转词表ID，基于 PaddleHub 实现（学习心得）的相关文章