单词标记化与传统词形还原？

2024-02-21

我正在研究 NLP 预处理。在某些时候，我想实现一个上下文相关的词嵌入，作为辨别词义的一种方式，并且我正在考虑使用 BERT 的输出来实现这一点。我注意到 BERT 使用 WordPiece 标记化（例如，“playing”->“play”+“##ing”）。

现在，我使用标准分词器对文本进行预处理，该分词器按空格/一些标点符号进行分割，然后我有一个词形还原器（“播放”->“播放”）。我想知道 WordPiece 标记化相对于标准标记化 + 词形还原有什么好处。我知道 WordPiece 可以帮助处理词汇量不足的单词，但是还有其他方法吗？也就是说，即使我最终没有使用 BERT，我是否应该考虑用单词标记化替换我的标记生成器 + 词形还原器？在什么情况下这会有用？

单词片段标记化在很多方面都有帮助，并且应该比词形还原器更好。由于多种原因：

如果您将“playful”、“playing”、“played”等词词形还原为“play”，它可能会丢失一些信息，例如playing是现在时并且played是过去时，这在单词片段标记化中不会发生。
词块标记涵盖了所有单词，甚至是字典中没有出现的单词。它会分割单词，并且会有单词片段标记，这样，您就应该嵌入分割后的单词片段，这与删除单词或替换为“未知”标记不同。

使用单词片段标记化而不是标记器+词形还原器只是一种设计选择，单词片段标记化应该表现良好。但是您可能必须考虑计数，因为单词片段标记化会增加标记的数量，而词形还原中的情况并非如此。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

单词标记化与传统词形还原？的相关文章

波特油炸的去梗

为什么波特词干算法在线 http text processing com demo stem http text processing com demo stem stem fried to fri并不是fry 我不记得任何以以下结尾的单词
添加对 CountVectorizer (sklearn) 的词干支持

我正在尝试使用 sklearn 将词干添加到 NLP 中的管道中 from nltk stem snowball import FrenchStemmer stop stopwords words french stemmer French
如何使用CNN来训练不同大小的输入数据？

CNN 似乎主要针对固定大小的输入来实现现在我想用CNN来训练一些不同大小的句子有哪些常用的方法以下建议主要与用于计算机视觉任务特别是识别的 CNN 相关但也可能对您的领域有所帮助我会看看He 等人的用于视觉识别的深度卷积网
正则表达式/“正则表达式”中的正则是什么意思？

正则表达式中的正则是什么意思我听说正则表达式曾经是常规的但现在不再了 The regular正则表达式中来自于它匹配常规语言 http en wikipedia org wiki Regular language 的概念形式语言理
创建向量空间

我有一个问题我有很多文档每一行都是由某种模式构建的当然我有这一系列的图案我想创建一些向量空间然后通过某种规则来向量这个模式我还不知道这个规则是什么即使这个模式像我的向量空间的质心然后向量当前文档的每一行再次按照此规则
Keras 文本预处理 - 将 Tokenizer 对象保存到文件中以进行评分

我按照以下步骤大致使用 Keras 库训练了一个情感分类器模型使用 Tokenizer 对象类将文本语料库转换为序列使用 model fit 方法构建模型评估这个模型现在为了使用此模型进行评分我可以将模型保存到文件中并从文
AttributeError：使用 CRF 时“Tensor”对象没有属性“_keras_history”

我知道关于这个问题有很多问题我已经阅读了其中的一些问题但没有一个对我有用 I am trying to build a model with the following architecture 代码如下 token inputs In
在 Javascript 中使用正则表达式对字符串进行标记

假设我有一个包含换行符和制表符的长字符串 var x This is a long string n t This is another one on next line 那么我们如何使用正则表达式将该字符串拆分为标记呢我不想用 spli
如何调整 NLTK 句子标记器

我正在使用 NLTK 来分析一些经典文本但我在按句子标记文本时遇到了麻烦例如这是我从以下内容中得到的片段莫比迪克 http www gutenberg org cache epub 2701 pg2701 txt import nlt
SpaCy 的相似度是如何计算的？

初学者 NLP 问题在这里 similarity 方法如何运作哇 spaCy 太棒了它的tfidf模型可以更容易预处理但w2v只有一行代码 token vector 惊人的 In his spaCy 上的 10 行教程 https g
这个 NLP 问题层次结构描述中的最大池化是什么类型

我正在尝试实现这个描述以及我所做的我生成了形状的 uni gram bi gram tri gram 15 512 使用填充然后对于每个单词我连接三个特征向量 3 512 然后我向他们申请 Globalmaxpooling1D 我不知
Blenderbot 微调

我一直在尝试微调 HuggingFace 的对话模型 Blendebot 我已经尝试过官方拥抱脸网站上给出的传统方法该方法要求我们使用 trainer train 方法来完成此操作我使用 compile 方法尝试了它我尝试过使用 Py
语音识别中如何处理同音词？

对于那些不熟悉什么是同音字 https en wikipedia org wiki Homophone是的我提供以下示例我们的是嗨和高到太二在使用时语音API https developer apple com docume
如何训练斯坦福 NLP 情感分析工具

地狱大家我正在使用斯坦福核心 NLP 包我的目标是对推文直播进行情感分析按原样使用情感分析工具对文本态度的分析非常差许多积极因素被标记为中性许多消极因素被评为积极我已经在文本文件中获取了超过一百万条推文但我不知道如何实际获
实时跟踪每分钟/小时/天的前 100 个 Twitter 单词

我最近遇到这样一个面试问题 Given a continuous twitter feed design an algorithm to return the 100 most frequent words used at this min
NLTK 中的无监督 HMM 训练

我只是想进行非常简单的无监督 HMM 训练nltk http www nltk org 考虑 import nltk trainer nltk tag hmm HiddenMarkovModelTrainer from nltk corpu
快速NLTK解析成语法树

我正在尝试将数百个句子解析为语法树我需要快速完成问题是如果我使用 NLTK 那么我需要定义一个语法而我不知道我只知道它会是英语我尝试使用this https github com emilmont pyStatParser统计解析器
快速 shell 命令删除文本文件中的停用词

我有一个 2GB 的文本文件我正在尝试从此文件中删除经常出现的英语停用词我有 stopwords txt 包含这样的 a an the for and I 使用 shell 命令例如 tr sed 或 awk 执行此操作的快速方法是什
NLTK 中的 wordnet lemmatizer 不适用于副词 [重复]

这个问题在这里已经有答案了 from nltk stem import WordNetLemmatizer x WordNetLemmatizer x lemmatize angrily pos r Out 41 angrily 这是 nl
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach

随机推荐

Chrome 102：已被 CORS 策略阻止：请求的目标 IP 地址空间为“未知”，但资源位于“私有”地址空间中

我们有一个托管在 LAN 中的基于 Web 的系统非 SSL 从 Chrome 102 Windows Ubuntu 开始我们面临一个随机的 CORS 问题描述为已被 CORS 策略阻止请求具有目标 IP 地址空间为未知但资
JS addeventListener 点击消失

我创建了简单的fidlle https jsfiddle net 0nm4uLvd var cnt 1 function add var root document getElementById root root innerHTML br
无法运行从 spring-boot jersey 生成的 jar

我无法使用带有 jersey 项目的 spring boot 运行生成的 jar 文件我遇到的例外是 Error starting Tomcat context Exception org springframework beans fa
如果验证后我决定将元素移回原处，如何将 jquery-uidraggable 恢复为 true？

我正在寻找一种方法如果某些内容未验证则从恢复状态触发事件例如如果元素不存在它将从另一个列表中创建它但如果它已经存在则应该转到 else 并将元素返回到其原来的位置 catalog ul droppable tolerance
如何在 Java 中使用 Scala 单例对象？

我有一个需要在 Java 类中使用的 Scala 对象这是 Scala 对象 object Person val MALE m val FEMALE f 如何在 Java 中使用这个 Scala 对象到目前为止我已尝试以下操作但没有成
使用私有 git 存储库来阅读文档

我安装了 read the docs 以从需要用户密码身份验证的私有 git 存储库上的项目开始生成文档手动导入项目时如何输入用户名和密码以允许阅读文档克隆存储库非常感谢最大限度我最近遇到了同样的问题这里还有一个这样的问题为什
DataGrid 选项卡导航跳过列

我在 WPF 中有一个带有模板列的数据网格网格中的几列是只读的其他焦点变为可编辑而不是出现标签文本框复选框等我想要实现的是当我在网格的列中进行切换时只读列将被跳过有人知道如何实现这一目标吗谢谢弗拉丹不不工作这是完
如何实现自定义 UIDynamicBehavior 操作

我一直在寻找一个示例展示如何在 UIKit 动态中实现自定义 UIDynamicBehavior 所有教程和示例仅展示如何使用基元碰撞重力附件推动捕捉等组装 UIDynamicBehavior 在我的应用程序中一些视图在屏幕
在 Commodore 64 中绘制屏幕边框

我的好奇心已经持续了 25 年我很想了解其中的奥秘在 Commodore 64 中 6569 VIC 无法寻址边界您所能做的就是在中心区域光标移动的区域绘制像素边框总是统一的尽管你可以用 poke 53280 改变它的颜色如
在Mac OS上使用GCC为MS-DOS编译C程序（DOSBox）

我在Mac OS X上的Snow Leopard下运行GCC 4 2 1 我想用它来编译我15年前写的一些旧的C C DOS游戏以便我可以在下面运行它们DosBox http www dosbox com 为此它们显然需要编译为 DOS
两个列表，Python 中的比较速度更快

我正在编写 python 2 7 脚本来比较两个列表这些列表是通过读取文件内容从文件创建的文件只是文本文件没有二进制文件文件 1 仅包含哈希值某些明文单词的 MD5 和文件 2 是 hash plain 列表具有不同的长度从逻
Git 丢失更改[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案今天在使用 Git 的时候遇到了一些问题我真的无法理解我们的团队有一个私人 github 存储库我从该共享存储库中提取了一些更改完成
F# 中的受歧视联盟是什么以及 OOP 中我们有什么类型的替代方案

我正在从 C 开始学习函数式编程当然由于我对 C 有着深入而详细的了解我选择了我的第一个函数式语言 F 并尝试投入时间来学习它现在我需要了解什么是受歧视的工会为什么它很重要以及为什么我们真正需要它我确实做了很多研究但导师讲师
float() 的文字无效：0.000001，如何修复错误？

我有一个包含 3 列数据的 csv 文件我需要创建一个新的输出文件其中包含原始文件第一列和第三列中的一组特定数据第三列包含十进制值我相信在这种情况下我已经使用了 python 的 float 功能我尝试过以下代码 in file
图神经网络中的梯度爆炸问题

我有一个梯度爆炸问题尝试了几天后仍无法解决我在 TensorFlow 中实现了一个自定义消息传递图神经网络用于根据图数据预测连续值每个图表都与一个目标值相关联图的每个节点由节点属性向量表示节点之间的边由边属性向量表示在消息传递
存储后端如何影响 Datomic？

我该如何选择 Datomic 的后端存储服务选择 DynamoDB 而不是 Postgres 是一个偏好问题还是每个选项都有不同的权衡如果有它们是什么存储服务要求 Datomic 的存储服务一般应满足 3 个要求实施键值存储语义
如何计算三次贝塞尔曲线的控制点

在执行三次贝塞尔曲线程序时我发现它使用端点为 10 10 0 和 0 1 0 其他控制点为 5 10 2 和 10 5 2 我不能了解他们是如何获得其他控制点的请帮我找到它们的任何公式或方法 Edit 如果你想让贝塞尔曲线平滑地通过N个点且
构建 Cython 模块时如何覆盖 -DNDEBUG 编译标志

我有一个 Cython 模块通过调用 C 函数cdef extern C 函数有assert 声明我想核实这些说法但是当我通过调用创建模块时python setup py build ext inplace GCC 总是被调用 DN
背景：颜色在 IE8 中不起作用

body background gray font family sans serif width 960px margin auto header background green border 10px solid black nav
单词标记化与传统词形还原？

我正在研究 NLP 预处理在某些时候我想实现一个上下文相关的词嵌入作为辨别词义的一种方式并且我正在考虑使用 BERT 的输出来实现这一点我注意到 BERT 使用 WordPiece 标记化例如 playing gt play i

单词标记化与传统词形还原？

单词标记化与传统词形还原？ 的相关文章

随机推荐

热门标签

单词标记化与传统词形还原？的相关文章