为什么 FastText 不处理查找多词短语？

2023-12-24

FastText 预训练模型非常适合查找相似单词：

from pyfasttext import FastText
model = FastText('cc.en.300.bin')
model.nearest_neighbors('dog', k=2000)

[('dogs', 0.8463464975357056),
 ('puppy', 0.7873005270957947),
 ('pup', 0.7692237496376038),
 ('canine', 0.7435278296470642),
 ...

然而，它似乎不适用于多词短语，例如：

model.nearest_neighbors('Gone with the Wind', k=2000)

[('DEky4M0BSpUOTPnSpkuL5I0GTSnRI4jMepcaFAoxIoFnX5kmJQk1aYvr2odGBAAIfkECQoABAAsCQAAABAAEgAACGcAARAYSLCgQQEABBokkFAhAQEQHQ4EMKCiQogRCVKsOOAiRocbLQ7EmJEhR4cfEWoUOTFhRIUNE44kGZOjSIQfG9rsyDCnzp0AaMYMyfNjS6JFZWpEKlDiUqALJ0KNatKmU4NDBwYEACH5BAUKAAQALAkAAAAQABIAAAhpAAEQGEiQIICDBAUgLEgAwICHAgkImBhxoMOHAyJOpGgQY8aBGxV2hJgwZMWLFTcCUIjwoEuLBym69PgxJMuDNAUqVDkz50qZLi',
  0.71047443151474),

model.nearest_neighbors('Star Wars', k=2000)
[('clockHauser', 0.5432934761047363),
 ('CrônicasEsdrasNeemiasEsterJóSalmosProvérbiosEclesiastesCânticosIsaíasJeremiasLamentaçõesEzequielDanielOséiasJoelAmósObadiasJonasMiquéiasNaumHabacuqueSofoniasAgeuZacariasMalaquiasNovo',
  0.5197194218635559),

这是 FastText 预训练模型的限制吗？

我不知道 FastText 有任何处理多词短语的特殊能力。

因此，我希望您的查询被解释为模型中不存在的一个长单词，其中包含许多字符 n 元语法，其中包括' '空格字符。

而且，由于我预计训练数据不会有任何此类带空格的 n 元语法，因此所有此类 n 元语法向量都将在模型的 n 元语法桶中任意随机碰撞。因此，任何此类“单词”的合成词汇表外向量可能比通常的 OOV 向量更加嘈杂。

而且：pyfasttext包装器是 FastText 的一个废弃的非官方接口，已经有 2 年多没有更新了，并且在其 PyPI 页面上有一条消息：

警告！ pyfasttext 不再维护：使用 fastText 存储库中的官方 Python 绑定：https://github.com/facebookresearch/fastText/tree/master/python https://github.com/facebookresearch/fastText/tree/master/python

使用它您可能会发现更好的结果。见其doc/examples文件夹中的示例代码，了解如何查询最近邻居的示例，并考虑其get_sentence_vector()作为一种将字符串拆分为单词的方法，然后对单词的向量进行平均，而不是仅仅将字符串视为一个长的 OOV 单词。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

fasttext

为什么 FastText 不处理查找多词短语？的相关文章

在哪里可以找到英语短语列表？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我的任务是搜索文本中陈词滥调和常见短语的用法这些短语与您在财富之轮的短语谜题中可能看到的短语类似这
如何调整 NLTK 句子标记器

我正在使用 NLTK 来分析一些经典文本但我在按句子标记文本时遇到了麻烦例如这是我从以下内容中得到的片段莫比迪克 http www gutenberg org cache epub 2701 pg2701 txt import nlt
SpaCy 的相似度是如何计算的？

初学者 NLP 问题在这里 similarity 方法如何运作哇 spaCy 太棒了它的tfidf模型可以更容易预处理但w2v只有一行代码 token vector 惊人的 In his spaCy 上的 10 行教程 https g
词干函数错误：词干需要一个位置参数

这里的stem函数显示错误指出stem需要循环中的一个位置参数如所讨论的 from nltk stem import PorterStemmer as ps text my name is pythonly and looking fo
这个 NLP 问题层次结构描述中的最大池化是什么类型

我正在尝试实现这个描述以及我所做的我生成了形状的 uni gram bi gram tri gram 15 512 使用填充然后对于每个单词我连接三个特征向量 3 512 然后我向他们申请 Globalmaxpooling1D 我不知
使用我自己的训练示例训练 spaCy 现有的 POS 标记器

我正在尝试在我自己的词典上训练现有的词性标注器而不是从头开始我不想创建一个空模型在spaCy的文档中它说加载您想要统计的模型下一步是使用add label方法将标签映射添加到标记器但是当我尝试加载英文小模型并添加标签图时
Blenderbot 微调

我一直在尝试微调 HuggingFace 的对话模型 Blendebot 我已经尝试过官方拥抱脸网站上给出的传统方法该方法要求我们使用 trainer train 方法来完成此操作我使用 compile 方法尝试了它我尝试过使用 Py
生成易于记忆的随机标识符

与所有开发人员一样我们在日常工作中不断处理某种标识符大多数时候它与错误或支持票有关我们的软件在检测到错误后会创建一个包该包的名称由时间戳和版本号格式化这是创建合理唯一标识符以避免混淆包的一种廉价方法例子错误报告 20101
语音识别中如何处理同音词？

对于那些不熟悉什么是同音字 https en wikipedia org wiki Homophone是的我提供以下示例我们的是嗨和高到太二在使用时语音API https developer apple com docume
从文本文件中提取与输入单词最相似的前 N 个单词

我有一个文本文件其中包含我使用 BeautifulSoup 提取的网页内容我需要根据给定的单词从文本文件中找到 N 个相似的单词流程如下从中提取文本的网站 https en wikipedia org wiki Football h
BERT 输出不确定

BERT 输出是不确定的当我输入相同的输入时我希望输出值是确定性的但我的 bert 模型的值正在变化听起来很尴尬同一个值返回两次一次也就是说一旦出现另一个值就会出现相同的值并重复如何使输出具有确定性让我展示我的代码片段
使用正则表达式标记化进行 NLP 词干提取和词形还原

定义一个函数名为performStemAndLemma 它需要一个参数第一个参数 textcontent 是一个字符串编辑器中给出了函数定义代码存根执行以下指定任务 1 对给出的所有单词进行分词textcontent 该单词应包含字
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
阻止斯坦福核心 NLP 服务器输出它收到的文本

我正在运行一个斯坦福核心自然语言处理 http stanfordnlp github io CoreNLP server java mx4g cp edu stanford nlp pipeline StanfordCoreNLPServe
AttributeError：类型对象“Word2Vec”没有属性“load_word2vec_format”

我正在尝试实现 word2vec 模型并收到属性错误 AttributeError 类型对象 Word2Vec 没有属性 load word2vec format 下面是代码 wv Word2Vec load word2vec format
SpaCy 中的自定义句子边界检测

我正在尝试在 spaCy 中编写一个自定义句子分段器它将整个文档作为单个句子返回我编写了一个自定义管道组件它使用以下代码来执行此操作here https github com explosion spaCy issues 1850 但
如何将标记化中的多单词名称保留在一起？

我想使用 TF IDF 特征对文档进行分类一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n
验证 Transformer 中多头注意力的实现

我已经实施了MultiAttention head in Transformers 周围有太多的实现所以很混乱有人可以验证我的实施是否正确 DotProductAttention 引用自 https www tensorflow org
给定文档，选择相关片段

当我在这里提出问题时自动搜索返回的问题的工具提示给出了问题的前一点但其中相当一部分没有给出任何比理解问题更有用的文本标题有谁知道如何制作一个过滤器来删除问题中无用的部分我的第一个想法是修剪仅包含某个列表中的单词的任何前导句子例如
如何使用FeatureUnion转换PipeLine中的多个特征？

我有一个 pandas 数据框其中包含有关用户发送的消息的信息对于我的模型我感兴趣的是预测消息的缺失收件人即给定消息的收件人 A B C 我想预测还有谁应该成为收件人的一部分我正在使用 OneVsRestClassifier 和

随机推荐

CentOS 中 Apache 没有权限错误

我已经在 centos 6 中安装了 apache 2 2 当 apache 文件夹位于默认位置时一切正常 var www html 然后我在我的用户主文件夹中配置了一个虚拟主机之后 apache 开始显示Forbidden You d
在 WordPress 中获取随机帖子

如何在 WordPress 中获得随机帖子我想在页面上显示一个按钮按下该按钮后会转到博客中的随机帖子我不想在页面上显示随机帖子我只想要一个指向该帖子的链接我尝试在 Google 和 stackoverflow 上搜索代码但没有
连接 gsub [重复]

这个问题在这里已经有答案了我当前正在运行以下代码来清除数据中的重音字符 df lt gsub A df df lt gsub E df df lt gsub I df df lt gsub O df df lt gsub U df df
解组字符串化的 json

我正在尝试使用嵌套 json 来解组 json 我正在使用这个结构 type atomRequest struct Stream string json stream Data map string interface json data
为什么当触摸手势持续很短时间时，UITableViewCell 上的 UIButton 只会绘制得更暗

快速按下按钮并且短时间按住按钮不会突出显示不同于一个UIButton在一个共同的UIView 就像官方 Twitter 客户端中的头像一样出现了同样的问题 Instagram 客户端似乎解决了这个问题所有按钮都工作正常在这里找到同样的
NSData：在解包可选值时意外发现 nil

这可能是基本的 swift 问题但我是 swift 或 iOS 开发的新手我收到错误fatal error unexpectedly found nil while unwrapping an Optional value 对于下面的函
如何使用 Intel 内在函数检查 CPU 是否支持 AVX 扩展？

我正在使用英特尔内在函数编写程序我想用 mm permute pd内在的仅在具有 AVX 的 CPU 上可用对于没有 AVX 的 CPU 我可以使用 mm shuffle pd但根据规格它比 mm permute pd Intel
客户端可以取消 Web Api 请求吗？

我的 Web api 控制器中有以下方法长时间运行的方法支持取消令牌即如果请求取消它们将不会运行 public async Task
MahApps - 如何禁用默认按钮的自动大写

我已经开始介绍了MahApps Metro 真的很棒在我的 WPF 应用程序中我最喜欢的按钮是默认按钮问题是它把我的所有文本都变成大写而我不想要它您可以通过设置所有按钮的属性来覆盖默认值Window Resources
从给定坐标提取 PDF 文本

我想使用 Ghostscript 从 PDF 的一部分使用坐标中提取文本谁能帮我吗是的有了 Ghostscript 您can从 PDF 中提取文本但不它不是完成这项工作的最佳工具不您不能在部分单个页面的部分中执行此操
如何在 Ubuntu 中使用 postgres 允许访问 CSV 文件

我正在使用以下命令 copy select so name so date order sol name sol product Id sol product uom qty ai number ai date invoice so amo
我无法修复 GUI 的小问题。 JTextFields

Small error I can t manage to do So right now my program GUI looks like this 现在标记列下有一个文本字段用户可以在其中输入数据如果我想在重量列下方插入一
Scala 中方法类型参数化中的结构类型？

考虑以下 Scala 代码例如在 REPL 中 object A def foo Unit object B def foo Unit def bar T lt Any def foo Unit param T Unit param f
如何强制scipy的optimize模块的函数同时取函数及其梯度

我有一个相当复杂的函数 f x 想要优化并且我正在使用 Scipy 的 scipy optimize 模块中的 fmin bfgs 函数它迫使我分别给出最小化函数和梯度函数 f x 这很遗憾因为梯度的一些计算可以在评估函数 f x 时
在循环内读取是/否选项，不起作用

while read line do read p Are you alright y n RESP if RESP y then echo Here i want to do something but prompt does not w
ASP.NET 代码文件、代码隐藏和继承

我的困惑在这里或在网络上并不新鲜但是我有一些问题我在任何地方都找不到答案第一个问题是为什么 CodeFile 需要继承而 CodeBehind 不需要继承 I read http msdn microsoft com en us
SKLabelNode 文本具有两种不同的字体和颜色。这怎么可能？

我有一个SKLabelNode设置为显示分数变量后跟高分变量 scoreLabel text score classicHScoreInt 现在一切都显示良好但我希望 classicHScoreInt 的字体更小也许是不同的颜色这
jQuery ajax 返回readyState 1或不正确的数据类型

我为 WordPress 插件编写脚本但 ajax 响应有问题当我想要获取 json 文件时 jQuery ajax 返回 readyState 1 jQuery ajax 与async false返回纯文本尽管我有dataType
使用pyparsing进行SQL解析

过去几周我正在学习 PyParsing 我打算用它从 SQL 语句中获取表名我看过http pyparsing wikispaces com file view simpleSQL py http pyparsing wikispaces
为什么 FastText 不处理查找多词短语？

FastText 预训练模型非常适合查找相似单词 from pyfasttext import FastText model FastText cc en 300 bin model nearest neighbors dog k 2000

为什么 FastText 不处理查找多词短语？

为什么 FastText 不处理查找多词短语？ 的相关文章

随机推荐

热门标签

为什么 FastText 不处理查找多词短语？的相关文章