列出预训练模型中 spaCy 中最相似的单词

2024-02-16

有了 Gensim，在我训练了自己的模型之后，我可以使用model.wv.most_similar('cat', topn=5)并获取最接近的 5 个单词的列表cat在向量空间中。例如：

from gensim.models import Word2Vec
model = Word2Vec.load('mymodel.model')

In: model.wv.most_similar('cat', topn=5)
Out: ('kitten', .99)
     ('dog', .98)
     ...

使用 spaCy，根据文档 https://spacy.io/usage/vectors-similarity，我可以：

import spacy

nlp = spacy.load('en_core_web_md')
tokens = nlp(u'dog cat banana')

for token1 in tokens:
    for token2 in tokens:
        print(token1.text, token2.text, token1.similarity(token2))

它给出了指定字符串中标记的相似性。但梳理文档和搜索，我无法弄清楚是否有一种 gensim 类型的方法可以列出预加载模型的所有相似单词nlp = spacy.load('en_core_web_lg') or nlp = spacy.load('en_vectors_web_lg')。有没有办法做到这一点？

我使用了安迪的回应，它工作正常但缓慢。为了解决这个问题，我采取了以下方法。

SpaCy 在后端使用余弦相似度来计算.similarity。因此，我决定更换word.similarity(w)及其优化的对应物。我使用的优化方法是cosine_similarity_numba(w.vector, word.vector)如下所示，它使用 Numba 库来加速计算。您应该将most_similar 方法中的第12 行替换为以下行。

by_similarity = sorted(queries, key=lambda w: cosine_similarity_numba(w.vector, word.vector), reverse=True)

该方法速度提高了 2-3 倍这对我来说至关重要。

from numba import jit

@jit(nopython=True)
def cosine_similarity_numba(u:np.ndarray, v:np.ndarray):
    assert(u.shape[0] == v.shape[0])
    uv = 0
    uu = 0
    vv = 0
    for i in range(u.shape[0]):
        uv += u[i]*v[i]
        uu += u[i]*u[i]
        vv += v[i]*v[i]
    cos_theta = 1
    if uu != 0 and vv != 0:
        cos_theta = uv/np.sqrt(uu*vv)
    return cos_theta

我在这篇文章中更详细地解释了它：如何在 SpaCy 中构建快速“最相似词”方法 https://towardsdatascience.com/how-to-build-a-fast-most-similar-words-method-in-spacy-32ed104fe498

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

spacy

列出预训练模型中 spaCy 中最相似的单词的相关文章

如何对预测值进行反向移动平均（在 pandas 中，rolling().mean）操作？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个像这样的 df import numpy as np import pandas as pd import matplotlib
pandas DataFrame：获取上个月缺少交易且无法移位（）的值

有没有办法在不生成虚拟行的情况下实现这一点这是我的数据源 Group Store Month Revenue Group1 A 201611 10 Group1 A 201612 20 Group1 A 201701 30 Group1
为什么any (True for ... if cond) 比any (cond for ...) 快得多？

检查列表是否包含奇数的两种类似方法 any x 2 for x in a any True for x in a if x 2 计时结果与a 0 10000000 每次尝试五次次数以秒为单位 0 60 0 60 0 60 0 61 0 6
numpy：与索引数组有效求和

假设我有 2 个矩阵 M 和 N 都有 gt 1 列我还有一个索引矩阵 I 有 2 列 1 列代表 M 一列代表 N N 的索引是唯一的但 M 的索引可能出现多次我想要执行的操作是 for i j in w M i N j 除了 fo
如何更改 Python 函数的表示形式？

gt gt gt def hehe return spam gt gt gt repr hehe
当类的任何属性被修改时，类如何运行某些函数？

是否有一些通用方法可以让类在以下情况下运行函数 any它的属性被修改了吗我想知道是否可以运行某些子进程来监视类的更改但也许有一种方法可以继承class并修改一些on change函数是 Python 类的一部分有点像默认的 repr
numpy 中用最少内存对上三角元素求和的最快方法

我需要进行此类求和i
argparse - 禁用相同参数的出现

我正在尝试使用 argparse 禁用一个命令行中出现相同的参数 python3 argument1 something argument2 argument1 something else 这意味着这应该会引发错误因为 argument
ImportError：无法导入名称 GstRtspServer，未找到内省类型库

我目前正在尝试让一个简单的 GstRtspServer 程序在外部亚马逊 Linux EC2 服务器上运行但在让它实际运行时遇到了严重的问题无论我做什么当我尝试运行它时即使程序仅减少到 import gi gi require ve
Pandas 使用 NaN 进行数据透视或重塑数据框

我有这个数据框我需要根据以下数据进行旋转或重塑frame col df frame 0 0 1 1 2 2 3 0 4 1 5 2 pvol 0 nan 1 nan 2 nan 3 23 1 4 24 3 5 25 6 vvol 0 10
Python 调试器是否会介入生成器？

我目前正在使用 NetBeans IDE 和 Jython 2 5 1 当逐步调试我的项目时一旦遇到生成器的迭代调试器就会直接转到代码末尾输出工作正常但是一旦满足第一个生成器就无法进行逐步调试这是所有 Python IDE 中 P
matplotlib 中矩形面片之间存在不需要的空间

以下代码绘制两个红色矩形红色矩形应该彼此相邻之间没有空间在 python 图中这是可以的在导出的 pdf 中矩形之间有一个细长但明显的空白有什么方法可以解决这个问题吗 import matplotlib pyplot as p
Pygame 旋转射击

我和几个朋友一直在编写一种有趣的新射击机制为了让它发挥作用我们需要朝玩家面对的方向射击 Sprite 正在使用 Pygame Transform Rotate 进行旋转我们怎样才能找到一个角度然后朝那个方向发射子弹呢这是我们的精灵
如何在 django 中发出 post 请求后获取表单的名称？
SQLAlchemy 是否会从同一连接重置 SQLAlchemy 会话之间的数据库会话？

SQLAlchemy 利用连接池这意味着相同的连接可以在不同的 SQLAlchemy 会话之间重复使用但是单个 SQLAlchemy 会话包含在其自身内并在关闭后被丢弃然而连接保持活动状态我想使用 set config 将一
函数调用中的星号[重复]

这个问题在这里已经有答案了我正在使用 itertools chain 以这种方式展平列表列表 uniqueCrossTabs list itertools chain uniqueCrossTabs 这与说有什么不同 uniqueCr
计算列表中的子列表

L 2 4 5 6 2 1 6 6 3 2 4 5 3 4 5 我想知道任意子序列出现了多少次 s 2 4 5 例如会返回2次 I tried L count s 但它不起作用因为我认为它期望寻找类似的东西 random numbers
将 PySpark RDD 作为新列添加到 pyspark.sql.dataframe

我有一个 pyspark sql dataframe 其中每一行都是一篇新闻文章然后我有一个 RDD 来表示每篇文章中包含的单词我想将单词的 RDD 作为名为单词的列添加到我的新文章数据框中我试过 df withColumn wo
使用自定义层运行 Keras 模型时出现问题

我目前正在攻读学士学位论文FIIT STU https www fiit stuba sk en html page id 749 其主要目标是尝试复制和验证以下结果study http arxiv org abs 2006 00885 这
关闭 IPython Notebook 中的自动保存

我正在寻找一种方法来关闭 iPython 笔记本中的自动保存我已经通过 Google Stack Overflow 搜索看到了有关如何打开自动保存的参考资料但我想要相反的内容关闭自动保存如果这是可以永久设置的东西而不是在每个笔记本的

随机推荐

迭代 Numpy 矩阵行以每行应用一个函数？

我希望能够迭代矩阵以将函数应用于每一行我该如何为 Numpy 矩阵做到这一点您可以使用numpy apply along axis 假设你的数组是二维的你可以像下面这样使用它 import numpy as np myarray np
零长度数组

我正在重构一些旧代码并发现一些包含零长度数组的结构如下当然警告被 pragma 抑制但我无法通过包含此类结构的新结构创建错误 2233 数组 byData 用作指针但为什么不使用指针呢或者长度为1的数组当然没有添加任
Ruby class_eval 方法

我想弄清楚如何动态创建方法 class MyClass def initialize dynamic methods arr Array new dynamic methods arr each m self class class eva
Kotlin 中的普通类和数据类有什么区别？

我尝试解决任务 6 DataClass 科特林公案 https github com vicboma1 Kotlin Koans named arguments 当我在代码中使用普通类时测试用例失败这是我的数据类代码 data clas
CMakeExternalProject_Add() 和 FindPackage()

是否有正确的方法来查找图书馆通过FindPackage 是用ExternalProject Add 问题是 CMake 无法在 CMake 时找到该库因为外部库是在编译时构建的我知道在超级构建中构建库和项目时可以组合这两个 CMake
为什么投票机不开源？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案嗯这只是与编程相关但我想今天是选举日对吧是否有一个很好的理由说明为什么它们不开源不一定是开源的因为任何人都可以做出贡献但开源是因为
我可以在 Javascript 中识别（图形输入板）笔压吗？

有没有办法使用 javascript 来识别笔压最好我不想使用 Flash 并尝试将其作为纯 JS 完成编辑好吧我意识到 Wacom 平板电脑有可能实现这一点因为它们附带的软件可以与其 javascript api 配合使用从而
使用 pandas 忽略来自 openpyxl 的 UserWarning

我有大量必须加载的 xlsm 文件每个 Excel 文件有 6 个工作表因此我使用 pandas 打开每个 Excel 文件 for excel file in files list with pd ExcelFile excel f
.Net 中字符串（或任何其他对象）的内存使用情况

我写了这个小测试程序 using System namespace GCMemTest class Program static void Main string args System GC Collect System Diagnost
WordPress 预览_帖子_链接

我试图在 WordPress 上发布时更改默认的预览帖子按钮因为该网站安装了被黑客入侵的 WordPress 并且帖子预览不在应有的位置我找到了钩子preview post link现在我只是想弄清楚如何制作一个小插件来解决这个问题
更改构造函数原型时出现的问题

我目前正在阅读 Stoyan Stefanov 的书面向对象的 JavaScript 我偶然发现了一个有趣的问题这是代码 var shape type shape getType function return this type fu
Python 中的解释与动态调度惩罚

我观看了 Brandon Rhodes 关于 Cython 的演讲 EXE 的日子即将到来 Brandon 在 09 30 提到对于特定的一小段代码跳过解释可以带来 40 的加速而跳过分配和调度则可以带来 574 的加速 10 10
使用 Spring Cloud 连接器访问 CloudFoundry 用户提供的服务

我正在尝试使用 Spring Cloud 来使用 Cloud Foundry 应用程序中的通用 REST 服务该服务是使用Spring Boot创建的如下 package com something RestController pub
在 WPF 中使用命令绑定时处理异常的最佳实践是什么？

我正在 WPF 应用程序中使用 MVVM 模式在几个地方我将命令绑定到视图中的输入元素如以下 XAML 所示
如何从 mongo 管道中检索每个数组元素？

我们假设这就是 mongo db 中示例文档的样子 id 1 attrib 1 value 1 attrib 2 value 2 months 2 month 2 year 2008 transactions field 1 val 1 f
如何定义使用先前值来确定 Knockout 中的类的自定义绑定？

我需要使用淘汰赛绑定表格并且如果新值高于或低于前一个值我希望表格单元格获得不同的 css 类我想到了不同的可能性例如将先前的值存储在绑定上下文中并具有返回正确类的函数但是是否可以添加一个接收先前值和新值的自定义绑定处理程序虽然J
无法使用 ld 链接目标文件 - Mac OS X

exit asm SECTION text global start start xor eax eax xor ebx ebx mov al 1 int 0x80 首先我使用 nasm f elf exit asm 生成目标文件然后我
禁用派生类上的继承方法

在 Java 派生类中有什么方法可以禁用从基类继承的方法和或字段吗例如假设您有一个Shape基类有一个rotate 方法您还可以从以下类型派生出各种类型Shape class Square Circle UpwardArrow
Heroku Push 拒绝了对我没有的一些 Heroku 应用程序的引用

当我尝试在 Heroku 上进行暂存时出现以下错误我不明白为什么 git push staging heroku staging master Counting objects 72 done Compressing objects 1
列出预训练模型中 spaCy 中最相似的单词

有了 Gensim 在我训练了自己的模型之后我可以使用model wv most similar cat topn 5 并获取最接近的 5 个单词的列表cat在向量空间中例如 from gensim models import Word

列出预训练模型中 spaCy 中最相似的单词

列出预训练模型中 spaCy 中最相似的单词 的相关文章

随机推荐

热门标签

列出预训练模型中 spaCy 中最相似的单词的相关文章