使用 Spacy 计算多个文档相似度的有效方法

2023-12-06

我有大约 10k 文档（主要是 1-2 个句子），并且希望为每个文档找到 60k 文档集合中的 10 个最相似的文档。因此，我想使用spacy库。由于文档数量庞大，这需要高效，因此我的第一个想法是计算 60k 文档中的每一个以及 10k 文档的文档向量（https://spacy.io/api/doc#vector）并将它们保存在两个矩阵中。这两个矩阵可以相乘得到点积，可以解释为相似度。现在，我基本上有两个问题：

这实际上是最有效的方法还是有一个聪明的技巧可以加快这个过程
如果没有其他聪明的方法，我想知道是否至少有一种聪明的方法来加速计算文档向量矩阵的过程。目前我正在使用 for 循环，这显然不是很快：

import spacy
nlp = spacy.load('en_core_web_lg')
doc_matrix = np.zeros((len(train_list), 300))
for i in range(len(train_list)):
  doc = nlp(train_list[i]) #the train list contains the single documents
  doc_matrix[i] = doc.vector

例如，有没有一种方法可以并行化？

不要进行大矩阵运算，而是将文档向量放入近似最近邻存储中（annoy易于使用）并查询每个向量的最近项目。

做一个大的矩阵运算就可以了n * n比较，但使用近似最近邻技术将划分空间以执行更少的计算。对于整体运行时间来说，这比使用 spaCy 所做的任何事情都重要得多。

也就是说，还要检查spaCy 速度常见问题解答.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLP

spacy

similarity

sentencesimilarity

使用 Spacy 计算多个文档相似度的有效方法的相关文章

解析lxml.etree._Element内容

我从以下元素中解析出 table td align center valign top a href ConfigGroups aspx cfgID 451161 amp prjID 11778 amp grpID DTST target
使用 Selenium 选择具有特定内容的锚点

我有一个 HTML 元素如下所示 a class country href es co Columbia a 如何根据内容 Columbia 选择该锚元素我不能使用find element by class css selector因为
在 Spyder 中使用 input() 时 Matplotlib 冻结

Windows 7 如果我在命令行打开一个普通的 ipython 终端我可以输入 import matplotlib pyplot as plt plt plot 1 2 3 4 5 plt show block False input
字符串在内部存储为单独的字符，内存中的每个字符都由其他类似的字符串共享吗？

例如是字符串var1 ROB 存储为 3 个内存位置 R O 和 B 每个位置都有自己的地址和变量var1指向内存位置R 那它怎么指向O和B呢并执行其他字符串例如 var2 BOB 指向内存中相同的 B 和 Ovar1指的是字符串如
扭曲的日志记录到屏幕（标准输出）不起作用

我有这个小程序取自这里 https twistedmatrix com documents 16 3 0 core howto logger html usage for emitting applications from twisted
我应该使用 Pylons 还是 Pyramid？

我本来打算从 Django 迁移到 Pylons 但后来我遇到了 Pyramid 塔架和金字塔有什么区别我读了一些文字塔书 http pylonsbook com 目前涵盖 Pylons 0 9 7 并且想知道它是否是 Pylons 和
IndexError：布尔索引与维度 0 上的索引数组不匹配

在我将 Numpy 更新到 1 13 1 之前我的代码工作正常现在我收到以下错误 IndexError boolean index did not match indexed array along dimension 0 dimens
组内条件计数

我想在之后进行条件计数groupby 例如按列的值分组A 然后计算每组中值出现的频率5出现在列中B 如果我整个过程都这样做DataFrame 只是len df df B 5 所以我希望我能做到df groupby A df B 5 siz
通过 beautiful soup python 找到所有字体大小大于最常见字体的跨度样式

我了解如何从特定的位置获取文本div or span这个问题的风格如何找到最常见的跨度样式 https stackoverflow com questions 40762692 is there a way to find the mos
将 Python 列表（JSON 或其他）插入 MySQL 数据库

所以我在Python中有一堆数组数据嗯相反我有一个清单我试图将此数组存储到 MySQL 数据库中的单个单元格中我尝试使用 JSON 来序列化我的数据但也许我不明白 JSON 是如何工作的因此在连接到我的数据库后我尝试了上游
初始化整数变量以进行比较

我正在学习麻省理工学院的开放课件课程计算机科学和 Python 编程简介 https ocw mit edu courses electrical engineering and computer science 6 0001 introd
在 Windows 上使用 pycrypto 时如何修复“ImportError：无法从 Crypto.Cipher 导入名称 _AES”？

我在 Crypto 的 Cipher 模块中有 AES Python27 Lib Crypto Cipher AES 当我尝试做的时候 from Crypto Cipher import AES 我收到以下错误 Traceback most
Django 模板：输出带有所有小数位的浮点数

我如何在 django 模板中输出这个数字小数位数是可变的我事先不知道 x 0 000015 1 x 输出是 1 5e 05 2 x stringformat f 输出是 0 000015 这不是本地化的应该有逗号我需要对输出进行本
在Python中将数组的元素从科学记数法转换为十进制记数法

我有一个 numpy 数组其元素采用科学格式我想将它们转换为十进制格式我的 numpy 数组如下所示 array 93495052 96955582 98555123 06146193 array 1 00097681e 09 9 9
在 Django(Python) 中向用户提供 Excel(xlsx) 文件下载

我正在尝试使用 Django 创建和提供 Excel 文件我有一个 jar 文件它获取参数并根据参数生成 excel 文件并且它可以正常工作但是当我尝试获取生成的文件并将其提供给用户下载时文件损坏了它的大小为 0kb 这是我用
Django Rest框架Json解析

我想解析传入的POSTdjangoviews py 文件中的数据发布数据 number 17386372 data banana apple grapes 这是我尝试读取上述传入数据的方法request views py class Fr
如何使用 python 在 XML 声明后添加注释

import xml etree ElementTree as ET def addCommentInXml fileXml C Users Documents config xml tree ET parse fileXml root t
DataFrame 对象没有属性“sort_values”

dataset pd read csv dataset csv fillna 100 dataset Id 0 dataset i 0 dataset j 0 entries dataset dataset Id 0 print type
在Python中设置Windows命令行终端标题

我在 Windows 计算机上运行某个 Python 脚本的多个实例每个实例都来自不同的目录并使用单独的 shell 窗口不幸的是 Windows 为每个 shell 窗口提供了相同的名称
使用 Pandas 来“applymap”来访问索引/列？

解决以下 pandas 问题的最有效方法是什么这是一个简化的示例其中包含数据框中的一些数据 import pandas as pd import numpy as np df pd DataFrame np random randint

随机推荐

位移位编译器错误还是特殊情况？

以下代码输出 0 1 32 33 至少可以说这是违反直觉的但是如果我用类型注释常量 ONE 替换文字 1 则循环运行正常这是使用 gcc 4 6 2 和 std c 0x 的情况 include
使用 CriteriaBuilder 时编译错误

我正在尝试将此 JPA QL 转换为标准生成器 JBoss 6 0 SELECT ba FROM BankAccount ba WHERE ba balance gt amt ORDER BY ba ownerName ASC 我根据几个教
本地调用 open_sftp() 和通过单独的函数调用有什么区别？

在下面的代码中第一个测试通过而第二个测试没有通过这让我感到困惑 import paramiko def test1 client paramiko SSHClient client set missing host key polic
如何制作像 JOptionPane 一样的 JFrame 模式？

首先我会提出问题然后我会解释应用程序我怎样才能使JFrame表现得像JOptionPanes 教程没有帮助 i e Show content gt gt return a value 另外我需要它是 Show the frame gt
使
填充其父高度，而不在上指定高度

我知道有类似的问题here 但它不适用于我的情况 table class Layout tbody tr td div class Key HEY div td td div class Key HEY div td td div clas
使用 .htaccess 将 URL 中的反斜杠替换为正斜杠

我意识到反斜杠决不应该以 URL 转义代码以外的形式出现在 URL 中但是在这种情况下 URL 是由用于生成 Flashbook 的 NET 应用程序生成的我已联系该应用程序的开发人员并提交了错误报告在此期间我想使用 htacces
从非静态上下文调用同一个类的java构造函数会导致递归，但是使用静态它可以正常工作吗？

我试图理解 Java 类的初始化顺序具体来说静态的时间和顺序以及实例初始值设定项字段的执行时间我想出了这样的例子堆栈溢出问题为什么将 static 添加到自构造函数调用中会阻止代码进入递归 public class Test pu
如何在单个选择查询中获取平均值、中位数、模式和范围？

我正在尝试获取表中一组值的平均值中位数众数和范围我能够得到平均值但中位数范围和模式我得到了错误的下面是我为上述概念尝试过的代码 Select CDS Commodity SourceSeriesID LongDesc AS De
React-router-v6 访问 url 参数

如何访问 React 组件中的 url 参数 App js
C#中如何找到父目录？

我使用此代码来查找调试目录 public string str directory Environment CurrentDirectory ToString C Users Masoud Documents Visual Studio 2
ImapMailReceiver 在只读文件夹上没有存储尝试（失败）[THROTTLED]；

我花了一天时间试图找到这个异常的一些解释我尝试以编程方式配置 ImapMailReceiver 和 ImapIdleChannelAdapter 我没有找到任何关于这个问题的教程只是一些小信息专业弹簧集成 book public voi
如何验证 jtextfield 仅接受整数[重复]

这个问题在这里已经有答案了可能的重复将 JTextField 输入限制为整数检测 JTextField 取消选择事件我需要验证JTextField如果用户输入数字以外的任何字符则允许用户仅在其中输入整数值JOptionPane
OWL 中奇怪的查询行为！

在 OWL 中这个查询工作正常 person and hasChild min 3 它工作正常它为我提供了所有拥有 3 个以上孩子的人但这不起作用 person and hasChild max 3 它应该给我所有少于 3 个孩子的人
SyntaxError：尝试在 e2e 角度测试中导入量角器时出现意外的令牌导入

我已经编写了一个 Angular 4 应用程序现在我正在尝试使用运行一些基于 e2e 的测试Protractor 我在这里错过了什么吗尝试运行测试脚本时出错 rob work repo npm run e2e gt email prot
当手机未充电时应用程序的服务停止

我的 Activity 通过调用启动服务startservice 为了简化我的问题假设该服务将是一个计数器并且计数器将每 10 秒增加一次 Timer t counter int counter 0 Override public in
JPQL 查询非实体集合

我想使用非实体集合进行 JPQL 查询这是我的表实体 Entity Table name ct table public class Table CollectionOfElements fetch FetchType EAGER Joi
如何为映射函数内的每次迭代分配新的引用？

我不知道如何问这个问题因为我仍然无法准确地界定问题我创建了一个 useHover 函数下面您将看到我正在映射数据并渲染一堆照片但是 useHover 仅适用于第一次迭代我怀疑这是因为我的裁判这是如何运作的我应该在每次迭代中创
如何将canvas标签中的图像保存到php服务器？

我有这样的 JavaScript 代码 var testCanvas document getElementById canvas 1 var canvasData testCanvas toDataURL image png var aj
firebase.auth.RecaptchaVerifier 不是构造函数错误

初始化 Firebase 应用程序后尝试在我的 html 中添加 Firebase 脚本firebase initializeApp config 那么我有这个
使用 Spacy 计算多个文档相似度的有效方法

我有大约 10k 文档主要是 1 2 个句子并且希望为每个文档找到 60k 文档集合中的 10 个最相似的文档因此我想使用spacy库由于文档数量庞大这需要高效因此我的第一个想法是计算 60k 文档中的每一个以及 10k 文档

使用 Spacy 计算多个文档相似度的有效方法

使用 Spacy 计算多个文档相似度的有效方法 的相关文章

随机推荐

热门标签

使用 Spacy 计算多个文档相似度的有效方法的相关文章