有没有一种简单的方法可以告诉 SpaCy 在使用 .similarity 方法时忽略停用词？

2024-02-11

所以现在我有一个非常简单的程序，它将获取一个句子，并在给定的书中找到语义最相似的句子，并打印出该句子以及接下来的几个句子。

import spacy
nlp = spacy.load('en_core_web_lg')

#load alice in wonderland
from gutenberg.acquire import load_etext
from gutenberg.cleanup import strip_headers
text = strip_headers(load_etext(11)).strip()

alice = nlp(text)

sentences = list(alice.sents)

mysent = nlp(unicode("example sentence, could be whatever"))

best_match = None
best_similarity_value = 0
for sent in sentences:
    similarity = sent.similarity(mysent)
    if similarity > best_similarity_value:
        best_similarity_value = similarity
        best_match = sent

print sentences[sentences.index(best_match):sentences.index(best_match)+10]

我想通过告诉 SpaCy 在执行此过程时忽略停用词来获得更好的结果，但我不知道执行此操作的最佳方法。就像我可以创建一个新的空白列表并将每个不是停用词的单词附加到列表中

for sentence in sentences:
    for word in sentence:
        if word.is_stop == 'False':
            newlist.append(word)

但我必须使它比上面的代码更复杂，因为我必须保持原始句子列表的完整性（因为如果我想稍后打印出完整的句子，索引必须相同）。另外，如果我这样做，我将必须通过 SpaCy 运行这个新的列表列表才能使用 .similarity 方法。

我觉得必须有更好的方法来解决这个问题，并且我非常感谢任何指导。即使没有比将每个不间断单词附加到新列表更好的方法，我也会感谢您在创建列表列表方面的任何帮助，以便索引与原始“句子”变量相同。

非常感谢！

您需要做的是覆盖 spaCy 计算相似度的方式。

对于相似度计算，spaCy 首先通过对每个标记（token.vector 属性）的向量进行平均来计算每个文档的向量，然后通过执行以下操作来执行余弦相似度：

return np.dot(vector1, vector2) / (np.linalg.norm(vector1) * np.linalg.norm(vector2))

您必须对此进行一些调整，并且不要考虑停用词向量。

以下代码应该适合您：

import spacy
from spacy.lang.en import STOP_WORDS
import numpy as np
nlp = spacy.load('en_core_web_lg')
doc1 = nlp("This is a sentence")
doc2 = nlp("This is a baby")

def compute_similarity(doc1, doc2):
    vector1 = np.zeros(300)
    vector2 = np.zeros(300)
    for token in doc1:
        if (token.text not in STOP_WORDS):
            vector1 = vector1 + token.vector
    vector1 = np.divide(vector1, len(doc1))
    for token in doc2:
        if (token.text not in STOP_WORDS):
            vector2 = vector2 + token.vector
    vector2 = np.divide(vector2, len(doc2))
    return np.dot(vector1, vector2) / (np.linalg.norm(vector1) * np.linalg.norm(vector2))

print(compute_similarity(doc1, doc2)))

希望能帮助到你！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLP

spacy

有没有一种简单的方法可以告诉 SpaCy 在使用 .similarity 方法时忽略停用词？的相关文章

即使页面未完全加载，我们也可以使用 Selenium 获取页面源吗（TimeoutException: Message: timeout）？

即使遇到 TimeoutException Message timeout 也能获取页面源码吗当我调用 driver page source 时有时无法加载整页但我只需要它的部分信息尚未确定所以我只想在任何情况下保存页面是否可以
Python从int到string的快速转换

我正在用 python 求解大量阶乘并发现当我完成计算阶乘时需要相同的时间才能转换为字符串以保存到文件中我试图找到一种将 int 转换为字符串的快速方法我将举一个计算和 int 转换时间的例子我正在使用通用的 a str a 但感
Jupyter Notebooks 不显示进度条

我正在尝试在 Jupyter 笔记本中显示进度条这是一台新电脑我通常做的事情似乎不起作用 from tqdm import tqdm notebook example iter 1 2 3 4 5 for rec in tqdm not
为什么我的代码不能根据字典解码加密字符串？

我有一本字典其中包含代表字母的键和值例如一个简单的 DICT CODE b g n a p o x d t y 我收到了一个加密代码并将该字符串转换为一个列表其中每个项目都是一个单词我需要根据字典中的项目来解决它代码示例是 wo
当我在 Pandas 中使用 df.corr 时，我的一些列丢失了

这是我的代码 import numpy as np import pandas as pd import seaborn as sns import matplotlib pyplot as plt data pd read csv dea
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
numpy 使用 datetime64 进行数字化

我似乎无法让 numpy digitize 与 datetime64 一起使用 date bins np array np datetime64 datetime datetime 2014 n 1 s for n in range 1 1
登录网站并使用 python 请求下载文件

我有一个带有 HTML 表单的网站登录后它会将我带到 start php 站点然后将我重定向到overview php 我想从该服务器下载文件当我单击 ZIP 文件的下载链接时链接后面的地址是 getimage php path
动态 __init_subclass__ 方法的参数绑定

我正在尝试让类装饰器工作装饰器会添加一个 init subclass 方法到它所应用的类但是当该方法动态添加到类中时第一个参数不会绑定到子类对象为什么会发生这种情况举个例子这是可行的下面的静态代码是我试图最终得到的示例 cl
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
Pandas style.bar 颜色基于条件？

如何渲染其中一列的 Pandas dfstyle bar color属性是根据某些条件计算的 Example df style bar subset before after color ff781c vmin 0 0 vmax 1 0 而
由于 json 字符串化 dict 键导致数据丢失

考虑下面的例子 gt gt gt import json gt gt gt d 0 potato 0 spud gt gt gt json dumps d 0 potato 0 spud gt gt gt json loads json d
Python]将两个文本文件合并为一个（逐行）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是蟒蛇新手我想做的是将文件 a 和文件 b 逐行合并到一个文件中例如 text file a a n b n c text fi
对数据帧的每 2 小时数据进行 Groupby

我有一个数据框 Time T201FN1ST2010 T201FN1VT2010 1791 2017 12 26 00 00 00 854 69 0 87 1792 2017 12 26 00 20 00 855 76 0 87 1793
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
Python 通过从现有 csv 文件中过滤选定的行来写入新的 csv 文件

只是一个问题我试图将 csv 文件中的选定行写入新的 csv 文件但出现错误我试图读取的 test csv 文件是这样的两列 2013 9 1 2013 10 2 2013 11 3 2013 12 4 2014 1 5 2014
Python：高精度time.sleep

你能告诉我如何在 Win32 和 Linux 上的 Python 2 6 中获得高精度睡眠函数吗您可以在中使用浮点数sleep http docs python org library time html time sleep 该参数可以
Django 模型：如何使用 mixin 类来覆盖 django 模型以实现 save 等功能

我想在每次保存模型之前验证值所以我必须重写保存函数代码几乎是一样的我想把它写在 mixin 类中但失败了我不知道如何写 super func 我英语不好抱歉 class SyncableMixin object def sav
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro

随机推荐

从远程计算机访问 TEAMCITY

我在从远程计算机浏览我的团队城市 JetBrains 时遇到问题我已按照安装说明进行操作安装很顺利我可以在服务器上本地浏览应用程序没有任何问题我将配置文件中的默认服务器 URL 更改为http 我的 http my服务器名称我可
MatDatepickerFilter - 过滤器函数无法访问类变量

一个 MatDatePicker 其过滤器定义如下
Clang 项目的 AST

我使用 Clang python 绑定来提取 c c 文件的 AST 它非常适合我编写的一个简单程序问题是当我想将它用于像 openssl 这样的大项目时我可以为项目的任何单个文件运行 clang 但 clang 似乎错过了项目的一些标
为什么 ARM mac 上的 hello world 汇编“无效”？

其他答案没有告诉我如何编译我被困住了我在汇编中有一个简单的 hello world global start align 2 start mov X0 1 adr X1 hello mov X2 13 mov X16 4 svc 0 m
什么时候禁用视图状态是安全的？

什么时候禁用视图状态是安全的用于哪些控件什么情况下在用户控件中我禁用了视图状态但是如果我尝试单击此控件
无法在 PHPMyAdmin 中选择 Latin-1 作为字符集

我正在尝试按照教程进行操作在教程中讲师演示了如何编辑config inc文件将文件夹设置为 UploadDir 这使他能够选择 SQL在 phpmyadmin 中导入时从 Web 服务器上传目录下拉菜单中导入该文件夹中的文件我尝试
Spring Data JPA 太慢

我最近将我的应用程序切换到 Spring Boot 2 我依靠 Spring Data JPA 来处理所有事务我注意到这与我的旧配置之间存在巨大的速度差异存储大约 1000 个元素在大约 6 秒内完成现在需要超过 25 秒我看过有关
Powershell - 使用“拍摄日期”属性重命名文件

我的三星手机上有一堆图像和视频我将这些图像复制到 USB 然后复制到我的电脑上我想使用 Powershell 根据这些文件的拍摄日期属性重命名这些文件格式要求 yyyy MM dd HH mm ss ddd 我一直在使用 Powe
Paypal Checkout - 不询问非会员的送货地址吗？

我刚刚开始使用这个模块 https github com paypal paypal checkout https github com paypal paypal checkout 我正在尝试找出如何关闭客户的送货地址我知道你可以做的订
Rails 如何在未找到记录时重定向

如果找不到记录我正在尝试重定向该页面未重定向并且出现未找到错误记录我的控制器 def index link Link find params id respond to do format if link blank format
自动上传新创建的文件到SFTP服务器

ASP NET 应用程序在 Windows 服务器 IIS 7 上运行必须将当前用户上传的大文件传输到外部 SFTP 服务器由于文件大小我们的想法是异步执行此操作这个想法是 ASP NET 应用程序将上传的文件存储在 Window
如何从 Gtk ScrolledWindow 中删除框架（或边框？）

如何删除 Gtk ScrolledWindow gtk 的框架或边框如果是用于window ShadowType ShadowType None 不工作 window BorderWidth 0 不工作感谢帮助 Set the Fo
是否可以将 .coffee 脚本文件加载到浏览器并执行？

我正在尝试将咖啡脚本与 Coffee script js 文件一起加载到 Sample coffee 文件中并对 HTML 执行一些简单的操作但我无法加载sample coffee 文件
如何在Python中使用ftplib上传二进制文件？

我的 python2 脚本使用这种方法很好地上传文件但 python3 出现了问题我不知道下一步该去哪里谷歌搜索没有帮助 from ftplib import FTP ftp FTP ftp host ftp user ftp pas
Tableau Javascript API HTTPS 不起作用

我正在尝试将报告嵌入到我的网站上但出现以下错误混合内容页面位于 https mywebsite com blah blah https mywebsite com blah blah 通过 HTTPS 加载但请求了不安全的资源 ht
python 3.3 和 3.3m 有什么区别[重复]

这个问题在这里已经有答案了 python 3 3 和 3 3m 有什么区别我正在使用 Ubuntu 13 04 Raring 在我的系统上我有 python2 7 和 python3 3 我知道 2 和 3 之间的区别但我还安装了 py
抖动问题：RenderFlex 右侧溢出 248 像素

我在一列中使用了三个文本其中一个文本很长然后我收到此错误 RenderFlex 右侧溢出了 248 像素我在一列中使用了三个文本其中一个文本字段很长然后我收到此错误 RenderFlex 右侧溢出了 248 像素如何修复它 Th
Vue Router 转到新页面顶部

现在在我的 Vue 应用程序中当我单击
当工作线程是事件驱动时，BackgroundService.ExecuteAsync 应该返回什么？

Worker Service 是在 NET Core 3 x 中编写 Windows 服务的新方法工人阶级扩大Microsoft Extensions Hosting BackgroundService https learn micro
有没有一种简单的方法可以告诉 SpaCy 在使用 .similarity 方法时忽略停用词？

所以现在我有一个非常简单的程序它将获取一个句子并在给定的书中找到语义最相似的句子并打印出该句子以及接下来的几个句子 import spacy nlp spacy load en core web lg load alice in wo

有没有一种简单的方法可以告诉 SpaCy 在使用 .similarity 方法时忽略停用词？

有没有一种简单的方法可以告诉 SpaCy 在使用 .similarity 方法时忽略停用词？ 的相关文章

随机推荐

热门标签

有没有一种简单的方法可以告诉 SpaCy 在使用 .similarity 方法时忽略停用词？的相关文章