从文本文件中提取与输入单词最相似的前 N 个单词

2024-05-02

我有一个文本文件，其中包含我使用 BeautifulSoup 提取的网页内容。我需要根据给定的单词从文本文件中找到 N 个相似的单词。流程如下：

从中提取文本的网站：https://en.wikipedia.org/wiki/Football https://en.wikipedia.org/wiki/Football
提取的文本保存到文本文件中。
用户输入一个单词，例如：“目标”，我必须显示文本文件中前 N 个最相似的单词。

我只从事计算机视觉工作，对 NLP 完全陌生。我目前陷入了第3步。我尝试过Spacy和Gensim，但我的方法一点效率都没有。我目前这样做：

for word in ['goal', 'soccer']:
    # 1. compute similarity using spacy for each word in the text file with the given word.
    # 2. sort them based on the scores and choose the top N-words.

有没有其他方法或简单的解决方案来解决这个问题？任何帮助表示赞赏。谢谢！

您可以利用 spacysimilarity https://spacy.io/usage/vectors-similarity方法，它将为您计算标记之间的余弦相似度。为了使用向量，请加载带有向量的模型：

import spacy
nlp = spacy.load("en_core_web_md")

text = "I have a text file that contains the content of a web page that I have extracted using BeautifulSoup. I need to find N similar words from the text file based on a given word. The process is as follows"
doc = nlp(text)
words = ['goal', 'soccer']

# compute similarity    
similarities = {}   
for word in words:
    tok = nlp(word)
    similarities[tok.text] ={}
    for tok_ in doc:
        similarities[tok.text].update({tok_.text:tok.similarity(tok_)})

# sort
top10 = lambda x: {k: v for k, v in sorted(similarities[x].items(), key=lambda item: item[1], reverse=True)[:10]}

# desired output
top10("goal")
{'need': 0.41729581641359625,
 'that': 0.4156277030017712,
 'to': 0.40102258054859163,
 'is': 0.3742535591719576,
 'the': 0.3735002888862756,
 'The': 0.3735002888862756,
 'given': 0.3595024941701789,
 'process': 0.35218102758578645,
 'have': 0.34597281472837316,
 'as': 0.34433650293640194}

请注意，(1) 如果您愿意gensim，和/或 (2) 有一个word2vec根据您的文本训练模型，您可以直接执行以下操作：

word2Vec.most_similar(positive=['goal'], topn=10)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

deeplearning

NLP

spacy

gensim

从文本文件中提取与输入单词最相似的前 N 个单词的相关文章

从 SHAP 值中获取特征重要性

我想要获得重要功能的数据框通过下面的代码我得到了 shap values 但我不确定这些值的含义是什么在我的 df 中有 142 个特征和 67 个实验但得到了一个带有 ca 的数组 2500 个值 explainer shap T
上传时的 Google Drive API——这些额外的空行从何而来？

总结一下该程序我从我的 Google 云端硬盘下载一个文件然后在本地计算机中打开并读取一个文件 file a txt 然后在我的计算机中打开另一个文件 file b txt 处于附加模式并且在使用这个新的 file b 更新我的 Go
在 Pandas 中，如何从基于另一个数据框的数据框中删除行？

我有 2 个数据框一个名为 USERS 另一个名为 EXCLUDE 他们都有一个名为电子邮件的字段基本上我想删除 USERS 中包含 EXCLUDE 中包含电子邮件的每一行我该怎么做您可以使用boolean indexing
ctypes 错误：libdc1394 错误：无法初始化 libdc1394

我正在尝试将程序编译为共享库我可以使用 ctypes 在 Python 代码中使用该库使用以下命令该库可以正常编译 g shared Wl soname mylib O3 o mylib so fPIC files pkg config
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
字符串中的注释和注释中的字符串

我正在尝试使用 Python 和 Regex 计算 C 代码中包含的注释中的字符数但没有成功我可以先删除字符串以删除字符串中的注释但这也会删除注释中的字符串结果会很糟糕是否有机会通过使用正则表达式来询问不匹配注释中的字符串反之亦
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
将 numpy 代码点数组与字符串相互转换

我有一个很长的 unicode 字符串 alphabet range 0x0FFF mystr join chr random choice alphabet for in range 100 mystr re sub W mystr 我想
如何使用 javascript/jquery/AJAX 调用 Django REST API？

我想使用 Javascript jQuery AJAX 在前端调用 Django Rest API 请求方法是 POST 但当我看到 API 调用它的调用 OPTIONS 方法时所以我开始了解access control allow o
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
Pandas：如何将数据框插入 Clickhouse

我正在尝试将 Pandas 数据框插入 Clickhouse 这是我的代码 import pandas import sqlalchemy as sa uri clickhouse default localhost default ch
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
Alembic：如何迁移模型中的自定义类型？

My User模型是 class User UserMixin db Model tablename users noinspection PyShadowingBuiltins uuid Column uuid GUID default
如何在Python中按AaB而不是ABa顺序对字符串进行排序

我正在尝试对字符串进行排序为 punnetsquare 制作基因型我目前的实现是 unsorted genotype ABaB sorted genotype sorted list unsorted genotype sorted s
使用 Conda 更新特定模块会删除大量软件包

我最近开始使用 Anaconda Python 发行版因为它提供了许多开箱即用的数据分析库使用 conda 创建环境和安装软件包也轻而易举但是当我想更新 Python 本身或任何其他模块时我遇到了一些严重的问题我事先被告知我的很多
Django - 提交具有同一字段多个输入的表单

预警我对 Django 以及一般的 Web 开发非常陌生我使用 Django 托管一个基于 Web 的 UI 该 UI 将从简短的调查中获取用户输入通过我用 Python 开发的一些分析来提供输入然后在 UI 中呈现这些分析的可视
sqlite3从打印数据中删除括号

我创建了一个脚本用于查找数据库第一行中的最后一个值 import sqlite3 global SerialNum conn sqlite3 connect MyFirstDB db conn text factory str c con
字符串列表，获取n个元素的公共子串，Python

我的问题可能类似于this https stackoverflow com questions 37514193 count the number of occurrences of n length not given string in
从列表python的单个列表中删除子列表

我已经经历过从列表列表中删除子列表 https stackoverflow com questions 47209786 removing sublists from a list of lists 但当我为我的数据集扩展它时它不适用于我
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor

随机推荐

如何使用 JFreeChart 创建仪表图表

我想使用饼图和半圆环图的组合来创建仪表图附上预期的图像有人可以帮我修改附加的代码以获得预期的结果吗附上示例代码改编自here https stackoverflow com a 69473975 230513 import java
Angular routerLink没有导航到相应的组件

我在 angular2 应用程序中的路由运行良好但我将根据以下内容制作一些routeLinkthis https angular io docs ts latest guide router html 这是我的路由 const route
在 Play 商店中发布 Android 应用程序后，Firebase 云消息传递无法正常工作

因此当我在 Android 或 iOS 应用程序中以调试或发布模式运行应用程序时我的应用程序将收到 FCM 推送通知完全没有问题但是在 Google Play 应用商店上发布我的应用程序后我的 Android 应用程序突然不会收到
osx 上的 aio：它是在内核中实现还是通过用户线程实现？其他选择？

我正在开发我的小型 C 框架并且有一个文件类它也应该支持异步读写除了在我发现的一些工作线程中使用同步文件 I O 之外唯一的解决方案是 aio 无论如何我环顾四周并在某处读到在 Linux 中 aio 甚至不是在内核中实现的而
将 Dwolla 与 PHP 及其 API 集成

前言好吧我过去使用过 API 例如 TwitterAPI 但我总是使用库和一些文档来帮助我进行连接和检索令牌我对 API 的工作原理有了基本的了解好的我尝试了多种使用 PHP 请求 dwolla API 的方法我尝试过制作一个
Ruby On Rails 助手——在助手中使用实例变量

我有一个控制器助手 module CourseStepsHelper def current quiz result course step step step quiz quiz attempts where patient id gt
AWS Lambda 和不准确的内存分配

我意识到我需要分配比我的 AWS Lambda 函数所需的更多的内存否则我会得到 errorMessage Metaspace errorType java lang OutOfMemoryError 例如我有一个分配了 128MB 的
递归问题

当我将类从一个类导入到另一个类时我遇到了问题我有不同模块中的这些类 crm py from CRMContactInformation import CRMContactInformation class CRM rdb Model
如何检查一个元素是否存在于另一个元素中？

我想对于 jQuery 了解一个元素是否存在于另一个元素中像这样的东西 if container find search element 必须返回 YES 如果 search element是进入 container 否则不我该怎么做
从 .NET Core 1.1.1 升级到 .NET Core 1.1.2 后，Azure 上的 ASP.NET Core 网站无法启动并出现 502.5 错误

我有一个 NET Core Web 应用程序我将其部署为 Azure Web 应用程序直到昨晚我应用 Visual Studio 2017 升级 v15 2 为止这一直工作得很好 net core版本从1 1 1升级到1 1 2 当我
3D 卷积神经网络输入形状

我在使用 3D CNN 提供数据时遇到问题Keras http keras io和 Python 对 3D 形状进行分类我有一个文件夹其中包含一些 JSON 格式的模型我将这些模型读入 Numpy 数组模型为 25 25 25 表示
组合 concat 和 map 得到 concatMap：为什么是 f？

这是我对 Haskell 的第一次探索如果它很明显请原谅我我整个下午都在玩 Haskell 仔细浏览教程HaskellWiki 上的 99 个问题 http www haskell org haskellwiki 99 questio
直接列表初始化和复制列表初始化之间的差异

我想知道以下两种类型是否有任何区别std vectorC 11 及更高版本中的初始化 std vector
关于for循环中的fortran continue语句的问题

我正在分析 Fortran 代码并有一个简单的问题我想知道下面代码中 100 和 200 处的继续语句的作用它会增加 i 和 j 计数器吗如果是这样的话不会if not flg 那么条件包含flg循环中 flg 的最后一个值
在编辑器中匹配关键字突出显示颜色

我在 eclipse 中使用 wombat Vim 配色方案的克隆进行 Python 开发除了匹配的关键字突出显示无论名称如何即 ffff96 之外它也能很好地工作这种淡黄色使得无法阅读白色的前景文本有谁知道这是在哪里设置的吗
删除 href 属性

我正在尝试编写分页代码一项功能是禁用当前链接使其看起来像文本并且不可点击在 html 页面中这可以通过省略 href 属性来实现例如 a Link a 我无法用 JavaScript 做到这一点 AvdonPagination p
如何使用 ASP.net EF Codefirst 数据注释将 SQL Server 中的列设置为 varchar(max)？

我一直在网上搜索试图找出正确的语法让 Entity Framework Code First 使用一列创建表 varchar max 这就是我所拥有的默认情况下这会创建 varchar 128 如何创建 varchar max 我尝
使用 pyarrow 与 pyspark 创建的 parquet 文件是否兼容？

我必须分两步将 JSON 中的分析数据转换为 parquet 对于大量现有数据我正在编写 PySpark 作业并执行 df repartition partitionby write partitionBy partitionby mod
android 如何在用户点击通知时启动活动？

我想在用户单击通知时打开活动我知道这个问题是重复的但找不到解决方案这就是我所做的 NotificationCompat Builder mBuilder new NotificationCompat Builder this setS
从文本文件中提取与输入单词最相似的前 N 个单词

我有一个文本文件其中包含我使用 BeautifulSoup 提取的网页内容我需要根据给定的单词从文本文件中找到 N 个相似的单词流程如下从中提取文本的网站 https en wikipedia org wiki Football h

从文本文件中提取与输入单词最相似的前 N ​​个单词

从文本文件中提取与输入单词最相似的前 N ​​个单词 的相关文章

随机推荐

热门标签

从文本文件中提取与输入单词最相似的前 N 个单词

从文本文件中提取与输入单词最相似的前 N 个单词的相关文章