如何使用 spacy 查找最常用的单词？

2024-01-12

我正在使用 spacy 和 python，它可以很好地标记每个单词，但我想知道是否有可能找到字符串中最常见的单词。还有可能得到最常见的名词、动词、副词等吗？

包含一个 count_by 函数，但我似乎无法让它以任何有意义的方式运行。

我最近不得不计算文本文件中所有标记的频率。您可以使用 pos_ 属性过滤掉单词以获得您喜欢的 POS 令牌。这是一个简单的例子：

import spacy
from collections import Counter
nlp = spacy.load('en')
doc = nlp(u'Your text here')
# all tokens that arent stop words or punctuations
words = [token.text
         for token in doc
         if not token.is_stop and not token.is_punct]

# noun tokens that arent stop words or punctuations
nouns = [token.text
         for token in doc
         if (not token.is_stop and
             not token.is_punct and
             token.pos_ == "NOUN")]

# five most common tokens
word_freq = Counter(words)
common_words = word_freq.most_common(5)

# five most common noun tokens
noun_freq = Counter(nouns)
common_nouns = noun_freq.most_common(5)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLP

spacy

如何使用 spacy 查找最常用的单词？的相关文章

从 Django 调用 Postgres SQL 存储过程

我正在开发一个带有 Postgresql 数据库的 Django 项目我编写了一个可以在 Postgres 上完美运行的存储过程现在我想从 Django 1 5 调用该存储过程我已经编写了代码但它提示错误 CREATE FUNCTI
嵌套字典中的 Django 模板

我正在使用 Django 模板并且遇到了嵌套字典的一个问题 Dict result dict type 0 file name abc count 0 type 1 file name xyz count 50 我的 HTML 文件中的模
TensorFlow：带有轴选项的 bincount

在 TensorFlow 中我可以使用 tf bincount 获取数组中每个元素的计数 x tf placeholder tf int32 None freq tf bincount x tf Session run freq feed
numpy python 中的“AttributeError：'matrix'对象没有属性'strftime'”错误

我有一个维度为 72000 1 的矩阵该矩阵涉及时间戳我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
NumPy linalg.eig

我有这个烦人的问题但我还没有弄清楚我有一个矩阵我想找到特征向量所以我写 val vec np linalg eig mymatrix 然后我得到了 vec 我的问题是当我小组中的其他人对相同的矩阵 mymatrix 做同样的事情时
在 python 3 中使用子进程

我使用 subprocess 模块在 python 3 中运行 shell 命令这是我的代码 import subprocess filename somename py in practical i m using a real fil
cv2.drawContours() - 取消填充字符内的圆圈（Python，OpenCV）

根据 Silencer的建议我使用了他发布的代码here https stackoverflow com questions 48244328 copy shape to blank canvas opencv python 482465
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
Pandas dataframe：每批行的操作

我有一个熊猫数据框df我想计算每批行的一些统计信息例如假设我有一个batch size 200000 对于每批batch sizerows 我想要一列的唯一值的数量ID我的数据框我怎样才能做这样的事情呢这是我想要的一个例子 prin
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
Python中列表中两个连续元素的平均值

我有一个偶数个浮点数的列表 2 34 3 45 4 56 1 23 2 34 7 89 我的任务是计算 1 和 2 个元素 3 和 4 5 和 6 等元素的平均值在 Python 中执行此操作的快捷方法是什么 data 2 34 3 45
CNTK 抱怨 LSTM 中的动态轴

我正在尝试在 CNTK 中实现 LSTM 使用 Python 来对序列进行分类 Input 特征是固定长度的数字序列时间序列标签是 one hot 值的向量 Network input input variable input dim
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
Werkzeug 中的线程和本地代理。用法

首先我想确保我正确理解了功能的分配分配本地代理功能以通过线程内的模块包共享变量对象我对吗其次用法对我来说仍然不清楚也许是因为我误解了作业我用烧瓶如果我有两个或更多模块 A B 我想将对象C从模块A导入到模块B 但我
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
OSX 上的 locale.getlocale() 问题

我需要获取系统区域设置来执行许多操作最终我想使用 gettext 翻译我的应用程序我打算在 Linux 和 OSX 上分发它但我在 OSX Snow Leopard 上遇到了问题 python Python 2 5 2 r252 60
导入错误：无法导入名称“时间戳”

我使用以下代码在 python 3 6 3 中成功安装了 ggplot conda install c conda forge ggplot 但是当我使用下面的代码将其导入笔记本时出现错误 from ggplot import Impor
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r
使用 Python 将对象列表转为 JSON

我在转换时遇到问题Object实例到 JSON ob Object list name scaping myObj base url u number page for ob in list name json string json du
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这

随机推荐

HTML5 Web SQL 数据库问题

我的公司目前正在过渡到新的架构以及为移动设备提供服务的模型我们的应用程序传统上是基于网络的 HTML5 CSS3 JS PHP MYSQL 所以我们希望能够将其移植到移动平台而不必重新发明轮子 Cordova 以及以独立方式连接到桌面
聚合物获取纸张输入值

我使用 Polymer 很短一段时间现在我想获取纸张输入的值我不知道我该怎么做这是行不通的 this form password 我想获取该字段的值
当对象（例如位图）成为孤立对象时，如何处理它？

我有一个 A 类为其他 B C 类等提供位图现在 A 类将其位图保存在环形队列中因此一段时间后它将失去对该位图的引用当它仍在队列中时同一个位图可以由多个类检出这样 B 和 C 都可以保存对此同一个位图的引用但也可能发生只有其中
adobe media server 4 与亚马逊的费用如何？

有人尝试过在 Amazon Web 服务上使用 Flash Media Server 4 吗我想知道您的经验是什么以及运行它的成本 This Adobe 文档 http help adobe com en US flashmediaser
Android 上的自签名 SSL 接受

如何在 Android 上接受 Java 自签名证书代码示例将是完美的我在互联网上到处查找虽然有些人声称找到了解决方案但它要么不起作用要么没有示例代码来支持它我在 ExchangeIt 中具有此功能它通过 WebDav 连接到
R 3.6 的 RDCOM 客户端

我已经从以下位置下载了该软件包https github com omegahat RDCOMClient https github com omegahat RDCOMClient 并按照说明从本地源安装它如何从下载的 zip 文件安装包
Facebook 应用程序请求对话框未发送请求

我们有一个使用 Facebook 登录的网站我们有一个邀请页面显示用户的 Facebook 好友然后让我们通过 Facebook 邀请他们 invite container a live click function var link
问题：运行 cuckoo.py 时“OSError：/usr/lib/libyara.so：无法打开共享对象文件：没有这样的文件或目录”

我已经安装了布谷鸟和所有依赖项并且还使用虚拟框创建了虚拟机我收到错误 OSError usr lib libyara so cannot open shared object file No such file or directory
如何在 Java 桌面应用程序中使用 Google Drive？

我正在处理移动和桌面应用程序我正在尝试使用 Google Drive 作为永久存储文件夹不幸的是我很茫然因为我找不到任何例子有人可以给我举一个从 Google 云端硬盘存储或检索文件的示例吗我真的很想看到一个简单的代码示例或者一
如何在 Visual Studio 2012 中分析单元测试？

是否有可能profileMSTest 单元测试Visual Studio 2012 旗舰版不使用任何外部分析工具此功能已在即将发布的 Visual Studio 2012 季度更新 1 中重新添加在测试资源管理器中右键单击要分析的测试
自定义 ASP.NET SqlMembershipProvider - 处理连接字符串

我正在创建一个自定义 SqlMembershipProvider 类以向基类添加一些增强功能不过我正在忙于处理连接字符串如何从配置中读取连接字符串名称并使其可供其余方法使用现在我有 public override void Ini
使用 JavaScript 基于字符串创建十六进制颜色

我想创建一个函数来接受任何旧字符串通常是一个单词并从中somehow生成一个介于之间的十六进制值 000000 and FFFFFF 所以我可以将它用作 HTML 元素的颜色甚至可能是一个速记的十六进制值例如 FFF 如果不那么复杂
使用 Mapbox 过滤掉国家/地区

是否有可能使用 Mapbox 仅显示德国国家边界和内部数据我不想展示世界其他地方 Thankx Markus 是的使用德国 GeoJSONhttp code highcharts com mapdata http code highch
android usb UsbDeviceConnection.bulkTransfer 返回 -1

我正在尝试从 Android 平板电脑向 POS 打印机发送命令我已经能够使基本连接正常工作但现在当我尝试将数据发送到打印机时 bulkTransfer 返回 1 请帮助我了解发生了什么事以下是从 android 站点获取的修改后的广
处理不断变化的模式

我们是一家游戏公司将事件每天最多 1 个千兆事件存储到 bigquery 事件按月份和应用程序进行分片以降低查询成本现在来谈谈我们的问题我们当前的解决方案支持添加新类型的事件从而产生新版本的表模式该版本也已添加到表中 I e
哪个最有效：直接通过 nginx 提供静态文件还是通过 nginx 反向代理通过节点提供静态文件？

我已经使用了nginx as reverse proxy服务我的node js网络应用程序3000 lt gt 80例如实际上我在节点应用程序中提供我的资产使用express static中间件我读了一遍又一遍发现 nginx 提
Entity Framework 5 中的 Visual Studio 2010 支持 LocalDB 吗？

NET 4 0 上的实体框架 5 中的 Visual Studio 2010 是否支持 LocalDB 还是我做错了使用 LocalDB 的连接字符串实例化模型容器时出现找不到网络路径问题这是连接字符串 var connectio
MacOS 上的 Clang 包含问题

我在 MacOS 上从头开始构建了 Clang 但遇到了问题使用以下命令来配置 Clang 进行构建 cmake G Unix Makefiles DCMAKE INSTALL PREFIX opt clang 12 DCMAKE BUI
MATLAB 滑块步进行为

我使用 MATLAB 2012a 中的 GUIDE 创建了一个滑块小部件我希望它控制一个显示图像的轴其中滑块逐步浏览一系列图像我已在 m 文件的一部分中设置了滑块的 Min Max 和 SliderStep 属性 sliderMin
如何使用 spacy 查找最常用的单词？

我正在使用 spacy 和 python 它可以很好地标记每个单词但我想知道是否有可能找到字符串中最常见的单词还有可能得到最常见的名词动词副词等吗包含一个 count by 函数但我似乎无法让它以任何有意义的方式运行我最近不得

如何使用 spacy 查找最常用的单词？

如何使用 spacy 查找最常用的单词？ 的相关文章

随机推荐

热门标签

如何使用 spacy 查找最常用的单词？的相关文章