nltk 函数计算某些单词的出现次数

2024-03-10

nltk书中有一个问题 “使用 state_union 语料库阅读器阅读国情咨文演讲的文本。计算每个文档中男性、女性和人物的出现次数。随着时间的推移，这些词的使用发生了什么变化？”

我想我可以使用像 state_union('1945-Truman.txt').count('men') 这样的函数然而，这个 State Union 语料库中有 60 多个文本，我觉得必须有一种更简单的方法来查看每个文本的单词数，而不是对每个文本一遍又一遍地重复此功能。

您可以使用.words()语料库中的函数返回字符串列表（即标记/单词）：

>>> from nltk.corpus import brown
>>> brown.words()
[u'The', u'Fulton', u'County', u'Grand', u'Jury', ...]

然后使用Counter()对象来计算实例数，请参阅https://docs.python.org/2/library/collections.html#collections.Counter https://docs.python.org/2/library/collections.html#collections.Counter:

>>> wordcounts = Counter(brown.words())

但请注意，计数器区分大小写，请参阅：

>>> from nltk.corpus import brown
>>> from collections import Counter
>>> brown.words()
[u'The', u'Fulton', u'County', u'Grand', u'Jury', ...]
>>> wordcounts = Counter(brown.words())
>>> wordcounts['the']
62713
>>> wordcounts['The']
7258
>>> wordcounts_lower = Counter(i.lower() for i in brown.words())
>>> wordcounts_lower['The']
0
>>> wordcounts_lower['the']
69971

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLTK

corpus

nltk 函数计算某些单词的出现次数的相关文章

python 中没有空格的分割句子（nltk？）

我有一组连接的单词我想将它们分成数组例如 split word acquirecustomerdata gt acquire customer data I found pyenchant 但它不适用于 64 位 Windows 然后我
NLTK python 错误：“TypeError：‘dict_keys’对象不可下标”

我正在按照课堂作业的说明进行操作并且应该在文本文件中查找最常用的 200 个单词这是代码的最后一部分 fdist1 FreqDist NSmyText vocab fdist1 keys vocab 200 但是当我在 vocab 20
绘制词频和 NLTK

我有一个包含各种单词的文件我想计算文档中每个单词的频率并绘制它但是我的情节没有显示结果这x axis必须包含单词并且y axis频率我在用NLTK NumPy and Matplotlib 这是我的代码也许我做错了什么 def
从文本内容生成标签

我很好奇是否存在一种算法方法可以通过使用一些权重计算出现率或其他工具从给定文本生成关键字标签此外如果您为此指出任何基于 Python 的解决方案库我将不胜感激 Thanks 实现此目的的一种方法是提取文档中出现频率比您预期的偶
在 NLTK 中使用斯坦福 NER Tagger 提取人员和组织列表

我正在尝试使用 Python NLTK 中的斯坦福命名实体识别器 NER 提取人员和组织的列表当我跑步时 from nltk tag stanford import NERTagger st NERTagger usr share sta
将朴素贝叶斯训练分类器保存在 NLTK 中

我对如何保存经过训练的分类器有点困惑例如每次我想使用分类器时重新训练它显然非常糟糕且缓慢我如何保存它并在需要时再次加载它代码如下提前感谢您的帮助我正在使用 Python 和 NLTK 朴素贝叶斯分类器 classifier nl
如何使用 spacy 或 nltk 检索句子的主要意图？

我有一个用例我想使用 spacy 或 nltk 或任何 NLP 库提取句子的主要有意义部分例句1 我怎样才能发出反对骚扰的声音意图是大声疾呼反对骚扰例句2 唐老鸭是由哪个漫画家哪个人谁创作的意图是唐老鸭是由创造的例句3
NLP 中的否定处理

我目前正在开发一个项目我想从文本中提取情感由于我使用的是conceptnet5 一种语义网络因此我不能简单地在包含否定词的句子中添加单词前缀因为这些单词根本不会出现在conceptnet5 的API 中这是一个例子这部电影不太好
nltk 无法找到 mace4

在执行下面的代码时我收到了如上所述的错误我从以下位置下载了所需的包http www cs unm edu mccune prover9 download http www cs unm edu mccune prover9 downlo
使用 tar.gz 下载在 Ubuntu 13.10 上安装 nltk 3.0

我想在 Ubuntu 13 10 上安装 nltk 3 0 我已经运行 Ubuntu 几个星期了我第一次使用 Linux 我刚刚下载了 python 3 4 0 3 3 也在 Ubuntu 上因为它是随操作系统一起安装的 Python
NLTK 下载 SSL：证书验证失败

尝试为 nltk 安装 Punkt 时出现以下错误 nltk download punkt nltk data Error loading Punkt
NLTK 关系提取不返回任何内容

我最近正在研究使用 nltk 从文本中提取关系所以我构建了一个示例文本汤姆是微软的联合创始人并使用以下程序进行测试并且不返回任何内容我不明白为什么我使用的NLTK版本 3 2 1 python版本 3 5 2 这是我的代码 imp
使用 tkinter 在 jupyter 笔记本内部进行 nltk 绘制

我正在尝试绘制图表 inline of nltk代替jupyter notebook 但出现错误 TclError no display name and no DISPLAY environment variable 我尝试过设置 DIS
使用 nltk 中的meteor_score模块评估模型时如何实现meteor分数？

我目前有 2 个文件 reference txt 和 model txt 这两个文本文件包含原始字幕和训练后生成的字幕我可以简单地执行以下操作来获取流星分数 score nltk translate meteor score meteor
非英语单词的词形还原？

我想应用词形还原来减少单词的屈折形式我知道对于英语 WordNet 提供了这样的功能但我也对对荷兰语法语西班牙语和意大利语单词应用词形还原感兴趣有没有可靠且可靠的方法来解决这个问题谢谢你 Try pattern来自 CLIPS
使用 nltk 进行分块

如何从给定模式的句子中获取所有块示例 NP
使用 nltk 分割句子，同时保留引号

我正在使用 nltk 将文本拆分为句子单元但是我需要将包含引号的句子提取为一个单元现在每个句子即使它在引用中也会被提取为一个单独的部分这是我尝试将其提取为单个单元的示例 This is a sentence This is a
在 Databricks 中的 pyspark 数据帧上下载 punkt 时出现 NLTK 查找错误

我试图通过对 Databricks 中的 pyspark 数据框应用余弦相似度来查找文本列标题标题的相似性我的函数称为 cosine sim udf 为了能够使用它我必须进行第一次 udf 转换将函数应用于 df 后出现查找错误
如何在 nltk 中使用 hunpos 标记文本文件？

有人可以帮我解决在 nltk 中标记语料库的 hunpos 语法吗我要导入什么hunpos HunPosTagger module http nltk googlecode com svn trunk doc api nltk tag h
用于估计（一元）困惑度的 NLTK 包

我正在尝试计算我所拥有的数据的困惑度我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co

随机推荐

在 CosmosDb 中使用 BulkExecutor 时出现无效索引异常

当我尝试使用 BulkExecutor 更新 CosmosDb 中的属性之一时出现错误错误消息是索引超出范围必须为非负数且小于集合的大小参数名称索引重要的一点我没有在我的集合上定义分区键这是我的代码 SetUpdateOpe
将插件插入流体模板？

扩展名客搜索 https typo3 org extensions repository view ke search有一个搜索字段插件我想将其插入到我的流体模板中并显示在每个页面上我对此很陌生不知道如何开始任何帮助表示赞赏您可以
如何覆盖 django AuthenticationForm 输入 css 类？

我有一个使用基本 django 注册框架的 django 站点我的登录页面工作正常但我想更改输入上的 css 类传递到登录页面的表单看起来是一个 AuthenticationForm 类将 css 类添加到用户名和密码字段的好方法是
Visual Basic 6中如何保存断点

如何在 Visual Basic 6 中保存断点有任何插件吗现在我有 MZ Tools 但不幸的是它们不保存断点我不确定第三方工具但您始终可以使用 Debug Assert False 完成后记得将其删除
For 语句，每第 1000 次演练，做某事

我正在遍历 For 循环 100 000 次这个数字可以多样化每第一千次我都想做一些特别的事情那些我在其他演练中没有做的事情像这样的东西 for int i 0 i lt 100000 i doTasks Normal if i 1
git-http-backend 与 apache2.4 Centos 7

我尝试在我的 apache 服务器上设置 Git 服务器但它不起作用我得到了以下 git conf SetEnv GIT PROJECT ROOT var www html git project1 SetEnv GIT HTTP EX
Java 8 Stream API 中的多个聚合函数

我有一个类定义如下 public class TimePeriodCalc private double occupancy private double efficiency private String atDate 我想使用 Java
如何防止在 IE9 中加载页面时出现“无法获取属性‘dir’的值：对象为 null 或未定义”错误

我有一个 Dojo 1 7 4 应用程序在 IE9 中加载页面时出现无法获取属性 dir 的值对象为 null 或未定义错误我使用的是 AMD 版本当它必须单独加载所有文件时不会发生错误我可以控制的所有代码都包含在 dojo
Kotlin：抑制未使用的属性？

我的源代码如下有警告从未使用属性我添加了 Suppress UNUSED PARAMETER Suppress UNUSED PROPERTY GETTER Suppress UNUSED PROPERTY SETTER 然而它们都
关闭 vba 生成的 Excel 绘图上的标记阴影

我正在将一些用于在 Excel 中生成散点图的代码从 Win 7 Excel 2010 移植到 OS X Excel 2011 在 Mac 上数据点显示有阴影我不想要阴影也不知道如何摆脱它 Using 这个工作表 http dl dr
C++ 指针数组的内存分配

我有一个关于内存分配的问题假设我创建了一个像这样的指针数组 int numbers new int 1024 1024 我原以为这需要 8MB 内存 Mac 64 位上为 8 字节指针但事实并非如此仅当为每个指针赋值时才分配内存因此
注册一个全局钩子，检测鼠标是否拖动文件/文本

我知道有可能为鼠标注册全局钩子 http www codeproject com KB cs globalhook aspx移动按钮单击滚动等但我想知道是否有任何方法可以检测用户是否实际上使用全局挂钩拖动文件或文本或其他内容似乎找
从三地址代码到 JVM 字节码的代码生成

我正在研究 Renjin 的字节码编译器 R 代表 JVM 并尝试将中间三地址码 TAC 表示形式转换为字节码我查阅过的所有有关编译器的教科书都讨论了代码生成期间的寄存器分配但我还没有找到任何用于在基于堆栈的虚拟机如 JVM 上生成代
向 ggplot 添加图例

这个问题是这篇文章的后续问题上一篇文章 https stackoverflow com questions 21531230 using geom path from ggplot library 我有12个变量 M1 M2 M12 为此
将位图转换为多边形 - （反向光栅化）[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案给定一个位图图像上面有一些纯色斑点您将使用什么算法来构造与斑点形状相同的多边形这可以通过多个步骤完成稍后可以通过最佳拟合算法来切割高分辨
如何在 WPF 应用程序中构建动态数据输入表单？

我正在计划一个 WPF 应用程序它将能够创造动态数据输入表格这意味着表单从数据库中的数据而不是从 XAML 获取要显示的字段及其顺序等如果可能的话使用 MVVM 模式我计划这样做在客户数据输入视图中我将设置数据上下文
离子应用程序 | Firebase Crashlytics 无法与崩溃报告配合使用？

我在我们的 Ionic 应用程序中使用 ionic native firebase 插件并且该插件中包含崩溃报告由于 Firebase 崩溃报告在 9 月 9 日之后将不再可用因此我们正在尝试切换到 Firebase Crashlyt
无法使用 C# 将 [] 索引应用于“System.Array”类型的表达式

我正在尝试使用包含字符串数组的列表但是当我尝试使用方括号访问数组元素时我收到错误我的数组列表声明如下 public List
在 Valgrind 下运行 Eclipse

这里有人成功运行 Eclipse 吗Valgrind http valgrind org 我正在与涉及 JNI 代码的特别棘手的崩溃作斗争并希望 Valgrind 或许可以再次证明其卓越性但是当我在 Valgrind 下运行 Ecl
nltk 函数计算某些单词的出现次数

nltk书中有一个问题使用 state union 语料库阅读器阅读国情咨文演讲的文本计算每个文档中男性女性和人物的出现次数随着时间的推移这些词的使用发生了什么变化我想我可以使用像 state union 1945 Truman

nltk 函数计算某些单词的出现次数

nltk 函数计算某些单词的出现次数 的相关文章

随机推荐

热门标签

nltk 函数计算某些单词的出现次数的相关文章