NLTK 中的 FreqDist 未对输出进行排序

2024-04-08

我是 Python 新手，我正在尝试自学语言处理。 python 中的 NLTK 有一个名为 FreqDist 的函数，可以给出文本中单词的频率，但由于某种原因它无法正常工作。

这是教程让我写的：

fdist1 = FreqDist(text1)
vocabulary1 = fdist1.keys()
vocabulary1[:50]

所以基本上它应该给我一个文本中 50 个最常见单词的列表。但是，当我运行代码时，结果是 50least常用词按最不常见到最常见的顺序排列，而不是相反。我得到的输出如下：

[u'succour', u'four', u'woods', u'hanging', u'woody', u'conjure', u'looking', u'eligible', u'scold', u'unsuitableness', u'meadows', u'stipulate', u'leisurely', u'bringing', u'disturb', u'internally', u'hostess', u'mohrs', u'persisted', u'Does', u'succession', u'tired', u'cordially', u'pulse', u'elegant', u'second', u'sooth', u'shrugging', u'abundantly', u'errors', u'forgetting', u'contributed', u'fingers', u'increasing', u'exclamations', u'hero', u'leaning', u'Truth', u'here', u'china', u'hers', u'natured', u'substance', u'unwillingness...]

我完全复制了教程，但我一定做错了什么。

这是教程的链接：

http://www.nltk.org/book/ch01.html#sec-computing-with-language-texts-and-words http://www.nltk.org/book/ch01.html#sec-computing-with-language-texts-and-words

该示例位于“图 1.3：计算文本中出现的单词数（频率分布）”标题下

有谁知道我该如何解决这个问题？

From NLTK 的 GitHub https://github.com/nltk/nltk/issues/390#issuecomment-53171900:

NLTK3中的FreqDist是collections.Counter的包装器；专柜提供most_common()方法按顺序返回项目。FreqDist.keys()方法由标准库提供；它没有被覆盖。我认为我们与 stdlib 变得更加兼容是件好事。

googlecode 上的文档非常旧，是 2011 年的。更多最新文档可以在http://nltk.org http://nltk.org网站。

因此对于 NLKT 版本 3，而不是fdist1.keys()[:50], use fdist1.most_common(50).

The tutorial http://www.nltk.org/book/ch01.html#frequency-distributions也已更新：

fdist1 = FreqDist(text1)
>>> print(fdist1)
<FreqDist with 19317 samples and 260819 outcomes>
>>> fdist1.most_common(50)
[(',', 18713), ('the', 13721), ('.', 6862), ('of', 6536), ('and', 6024),
('a', 4569), ('to', 4542), (';', 4072), ('in', 3916), ('that', 2982),
("'", 2684), ('-', 2552), ('his', 2459), ('it', 2209), ('I', 2124),
('s', 1739), ('is', 1695), ('he', 1661), ('with', 1659), ('was', 1632),
('as', 1620), ('"', 1478), ('all', 1462), ('for', 1414), ('this', 1280),
('!', 1269), ('at', 1231), ('by', 1137), ('but', 1113), ('not', 1103),
('--', 1070), ('him', 1058), ('from', 1052), ('be', 1030), ('on', 1005),
('so', 918), ('whale', 906), ('one', 889), ('you', 841), ('had', 767),
('have', 760), ('there', 715), ('But', 705), ('or', 697), ('were', 680),
('now', 646), ('which', 640), ('?', 637), ('me', 627), ('like', 624)]
>>> fdist1['whale']
906

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLP

NLTK

NLTK 中的 FreqDist 未对输出进行排序的相关文章

如何使用 python 的 http.client 准确读取一个响应块？

Using http client在 Python 3 3 或任何其他内置 python HTTP 客户端库中如何一次读取一个分块 HTTP 响应一个 HTTP 块我正在扩展现有的测试装置使用 python 编写 http clie
如何为未捕获的异常处理程序编写单元测试

我有一个函数可以捕获uncaught例外情况如下有没有办法编写一个单元测试来执行uncaught exception handler 功能正常但测试正常退出 import logging def config logger logge
使用 Python 3 动态插入到 sqlite

我想使用 sqlite 写入多个表但我不想提前手动指定查询有数十种可能的排列例如 def insert sqlite tablename data list global dbc dbc execute insert into tab
为什么第二个 request.session cookies 返回空？

我想使用 requests Session post 登录网站但是当我已经登录主页然后进入帐户页面时看来cookies还没有保存因为cookies是空的而且我无法进入正确的帐户页面 import requests from bs4
以类型化内存视图作为成员的结构定义

目前我正在尝试让一个具有类型化内存视图的结构能够工作例如 ctypedef struct node unsigned int inds 如果 inds 不是内存视图据我所知它可以完美地工作然而通过内存视图并使用类似的东西 def
如何将 sql 数据输出到 QCalendarWidget

我希望能够在日历小部件上突出显示 SQL 数据库中的一天就像启动程序时突出显示当前日期一样在我的示例中它是红色突出显示我想要发生的是当用户按下突出显示的日期时数据库中日期旁边的文本将显示在日历下方的标签上这是我使用 QT De
如何使用 opencv python 计算乐高积木上的孔数？

我正在开发我的 python 项目我需要计算每个乐高积木组件中有多少个孔我将从输入 json 文件中获取有关需要计算哪个程序集的信息如下所示 img 001 red 0 blue 2 white 1 grey 1 yellow 1 r
在Python中读取tiff标签

我正在尝试用 Python 读取 tiff 文件的标签该文件是 RGB 的uint16每个通道的值我目前正在使用tifffile import tifffile img tifffile imread file tif 然而 img是一
仅当某些值相等时，如何才能将一个文本文件中的值替换为另一个文本文件中的其他值？

我有一个名为finalscores txt我想创建一个 python 脚本它将打开它并从两个单独的列中读取值这是我的finalscores txt file Atom nVa predppm avgppm stdev delta QPr
更改QLineEdit的ClearButton图标

我想在Windows 10 1909 64位上的Python 3 8和PyQt5 5 15 0 上更改我的QLineEdit的ClearButton图标稍后我想在Linux上运行代码我尝试应用此处找到的代码如何在 QLineEdit
App Engine 实体到字典

将 google app engine 实体在 python 中复制到字典对象的好方法是什么我正在使用 db Expando 对象所有属性均为扩展属性 Thanks 有一个名为foo尝试 foo dict
使用seaborn绘制简单线图

我正在尝试使用seaborn python 绘制ROC曲线对于 matplotlib 我只需使用该函数plot plt plot one minus specificity sensitivity bs where one minus s
将字符串中的随机字符转换为大写

我尝试随机附加文本字符串这样就不只是有像这样的输出 gt gt gt david 我最终会得到类似的东西 gt gt gt DaViD gt gt gt dAviD 我现在的代码是这样的 import random import stri
Python守护进程：保持日志记录

我有一个将一些数据记录到磁盘的脚本 logging basicConfig filename davis debug log level logging DEBUG logging basicConfig filename davis er
如何通过函数注释指示函数需要函数作为参数，或返回函数？

您可以使用函数注释 http www python org dev peps pep 3107 在python 3中指示参数和返回值的类型如下所示 def myfunction name str age int gt str return
django jet 中的自定义徽标

我目前正在尝试对 django 管理面板的皮肤进行一些定制以使其更符合我们的品牌目前我们使用 django jet 来美化管理面板 django jet 可以自定义 css html 吗所有评论都说我应该更改一些 html 文件但我
如何在 scikit 中加载 CSV 数据并将其用于朴素贝叶斯分类

尝试加载自定义数据以在 Scikit 中执行 NB 分类需要帮助将示例数据加载到 Scikit 中然后执行 NB 如何加载目标的分类值使用相同的数据进行训练和测试或使用完整的数据集进行测试 Sl No Member ID Membe
Python 中的 Unix cat 函数 (cat * > merged.txt)？ [复制]

这个问题在这里已经有答案了一旦建立了目录有没有办法在Python中使用Unix中的cat函数或类似的函数我想将 files 1 3 合并到 merged txt 我通常会在 Unix 中找到该目录然后运行 cat gt merged
如何通过点击复制 folium 地图上的标记位置？

I am able to print the location of a given marker on the map using folium plugins MousePosition class GeoMap def update
描述符“join”需要“unicode”对象，但收到“str”

代码改编自here http wiki geany org howtos convert camelcase from foo bar to Foo Bar def lower case underscore to camel case s

随机推荐

使用 Javascript 覆盖或禁用元刷新标记

我有一个网站我尝试使用 Ajax 更新页面上的一些内容而不重新加载它但是我的许多用户很可能会使用不支持 Javascript 的移动浏览器因此我尝试使用元刷新标记设计页面该标记仅适用于没有 Javascript 的用户有什么办法
使用后端 NDB 的 GAE put_multi() 实体

我正在使用后端来编写多个实体ndb put multi list of entities 我遇到的问题是在那之后如果我进行查询则不会得到任何结果如果我设置一个睡眠定时器例如 1 秒我就可以读取我刚刚编写的实体 So eg cla
如何组合两个媒体查询？

如何组合两个媒体查询一种适用于较小的设备一种适用于较大的设备但仅限纵向模式 media only screen and min device width 320px and max device width 480px and ori
如何在 Mono 中运行 MVC3 或更新的应用程序

默认 ASP NET MVC 3 应用程序是使用 Microsoft Web Developer Express 2010 创建的应用程序发布到文件系统并复制到安装了 mono 2 10 8 Apache 和 mod mono 的 Deb
DatabaseError：没有这样的列错误

所以我有一个模型想要添加 ImageField 所以我输入图片 models ImageField upload to 媒体图像然后我运行syncdb并进入shell python2 manage py syncdb python2
Hibernate Search + Spring Boot：java.lang.IllegalStateException：没有可用的事务 EntityManager

我正在尝试在 Spring Boot 应用程序中设置 Hibernate Search 如下所示本教程 https www mkyong com spring boot spring boot hibernate search exampl
如何将带有查找值的记录插入到 SQL 中？

Scenario 我需要每天通过电子表格更新 SQL 2008 数据库唯一可用的选项格式非常基本但可能有数百万条记录 Column1 和 Column3 将具有许多预定义的重复值这些值已提取到单独的表中电子表格样本 Column1
当 S Pen 在 android note 中分离时，将您的应用程序置于最前面吗？

我想在 S Pen 分离时立即打开我的应用程序如果仅在再次打开我的应用程序时调用 onSPenDetached 下的方法您该怎么做谢谢昌杜以下内容适用于我的配备 S Pen SM P550 运行 Android 5 0 2 的 G
Swift 陀螺仪偏航、俯仰、横滚

我正在为我的学校做一个编程主题的项目我正在 Swift 中使用 Xcode 我想制作一个使用陀螺仪的应用程序我不知道但不知怎的它不会在我的 iPhone 上运行因为 Xcode 中存在一些我不知道如何修复的错误当我运行程序时显
Android 对话框透明

我想去掉对话框中的边框并使其看起来绝对透明就像图像位于屏幕顶部一样我的对话框 xml 是
VBA有一个子程序运行另一个子程序

如何运行sub存储在另一个工作表的模块中工作表1 sub endDay something here end sub 工作表2 sub reCalc something here end sub I want recalc能够独立运行但
Android Studio 更新到 2.2.2 时无法识别应用程序名称

我最近将 Android Studio 更新到版本 2 2 2 并遇到了一些问题其中我的应用程序名称在清单中不再被识别我还根据位于的文档迁移到新的 Firebase SDKhere https firebase google com s
Python 将 DXF 文件转换为 PDF、PNG 或 JPEG

有谁知道将 DXF 文件转换为 PNG 或 PDF 的方法吗我有一个巨大的 DXF 文件列表我想将它们转换为图像以便更快地查看它们如果可能的话如何提取 DXF 文件值例如 DXF 文件中绘图的厚度或尺寸 https github
按下 Control 键时 RichTextBox 选择错误

我在文本选择方面遇到了一个非常奇怪的错误富文本框我创建了以下简单的表格 public partial class Form1 Form public Form1 InitializeComponent private void Form1
Dotnet 隔离的 Azure Functions - 如何访问 HttpContext

我有一个由 HTTP 调用触发的 dotnet 5 Azure 函数 dotnet isolated 该函数将由不同的 Azure 函数应用程序调用我想使用 Azure AD 保护目标并使用客户端凭据 OAuth2 流我在以下位置找到
HighCharts 全宽问题

我试图让渲染的图表填充 100 的父 div 但没有成功有什么办法可以消除左右两侧的缝隙吗 http jsfiddle net sKV9d http jsfiddle net sKV9d var chart new Highcharts
终止应用程序：无法加载捆绑包中的 NIB：“NSBundle ...”，名称为“7bK-jq-Zjz-view-r7i-6Z-zg0”

该应用程序在运行时运行良好iphone模拟器但在ipad视网膜模拟器我看到这个崩溃 2015 04 15 18 39 13 814 17308 2881892 由于未捕获的异常 NSInternalInconsistencyExcept
.HTACCESS 文件导致内部服务器错误

我已经复制了文件和数据库BradPPresents com http BradPPresents com to BradP com http BradP com 由于 joomla 启用了漂亮 URL 因此需要 htaccess 文件才能
占位符中有两种不同的文本样式

输入框占位符可以有两种样式吗这是我正在寻找的示例 https i stack imgur com 7OH9A png https i stack imgur com 7OH9A png 选项是使用包含文本的背景图像或者使用与文本重叠的元
NLTK 中的 FreqDist 未对输出进行排序

我是 Python 新手我正在尝试自学语言处理 python 中的 NLTK 有一个名为 FreqDist 的函数可以给出文本中单词的频率但由于某种原因它无法正常工作这是教程让我写的 fdist1 FreqDist text1 vo

NLTK 中的 FreqDist 未对输出进行排序

NLTK 中的 FreqDist 未对输出进行排序 的相关文章

随机推荐

热门标签

NLTK 中的 FreqDist 未对输出进行排序的相关文章