Python的collections.Counter和nltk.probability.FreqDist之间的区别

2023-12-25

我想计算文本语料库中单词的术语频率。我已经使用 NLTK 的 word_tokenize 和probability.FreqDist 一段时间来完成这项工作。 word_tokenize 返回一个列表，通过 FreqDist 将其转换为频率分布。然而，我最近在集合中遇到了 Counter 函数（collections.Counter），它似乎在做完全相同的事情。 FreqDist 和 Counter 都有一个most_common(n) 函数，它返回n 个最常见的单词。有谁知道这两者之间有什么区别吗？一个比另一个快吗？是否存在一种情况有效而另一种无效的情况？

nltk.probability.FreqDist是一个子类collections.Counter.

来自docs https://github.com/nltk/nltk/blob/develop/nltk/probability.py#L61:

实验结果的频率分布。 A 频率分布记录了某个结果的出现次数实验发生了。例如，频率分布可以用于记录文档中每种单词类型的频率。形式上，频率分布可以定义为函数从每个样本到该样本发生的次数的映射作为结果。

从代码中可以清楚地看出继承关系 https://github.com/nltk/nltk/blob/develop/nltk/probability.py#L61本质上，在如何Counter and FreqDist已初始化，请参阅https://github.com/nltk/nltk/blob/develop/nltk/probability.py#L106 https://github.com/nltk/nltk/blob/develop/nltk/probability.py#L106

所以从速度上来说，创建一个Counter and FreqDist应该是一样的。速度差异应该微不足道，但值得注意的是，开销可能是：

在解释器中定义类时的编译
鸭子打字的成本.__init__()

主要区别在于不同的功能FreqDist提供统计/概率自然语言处理（NLP），例如寻找半轴 https://github.com/nltk/nltk/blob/develop/nltk/probability.py#L130。完整的函数列表FreqDist延伸Counter如下：

>>> from collections import Counter
>>> from nltk import FreqDist
>>> x = FreqDist()
>>> y = Counter()
>>> set(dir(x)).difference(set(dir(y)))
set(['plot', 'hapaxes', '_cumulative_frequencies', 'r_Nr', 'pprint', 'N', 'unicode_repr', 'B', 'tabulate', 'pformat', 'max', 'Nr', 'freq', '__unicode__'])

当谈到使用时FreqDist.most_common()，它实际上使用的是父函数Counter所以检索排序的速度most_common两种类型的列表相同。

就个人而言，当我只想检索计数时，我使用collections.Counter。但是当我需要进行一些统计操作时，我要么使用nltk.FreqDist或者我会转储Counter into a pandas.DataFrame (see 将 Counter 对象转换为 Pandas DataFrame https://stackoverflow.com/questions/31111032/transform-a-counter-object-into-a-pandas-dataframe).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python的collections.Counter和nltk.probability.FreqDist之间的区别的相关文章

如何在不在 iPython 笔记本中使用离线模式下的plotly进行绘图？

我需要使用plotly绘制我的数据但是这段代码没有给我任何结果我显示我的数据但没有任何数字 import plotly graph objs as go from plotly offline import download plot
ResultSet 对象没有属性“find_all”

当我抓取一个网页时我总是遇到一个问题 AttributeError ResultSet 对象没有属性 find 您可能将项目列表视为单个项目当您打算调用 find 时您是否调用了 find all 谁能告诉我如何解决这个问题我的代码
在tensorflow中使用估计器API进行训练时出错

我正在尝试运行一个简单的SVM通过使用 input fn 返回一个数据来对 iris 数据集进行分类tf data dataset对象但我遇到了以下错误 Traceback most recent call last File tf te
当鼠标悬停时使用 matplotlib 注释绘图的线条[重复]

这个问题在这里已经有答案了我想在鼠标悬停时在绘图上注释不同的线这里用点进行相同的操作当鼠标悬停在 matplotlib 中的某个点上时可以显示标签吗 https stackoverflow com questions 7908636 p
尝试打开 Excel 时出现“KeyError：“存档中没有名为“xl/sharedStrings.xml”的项目”

我正在尝试使用 Python 脚本将数据导入 PowerBi 以便我可以安排它定期刷新数据我面临着从 Excel 文件获取数据并收到错误的挑战 KeyError 没有名为 xl sharedStrings xml 的项目在档案中导入时
AMLS 实验运行停留在“正在运行”状态

我运行了 Azure 机器学习服务实验并使用 Jupyter Notebook 记录了神经网络损失日志记录工作正常神经网络训练也按预期完成但实验一直停留在运行状态关闭计算资源不会关闭实验运行我无法从实验面板取消它此外运行没有
mypy 错误，使用 Union/Optional 重载，“重载函数签名 1 和 2 与不兼容的返回类型重叠”

那么让我们从一个例子开始假设我们有几种可以组合在一起的类型假设我们正在使用 add 来实施这一点不幸的是由于我们无法控制的情况一切都必须是可为空的因此我们被迫使用Optional到处 from typing import O
如何实例化具有已知系数的 Scikit-Learn 线性模型而不进行拟合

背景作为实验的一部分我正在测试各种保存的模型但其中一个模型来自我编写的算法而不是来自 sklearn 模型拟合但是我的自定义模型仍然是线性模型所以我想实例化一个LinearModel实例并设置coef and intercep
对训练和测试数据帧使用相同的标签编码器

我有 2 个不同的 csv 其中包含训练数据和测试数据我从这些 train features df 和 test features df 创建了两个不同的数据帧请注意测试和训练数据有多个分类列因此我需要对它们应用 labelEnco
Keras ImageDataGenerator 验证分割未从打乱的数据集中选择

如何将图像数据集随机拆分为训练数据集和验证数据集更具体地说 validation splitKeras 中的论证ImageDataGenerator函数不是随机地将我的图像分割为训练和验证而是从未洗牌的数据集中分割验证样本当指定val
如何从数据存储区刷新 NDB 实体？

我希望能够在我的代码调用的测试中断言Model put 对于已修改的实体不幸的是似乎正在进行一些缓存例如以下代码 from google appengine ext import ndb class MyModel ndb Model
从 FTP 服务器上的 ZIP 存档读取文件，无需下载到本地系统

我在 FTP 服务器上的目标文件是 ZIP 文件 CSV 位于更远的两个文件夹中我如何才能使用 BytesIO 让 pandas 读取 csv 而无需下载它这是我到目前为止所拥有的 ftp FTP FTP SERVER ftp logi
缓存 pandas 数据框的最佳方法？

昨天我经历了惨痛的教训将 pandas 数据帧保存到 csv 以供以后使用是一个坏主意我有一个包含 130k 条推文的数据框其中数据框的一行是list的推文当我将数据保存到 CSV 然后重新加载数据帧时数据帧的行现在是字符串类型
重置Keras模型的所有权重

我希望能够重置整个 Keras 模型的权重这样我就不必再次编译它编译模型目前是我的代码的主要瓶颈这是我的意思的一个例子 import tensorflow as tf model tf keras Sequential tf kera
由 asyncio.new_event_loop 创建的事件循环挂起

以下代码只是挂起而不打印任何内容 import asyncio async def foo loop print foo loop stop loop asyncio new event loop asyncio ensure future
Python 中 Javascript 的 reduce()、map() 和 filter() 的等价物是什么？

Python 的等价物是什么 Javascript function wordParts currentPart lastPart return currentPart lastPart word Che mis try console l
Django 和 REST API 服务基于计算的请求

我在 Django 中编写了一个机器学习应用程序以便用户可以在表单中指定一些参数并训练模型模型训练完成后我想满足以下请求 curl http localhost 8000 model input XYZ 我希望 Django 返回给定
从 NumPy、matplotlib 包导入 python 子模块有什么区别[重复]

这个问题在这里已经有答案了当我尝试使用时pyplot from matplotlib import matplotlib print matplotlib pyplot just checking 它给了我AttributeError m
如何在（最好是纯）Python 中解码 QR 码图像？

TL DR 我需要一种使用最好是纯 Python 从图像文件中解码 QR 码的方法我有一个带有 QR 码的 jpg 文件我想使用 Python 对其进行解码我发现有几个库声称可以做到这一点 PyQRCode 网站在这里 http p
python chaco轴标签时间格式

在 Enthought 的 Chaco 中 TimeFormatter类用于格式化刻度的时间字符串标签有没有办法指定时间格式类似于time strftime 源代码现在将显示月份和日期时的格式硬编码为美国风格 MMDD 我想添加一些灵

随机推荐

适用于多种情况的 Python 设计模式

编写具有多种条件的验证函数的推荐结构是什么请参阅这两个示例第一个看起来很难看第二个不太常见也许是因为assert通常用于排除意外行为有更好的选择吗 def validate val if cond1 val return Fals
Windows环境变量嵌套的限制？

那么 Windows 中环境变量的嵌套深度是否有限制呢我做了很多开发工作并且正在尝试设置我的开发环境变量其中很多都是相互嵌套的即 GLEW THIRD PARTY ROOT GLEW GLEW 1 5 5 GLEW glew 1 5
在Python中，如何在循环中获取总和和平均值

我已经设法实现了一个循环但当我尝试时不断收到语法错误sum功能我需要对用户输入的数字进行总计并给出平均值这必须输出给用户您能指导我从这里去哪里吗谢谢这是我到目前为止所做的 while 1 NumCalc input Enter
尝试在空对象引用上调用虚拟方法“void android.widget.Editor$SelectionModifierCursorController.hide()”

此错误似乎仅发生在使用 Android 6 0 1 的三星手机上或 7 0 Fatal Exception java lang NullPointerException Attempt to invoke virtual method v
在实用函数中使用 Django request.session

我正在尝试打电话request session get items 来自自定义 util 函数util py 但在该文件中 request对象不可访问我可以从views py 传递请求对象但我不想这样做有没有办法在自定义函数而不是视
Google Sheets - 当文件名相同时，脚本为“替换”而不是“创建”

编辑以尝试使其更容易理解这是我所做的我创建了一个 Google 电子表格我创建了一个脚本使用基于服务日期和客户名称的文件名将其保存到 Google 云端硬盘文件夹中这是我目前拥有的脚本 This creates a custom
使用 DOMDocument，是否可以获取某个 DOM 中存在的所有元素？

假设我有一个包含许多不同元素的 HTML 文件每个元素都有不同的属性假设我事先不知道这个 HTML 会是什么样子使用 PHP 的 DOMDocument 我如何迭代ALL元素并修改它们我看到的只是 getElementByTagNa
如何使用多个表插入数据

我创建了一个数据库名称电影库系统其中有 3 个表分别是类型发行商和电影现在 1 个发行商可以有很多电影而 1 部电影有多种类型在电影表中发行商 id 和 typeid 充当外键我的问题是如何将数据插入到电影表中我已经将数据
折叠一个布局，但将另一个布局保留在底部

我有这样的布局没有颜色 https i stack imgur com OdSda png https i stack imgur com OdSda png 选项卡的布局单独的 xml 文件 relativelayout 1 围绕其他
在scala中创建多维数组

我正在解析这样的 json 对象 val product array Option Any scala util parsing json JSON parseFull products json var product array2 Ar
当值具有实体时，Selenium WebDriver get_attribute 返回 href 属性的截断值

我正在尝试使用 selenium Webdriver Python 从应用程序页面上的锚点选项卡获取 href 属性值并且返回的结果已被剥离这是 HTML 片段 a class nla row text href shopping br
有效计算两个 std::multimap 迭代器之间的条目数

我想计算两个迭代器之间的条目数std multimap在不到 O N 的时间内有什么技巧或巧妙的方法可以做到这一点吗 Since std multimap有双向迭代器我的理解是这样的std distance可以在 O N 时间内完成其
自举流体和静态容器

我正在尝试在单页引导布局中将流体容器与固定容器结合起来我想要的是例如有一个大图像作为英雄单元但不是英雄单元视口的 100 宽度高度或者 3 列图像除以 100 但在其他情况下在同一页面内它将具有最大 1200px 容器以及
JavaScript 代码约定 - 变量声明 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
PHP中有pdf模板的解决方案吗？

我需要通过 PHP 生成 pdf 格式的报价并使用模板和从数据库检索的动态值它可行吗更新我看到人们最近对此表示赞同并想补充一点wkhtml转pdf http code google com p wkhtmltopdf对于大多数应用
pymssql 抛出 ImportError: 使用 py2exe 构建应用程序时没有名为 _mssql 的模块

我有 python 应用程序应该作为 Windows 可执行文件启动我正在使用 py2exe 和 pymssql 1 9 908 我使用下一个构建脚本来生成应用程序 from distutils core import setup imp
使用具有相同控制器的 STI 路径

我正在使用 STI 想知道是否必须为每个型号配备单独的控制器我遇到了一种情况我只对 STI 关系中的一个模型使用创建和编辑操作但如果我尝试为其创建表单则会收到未定义方法错误更具体地说我有两个继承自 List 的模型 clas
Emacs lisp 计算 alist 中的变量

这是一个后续问题Emacs Lisp 评估列表中的变量 https stackoverflow com questions 1664202 emacs lisp evaluate variable in alist 我正在尝试设置defau
Android中动态设置TextView的宽度和高度

我正在尝试动态设置 TextView 宽度使用setWidth width method txtviewOne setWidth 10 txtviewTwo setWidth 10 但没有成功请帮助我如何动态设置textview的宽度
Python的collections.Counter和nltk.probability.FreqDist之间的区别

我想计算文本语料库中单词的术语频率我已经使用 NLTK 的 word tokenize 和probability FreqDist 一段时间来完成这项工作 word tokenize 返回一个列表通过 FreqDist 将其转换为频率分

Python的collections.Counter和nltk.probability.FreqDist之间的区别

Python的collections.Counter和nltk.probability.FreqDist之间的区别 的相关文章

随机推荐

热门标签

Python的collections.Counter和nltk.probability.FreqDist之间的区别的相关文章