使用python排序词频计数

2023-12-15

我必须使用 python 计算文本中的词频。我想到将单词保存在字典中并计算每个单词的数量。

现在,如果我必须根据出现次数对单词进行排序。我可以使用相同的字典来完成此操作,而不是使用以键作为计数、以单词数组作为值的新字典吗?


WARNING:此示例需要 Python 2.7 或更高版本。

Python 的内置Counter对象正是您正在寻找的。计算单词数甚至是文档中的第一个示例:

>>> # Tally occurrences of words in a list
>>> from collections import Counter
>>> cnt = Counter()
>>> for word in ['red', 'blue', 'red', 'green', 'blue', 'blue']:
...     cnt[word] += 1
>>> cnt
Counter({'blue': 3, 'red': 2, 'green': 1})

正如评论中所指出的,Counter接受一个可迭代对象,因此上面的示例仅用于说明,相当于:

>>> mywords = ['red', 'blue', 'red', 'green', 'blue', 'blue']
>>> cnt = Counter(mywords)
>>> cnt
Counter({'blue': 3, 'red': 2, 'green': 1})
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用python排序词频计数 的相关文章

  • 如何屏蔽 PyTorch 权重参数中的权重?

    我正在尝试在 PyTorch 中屏蔽 强制为零 特定权重值 我试图掩盖的权重是这样定义的def init class LSTM MASK nn Module def init self options inp dim super LSTM
  • 打印 scrapy 请求的“响应”

    我正在尝试学习 scrapy 在遵循教程的同时 我正在尝试进行细微的调整 我想简单地从请求中获取响应内容 然后我会将响应传递到教程代码中 但我无法发出请求并获取响应内容 建议就好 from scrapy http import Respon
  • 如何更改充当按钮的范围的文本

    我正在为自定义 Web 应用程序编写自动化测试 我遇到了无法更改跨度文本的问题 我尝试过使用 driver execute script 但没有运气 如果我更好地了解 javascript 这确实会有帮助 据我所知 您无法单击跨度 并且列表
  • 用 Python 编写一个无操作或虚拟类

    假设我有这样的代码 foo fooFactory create 由于种种原因 fooFactory create 可能无法创建实例Foo 如果可以的话我想要fooFactory create 返回一个虚拟 无操作对象 这个对象应该是完全惰性
  • 如何用 python 和 sympy 解决多元不等式?

    我对使用 python 和 Sympy 还很陌生 并且遇到了使用 sympy 解决多元不等式的问题 假设我的文件中有很多函数 如下所示 cst sqrt x 2 cst exp sqrt cst x 1 4 log log sqrt cst
  • NLTK、搭配问题:需要解包的值太多(预期为 2)

    我尝试使用 NLTK 检索搭配 但出现错误 我使用内置的古腾堡语料库 I wrote alice nltk corpus gutenberg fileids 7 al nltk corpus gutenberg words alice al
  • Python 中 genfromtxt() 的可变列数?

    我有一个 txt具有不同长度的行的文件 每一行都是代表一条轨迹的一系列点 由于每条轨迹都有自己的长度 因此各行的长度都不同 也就是说 列数从一行到另一行不同 据我所知 genfromtxt Python 中的模块要求列数相同 gt gt g
  • Python:当前目录是否自动包含在路径中?

    Python 3 4 通过阅读其他一些 SO 问题 似乎如果moduleName py文件位于当前目录之外 如果要导入它 必须将其添加到路径中sys path insert 0 path to application app folder
  • 如何使用 openpyxl 对工作簿中的 Excel 工作表/选项卡进行排序

    我需要按字母数字对工作簿中的选项卡 工作表进行排序 我在用openpyxl https openpyxl readthedocs io en default 操作工作表 您可以尝试排序workbook sheets list workboo
  • 行为:如何从另一个文件导入步骤?

    我刚刚开始使用behave http pythonhosted org behave 一个Pythonic BDD框架 使用小黄瓜语法 http docs behat org guides 1 gherkin html 行为需要一个特征 例
  • Python 中的这种赋值方式叫什么? a = b = 真

    我知道关于元组拆包 http docs python org tutorial datastructures html tuples and sequences但是当一行中有多个等号时 这个赋值被称为什么 阿拉a b True 它总是让我有
  • 在wxpython中使用wx.TextCtrl并在按钮单击后显示数据的简单示例 - wx新手

    我正在学习 python 并尝试使用 wxpython 进行 UI 开发 也没有 UI exp 我已经能够创建一个带有面板 按钮和文本输入框的框架 我希望能够在文本框中输入文本 并让程序在单击按钮后对输入框中的文本执行操作 我可以获得一些关
  • FastText - 由于 C++ 扩展未能分配内存,无法加载 model.bin

    我正在尝试使用 FastText Python APIhttps pypi python org pypi fasttext https pypi python org pypi fasttext虽然 据我所知 此 API 无法加载较新的
  • 在pycharm中调试python代码

    这个问题类似于this https stackoverflow com questions 10240018 how to use pycharm to debug python script一 我正在尝试调试pyethapp https
  • Python模块单元测试的最佳文件结构组织?

    遗憾的是 我发现有太多方法可以在 Python 中保存单元测试 而且它们通常没有很好的文档记录 我正在寻找一种 终极 结构 它可以满足以下大部分要求 be discoverable by test frameworks including
  • CSV 在列中查找最大值并附加新数据

    大约两个小时前 我问了一个关于从网站读取和写入数据的问题 从那时起 我花了最后两个小时试图找到一种方法来从输出的 A 列读取最大日期值 将该值与刷新的网站数据进行比较 并将任何新数据附加到 csv 文件而不覆盖旧的或创建重复项 目前 100
  • Pandas 在特定列将数据帧拆分为两个数据帧

    I have pandas我组成的 DataFrameconcat 一行由 96 个值组成 我想将 DataFrame 从值 72 中分离出来 这样 一行的前 72 个值存储在 Dataframe1 中 接下来的 24 个值存储在 Data
  • 具有指定置信区间的 Seaborn 条形图

    我想在 Seaborn 条形图上绘制置信区间 但我已经计算出置信区间 如何让 Seaborn 绘制我的置信区间而不是尝试自行计算它们 例如 假设我有以下 pandas DataFrame x pd DataFrame Group 1 0 5
  • 使用 Keras 和 fit_generator 绘制 TensorBoard 分布和直方图

    我正在使用 Keras 使用 fit generator 函数训练 CNN 这似乎是一个已知问题 https github com fchollet keras issues 3358TensorBoard 在此设置中不显示直方图和分布 有
  • 如何识别图形线条

    我有以下格式的路径的 x y 数据 示例仅用于说明 seq p1 p2 0 20 2 3 1 20 2 4 2 20 4 4 3 22 5 5 4 22 5 6 5 23 6 2 6 23 6 3 7 23 6 4 每条路径都有多个点 它们

随机推荐

  • 在java中创建包级关联数组

    是否可以创建包级 oracle 关联数组的 java 表示形式 例如 给定以下情况 CREATE OR REPLACE PACKAGE MyPackage AS TYPE t numbers IS TABLE OF NUMBER INDEX
  • 使用 C++ 获取本地管理员用户名

    我想知道是否可以让女巫用户属于我的本地管理员组并列出它们 有没有办法使用 C 来做到这一点 也许有任何 WinAPI 方式 多谢 您可以使用网络用户获取本地组 and 网络用户获取信息检索您的信息并检查其值usri1 priv in the
  • 为什么java中外部类不是静态的? [复制]

    这个问题在这里已经有答案了 在java中 外部类可以是public final default或abstract 为什么不像静态一样 public static class MyClass 外部类已经是隐式静态的 非静态嵌套类 内部类 意味
  • 在 Facebook 上寻找共同的朋友

    我想使用 facebook Graph API v2 2 找出两个随机用户之间的共同好友 我通读了文档https developers facebook com docs graph api reference v2 2 user cont
  • 通过缩放支持使 WebView 的内容适合屏幕

    我正在尝试将 HTML5 页面嵌入到我的应用程序中 内容大于设备 因此我使用以下方式对其进行缩放 web setInitialScale int 728 600 100 728 is the height of the page 600 o
  • Display.getCurrent().asyncExec 不并行运行?

    这是我的代码 Display getCurrent asyncExec new Runnable public void run try Event e1 new Event e1 type EVT CONNECTING for Liste
  • 为什么将 DependencyProperty 成员声明为 public 而不是 protected?

    为什么以这种方式创建 DependencyProperty 成员 public static readonly DependencyProperty DepProperty DependencyProperty Register 而不是那样
  • Gitlab 上的 Kubernetes 执行程序 - 错误:作业失败(系统故障):Post *api/v1/namespaces/gitlab/pods: x509: 由未知机构签名的证书

    我正在尝试为 Gitlab 设置 Kubernetes 执行器 但收到此错误 错误 作业失败 系统故障 发布https api kubernetes de api v1 namespaces gitlab pods x509 未知权威机构签
  • Javascript - string.split(regex) 保留分隔符

    我想使用正则表达式分割字符串 并将分隔符 匹配信息包含在结果数组中 在java中我使用 theString split lt gt lt gt lt lt AND AND lt OR OR 但是 javascript不支持lookbehin
  • Sqoop导入:复合主键和文本主键

    堆栈 使用 Ambari 2 1 安装 HDP 2 3 2 0 2950 源数据库模式位于 sql server 上 它包含多个表 这些表的主键为 一个varchar 复合 两个 varchar 列或一个 varchar 一个 int 列或
  • 在 pm3d 地图中画一条线

    I have a and I want to overplot on it a 我将这条线定义为具有恒定高度的 3d 线 并且我认为通过这种方法我可以将它们相互重叠绘制 但不幸的是 我失败了 事实上 我意识到 gnuplot 中的密度图例程
  • UIKit Dynamics:识别圆形形状和边界

    我正在编写一个应用程序 我使用 UIKit Dynamics 来模拟不同圈子之间的交互 我使用以下代码创建我的圈子 self super initWithFrame CGRectMake location x radius 2 0 loca
  • SQLite 中嵌套内连接的问题

    下面的sql语句不会在SQLite中运行 select from A left join B inner join C on B fkC C pk on A optionalfkB B pk 我收到 sqlException 未知列 B p
  • 如何在Python中创建表?

    这就是我想在 Python 中复制的内容 这些是存储数据的变量的名称 name 1 Alex name 2 Zia age 1 13 age 2 12 game 1 1 game 2 2 favourite 1 chess favourit
  • 如何在 .Rmd 文件中添加要发布的功能或缩略图

    我目前正在尝试使用 blogdown 设置一个 Hugo 博客 但找不到从内部向帖子添加功能或缩略图的方法 Rmd文件 这会喜欢这样宁静峰主题 据我了解 只需添加一些如下语法即可在 md 文件中轻松完成 featuredImage img
  • Python Pyrebase 配置

    当我尝试运行我的代码时 import pyrebase firebaseConfig apiKey xxxxxx authDomain xxxxxx projectId xxxxxx storageBucket xxxxxxx servic
  • PREG_MATCH 检查所有单词和条件

    我编写了一个正则表达式 它在 OR 条件下搜索搜索词 这样就提供了字符串中的三个单词 无论它们的顺序如何 现在我只想放置一个 AND 条件 因为我想同时以不同的顺序在字符串中获取所有三个单词 这是我的preg match 正则表达式 myP
  • bash eval 未检测到 System.exit 返回代码

    挣扎了一个小时 java代码 ULogger info throwing out 666 System exit 666 bash 包装器 eval COMMAND TO RUN ret code printf error code d r
  • Python:无头模式支持旧版本的 Chrome

    我正在尝试使用 python 和 selenium 自动发送短信https voice google com about 当我运行下面的代码时 它会获取最新版本 谷歌浏览器实例并且工作正常 但是 当我以无头模式运行它时 它使用旧版本的谷歌浏
  • 使用python排序词频计数

    我必须使用 python 计算文本中的词频 我想到将单词保存在字典中并计算每个单词的数量 现在 如果我必须根据出现次数对单词进行排序 我可以使用相同的字典来完成此操作 而不是使用以键作为计数 以单词数组作为值的新字典吗 WARNING 此示