绘制词频和 NLTK

2024-02-17

我有一个包含各种单词的文件,我想计算文档中每个单词的频率并绘制它。 但是,我的情节没有显示结果。 这x-axis必须包含单词,并且y-axis频率。 我在用NLTK, NumPy and Matplotlib

这是我的代码,也许我做错了什么

def graph():
    f = open("file.txt", "r")
    inputfile = f.read()
    words = nltk.tokenize.word_tokenize(inputfile)
    count = set(words)
    dic = nltk.FreqDist(words)
    FreqDist(f).plot(50, cumulative=False)
    f.close()
  • 给定文件中的单词列表file.txt:
southbound
stopped
travel
lane
started
around
stopped
stopped
started

import nltk

def graph():
    with open("file.txt", "r") as f:
        inputfile = f.read()
    tokens = nltk.tokenize.word_tokenize(inputfile)
    fd = nltk.FreqDist(tokens)
    fd.plot(30,cumulative=False)

graph()

您可以通过更改plot()的参数来玩弄图表

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

绘制词频和 NLTK 的相关文章

  • 如何在 Windows 64 上安装 NumPy?

    NumPy 安装程序在注册表中找不到 python 路径 无法安装 需要 Python 2 5 版本 但在注册表中未找到该版本 OK 我必须修改注册表吗 我已经修改了 PATH 以指向Python25安装目录 我可以检查一下您使用的是什么安
  • Twisted 的 Deferred 和 JavaScript 中的 Promise 一样吗?

    我开始在一个需要异步编程的项目中使用 Twisted 并且文档非常好 所以我的问题是 Twisted 中的 Deferred 与 Javascript 中的 Promise 相同吗 如果不是 有什么区别 你的问题的答案是Yes and No
  • 如何在Python中流式传输和操作大数据文件

    我有一个相对较大 1 GB 的文本文件 我想通过跨类别求和来减小其大小 Geography AgeGroup Gender Race Count County1 1 M 1 12 County1 2 M 1 3 County1 2 M 2
  • 使用 pygame 显示 unicode 符号

    我检查了其他答案 但不明白为什么我的代码错误地显示 This is what I currently see https i stack imgur com 8tNIK png 这是关于文本渲染的相关代码 font pygame font
  • opencv水印周围的轮廓

    我想在图像中的水印周围画一个框 我已经提取了水印并找到了轮廓 但是 不会在水印周围绘制轮廓 轮廓是在我的整个图像上绘制的 请帮我提供正确的代码 轮廓坐标的输出为 array 0 0 0 634 450 634 450 0 dtype int
  • 检查 Python 中的可迭代对象中的所有元素的谓词是否计算为 true

    我很确定有一个常见的习语 但我无法通过谷歌搜索找到它 这是我想做的 用Java Applies the predicate to all elements of the iterable and returns true if all ev
  • Mac OS X 中文件系统的 Unicode 编码在 Python 中不正确?

    在 OS X 和 Python 中处理 Unicode 文件名有点困难 我试图在代码中稍后使用文件名作为正则表达式的输入 但文件名中使用的编码似乎与 sys getfilesystemencoding 告诉我的不同 采取以下代码 usr b
  • 工作日重新订购 Pandas 系列

    使用 Pandas 我提取了一个 CSV 文件 然后创建了一系列数据来找出一周中哪几天崩溃最多 crashes by day bc DAY OF WEEK value counts 然后我将其绘制出来 但当然它按照与该系列相同的排名顺序绘制
  • Python3.0 - 标记化和取消标记化

    我正在使用类似于以下简化脚本的内容来解析较大文件中的 python 片段 import io import tokenize src foo bar src bytes src encode src io BytesIO src src l
  • 如果未引发异常,则通过 Python 单元测试

    在Python中unittest框架 是否有一种方法可以在未引发异常的情况下通过单元测试 否则会因 AssertRaise 而失败 如果我正确理解你的问题 你could做这样的事情 def test does not raise on va
  • Keras:如何保存模型或权重?

    如果这个问题看起来很简单 我很抱歉 但是阅读 Keras 保存和恢复帮助页面 https www tensorflow org beta tutorials keras save and restore models https www t
  • 在 matplotlib 中的极坐标图上移动径向刻度标签

    From matplotlib 示例 http matplotlib org examples pylab examples polar demo html import numpy as np import seaborn as sbs
  • 从扫描文档中提取行表 opencv python

    我想从扫描的表中提取信息并将其存储为 csv 现在我的表提取算法执行以下步骤 应用倾斜校正 应用高斯滤波器进行去噪 使用 Otsu 阈值进行二值化 进行形态学开局 Canny 边缘检测 进行霍夫变换以获得表格行 去除重复行 10像素范围内相
  • pytest:同一接口的不同实现的可重用测试

    想象一下我已经实现了一个名为的实用程序 可能是一个类 Bar在一个模块中foo 并为其编写了以下测试 测试 foo py from foo import Bar as Implementation from pytest import ma
  • 使用 Pandas 计算 delta 列

    我有一个数据框 如下所示 Name Variable Field A 2 3 412 A 2 9 861 A 3 5 1703 B 3 5 1731 A 4 0 2609 B 4 0 2539 A 4 6 2821 B 4 6 2779 A
  • Python:IndexError:修改代码后列表索引超出范围

    我的代码应该提供以下格式的输出 我尝试修改代码 但我破坏了它 import pandas as pd from bs4 import BeautifulSoup as bs from selenium import webdriver im
  • TKinter 中的禁用/启用按钮

    我正在尝试制作一个像开关一样的按钮 所以如果我单击禁用按钮 它将禁用 按钮 有效 如果我再次按下它 它将再次启用它 我尝试了 if else 之类的东西 但没有成功 这是一个例子 from tkinter import fenster Tk
  • 多个对象以某种方式相互干扰[原始版本]

    我有一个神经网络 NN 当应用于单个数据集时 它可以完美地工作 但是 如果我想在一组数据上运行神经网络 然后创建一个新的神经网络实例以在不同的数据集 甚至再次同一组数据 上运行 那么新实例将产生完全错误的预测 例如 对 XOR 模式进行训练
  • 查找总和为给定数字的值组合的函数

    这个帖子查找提供的 Sum 值的组合 https stackoverflow com a 20194023 1561176呈现函数subsets with sum 它在数组中查找总和等于给定值的值的组合 但由于这个帖子已经有6年多了 我发这
  • 如何为不同操作系统/Python 版本编译 Python C/C++ 扩展?

    我注意到一些成熟的Python库已经为大多数架构 Win32 Win amd64 MacOS 和Python版本提供了预编译版本 针对不同环境交叉编译扩展的标准方法是什么 葡萄酒 虚拟机 众包 我们使用虚拟机和Hudson http hud

随机推荐

  • Vuejs 2:将事件从组件发送到父级

    我有这个代码 html div text div
  • Hibernate Sessionfactory 重启 |春天

    我的要求如下 我需要使用从外部获得的新 HBM 文件频繁地在 Spring Web 应用程序中重新启动 或重建 休眠会话工厂 目前我的 Sessionfactory 类如下 带有 SessionFactory 代理来拦截 OpenSessi
  • 如何针对多个和/或条件使用 Hibernate Criteria 对象

    我需要创建一个 Hibernate 标准限制来满足 3 个条件 问题是最后一个条件实际上是使用 AND 运算符的条件 我的第一个条件 Criterion startInRange Restrictions between expectedS
  • 从 Flutter 的 List 中删除索引式 CustomWidget

    我最初在列中的小部件列表为空 现在在 其他小部件 上单击 我正在在 contactItems 中添加新的自定义小部件 Column children contactItems List
  • Unity3D - 用于精灵裁剪的着色器

    我正在尝试创建一个可用于在游戏中剪辑 2D 精灵的着色器 我在中找到了该着色器另一个问题 https stackoverflow com questions 16397023 unity3d a shader that will clip
  • 如何将dcm4che库导入到java项目中?

    我正在尝试导入dcm4che库到我的java项目 因为我想实现一个非常简单的应用程序 它将能够使用这个库 https github com dcm4che dcm4che https github com dcm4che dcm4che 我
  • 为这个要求写一个skype插件

    我正在开始研究 Skype 编程 Skype 插件是否只有一种技术 或者是否有多种框架或 API 我想制作一个插件 让我的数据库中的用户可以通过 Skype 相互通信 视频 音频 聊天 而无需看到彼此真实的 Skype id 这可能吗 我想
  • C# 4.0 的新“命名参数”功能不应该称为“命名参数”吗?

    我想这种命名可能有历史原因 而且其他语言也有类似的功能 但在我看来 参数在 C 中总是有一个名称 参数是未命名的参数 或者选择这个术语有什么特殊原因吗 哦 你想要论点 抱歉 这是参数 参数是左边大厅里的两扇门
  • 如何检查 Eclipse 插件性能

    我是 Eclipse 插件开发新手 我一直在修改我们团队中使用的一个插件 我不想添加新的瓶颈 另外 我要集成的 Eclipse 需要太多时间来安装插件 关于如何确定其原因有什么建议吗 所以我想知道一些技巧 如何检查插件的性能 任何可用的工具
  • jQuery .html() 不复制文本区域或输入的内容

    我正在尝试使用复制元素的内容elem html 但它不包括的内容inputs or textareas 这是一个示例 尝试在框中写入 然后单击 复制 http jsfiddle net gAMmr 2 http jsfiddle net g
  • ElasticSearch 6,具有动态索引映射的 copy_to

    也许我错过了一些简单的事情 但仍然无法弄清楚以下事情 从 ES 6 x 开始 all字段已弃用 建议使用copy to操作说明 https www elastic co guide en elasticsearch reference cu
  • 将 ipython 笔记本转换为 mediawiki

    我想将 ipython 笔记本转换为 mediawiki 标记 我有两个想法如何做到这一点 自定义导出nbconvert tool 先导出为LaTeX 然后使用pandoc将其转换为 mediawiki 标记 我在第一个选项中找不到任何内容
  • 在动态创建的类中实例化 spring bean

    我正在动态创建包含 spring bean 的类 但是这些 bean 没有被实例化或初始化 将它们保留为空 如何确保动态创建的类正确创建其所有 spring bean 这就是我动态创建类的方式 Class ctransform try ct
  • 官方 FTDI android 驱动程序 read() 不起作用

    我使用的是官方驱动程序http www ftdichip com Android htm http www ftdichip com Android htm 03 20 13 37 52 359 警告 FTDI 4453 读取开始 03 2
  • Golang解析HTML,提取带有标签的所有内容

    正如标题所述 我需要返回 html 文档的 body 标记中的所有内容 包括任何后续的 html 标记等 我很好奇知道解决此问题的最佳方法是什么 我有一个使用 Gokogiri 包的工作解决方案 但是我试图远离任何依赖于 C 库的包 有没有
  • Django 1.9 JSONField 更新行为

    我最近更新到 Django 1 9 并尝试更新一些模型字段以使用内置 JSONField 我正在使用 PostgreSQL 9 4 5 当我尝试创建和更新对象的字段时 我遇到了一些奇怪的事情 这是我的模型 class Activity mo
  • Rails 4 多域应用程序,为每个域设置了语言环境 i18n 语言环境

    在 Rails 4 多域应用程序中 我需要为每个域提供 4 种语言的一组区域设置文件 总共 3 个域 有些翻译在领域之间重叠 但其中一些非常具体 所以我正在考虑一种类似于这样的结构 config locales en yml fr yml
  • Android Studio 4.1 在 Mac 中卡在加载屏幕

    从昨天开始 我的 Android Studio 就一直停留在加载屏幕上 X X 我尝试过的 正在重新启动计算机 清除垃圾文件和日志 完全卸载然后重新安装Android Studio 遵循许多不同的解决方案 例如 其中之一是here http
  • 如何在 :before 伪类中设置 SVG 图像的大小?

    我想在 CSS 中显示图像 before元素 withimage before content url path to image svg display block height 20px width 20px 问题是 height an
  • 绘制词频和 NLTK

    我有一个包含各种单词的文件 我想计算文档中每个单词的频率并绘制它 但是 我的情节没有显示结果 这x axis必须包含单词 并且y axis频率 我在用NLTK NumPy and Matplotlib 这是我的代码 也许我做错了什么 def