用于查找给定文档的词频的 Python 脚本

2024-01-08

我正在寻找一个简单的脚本,可以找到给定文档的单词频率(可能通过使用便携式词干分析器)。

是否有任何库或简单的脚本可以执行此过程?


use nltk http://www.nltk.org/

import nltk

YOUR_STRING = "Your words"

words = [w for w in YOUR_STRING.split()]
freq_dist = nltk.FreqDist(words)

tokens = freq_dist.keys()

#50 most frequent
most_frequent = tokens[:50]

#50 least frequent
least_frequent = tokens[-50:]
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

用于查找给定文档的词频的 Python 脚本 的相关文章

  • 为什么从 Pandas 1.0 中删除了日期时间?

    我在 pandas 中处理大量数据分析并每天使用 pandas datetime 最近我收到警告 FutureWarning pandas datetime 类已弃用 并将在未来版本中从 pandas 中删除 改为从 datetime 模块
  • 使用特定的类/函数预加载 Jupyter Notebook

    我想预加载一个笔记本 其中包含我在另一个文件中定义的特定类 函数 更具体地说 我想用 python 来做到这一点 比如加载一个配置文件 包含所有相关的类 函数 目前 我正在使用 python 生成笔记本并在服务器上自动启动它们 因为不同的
  • 如何使用 opencv.omnidir 模块对鱼眼图像进行去扭曲

    我正在尝试使用全向模块 http docs opencv org trunk db dd2 namespacecv 1 1omnidir html用于对鱼眼图像进行扭曲处理Python 我正在尝试适应这一点C 教程 http docs op
  • 处理 Python 行为测试框架中的异常

    我一直在考虑从鼻子转向行为测试 摩卡 柴等已经宠坏了我 到目前为止一切都很好 但除了以下之外 我似乎无法找出任何测试异常的方法 then It throws a KeyError exception def step impl contex
  • 用枢轴点拟合曲线 Python

    我有下面的图 我想用 2 条线来拟合它 使用 python 我设法适应上半部分 def func x a b x np array x return a x b popt pcov curve fit func up x up y 我想用另
  • 需要在python中找到print或printf的源代码[关闭]

    很难说出这里问的是什么 这个问题是含糊的 模糊的 不完整的 过于宽泛的或修辞性的 无法以目前的形式得到合理的回答 如需帮助澄清此问题以便重新打开 访问帮助中心 help reopen questions 我正在做一些我不能完全谈论的事情 我
  • Pandas 日期时间格式

    是否可以用零后缀表示 pd to datetime 似乎零被删除了 print pd to datetime 2000 07 26 14 21 00 00000 format Y m d H M S f 结果是 2000 07 26 14
  • 立体太阳图 matplotlib 极坐标图 python

    我正在尝试创建一个与以下类似的简单的立体太阳路径图 http wiki naturalfrequent com wiki Sun Path Diagram http wiki naturalfrequency com wiki Sun Pa
  • Pandas Merge (pd.merge) 如何设置索引和连接

    我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
  • Python 2:SMTPServerDisconnected:连接意外关闭

    我在用 Python 发送电子邮件时遇到一个小问题 me my email address you recipient s email address me email protected cdn cgi l email protectio
  • 从Python中的字典列表中查找特定值

    我的字典列表中有以下数据 data I versicolor 0 Sepal Length 7 9 I setosa 0 I virginica 1 I versicolor 0 I setosa 1 I virginica 0 Sepal
  • 如何通过 TLS 1.2 运行 django runserver

    我正在本地 Mac OS X 机器上测试 Stripe 订单 我正在实现这段代码 stripe api key settings STRIPE SECRET order stripe Order create currency usd em
  • Cython 和类的构造函数

    我对 Cython 使用默认构造函数有疑问 我的 C 类 Node 如下 Node h class Node public Node std cerr lt lt calling no arg constructor lt lt std e
  • Python3 在 DirectX 游戏中移动鼠标

    我正在尝试构建一个在 DirectX 游戏中执行一些操作的脚本 除了移动鼠标之外 我一切都正常 是否有任何可用的模块可以移动鼠标 适用于 Windows python 3 Thanks I used pynput https pypi or
  • 使用特定颜色和抖动在箱形图上绘制数据点

    我有一个plotly graph objects Box图 我显示了箱形 图中的所有点 我需要根据数据的属性为标记着色 如下所示 我还想抖动这些点 下面未显示 Using Box我可以绘制点并抖动它们 但我不认为我可以给它们着色 fig a
  • Pandas 将多行列数据帧转换为单行多列数据帧

    我的数据框如下 code df Car measurements Before After amb temp 30 268212 26 627491 engine temp 41 812730 39 254255 engine eff 15
  • 在本地网络上运行 Bokeh 服务器

    我有一个简单的 Bokeh 应用程序 名为app py如下 contents of app py from bokeh client import push session from bokeh embed import server do
  • Python ImportError:无法导入名称 __init__.py

    我收到此错误 ImportError cannot import name life table from cdc life tables C Users tony OneDrive Documents Retirement retirem
  • Django-tables2 列总计

    我正在尝试使用此总结列中的所有值文档 https github com bradleyayers django tables2 blob master docs pages column headers and footers rst 但页
  • 如何计算Python中字典中最常见的前10个值

    我对 python 和一般编程都很陌生 所以请友善 我正在尝试分析包含音乐信息的 csv 文件并返回最常听的前 n 个乐队 从下面的代码中 每听一首歌曲都是一个列表中的字典条目 格式如下 album Exile on Main Street

随机推荐

  • 如何在 django orm 中计算总和以及累积总和

    我有表项目 项目有子项目 子项目有开发人员 另一个表冲刺 工作分布在冲刺 1 2 n 中 依此类推 每个冲刺都有不同的开发人员数据 现在我如何使用 Django Orm 计算总和 当前冲刺值和完成百分比 项目有子项目外键 class pro
  • 将 R 中的 cumsum 值重置为零

    我有个问题 例如我有这个 id truth count 1 1 1 2 1 2 3 0 0 4 1 1 5 1 2 6 1 3 8 0 0 我试过这个 fun lt rle df truth df count lt unlist sappl
  • Firebase Storage v3 在 Android 4.2.2 和 4.3 上返回“多部分主体不包含 2 或 3 部分”

    我正在构建一个 Ionic 应用程序以在 Android 5 和 4 上部署 当我尝试使用 Firebase v3 存储引用 使用 firebase js API 在 Android 4 2 2 和 4 3 上保存 Blob 时 它失败并显
  • PostgreSQL 的正则表达式用于从 URL/网站获取带有子域的域

    基本上 我需要从 URL 或整个网站名称中获取包含域名和子域名的行 不包括www 我的数据库表如下所示 id website 1 https www google com 2 http www google co in 3 www goog
  • 结合 Three.js 和 KineticJS - 3D 立方体

    我正在尝试向 Kinetic JS 画布添加 3D 立方体以显示 x y z 旋转 我找到了这篇文章http www tonicodes net blog combining Three js and kineticjs http www
  • linq-to-sql“无法删除尚未附加的实体”

    我收到错误Cannot remove an entity that has not been attached 当我尝试删除一条记录时 我用谷歌搜索了一下 虽然有很多地方可以找到解决这个问题的解决方案 但建议的修复方案并没有让我更进一步 u
  • Vite 中的多个入口点

    我有一个带有 Webpack 的 Vue2 项目 我正在尝试从 Webpack 切换到 Vite In webpack common js 我有多个入口点 module exports entry appSchool resources s
  • MVC3、RequireHttps 和自定义处理程序导致 http 310

    我正在尝试构建一个使用 SSL 连接的 Web 应用程序 所以我做了一些研究 发现我可以使用 RequireHttpsAttribute 类来实现我所需要的 问题是 当我使用它时 应用程序的执行会导致 310 错误 重定向太多 我什至构建了
  • 警告:脚本 pip3.8 安装在 '/usr/local/bin' 中,该路径不在 PATH 上

    跑步时pip3 8我的终端中出现以下警告 WARNING The script pip3 8 is installed in usr local bin which is not on PATH Consider adding this d
  • 列表中每个连续段的平均值

    我有一个清单 sample list array 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 我想计算每个元素 例如 4 个元素 的平均值 但不是单独的 4 个元素 而是前 4 个 1 2 3 4 其次是
  • 使用反射更新列表中的值

    我有一个具有 100 多个属性的对象 然后我有一个包含很多这些对象的列表 我需要计算列表中所有属性的最小值 最大值 中值和中值 所以不要写 Ag valuesForExtraCalculations Min c gt c Ag Al val
  • 类型错误:无法读取未定义的属性(读取“向下”)

    我创建了一个标题菜单 它在 Material UI V4 中仍然有效 但我最近更新到了 Material UI V5 但我有这样的错误 TypeError Cannot readproperties of undefined reading
  • 检测“输入”事件中的退格键和删除键?

    怎么做 I tried var key event which event keyCode event charCode if key 8 alert backspace 但它不起作用 如果我对按键事件执行相同的操作 它会起作用 但我不想使
  • 无法进入 dll(pdb 可用)

    我有一个包含许多项目的解决方案 其中一些位于解决方案路径之外 我使用 xcopy 将编译后的 dll 和 pdb 复制为构建后事件 如果我想进入 dll 它们位于我的解决方案之外 当前不会命中断点 尚未加载任何符号 对于本文档 所有文件 d
  • 应用程序启动器图标错误

    清单定义了我想要的应用程序图标 但是当我部署应用程序时 应用程序图标是一个完全不同的图标 可能发生了什么 在我的任何项目文件中都找不到显示为图标的图像 我根本没有移动我的 ic launcher 图像 因此它们仍然位于相应的可绘制文件夹中
  • 如何在Javascript中仅使用过滤器获取唯一数组[重复]

    这个问题在这里已经有答案了 我有一个数组 var a 2 3 4 5 5 4 我想从给定的数组中获取唯一的数组 例如 b 2 3 4 5 我努力了 a filter function d return b indexOf d gt 1 而且
  • 如何实现brew 配方的安装或升级?

    我想安装一个酿造配方或升级它 如果已经使用 bash 安装 仅当最后未安装配方时 该命令才应返回非零退出代码 附言 应该注意的是brew install xxx返回错误代码如果xxx已安装 背景 https github com Homeb
  • 如何从存储中获取准确的容量

    我想以编程方式从实习存储中读取确切的容量 我使用的是 Samsung Galaxy S7 Edge 32GB 设备 在预装的三星文件管理器 德语 Eigene Dateien 中 它显示了 32GB 的总容量 即使在菜单 gt 设置 gt
  • 实体框架 - 通过同一列中的多个条件进行选择 - 引用表

    示例场景 两张表 order and 订单项目 关系一对多 我想选择至少有一个价格为 100 的 orderItem 和至少一个价格为 200 的 orderItem 的所有订单 我可以这样做 var orders from o in ko
  • 用于查找给定文档的词频的 Python 脚本

    我正在寻找一个简单的脚本 可以找到给定文档的单词频率 可能通过使用便携式词干分析器 是否有任何库或简单的脚本可以执行此过程 use nltk http www nltk org import nltk YOUR STRING Your wo