Python-查找文本文件中单词列表的词频

2024-03-13

我正在尝试加快我的项目来计算词频。我有 360 多个文本文件，我需要获取单词总数以及另一个单词列表中每个单词出现的次数。我知道如何使用单个文本文件来做到这一点。

>>> import nltk
>>> import os
>>> os.chdir("C:\Users\Cameron\Desktop\PDF-to-txt")
>>> filename="1976.03.txt"
>>> textfile=open(filename,"r")
>>> inputString=textfile.read()
>>> word_list=re.split('\s+',file(filename).read().lower())
>>> print 'Words in text:', len(word_list)
#spits out number of words in the textfile
>>> word_list.count('inflation')
#spits out number of times 'inflation' occurs in the textfile
>>>word_list.count('jobs')
>>>word_list.count('output')

获取“通货膨胀”、“就业”、“产出”个人的频率太乏味了。我可以把这些单词放到一个列表中，同时找出列表中所有单词的出现频率吗？基本上this https://stackoverflow.com/questions/4520876/counting-the-frequency-of-specific-words-in-text-file使用Python。

示例：而不是这个：

>>> word_list.count('inflation')
3
>>> word_list.count('jobs')
5
>>> word_list.count('output')
1

我想这样做（我知道这不是真正的代码，这就是我寻求帮助的内容）：

>>> list1='inflation', 'jobs', 'output'
>>>word_list.count(list1)
'inflation', 'jobs', 'output'
3, 5, 1

我的单词列表将包含 10-20 个术语，因此我需要能够将 Python 指向单词列表以获取其计数。如果输出能够复制+粘贴到 Excel 电子表格中，其中单词作为列，频率作为行，那就太好了

Example:

inflation, jobs, output
3, 5, 1

最后，任何人都可以帮助自动化所有文本文件吗？我想我只需将 Python 指向该文件夹，它就可以从新列表中为 360 多个文本文件中的每一个执行上述字数统计。看起来很容易，但我有点卡住了。有什么帮助吗？

像这样的输出会很棒：文件名1 通货膨胀、就业、产出 3, 5, 1

Filename2
inflation, jobs, output
7, 2, 4

Filename3
inflation, jobs, output
9, 3, 5

Thanks!

集合.Counter() http://docs.python.org/2/library/collections.html#collections.Counter如果我理解你的问题的话，这已经涵盖了。

文档中的示例似乎与您的问题相符。

# Tally occurrences of words in a list
cnt = Counter()
for word in ['red', 'blue', 'red', 'green', 'blue', 'blue']:
    cnt[word] += 1
print cnt


# Find the ten most common words in Hamlet
import re
words = re.findall('\w+', open('hamlet.txt').read().lower())
Counter(words).most_common(10)

从上面的示例中，您应该能够执行以下操作：

import re
import collections
words = re.findall('\w+', open('1976.03.txt').read().lower())
print collections.Counter(words)

EDIT幼稚的方法展示了一种方法。

wanted = "fish chips steak"
cnt = Counter()
words = re.findall('\w+', open('1976.03.txt').read().lower())
for word in words:
    if word in wanted:
        cnt[word] += 1
print cnt

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python-查找文本文件中单词列表的词频的相关文章

如何覆盖 Django 的默认管理模板和布局

我正在尝试覆盖 Django 的默认模板现在只有base site html 我正在尝试更改 django 管理文本我做了以下事情我在我的应用程序目录中创建了一个文件夹 opt mydjangoapp templates admin
有没有一种方法可以将python对象直接存储在mongoDB中而不需要序列化它们

我在某处读到过您可以使用 BSON 将 python 对象更具体地说是字典作为二进制文件存储在 MongoDB 中但是现在我找不到任何与此相关的文档有人知道具体如何做到这一点吗没有办法在不序列化的情况下将对象存储在文件数据库
检测到通过 ChromeDriver 启动的 Chrome 浏览器

我正在尝试在 python 中使用 selenium chromedriver 来访问 www mouser co uk 网站然而从第一次拍摄开始它就被检测为机器人有人对此有解释吗此后我使用的代码 options Options
如何在 Jupyter Notebook 中运行 Python 异步代码？

我有一些 asyncio 代码在 Python 解释器 CPython 3 6 2 中运行良好我现在想在具有 IPython 内核的 Jupyter 笔记本中运行它我可以运行它 import asyncio asyncio get ev
NumPy linalg.eig

我有这个烦人的问题但我还没有弄清楚我有一个矩阵我想找到特征向量所以我写 val vec np linalg eig mymatrix 然后我得到了 vec 我的问题是当我小组中的其他人对相同的矩阵 mymatrix 做同样的事情时
Pyqt-如何因另一个组合框数据而更改组合框数据？

我有一个表有 4 列这 4 列中的两列是关于功能的一个是特征另一个是子特征在每一列中所有单元格都有组合框我可以在这些单元格中打开txt 我想当我选择电影院作为功能时我只想看到子功能组合框中的电影名称而不是我的数据中的
Python 是解释型的还是编译型的，或者两者兼而有之？

据我了解 An 解释的语言是由解释器将高级语言转换为机器代码然后执行的程序实时运行和执行的高级语言它一次处理一点程序 A compiled语言是一种高级语言其代码首先由编译器将高级语言转换为机器代码的程序转换为机器代码然后由执
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
“一旦获取切片就无法更新查询”。最佳实践？

由于我的项目的性质我发现自己不断地从查询集中取出切片如下所示 Thread objects filter board requested board id order by updatedate 10 但这给我带来了实际对我选择的元素进
如何在Python中高效地添加稀疏矩阵

我想知道如何在Python中有效地添加稀疏矩阵我有一个程序可以将大任务分解为子任务并将它们分配到多个 CPU 上每个子任务都会产生一个结果一个 scipy 稀疏矩阵格式为 lil matrix 稀疏矩阵尺寸为 100000x50
将 numpy 代码点数组与字符串相互转换

我有一个很长的 unicode 字符串 alphabet range 0x0FFF mystr join chr random choice alphabet for in range 100 mystr re sub W mystr 我想
如何使用 javascript/jquery/AJAX 调用 Django REST API？

我想使用 Javascript jQuery AJAX 在前端调用 Django Rest API 请求方法是 POST 但当我看到 API 调用它的调用 OPTIONS 方法时所以我开始了解access control allow o
Alembic：如何迁移模型中的自定义类型？

My User模型是 class User UserMixin db Model tablename users noinspection PyShadowingBuiltins uuid Column uuid GUID default
Python Django-如何从输入文件标签读取文件？

我不想将文件保存在我的服务器上我只想在下一页中读取并打印该文件现在我有这个 index html
Python、subprocess、call()、check_call 和 returncode 来查找命令是否存在

我已经弄清楚如何使用 call 让我的 python 脚本运行命令 import subprocess mycommandline lumberjack sleep all night work all day subprocess cal
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
Python对象初始化性能

我只是做了一些快速的性能测试我注意到一般情况下初始化列表比显式初始化列表慢大约四到六倍这些可能是错误的术语我不确定这里的行话例如 gt gt gt import timeit gt gt gt print timeit timeit
[cocos2d-x]当我尝试在 Windows 10 中运行“python android-build.py -p 19 cpp-tests”时出现错误

当我尝试运行命令时python android build p cpp tests 我收到如图所示的错误在此之前我收到了另一条关于 Android SDK Tools 版本兼容性的错误消息所以我只是将 sdk 版本从 26 0 0
使用Multiprocessing和Pool时如何访问全局变量？

我试图避免将变量冗余地传递到dataList e g 1 globalDict 2 globalDict 3 globalDict 并在全球范围内使用它们 global globalDict然而在下面的代码中并不是这样做的解决方案是否有
python 中的 after() 与 update()

我是 python 新手开始使用 tkinter 作为画布到目前为止我使用 update 来更新我的画布但还有一个 after 方法谁能给我解释一下这个函数请举个例子两者之间有什么区别 root after integer c

随机推荐

Zend_Validate_Between 奇怪的错误消息

我正在尝试Zend Validate Between class 我是这样设置的 scoreBetweenValidator new Zend Validate Between 3 3 true 因此验证器应该只接受 3 到 3 之间的值
String 类 split 函数返回不明确的结果

下面是2个代码 System out println split length and System out println split length 对于第一个代码它打印的结果是0对于第二个代码它打印的结果是 6 我的问题是为什么分裂
LINQ to XML - 获取给定 XElement 的文本内容，不包含子元素的文本内容

我刚刚开始使用LINQ 到 XML http en wikipedia org wiki Language Integrated Query LINQ to XML 28formerly called XLINQ 29 并且我无法获取给定
如何使用 INotifyPropertyChanged 实现 DataTable 属性

我已经创建了 WPF MVVM 应用程序并将 WPFToolkit DataGrid 绑定设置为 DataTable 所以我想知道如何实现 DataTable 属性来通知更改目前我的代码如下所示 public DataTable Tes
如何更改 Kitkat 和 Lollipop 中状态栏图标的颜色？ [复制]

这个问题在这里已经有答案了我想更改应用程序中状态栏图标的颜色我用谷歌搜索了很多但没有找到任何东西请为我提供任何帮助适用于 API 23 以下 Thanks 这在 API 级别 23 及更高级别上是可能的
EGL 链接器错误

我正在尝试在 Ubuntu Trusty 系统上使用 g 4 9 1 链接一个非常简单的 GLES2 和 EGL 程序我正在使用台面库我收到 EGL 函数的链接器错误 test cpp text 0x342 undefined refe
java中如何判断路径是相对路径还是绝对路径？

我正在开发一个工具它采取的路径是xml文件现在该路径可以是相对路径或绝对路径在代码内部当我只有一个字符串时有没有办法识别路径是绝对路径还是相对路径怎么样File isAbsolute http download oracle c
层顺序的输入0与期望ndim=3的层不兼容，发现ndim=2。收到完整形状：[无，1]

我正在与 keras 合作进行文本分类经过预处理和矢量化后我的训练和验证数据详细信息如下 print X train shape X train ndim type X train print y train shape y train
弹出菜单从操作栏中的图标展开/折叠

我正在开发 Android 2 1 API 7 应用程序我用以下方法实现我的操作栏操作栏夏洛克 http actionbarsherlock com 图书馆我的操作栏视图
如何验证使用 jwt.io 上的 Keycloak 身份验证提供程序创建的 HS256 签名 JWT 令牌

我正在尝试验证使用本地运行生成的 HS256 JWT 令牌KeyCloak https www keycloak org 身份验证提供程序开启https jwt io https jwt io KeyCloack 实例正在我的本地计算机上的
MySQL 中查询/查看表的大小限制是多少？

我正在使用 MySQL 目前数据库中有 3 个表我创建了一个包含 3 个表之间关系的视图表视图表应该有大约 200 000 行数据因为我也在 Access 中测试了相同的查询并且它工作正常但不幸的是我不允许使用 Access 当我在
[Vue 警告]：缺少必需的道具：“productInfo”

我对 Vue 相当陌生所以这可能是显而易见的但我一定错过了一些东西我不断收到错误 Vue warn Missing required prop productInfo 在我的 vue 文件中它说它在 ProductSlider vu
在 django-tastypie 中，可以在模式中显示选择吗？

我想弄清楚我是否可以代表模型字段choices给使用 tastypie API 的客户我有一个 django 1 4 1 应用程序我正在为其实现 django tastypie 0 9 11 API 我有一个类似于以下内容的模型和模型资
将Python脚本添加到C++项目中

我如何将用 python 编写的脚本添加到 c 项目中谢谢编辑基本上脚本所做的只是通过电子邮件发送一些数据我想将数据和电子邮件地址传递给用 python 编写的函数希望这能说明问题你可以看看Boost Python http
当我在模型中加载数据库时，如何在 Codeigniter Profiler 中显示数据库查询？

我的 Codeigniter 系统使用多个数据库我不需要每个页面上的每个数据库因此我在需要的模型中加载每个连接然后在每个控制器中加载所需的模型当我以这种方式加载内容时探查器不会显示来自这些数据库的任何查询这是我在模型中加载数据库
可变参数模板包扩展

In Andrei 在 GoingNative 2012 上的演讲 http channel9 msdn com Events GoingNative GoingNative 2012 Variadic Templates are Funa
如何使用 gtk 信号将多个变量作为数据传递

我有一个小程序其中 gtk 信号回调函数需要 2 或 3 个变量我不想创建这些全局变量该项目的整个目标是整洁并且我不想创建整个结构以便我可以将小部件和编译的正则表达式发送到函数据我所见g signal connect只允许单个数
我无法在 WPF 中为自定义属性设置动画

我已经为此苦苦挣扎了几个小时但我找不到我做错了什么请帮我找出我的错误我创建了一个具有一个自定义依赖属性的用户控件并且我想为该属性设置动画这是我的课程 public partial class UserControl1 UserCo
无法执行目标 org.apache.maven.plugins:maven-compiler-plugin:3.8.0:compile (default-compile)

我知道这是一个重复的问题但其他主题的答案对我没有帮助我正在使用 Eclipse Photon Java 版本 10 我已在 eclipse 和 pom xml 文件中将 jdk jre 版本设置为 10 我已经更改了 eclipse i
Python-查找文本文件中单词列表的词频

我正在尝试加快我的项目来计算词频我有 360 多个文本文件我需要获取单词总数以及另一个单词列表中每个单词出现的次数我知道如何使用单个文本文件来做到这一点 gt gt gt import nltk gt gt gt import os

Python-查找文本文件中单词列表的词频

Python-查找文本文件中单词列表的词频 的相关文章

随机推荐

热门标签

Python-查找文本文件中单词列表的词频的相关文章