python3txt删除高频低频词_清理.txt并计算最常出现的单词

2023-05-16

我需要

1)从停止字列表中清除一个.txt,我把它放在一个单独的.txt中。在

2)之后,我需要数一数25个最常用的单词。在

这是我第一部分的想法:#!/usr/bin/python

# -*- coding: iso-8859-15 -*-

import re

from collections import Counter

f=open("text_to_be_cleaned.txt")

txt=f.read()

with open("stopwords.txt") as f:

stopwords = f.readlines()

stopwords = [x.strip() for x in stopwords]

querywords = txt.split()

resultwords = [word for word in querywords if word.lower() not in stopwords]

cleantxt = ' '.join(resultwords)

对于第二部分,我使用以下代码:

^{pr2}$

要清理的源文件如下所示:

(二)

第二段第一句末尾应加上“并致高级代表”;第二句中,“每年举行一次辩论”改为“每年举行两次辩论”,并改为“每年举行两次辩论”,“包括共同安全和防卫政策”应插入末尾。在

非索引字表如下:

这是

他们

这个

然后

从那里

夺命蜂巢

然后

他们

当我运行所有这些时,不知何故,输出仍然包含非索引字列表中的单词:

[(“条款”,911)、(“欧洲”,586)、(“欧洲”,586)、(“理事会”,569)、(“欧盟”,530)、(“成员”,377)、(“国家”,282)、(“议会”,244)、(“委员会”,230)、(“依据”,217)、(“条约”,187)、(“in”,174)、(“程序”,161)、(“政策”,137)、(“合作”,136)、(“立法”,136)、(“代理”,130)、(“法案”,125)、(“修订”,125),(“州”,123),(“规定”,115),(“安全”,113),(“措施”,111),(“通过”,109),(“共同”,108)]

你可能会说,我刚开始学习python,所以我非常感谢你的简单解释!:)

可在此处找到使用的文件:

编辑:为sourcefile、stopwordfile和输出添加了示例。

提供源文件

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python3txt删除高频低频词_清理.txt并计算最常出现的单词 的相关文章

随机推荐