我需要
1)从停止字列表中清除一个.txt,我把它放在一个单独的.txt中。在
2)之后,我需要数一数25个最常用的单词。在
这是我第一部分的想法:#!/usr/bin/python
# -*- coding: iso-8859-15 -*-
import re
from collections import Counter
f=open("text_to_be_cleaned.txt")
txt=f.read()
with open("stopwords.txt") as f:
stopwords = f.readlines()
stopwords = [x.strip() for x in stopwords]
querywords = txt.split()
resultwords = [word for word in querywords if word.lower() not in stopwords]
cleantxt = ' '.join(resultwords)
对于第二部分,我使用以下代码:
^{pr2}$
要清理的源文件如下所示:
(二)
第二段第一句末尾应加上“并致高级代表”;第二句中,“每年举行一次辩论”改为“每年举行两次辩论”,并改为“每年举行两次辩论”,“包括共同安全和防卫政策”应插入末尾。在
非索引字表如下:
这
这是
他们
你
这个
然后
从那里
夺命蜂巢
然后
他们
当我运行所有这些时,不知何故,输出仍然包含非索引字列表中的单词:
[(“条款”,911)、(“欧洲”,586)、(“欧洲”,586)、(“理事会”,569)、(“欧盟”,530)、(“成员”,377)、(“国家”,282)、(“议会”,244)、(“委员会”,230)、(“依据”,217)、(“条约”,187)、(“in”,174)、(“程序”,161)、(“政策”,137)、(“合作”,136)、(“立法”,136)、(“代理”,130)、(“法案”,125)、(“修订”,125),(“州”,123),(“规定”,115),(“安全”,113),(“措施”,111),(“通过”,109),(“共同”,108)]
你可能会说,我刚开始学习python,所以我非常感谢你的简单解释!:)
可在此处找到使用的文件:
编辑:为sourcefile、stopwordfile和输出添加了示例。
提供源文件
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)