如何使用Python从txt文件中删除特殊字符

2023-11-21

from glob import glob
pattern = "D:\\report\\shakeall\\*.txt"
filelist = glob(pattern)
def countwords(fp):
    with open(fp) as fh:
        return len(fh.read().split())
print "There are" ,sum(map(countwords, filelist)), "words in the files. " "From directory",pattern
import os
uniquewords = set([])
for root, dirs, files in os.walk("D:\\report\\shakeall"):
    for name in files:
        [uniquewords.add(x) for x in open(os.path.join(root,name)).read().split()]
print "There are" ,len(uniquewords), "unique words in the files." "From directory", pattern

到目前为止我的代码是这样的。这计算了唯一单词的数量和总单词数D:\report\shakeall\*.txt

问题是，例如，这段代码识别code code. and code!不同的词。因此，这不能回答确切数量的独特单词。

我想使用 Windows 文本编辑器从 42 个文本文件中删除特殊字符

或者制定一个例外规则来解决这个问题。

如果使用字母，我应该如何编写代码？

让它直接修改文本文件？或者例外，不计算特殊字符？

import re
string = open('a.txt').read()
new_str = re.sub('[^a-zA-Z0-9\n\.]', ' ', string)
open('b.txt', 'w').write(new_str)

它将把每个非字母数字字符更改为空格。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用Python从txt文件中删除特殊字符

python

如何使用Python从txt文件中删除特殊字符的相关文章

将tensorflow 2.0 BatchDataset转换为numpy数组

Django：如何测试“HttpResponsePermanentRedirect”

为什么 .setGeometry() 不改变 QWidget 实例的大小？

on_delete=models.PROTECT 和 on_delete=models.CASCADE 在 Django 模型上有什么作用？

Tensorflow 可变图像输入大小（自动编码器、放大......）

在python中将文本文件解析为列表

如何从 PyCharm 项目中获取我的“exe”[重复]

可以在 TensorFlow 中使用排名相关作为成本函数吗？

为什么 Python 中的“pip install”会引发语法错误？

定义函数后对其进行修饰？

如何在 Python 中将彩色输出打印到终端？

spacy 如何使用词嵌入进行命名实体识别 (NER)？

具有多个元素的数组的真值是二义性错误吗？ Python

将 Pandas 列中的列表拆分为单独的列

如何在与应用程序初始化文件不同的文件中迭代 api 路由

Flask WTForms 使用变量自动填充 StringField

为什么实现 iter 的对象不被识别为可迭代的？

为什么我们应该在 def init(self, n) -> None: 中使用 -> ？

如何禁止 celery 中的 pickle 序列化

如何使用Python从txt文件中删除特殊字符

如何使用Python从txt文件中删除特殊字符 的相关文章

如何使用Python从txt文件中删除特殊字符的相关文章