Python - beautifulsoup,应用于文件夹中的每个文本文件并生成新的文本文件

2023-11-30

我正在使用以下 Python - Beautifulsoup 代码从文本文件中删除 html 元素:

from bs4 import BeautifulSoup

with open("textFileWithHtml.txt") as markup:
    soup = BeautifulSoup(markup.read())

with open("strip_textFileWithHtml.txt", "w") as f: 
    f.write(soup.get_text().encode('utf-8'))

我的问题是如何将此代码应用于文件夹(目录)中的每个文本文件,并为每个文本文件生成一个新的文本文件,该文件将被处理并删除 html 元素等,而无需调用每个文本文件的函数?


The glob模块允许您列出目录中的所有文件:

import glob
for path in glob.glob('*.txt'):
    with open(path) as markup:
        soup = BeautifulSoup(markup.read())

    with open("strip_" + path, "w") as f: 
        f.write(soup.get_text().encode('utf-8'))

如果您还想递归地对每个子文件夹执行此操作,请查看os.walk

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python - beautifulsoup,应用于文件夹中的每个文本文件并生成新的文本文件 的相关文章

随机推荐