Python - beautifulsoup，应用于文件夹中的每个文本文件并生成新的文本文件

2023-11-30

我正在使用以下 Python - Beautifulsoup 代码从文本文件中删除 html 元素：

from bs4 import BeautifulSoup

with open("textFileWithHtml.txt") as markup:
    soup = BeautifulSoup(markup.read())

with open("strip_textFileWithHtml.txt", "w") as f: 
    f.write(soup.get_text().encode('utf-8'))

我的问题是如何将此代码应用于文件夹（目录）中的每个文本文件，并为每个文本文件生成一个新的文本文件，该文件将被处理并删除 html 元素等，而无需调用每个文本文件的函数？

The glob模块允许您列出目录中的所有文件：

import glob
for path in glob.glob('*.txt'):
    with open(path) as markup:
        soup = BeautifulSoup(markup.read())

    with open("strip_" + path, "w") as f: 
        f.write(soup.get_text().encode('utf-8'))

如果您还想递归地对每个子文件夹执行此操作，请查看os.walk

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

beautifulsoup

Python - beautifulsoup，应用于文件夹中的每个文本文件并生成新的文本文件的相关文章

将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000
TF map_fn 或 while_loop 用于不同形状的张量列表

我想处理不同形状的张量序列列表并输出另一个张量列表考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
Bootstrap 4 Beta 0 网格系统上的 Rowspan

您好我正在开发一个使用 Bootstrap 4 Beta 的电子商务模板我让它在移动设备上工作但在桌面设备上我不知道如何让购买按钮保持在标题下在我的方法中它出现在图库部分下 Desired Desktop Desired Mo
了解 Python 中的酸洗

我最近接到一项作业需要以腌制形式放置一本字典其中每个键引用一个列表唯一的问题是我不知道腌制形式是什么谁能给我指出一些好的资源的正确方向来帮助我学习这个概念 pickle 模块实现了一个基本但强大的算法用于序列化和反序列化 Pyth
当我在 Pandas 中使用 df.corr 时，我的一些列丢失了

这是我的代码 import numpy as np import pandas as pd import seaborn as sns import matplotlib pyplot as plt data pd read csv dea
根据开始列和结束列扩展数据框（速度）

我有一个pandas DataFrame含有start and end列加上几个附加列我想将此数据框扩展为一个时间序列从start值并结束于end值但复制我的其他专栏到目前为止我想出了以下内容 import pandas as
更改 python tkinter canvas 中的线坐标

我画了一条线tkinter Canvas现在我想移动一端这可能吗例如和itemconfig import tkinter tk tkinter Tk canvas tkinter Canvas tk canvas pack line c
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
`list()` 被认为是一个函数吗？

list显然是内置类型 https docs python org 3 library stdtypes html list在Python中我看到底下有一条评论this https stackoverflow com a 53645813
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
具有屏蔽无效值的 pcolormesh

我试图将一维数组绘制为 pcolormesh 因此颜色沿 x 轴变化但每个 x 的 y 轴保持不变但我的数据有一些错误值因此我使用屏蔽数组和自定义颜色图其中屏蔽值设置为蓝色 import numpy as np import mat
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
如何从 html 页面 [javascript] 调用 Web 服务方法而不刷新页面

我有一个webservice这将返回一个值我的要求是我需要调用它webservice从一个index html页面该页面有一个 html 提交按钮在该按钮上单击我正在呼叫JavaScript 从那里我想调用网络方法我怎样才能做到这
Python 类型安全吗？

根据维基百科 https en wikipedia org wiki Type system Type safety and memory safety 如果一种语言不允许违反类型系统规则的操作或转换计算机科学家就认为该语言是类型安全的
Python]将两个文本文件合并为一个（逐行）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是蟒蛇新手我想做的是将文件 a 和文件 b 逐行合并到一个文件中例如 text file a a n b n c text fi
是否可以将 pd.Series 分配给无序 pd.DataFrame 中的列而不映射到索引（即不重新排序值）？

在 Pandas 中创建或分配新列时我发现了一些意外的行为当我对 pd DataFrame 进行过滤或排序从而混合索引然后从 pd Series 创建新列时 Pandas 会重新排序该系列以映射到 DataFrame 索引例如 d
将 html 文本框的值分配给 div 的标题

line 1
Django 模型：如何使用 mixin 类来覆盖 django 模型以实现 save 等功能

我想在每次保存模型之前验证值所以我必须重写保存函数代码几乎是一样的我想把它写在 mixin 类中但失败了我不知道如何写 super func 我英语不好抱歉 class SyncableMixin object def sav
如何为所有用户安装 Anaconda python？

Anaconda python 发行版 https store continuum io cshop anaconda 非常方便地部署科学计算环境 SCE 并根据需要切换python版本默认情况下安装会将 python 定位到 anac

随机推荐

Numbas 并行向量化函数

我目前正在尝试numba尤其是vectorized函数所以我创建了一个sum矢量化函数因为很容易将其与np sum import numpy as np import numba as nb nb vectorize nb float6
如何使用 Xamarin Forms 让按钮像标签云一样环绕？

我有这样的代码
如何在张量流中表达这个自定义损失函数？

我有一个可以满足我的需求的损失函数但仅在 PyTorch 中我需要将它实现到我的 TensorFlow 代码中但是虽然其中大部分都可以轻松地翻译但我却陷入了特定的行 y hat torch arange N torch arang
WordPress 网站不断遭到黑客攻击

我的 WordPress 网站经常遭到黑客攻击据我所知正在进行以下更改该文件顶部有一些额外的 PHP 代码 wp content themes enfold functions php 如下 eval base64 decode Zn
获取.js文件的参数

我有一个 javascript 文件我在 HTML 中使用标准引用该文件在文件中我想区分例如加载文件foo js from foo js auto and foo js noauto true 但如果文件重命名为bar js并使用相同的
用于文件夹创建的 Google Drive Android Api 完成事件

The 完成事件在 Google Drive Android Api 中 GDAA 似乎仅由内容更改文件创建文件内容更新调用因为我需要检索文件夹的资源 ID 在这里看到一个包含内容的文件参考这个方法 DriveFolder cre
按类别对标记进行分组以显示和隐藏

我正在使用以下内容向谷歌地图添加标记 function addMarkersToMap map trigger resize on map in case canvas size is different google maps event
Paint 组件方法不适用于 JFrame

在尝试使用 JLabel 后我尝试在屏幕上绘制图像现在正在尝试 PaintComponent 方法我在没有看到结果后尝试插入断点并且该方法没有被调用并且什么也没有出现我应该怎么办这是我的重要代码 public void cre
从弹性布局中的 justify-content 中排除具有固定定位的元素[重复]

这个问题在这里已经有答案了我目前正在尝试使用 Flexbox 构建响应式网站布局根据屏幕尺寸我想要一个元素position fixed 这本身正在发挥作用但是当我使用justify content space between 在包含一
JPanel 不响应按键侦听器

我试图制作一个 JPanel 来显示您按每个导航键的次数但它只显示 4 个零在 keyPressed 方法中我放置了以下代码来相应地处理按键 public void keyPressed KeyEvent event if event
在 Spring-Boot 中从我的服务器调用另一个rest api

我想根据用户的特定请求从我的后端调用另一个 web api 例如我想打电话谷歌FCM发送消息 api 用于向事件中的特定用户发送消息 Does Retrofit有什么方法可以实现这一点吗如果没有我该怎么做这个网站有一些使用 spri
在 Matplotlib 中添加没有轴刻度/标签的空子图作为文本子图

我的目标是创建具有四个子图的图其中底部两个实际上只是空框我将在其中显示一些文本不幸的是我所有删除 y 轴和 x 轴刻度线和标签的努力都失败了我对 matplotlib 还很陌生所以我确信我缺少一些简单的东西这是我正在尝试的以及
C 中的错误处理？ scanf和非法字符如何处理？ [关闭]

很难说出这里问的是什么这个问题模棱两可含糊不清不完整过于宽泛或言辞激烈无法以目前的形式合理回答如需帮助澄清此问题以便重新打开访问帮助中心我正在用 C 编写一个程序为了进行错误处理它会告诉您在 scanf 时查找非法字符
如何从 Windows 窗体应用程序打开记事本并在其中放置一些文本？

我正在使用 VB NET 和 Visual Studio 2008 我的问题是如何从 Windows 窗体应用程序打开记事本然后在记事本窗口中放置一些文本字符串最简单的方法是编写一个文本文件然后打开它而不是相反您可以使用系统文
从 URL 获取文件内容？

当我在浏览器中使用以下 URL 时它会提示我下载包含 JSOn 内容的文本文件点击上面网址查看下载的文件内容根据您的 PHP 配置这may很容易使用 jsonData json decode file get contents ht
Google Places API 是否可以通过maps.google.cn 域使用？

Google Places API 可以通过maps google cn 域使用吗这是来自中国的作品 curl https maps google cn maps api geocode json address 1600 Amphith
将不安全 HTML 字符编码为 HTML 字符实体引用的 T-SQL 算法

我需要创建一个插入触发器后在我的 SQL Server 2008 R2 数据库中触发器需要从 INSERTED 中获取一些字段处理它们并将它们放入插入的同一行的不同字段中关于加工我需要帮助想出一个算法在 T SQL 代码中对不安
尝试获取上个月最后一天时奇怪的 PHP 日期行为

我刚刚注意到 PHP 日期函数表现得很奇怪有人能解释一下我做错了什么吗以下代码显示相同的结果
在正则表达式中创建第 n 层嵌套模式的算法

正如中所解释的可以使用正则表达式来匹配嵌套模式吗不可能创建正则表达式来匹配任意嵌套模式但是是否有可能创建一个算法来生成第 n 级嵌套的正则表达式基本上我想更换trim whatever with rtrim ltrim what
Python - beautifulsoup，应用于文件夹中的每个文本文件并生成新的文本文件

我正在使用以下 Python Beautifulsoup 代码从文本文件中删除 html 元素 from bs4 import BeautifulSoup with open textFileWithHtml txt as markup s

Python - beautifulsoup，应用于文件夹中的每个文本文件并生成新的文本文件

Python - beautifulsoup，应用于文件夹中的每个文本文件并生成新的文本文件 的相关文章

随机推荐

热门标签

Python - beautifulsoup，应用于文件夹中的每个文本文件并生成新的文本文件的相关文章