使用python删除html标签？

2024-03-09

我知道可能有一百万个问题，但我想知道如何删除这些标签，而无需导入或使用 HTMLParser 或正则表达式。我尝试了一堆不同的替换语句来尝试删除包含的部分字符串，但无济于事。

基本上我正在处理的是：

response = urlopen(url)
html = response.read()
html = html.decode()

从这里我只是尝试操作字符串变量 html 来执行上述操作。有什么方法可以按照我指定的方式做到这一点，还是必须使用我之前见过的方法？

我还尝试创建一个 for 循环来遍历每个字符以检查它是否被封闭，但由于某种原因它不会给我正确的打印输出，即：

for i in html:
    if i == '<':
        html.replace(i, '')
        delete = True
    if i == '>':
        html.replace(i, '')
        delete = False
    if delete == True:
        html.replace(i, '')

将不胜感激任何意见。

str.replace返回字符串的副本，其中所有出现的子字符串都替换为 new，您不能像以前那样使用它，也不应该修改循环正在迭代的字符串。使用额外列表是您可以采用的方法之一：

txt = []
for i in html:
    if i == '<':
        delete = True
        continue
    if i == '>':
        delete = False
        continue
    if delete == True:
        continue

    txt.append(i)

now txt列表包含结果文本，您可以加入它：

print ''.join(txt)

Demo:

html = '<body><div>some</div><div>text</div></body>'
#...
>>> txt
['s', 'o', 'm', 'e', 't', 'e', 'x', 't']
>>> ''.join(txt)
'sometext'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

使用python删除html标签？的相关文章

无法在 PIL 中对 16 位 TIF 应用图像滤镜

我尝试使用 python 应用图像过滤器PIL http www pythonware com products pil 代码很简单 im Image open fnImage im im filter ImageFilter BLUR 此
在 Python 3.6 中，为什么负数的分数次方在 numpy 数组中返回 nan？

我最近开始学习Python 并且经历了NumPy 官方快速入门指南 https docs scipy org doc numpy dev user quickstart html indexing slicing and iterating
cv2.face.mindistancepredictcollector() 错误

我已经安装了带有额外模块的 opencv 3 1 0 但是当我尝试使用 gt gt gt s cv2 face MinDistancePredictCollector 它返回一个错误 Traceback most recent call l
Python - 包和设置文件

我有一个 python 包需要从我的项目目录中提取设置这是我的项目当前的结构 Project bin mypackage package files Project myproject project files start py se
Python 可以使用单独的媒体播放器打开 mp3 文件吗？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案是否可以开一个mp3Python 中的文件可以使用Popen 我并不是要在程序中运行它我的意思是作为媒体播放器中的一个单独窗口或其
SMTPAuthenticationError: (535, b'5.7.8 用户名和密码在 Django 生产中不被接受？

我在 Heroku 上部署了一个 Django 应用程序在其中一节中我使用 SMTP Gmail 设置向用户发送电子邮件当我在本地运行项目时电子邮件发送成功但在 Heroku 上部署的项目上却发送失败我在 Stackoverfl
肥皂服务的良好框架是什么？

我正在寻找一个用于肥皂的好框架service 我更喜欢使用Pythonic框架但是在查看了soaplib rpclib 太不稳定 SOAPy 不适用于2 7 和ZSI 太令人困惑之后我不确定这是否可能我对使用另一种语言感到满意尽
更改Python pylab玫瑰/极坐标图中图例标题的字体大小

我正在尝试更改玫瑰图或极地图上现有图例标题的字体大小大部分代码是由不在的其他人编写的我已经添加 ax legend title legend title setp l get title fontsize 8 添加标题 legend
int 对象在尝试对数字的数字求和时不可迭代？ [复制]

这个问题在这里已经有答案了我有这个代码 inp int input Enter a number for i in inp n n i print n 但它抛出一个错误 int object is not iterable 我想通过将每个
Python 函数可能会引发哪些异常？ [复制]

这个问题在这里已经有答案了 Python 中有什么方法可以确定内置函数可能引发哪些异常例如文档 http docs python org lib built in funcs html http docs python org li
PyPI 项目页面中的“Py 版本”是什么意思？这有关系吗？

我注意到大多数在 PyPI 上发布的项目在其项目页面中都包含 Py 版本元数据但它们的值各不相同如果包不是通用包或不是纯 python 包那么它们的值是不同的这是可以理解的以便表示它们的目标平台例如鼻页 https pypi
Python argparse store_true 并将可选选项存储在一个参数中[重复]

这个问题在这里已经有答案了我需要识别是否单独给出参数或带有可选字符串或两者都没有 parser add argument options parser parse args so prog py arg 应该存储进入选项 arg pro
将 csv 文件按多列拆分为 panda 数据框

我有一个包含多列的 tsv 文件有 10 多列但对我来说重要的列是名称为 user name shift id url id 的列我想创建一个数据框首先根据用户名分隔整个 csv 文件即只有具有相同用户名的行才会分组在一起从该块
为图例中的点设置固定大小

我正在制作一些散点图我想将图例中的点的大小设置为固定的相等值现在我有这个 import matplotlib pyplot as plt import numpy as np def rand data return np random
尝试修复我的功能

我正在开发一个函数我必须返回一个元组其中第一个参数是最大数字的 str 第二个参数是 int 列表这是示例以及我为该函数编写的内容投票 G G N G C G 1 3 0 1 您必须将最大值的位置映射到正确的一方 parties N
多线程写入文件

前几天刚开始使用 python 对多线程的整个概念还很陌生我在多线程时写入文件时遇到问题如果我按照常规方式执行此操作它会不断覆盖正在写入的内容使用 5 个线程写入文件的正确方法是什么不降低性能的最佳方法是在所有线程之间使用队列每
安排 Asyncio 任务每 X 秒执行一次？

我正在尝试创建一个 python 不和谐机器人它将每隔 X 秒检查一次活跃会员并根据会员的在线时间奖励积分我正在使用 asyncio 来处理聊天命令这一切都正常我的问题是找到一种方法来安排每隔 X 秒异步检查一次活动成员我已经阅
在字典理解中为 locals() 添加下标失败并出现 KeyError [重复]

这个问题在这里已经有答案了我对 Python 的奇怪行为感到困惑locals 基本上我想从字典中获取一个项目locals 在字典理解中但它失败了这是一个非常基本的事情所以 gt gt gt foo 123 gt gt gt bar
使用 Pandas 和 Group By 绘制堆叠直方图

我正在使用如下所示的数据集 Gender Height Width Male 23 4 4 4 Female 45 4 4 5 我想可视化高度和宽度的堆叠直方图我希望每个图有两个堆叠的直方图每个性别一个这是文档中的堆叠直方图如果存在
Tensorflow ctc_loss_calculator：找不到有效路径

当运行我的神经网络双向 LSTM 进行音频识别时我使用连接主义时间分类 CTC 但在某些时候训练网络时我几乎每批都会收到来自 Tensorflow 的警告 W tensorflow core util ctc ctc loss cal

随机推荐

复制并粘贴值而不是公式

第一次编写宏我必须仅将单元格值复制到另一个单元格值并且我让它工作但是我不确定如何在不指定范围的情况下复制整个列因为范围每次可能不同在这里我尝试使用一个有效的范围但我希望它检查该列的单元格值直到找到值复制粘贴到另一列这是
Vue.js / webpack 没有创建构建文件？

这可能是一个愚蠢的问题但到底是什么我正在使用 vue cliwebpack simple模板在该项目的 webpack 配置中我发现以下内容 output path path resolve dirname dist publicPa
使“枚举时修改”集合成为线程安全的

我想创建一个线程安全的集合可以在枚举时进行修改例子ActionSet类商店Action处理程序它有Add方法将新的处理程序添加到列表中并且Invoke枚举并调用所有收集的操作处理程序的方法预期的工作场景包括非常频繁的枚举并且在枚
Java dom4j org/jaxen/NamespaceContext 异常

我已经下载了并将其添加到java的构建路径中我也熟悉java lang NoClassDefFoundError org saxpath SAXPathException https stackoverflow com questions
程序如何覆盖之前的输出行？

程序如vim top or alsamixer输出多行文本并以某种方式操作已写入的文本行我知道写 r字符到 stdout 这会将光标返回到行的开头允许覆盖当前行但不能覆盖之前的任何行这些程序正在做什么才能拥有这些更高级的用户界面以及
如何通过 DialogFragment 使用 startActivityForResult() ？

我的应用程序需要添加用户名才能正常运行 mainActivity 在顶部显示从数据库检索的用户名 mainActivity 还有一个按钮可通过 startActivityForResult 方法进入 addusername 活动当用户实
Composer 缓存不适用于 bitbucket 管道构建

我在我的 bitbucket 管道中得到了这个 pipelines branches develop step caches composer name unit tests Delivery image totersapp laravel
为什么委托中所有方法都具有相同的名称？

我从 Swift 开始开发一个带有 tableView 的简单应用程序对服务器的请求以及其他一些内容我意识到 UITableViewDelegate 协议中的每个方法都以相同的方式命名我猜它可能与其他协议相同并且通过更改传递给这些
GCC 是否优化汇编源文件？

我可以使用 GCC 将汇编代码文件转换为可重新分配的文件 gcc c source S o object o O2 优化选项是否有效我可以期望 GCC 优化我的汇编代码吗 No GCC 将汇编源代码通过预处理器然后传递到汇编器任何时候
Java泛型通配符问题

在使用 Google Guava 优秀的 Multimap 时我遇到了一些泛型问题我有一个这样定义的类型处理程序 public interface Handler
从 ASP.net MVC 3 项目中删除默认 JavaScript 文件

我刚刚开始使用 ASP net MVC 3 并且创建了一个空项目我注意到脚本文件夹中填充了许多 JavaScript 文件包括 jQuery 1 5 1 jQuery 用户界面 1 8 11 一些 jQuery 插件 ASP net M
如何在Python中检查它是否是存档的文件或文件夹？

我有一个存档我不想提取它但检查它的每个内容无论它是文件还是目录 os path isdir 和 os path isfile 不起作用因为我正在处理存档存档可以是 tar bz2 zip 或 tar gz 中的任何一个所以我不能
捕获未通过 QuickFix 验证的传入 FIX 消息

A Quickfix http www quickfixengine org 客户端使用以下方法验证传入消息XML 规范文件 http www quickfixengine org documentation 如果消息验证失败 quickf
将数据从 UITableViewCell 推送到 UINavigationController

我有一个 UISearchDisplaycontroller 我必须将信息推送到文本字段并需要将其链接到导航视图控制器这是我的代码 void prepareForSegue UIStoryboardSegue segue sender
具有 ADT 和 Aux 模式的类型安全

我正在使用 ADT 和 Aux 模式设计类型安全代码并且无法摆脱一些asInstanceOf 这是示例 sealed trait Source case object FileSystem extends Source case obje
如何限制 Phusion Passenger 内存使用？

有没有办法限制 Phusion Passenger 在提供您的应用程序时使用的内存量在我获得大量流量后我的主机过来并终止了该进程因此我最终提供了空白页面我能做些什么来表达嘿不要使用超过 100Mb 的内存并且无论网站有多超载
在 Rails 中的多个数据库之间切换而不破坏事务

我正在设置一个包含多个数据库的 Rails 应用程序它用ActiveRecord Base establish connection db config在数据库之间切换所有数据库都在database yml中配置 establish c
Arrays.stream().map().sum() 性能不稳定

我偶然发现了一个对原始数组进行非常简单的映射归约操作的性能曲线极其不稳定的实例这是我的 jmh 基准代码 OutputTimeUnit TimeUnit NANOSECONDS BenchmarkMode Mode AverageTim
如何在按钮单击时显示文本区域？
使用python删除html标签？

我知道可能有一百万个问题但我想知道如何删除这些标签而无需导入或使用 HTMLParser 或正则表达式我尝试了一堆不同的替换语句来尝试删除包含的部分字符串但无济于事基本上我正在处理的是 response urlopen url

使用python删除html标签？

使用python删除html标签？ 的相关文章

随机推荐

热门标签

使用python删除html标签？的相关文章