如何使用 BeautifulSoup 获取标签内的 html 文本

2024-02-22

如何从示例 HTML 中提取数据beautifulsoup?

<Tag1>
    <message code="able to extract text from here"/>
    <text value="able to extract text that is here"/>
    <htmlText>&lt;![CDATA[&lt;p&gt;some thing &lt;lite&gt;OR&lt;/lite&gt;get exact data from here&lt;/p&gt;]]&gt;</htmlText>
</Tag1>

我都尝试过.findall and .get_text，但是我无法从中提取文本值htmlText元素。

预期输出：

some thing ORget exact data from here

您可以使用 BeautifulSoup 两次，首先提取htmlText元素，然后解析内容。例如：

from bs4 import BeautifulSoup
import lxml

html = """
<Tag1>
    <message code="able to extract text from here"/>
    <text value="able to extract text that is here"/>
    <htmlText>&lt;![CDATA[&lt;p&gt;some thing &lt;lite&gt;OR&lt;/lite&gt;get exact data from here&lt;/p&gt;]]&gt;</htmlText>
</Tag1>
"""
soup = BeautifulSoup(html, "lxml")

for tag1 in soup.find_all("tag1"):
    cdata_html = tag1.htmltext.text
    cdata_soup = BeautifulSoup(cdata_html, "lxml")
    
    print(cdata_soup.p.text)

它将显示：

some thing ORget exact data from here

Note: lxml https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser还需要安装使用pip install lxml。 BeautifulSoup 会自动导入它。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

python3x

beautifulsoup

如何使用 BeautifulSoup 获取标签内的 html 文本的相关文章

如果每个区域内至少有 5 个连续行，如何在每个标题区域的末尾使用 Title[Name]2 发布新行？

我想在每个 Title 区域的末尾使用 Title Name 2 发布新行的最简单方法是通过一个计算连续行数的变量其中至少有 5 个连续行包含 1 1 1 1在每个标题区域内我不确定我对计数变量做错了什么也许确实必须在每个 Tit
使用pip安装pylibmc时出错

您好当我尝试使用 pip 在 OSX Lion 上安装 pylibmc 时出现以下错误 pylibmcmodule h 42 10 fatal error libmemcached memcached h file not found
使用 Python 将阿拉伯语或任何从右到左书写系统的字符串打印到 Linux 终端

非常简单的例子是 city print city 我期望输出是但实际上输出是相反的字符串字母看起来有点不同因为它们有开始中间和结束形式我无法将其粘贴到此处因为复制粘贴会再次更正字符串的顺序如何在 Linux 终端上正确打印阿拉
NodeJS 无法加载 css 文件

所以我正在尝试制作一个 NodeJS 服务器并且我尝试保留尽可能少的附加组件但是我遇到了一个问题我似乎无法加载任何内容CSS我调用的文件HTML文件该调用似乎确实由服务器处理但它不会显示在浏览器中 My 网络服务器 js fil
python - 将cookie添加到cookiejar

如何在 python 中创建 cookie 并将其添加到 CookieJar 实例我拥有 cookie 的所有信息名称值域路径等但我不想通过 http 请求提取新的 cookie 我尝试了这个但看起来 SimpleCookie
Django Rest Framework 序列化器中的聚合（和其他带注释的）字段

我正在尝试找出添加带注释字段的最佳方法例如将任何聚合计算字段添加到 DRF 模型序列化器我的用例只是一种情况端点返回的字段未存储在数据库中而是从数据库计算得出让我们看下面的例子模型 py class IceCreamCom
如何将 HTML 表格转换为 csv 格式？

是否有 HTML 解析器或某些库可以自动将 HTML 表格转换为 CSV 数据行 Here is http www unix com shell programming scripting 45274 html table csv html
进行异步调用时，“yield”在龙卷风中如何工作？

最近我在学习龙卷风简介我遇到了以下代码 class IndexHandler tornado web RequestHandler tornado web asynchronous tornado gen engine def get s
模拟类：Mock() 还是 patch()？

我在用mock http www voidspace org uk python mock index html使用Python 想知道这两种方法中哪一种更好阅读更Pythonic 方法一只需创建一个模拟对象并使用它代码如下 def
pandas-更改重采样时间序列的开始和结束日期

我有一个时间序列我将其重新采样到这个数据框中df 我的数据是从6月6日到6月28日它希望将数据从6月1日延长到6月30日计数列仅在较长时间内具有 0 值而我的实际值是从 6 日到 28 日 Out 123 count Timesta
如何连接多个字符串？ [复制]

这个问题在这里已经有答案了如何将 stringList 中的所有字符串合并为一个而不打印它例如 s joinStrings very hot day returns string print s Veryhotday 感觉有点倒退但是
CryptoJS 和 Pycrypto 一起工作

我正在使用 CryptoJS v 2 3 加密 Web 应用程序中的字符串并且需要在服务器上使用 Python 对其进行解密因此我使用 PyCrypto 我觉得我错过了一些东西因为我无法让它工作这是JS Crypto AES enc
有不同图像尺寸的缩略图 Bootstrap

我想要包含不同大小和不同文本量的图像的缩略图但我希望它们都具有相同的大小像这样来自 Bootstrap 站点的示例 http getbootstrap com components thumbnails custom content 下
Python 中的颜色处理

对于我的聚类 GUI 我目前对聚类使用随机颜色因为我事先不知道最终会得到多少个聚类在 Python 中这看起来像 import random def randomColor return random random random ra
响应式菜单：悬停子菜单显示错误

简而言之我根据教程创建了一个响应式菜单当您将鼠标悬停在投资组合按钮上时菜单应该显示子菜单而在移动模式下您需要按该按钮才能显示子菜单效果很好问题是该教程有一个错误如果您在桌面模式下按组合按钮子菜单将不会再次显示除非您按单
PyMC3 和 Theano - 导入 pymc3 后，有效的 Theano 代码停止工作

一些简单的 theano 代码可以完美运行当我导入 pymc3 时停止工作这里有一些片段可以重现错误 Initial Theano Code this works import theano tensor as tsr x tsr ds
将 .parquet 编码为 io.Bytes

目标将 Parquet 文件上传到 MinIO 这需要将文件转换为字节我已经能够做到这一点了 csv json and txt bytes data to csv encode utf 8 bytes json dumps self d
Python Web 编程的不同方法的优缺点

我想使用 Python 编写一些服务器端脚本但我对这样做的方法有点迷失了它从 DIY CGI 方法开始似乎以一些相当强大的框架结束这些框架基本上可以自己完成所有工作中间有很多东西比如web py http webpy org P
如何继承并重写 django 模型类来创建 listOfStringsField？

我想为 django 模型创建一个新类型的字段它基本上是一个 ListOfStrings 因此在您的模型代码中您将具有以下内容模型 py from django db import models class ListOfString
真实值与预测值的降维可视化

我有一个数据框如下所示 label predicted F1 F2 F3 F40 major minor 2 1 4 major major 1 0 10 minor patch 4 3 23 major patch 2 1 11 min

随机推荐

如何在 Streamlit 中设置按钮样式

我的应用程序中有一个按钮我想在用户单击它时对其进行样式设置问题是因为 Streamlit 不允许我们向我们创建的对象发出类所以我需要找到一种方法来以稳健且与版本无关的方式指定确切的按钮这是按钮在 Streamlit 中的样子 di
如何使用 vscode 终端打开文件？

我想打开一个新选项卡并使用打开一个文件vscode终端 like open somefile js命令所以我可以使用ls并快速打开文件 Use code r
Flask 不提供图片

我创建了一个小型 Flask 应用程序用于处理和呈现本地计算机上本地使用的数据我的 Flask 应用程序处理子文件夹中的数据然后打开网页来显示处理后的数据除了没有提供图像之外一切看起来都很棒例如生成的 HTMl 源将具有以下内
Java中布尔表达式求值顺序？

假设我有以下表达式 String myString getStringFromSomeExternalSource if myString null myString trim length 0 Eclipse 警告我myString布尔表
如何使用windows cmd查看用户权限？

我正在尝试使用 Windows 中的命令提示符查看用户权限用户帐户和用户权限例如 SeBatchLogonRight SeDenyBatchLogonRight SeInteractiveLogonRight SeDenyInterac
登录到控制台而不是减速器操作内的代理对象时如何查看状态？

使用时console log 在减速器操作内状态打印为代理对象而不是我实际想要查看的对象我怎样才能看到实际的物体我正在使用 redux starter kit createSlice 我不确定这是否与之有关 import creat
区块链可以存储在 SQL 甚至 noSQL 数据库中吗？

我读过区块链数据库不存储在任何单一位置这意味着它保存的记录是真正公开的并且易于验证此信息不存在可供黑客破坏的集中版本它的数据由数百万台计算机同时托管互联网上的任何人都可以访问所以我的问题是我们可以将区块链存储在例如 sql 中吗
如何将ScrollView滚动到文本中的特定位置[重复]

这个问题在这里已经有答案了我有一个 ScrollView 里面有一个 TextView 我想将它滚动到某个段落就像 HTML 中的锚点一样例如 page html paragraph id 有人知道怎么做吗 Thanks 尝试使用sc
在 CDI 中指定不同的子类实现

我有两个类 A 和 B 需要使用服务有两个服务 S1 和 S2 S2 扩展了 S1 我希望将 S1 注入 A 类将 S2 注入 B 类我如何在 CDI 中完成此操作 public class S1 public class S2 ex
如何将多首歌曲/曲目加载到pygame中？

有没有办法将多首歌曲加载到 Pygame 中我说的不是这样的音效 crash sound pygame mixer Sound crash ogg and pygame mixer Sound play crash 因为我知道显然你可以有
Restlet 获取 HTTP 状态代码 204 而不是 200

对于第一个请求我收到 JSON 响应从下一个请求开始我开始获取此日志和 HTTP 状态代码 204 即使 ServerResource 已成功返回表示 org restlet engine adapter ServerAdapter
PHP MySQL 自动完成

我有一个自动完成搜索字段当用户输入名称时结果会显示在下拉列表中这一切都工作正常并按应有的方式显示数据然而我正在等待将每个结果设为链接因此当显示结果时用户可以单击正确的名称然后将他们带到他们的个人资料请参阅下面的脚本
XML 检测调试模式

我知道我可以通过编程方式使用 if BuildConfig DEBUG do something for a debug build 但是我想做的是在调试模式下显示水印有没有办法在 XML 文件中执行类似的操作现在可以用数据绑定库 h
matplotlib 极坐标二维直方图

我试图在极轴上绘制一些直方图数据但它似乎无法正常工作下面是一个例子我使用找到的自定义投影如何使 matplotlib 极坐标图中的角度顺时针旋转顶部为 0 https stackoverflow com questions 2417
Xcode 6：Fabric Crashlytics 更新后找不到“Answers.h”文件

我正在 Xcode 6 3 2 中的 Objective C 项目中编写故事板突然当我尝试构建时出现错误 Developer ProjectName Crashlytics framework Headers Crashlytics h
用于托管 MySQL 数据库的 Cloud SQL 或虚拟机实例

我有一个网站但我很困惑在哪里托管其数据库 Google Cloud SQL D1 层具有 0 5 GB RAM 其费用为每天 1 46 美元 GCE n1 standard 2 有 7 5 GB RAM 其成本为每天 1 68 我将当前的
Azure 管道在解析管道 YAML（唯一作业名称）时遇到错误

在我的 azure devops 项目中我使用模板创建了一个管道这是我的构建管道的主要 yaml 文件 name Test Date yyyyMMdd Rev r resources repositories repository ap
Common LISP 和 Stack 中的数字类型边界在 GHCI 中流动

第一个问题 Common LISP 和 Haskell 的新手请友善我在 Common LISP 中有一个函数下面的代码旨在判断三角形的面积是否是整数整数 defun area int p a b c let s a b c 2
将 Javascript 变量传递给 Codeigniter 中的 PHP 控制器

大家好我有这个 javascript 它必须传递一些变量包括数组我的问题是我无法使用 URL 传递这些值因为我可能会处理许多值我正在尝试使用 ajax JSON 但我无法检索值这是我的 javascript function p
如何使用 BeautifulSoup 获取标签内的 html 文本

如何从示例 HTML 中提取数据beautifulsoup

如何使用 BeautifulSoup 获取标签内的 html 文本

如何使用 BeautifulSoup 获取标签内的 html 文本 的相关文章

随机推荐

热门标签

如何使用 BeautifulSoup 获取标签内的 html 文本的相关文章