如何使用 BeautifulSoup 获取标签内的 html 文本

2024-02-22

如何从示例 HTML 中提取数据beautifulsoup?

<Tag1>
    <message code="able to extract text from here"/>
    <text value="able to extract text that is here"/>
    <htmlText>&lt;![CDATA[&lt;p&gt;some thing &lt;lite&gt;OR&lt;/lite&gt;get exact data from here&lt;/p&gt;]]&gt;</htmlText>
</Tag1>

我都尝试过.findall and .get_text,但是我无法从中提取文本值htmlText元素。

预期输出:

some thing ORget exact data from here

您可以使用 BeautifulSoup 两次,首先提取htmlText元素,然后解析内容。例如:

from bs4 import BeautifulSoup
import lxml

html = """
<Tag1>
    <message code="able to extract text from here"/>
    <text value="able to extract text that is here"/>
    <htmlText>&lt;![CDATA[&lt;p&gt;some thing &lt;lite&gt;OR&lt;/lite&gt;get exact data from here&lt;/p&gt;]]&gt;</htmlText>
</Tag1>
"""
soup = BeautifulSoup(html, "lxml")

for tag1 in soup.find_all("tag1"):
    cdata_html = tag1.htmltext.text
    cdata_soup = BeautifulSoup(cdata_html, "lxml")
    
    print(cdata_soup.p.text)

它将显示:

some thing ORget exact data from here

Note: lxml https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser还需要安装使用pip install lxml。 BeautifulSoup 会自动导入它。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 BeautifulSoup 获取标签内的 html 文本 的相关文章

  • 如果每个区域内至少有 5 个连续行,如何在每个标题区域的末尾使用 Title[Name]2 发布新行?

    我想在每个 Title 区域的末尾使用 Title Name 2 发布新行的最简单方法是通过一个计算连续行数的变量 其中至少有 5 个连续行包含 1 1 1 1在每个 标题区域内 我不确定我对计数变量做错了什么 也许 确实必须在每个 Tit
  • 使用pip安装pylibmc时出错

    您好 当我尝试使用 pip 在 OSX Lion 上安装 pylibmc 时 出现以下错误 pylibmcmodule h 42 10 fatal error libmemcached memcached h file not found
  • 使用 Python 将阿拉伯语或任何从右到左书写系统的字符串打印到 Linux 终端

    非常简单的例子是 city print city 我期望输出是 但实际上输出是相反的字符串 字母看起来有点不同 因为它们有开始 中间和结束形式 我无法将其粘贴到此处 因为复制粘贴会再次更正字符串的顺序 如何在 Linux 终端上正确打印阿拉
  • NodeJS 无法加载 css 文件

    所以我正在尝试制作一个 NodeJS 服务器 并且我尝试保留尽可能少的附加组件 但是 我遇到了一个问题 我似乎无法加载任何内容CSS我调用的文件HTML文件 该调用似乎确实由服务器处理 但它不会显示在浏览器中 My 网络服务器 js fil
  • python - 将cookie添加到cookiejar

    如何在 python 中创建 cookie 并将其添加到 CookieJar 实例 我拥有 cookie 的所有信息 名称 值 域 路径等 但我不想通过 http 请求提取新的 cookie 我尝试了这个 但看起来 SimpleCookie
  • Django Rest Framework 序列化器中的聚合(和其他带注释的)字段

    我正在尝试找出添加带注释字段的最佳方法 例如将任何聚合 计算 字段添加到 DRF 模型 序列化器 我的用例只是一种情况 端点返回的字段未存储在数据库中 而是从数据库计算得出 让我们看下面的例子 模型 py class IceCreamCom
  • 如何将 HTML 表格转换为 csv 格式?

    是否有 HTML 解析器或某些库可以自动将 HTML 表格转换为 CSV 数据行 Here is http www unix com shell programming scripting 45274 html table csv html
  • 进行异步调用时,“yield”在龙卷风中如何工作?

    最近我在学习龙卷风简介 我遇到了以下代码 class IndexHandler tornado web RequestHandler tornado web asynchronous tornado gen engine def get s
  • 模拟类:Mock() 还是 patch()?

    我在用mock http www voidspace org uk python mock index html使用Python 想知道这两种方法中哪一种更好 阅读 更Pythonic 方法一 只需创建一个模拟对象并使用它 代码如下 def
  • pandas-更改重采样时间序列的开始和结束日期

    我有一个时间序列 我将其重新采样到这个数据框中df 我的数据是从6月6日到6月28日 它希望将数据从6月1日延长到6月30日 计数列仅在较长时间内具有 0 值 而我的实际值是从 6 日到 28 日 Out 123 count Timesta
  • 如何连接多个字符串? [复制]

    这个问题在这里已经有答案了 如何将 stringList 中的所有字符串合并为一个而不打印它 例如 s joinStrings very hot day returns string print s Veryhotday 感觉有点倒退 但是
  • CryptoJS 和 Pycrypto 一起工作

    我正在使用 CryptoJS v 2 3 加密 Web 应用程序中的字符串 并且需要在服务器上使用 Python 对其进行解密 因此我使用 PyCrypto 我觉得我错过了一些东西 因为我无法让它工作 这是JS Crypto AES enc
  • 有不同图像尺寸的缩略图 Bootstrap

    我想要包含不同大小和不同文本量的图像的缩略图 但我希望它们都具有相同的大小 像这样来自 Bootstrap 站点的示例 http getbootstrap com components thumbnails custom content 下
  • Python 中的颜色处理

    对于我的聚类 GUI 我目前对聚类使用随机颜色 因为我事先不知道最终会得到多少个聚类 在 Python 中 这看起来像 import random def randomColor return random random random ra
  • 响应式菜单:悬停子菜单显示错误

    简而言之 我根据教程创建了一个响应式菜单 当您将鼠标悬停在投资组合按钮上时 菜单应该显示子菜单 而在移动模式下 您需要按该按钮才能显示子菜单 效果很好 问题是该教程有一个错误 如果您在桌面模式下按组合按钮 子菜单将不会再次显示 除非您按 单
  • PyMC3 和 Theano - 导入 pymc3 后,有效的 Theano 代码停止工作

    一些简单的 theano 代码可以完美运行 当我导入 pymc3 时停止工作 这里有一些片段可以重现错误 Initial Theano Code this works import theano tensor as tsr x tsr ds
  • 将 .parquet 编码为 io.Bytes

    目标 将 Parquet 文件上传到 MinIO 这需要将文件转换为字节 我已经能够做到这一点了 csv json and txt bytes data to csv encode utf 8 bytes json dumps self d
  • Python Web 编程的不同方法的优缺点

    我想使用 Python 编写一些服务器端脚本 但我对这样做的方法有点迷失了 它从 DIY CGI 方法开始 似乎以一些相当强大的框架结束 这些框架基本上可以自己完成所有工作 中间有很多东西 比如web py http webpy org P
  • 如何继承并重写 django 模型类来创建 listOfStringsField?

    我想为 django 模型创建一个新类型的字段 它基本上是一个 ListOfStrings 因此 在您的模型代码中 您将具有以下内容 模型 py from django db import models class ListOfString
  • 真实值与预测值的降维可视化

    我有一个数据框 如下所示 label predicted F1 F2 F3 F40 major minor 2 1 4 major major 1 0 10 minor patch 4 3 23 major patch 2 1 11 min

随机推荐

  • 如何在 Streamlit 中设置按钮样式

    我的应用程序中有一个按钮 我想在用户单击它时对其进行样式设置 问题是 因为 Streamlit 不允许我们向我们创建的对象发出类 所以我需要找到一种方法来以稳健且与版本无关的方式指定确切的按钮 这是按钮在 Streamlit 中的样子 di
  • 如何使用 vscode 终端打开文件?

    我想打开一个新选项卡并使用打开一个文件vscode终端 like open somefile js命令 所以我可以使用ls并快速打开文件 Use code r
  • Flask 不提供图片

    我创建了一个小型 Flask 应用程序 用于处理和呈现本地计算机上本地使用的数据 我的 Flask 应用程序处理子文件夹中的数据 然后打开网页来显示处理后的数据 除了没有提供图像之外 一切看起来都很棒 例如 生成的 HTMl 源将具有以下内
  • Java中布尔表达式求值顺序?

    假设我有以下表达式 String myString getStringFromSomeExternalSource if myString null myString trim length 0 Eclipse 警告我myString布尔表
  • 如何使用windows cmd查看用户权限?

    我正在尝试使用 Windows 中的命令提示符查看用户权限 用户帐户和用户权限 例如 SeBatchLogonRight SeDenyBatchLogonRight SeInteractiveLogonRight SeDenyInterac
  • 登录到控制台而不是减速器操作内的代理对象时如何查看状态?

    使用时console log 在减速器操作内 状态打印为代理对象 而不是我实际想要查看的对象 我怎样才能看到实际的物体 我正在使用 redux starter kit createSlice 我不确定这是否与之有关 import creat
  • 区块链可以存储在 SQL 甚至 noSQL 数据库中吗?

    我读过 区块链数据库不存储在任何单一位置 这意味着它保存的记录是真正公开的并且易于验证 此信息不存在可供黑客破坏的集中版本 它的数据由数百万台计算机同时托管 互联网上的任何人都可以访问 所以我的问题是我们可以将区块链存储在例如 sql 中吗
  • 如何将ScrollView滚动到文本中的特定位置[重复]

    这个问题在这里已经有答案了 我有一个 ScrollView 里面有一个 TextView 我想将它滚动到某个段落 就像 HTML 中的锚点一样 例如 page html paragraph id 有人知道怎么做吗 Thanks 尝试使用sc
  • 在 CDI 中指定不同的子类实现

    我有两个类 A 和 B 需要使用服务 有两个服务 S1 和 S2 S2 扩展了 S1 我希望将 S1 注入 A 类 将 S2 注入 B 类 我如何在 CDI 中完成此操作 public class S1 public class S2 ex
  • 如何将多首歌曲/曲目加载到pygame中?

    有没有办法将多首歌曲加载到 Pygame 中 我说的不是这样的音效 crash sound pygame mixer Sound crash ogg and pygame mixer Sound play crash 因为我知道显然你可以有
  • Restlet 获取 HTTP 状态代码 204 而不是 200

    对于第一个请求 我收到 JSON 响应 从下一个请求开始 我开始获取此日志和 HTTP 状态代码 204 即使 ServerResource 已成功返回表示 org restlet engine adapter ServerAdapter
  • PHP MySQL 自动完成

    我有一个自动完成搜索字段 当用户输入名称时 结果会显示在下拉列表中 这一切都工作正常 并按应有的方式显示数据 然而 我正在等待将每个结果设为链接 因此当显示结果时 用户可以单击正确的名称 然后将他们带到他们的个人资料 请参阅下面的脚本
  • XML 检测调试模式

    我知道我可以通过编程方式使用 if BuildConfig DEBUG do something for a debug build 但是 我想做的是在调试模式下显示水印 有没有办法在 XML 文件中执行类似的操作 现在可以用数据绑定库 h
  • matplotlib 极坐标二维直方图

    我试图在极轴上绘制一些直方图数据 但它似乎无法正常工作 下面是一个例子 我使用找到的自定义投影如何使 matplotlib 极坐标图中的角度顺时针旋转 顶部为 0 https stackoverflow com questions 2417
  • Xcode 6:Fabric Crashlytics 更新后找不到“Answers.h”文件

    我正在 Xcode 6 3 2 中的 Objective C 项目中编写故事板 突然 当我尝试构建时出现错误 Developer ProjectName Crashlytics framework Headers Crashlytics h
  • 用于托管 MySQL 数据库的 Cloud SQL 或虚拟机实例

    我有一个网站 但我很困惑在哪里托管其数据库 Google Cloud SQL D1 层具有 0 5 GB RAM 其费用为每天 1 46 美元 GCE n1 standard 2 有 7 5 GB RAM 其成本为每天 1 68 我将当前的
  • Azure 管道在解析管道 YAML(唯一作业名称)时遇到错误

    在我的 azure devops 项目中 我使用模板创建了一个管道 这是我的构建管道的主要 yaml 文件 name Test Date yyyyMMdd Rev r resources repositories repository ap
  • Common LISP 和 Stack 中的数字类型边界在 GHCI 中流动

    第一个问题 Common LISP 和 Haskell 的新手 请友善 我在 Common LISP 中有一个函数 下面的代码 旨在判断三角形的面积是否是整数 整数 defun area int p a b c let s a b c 2
  • 将 Javascript 变量传递给 Codeigniter 中的 PHP 控制器

    大家好 我有这个 javascript 它必须传递一些变量 包括数组 我的问题是我无法使用 URL 传递这些值 因为我可能会处理许多值 我正在尝试使用 ajax JSON 但我无法检索值 这是我的 javascript function p
  • 如何使用 BeautifulSoup 获取标签内的 html 文本

    如何从示例 HTML 中提取数据beautifulsoup