美丽的汤 - 去除外部标签

2024-03-16

我有一个 HTML 文档，其中包含一堆<div>的，带着孩子<p>的和里面<href>的。目标是这样的，

去除<div> and <p> tags
在每个删除的末尾<div> add a </br>

Example

这样：

<div> 
  <p>
    <a href="" id="tnt1">[1]</a>"RFC 4456 - BGP Route Reflection: An Alternative to Full ... - IETF Tools.">ref="https://example.com">https://https://example.com"</a></span><span>. Accessed 15 Nov. 2017.
  </p>
</div>

就变成这样了：

<a href="" id="tnt1">[1]</a>"RFC 4456 - BGP Route Reflection: An Alternative to Full ... - IETF Tools.">ref="https://example.com">https://https://example.com"</a></span><span>. Accessed 15 Nov. 2017.
</br>

Current

到目前为止我的代码是：

from bs4 import BeautifulSoup

for div in soup.find_all(name=re.compile(r'div')):
    print div

然而，所有示例似乎都指向替换内部文本而不是实际标签。另外，如果有办法在 bs3 中做到这一点，那将是理想的，因为我所有其他代码当前都使用 v3。

有人能指出我正确的方向吗？谢谢，

''.join(str(x) for x in div.p.contents)给我内部 HTML 作为 bs4 上的字符串

I get parent = div.parent稍后使用它

Using div.extract()我删除div与所有子标签。

Using parent.append()我把内部 HTML 放回去了。

from bs4 import BeautifulSoup

data = '''<strong>
<div> 
  <p>
    <a href="" id="tnt1">[1]</a>"RFC 4456 - BGP Route Reflection: An Alternative to Full ... - IETF Tools.">ref="https://example.com">https://https://example.com"</a></span><span>. Accessed 15 Nov. 2017.
  </p>
</div>
</strong>'''

soup = BeautifulSoup(data, 'html.parser')

for div in soup.find_all('div'):
    parent = div.parent

    inner = ''.join(str(x) for x in div.p.contents) + "<br/>"
    print('--- inner ---')
    print(inner)

    # remove div with all subtags
    div.extract()

    parent.append(BeautifulSoup(inner, 'html.parser'))
    print('--- after ---')
    print(parent)

Result:

--- inner ---

<a href="" id="tnt1">[1]</a>"RFC 4456 - BGP Route Reflection: An Alternative to Full ... - IETF Tools.">ref="https://example.com">https://https://example.com"<br/>
--- after ---
<strong>

<a href="" id="tnt1">[1]</a>"RFC 4456 - BGP Route Reflection: An Alternative to Full ... - IETF Tools."&gt;ref="https://example.com"&gt;https://https://example.com"<br/></strong>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

美丽的汤 - 去除外部标签的相关文章

python：查找围绕某个 GPS 位置的圆的 GPS 坐标的优雅方法

我有一组以十进制表示的 GPS 坐标并且我正在寻找一种方法来查找每个位置周围半径可变的圆中的坐标这是一个例子 http green and energy com downloads test circle html我需要什么这是一个圆
如何手动计算分类交叉熵？

当我手动计算二元交叉熵时我应用 sigmoid 来获取概率然后使用交叉熵公式并平均结果 logits tf constant 1 1 0 1 2 labels tf constant 0 0 1 1 1 probs tf nn sigm
使用 python requests 模块时出现 HTTP 503 错误

我正在尝试发出 HTTP 请求但当前可以从 Firefox 浏览器访问的网站响应 503 错误代码本身非常简单在网上搜索一番后我添加了user Agent请求参数但也没有帮助有人能解释一下如何消除这个 503 错误吗顺便说一句
为什么从 Pandas 1.0 中删除了日期时间？

我在 pandas 中处理大量数据分析并每天使用 pandas datetime 最近我收到警告 FutureWarning pandas datetime 类已弃用并将在未来版本中从 pandas 中删除改为从 datetime 模块
元组有什么用？

我现在正在学习 Python 课程我们刚刚介绍了元组作为数据类型之一我阅读了它的维基百科页面但是我无法弄清楚这种数据类型在实践中会有什么用处我可以提供一些需要一组不可变数字的示例吗也许是在 Python 中这与列表有何不同每
需要在python中找到print或printf的源代码[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在做一些我不能完全谈论的事情我
删除flask中的一对一关系

我目前正在使用 Flask 开发一个应用程序并且在删除一对一关系中的项目时遇到了一个大问题我的模型中有以下结构 class User db Model tablename user user id db Column db String
独立滚动矩阵的行

我有一个矩阵准确地说是 2d numpy ndarray A np array 4 0 0 1 2 3 0 0 5 我想滚动每一行A根据另一个数组中的滚动值独立地 r np array 2 0 1 也就是说我想这样做 print np
使用字典映射数据帧索引

为什么不df index map dict 工作就像df column name map dict 这是尝试使用index map的一个小例子 import pandas as pd df pd DataFrame one A 10 B 2
立体太阳图 matplotlib 极坐标图 python

我正在尝试创建一个与以下类似的简单的立体太阳路径图 http wiki naturalfrequent com wiki Sun Path Diagram http wiki naturalfrequency com wiki Sun Pa
使用 xlrd 打开 BytesIO (xlsx)

我正在使用 Django 需要读取上传的 xlsx 文件的工作表和单元格使用 xlrd 应该可以但因为文件必须保留在内存中并且可能不会保存到我不知道如何继续的位置本例中的起点是一个带有上传输入和提交按钮的网页提交后文件被捕获req
“隐藏”内置类对象、函数、代码等的名称和性质[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我很好奇模块中存在的类builtins无法直接访问的例如 type lambda 0 name function of module
如何通过索引列表从 dask 数据框中选择数据？

我想根据索引列表从 dask 数据框中选择行我怎样才能做到这一点 Example 假设我有以下 dask 数据框 dict A 1 2 3 4 5 6 7 B 2 3 4 5 6 7 8 index x1 a2 x3 c4 x5 y6 x
Numpy - 根据表示一维的坐标向量的条件替换数组中的值

我有一个data多维数组最后一个是距离另一方面我有距离向量r 例如 Data np ones 20 30 100 r np linspace 10 50 100 最后我还有一个临界距离值列表称为r0 使得 r0 shape Dat
Cython 和类的构造函数

我对 Cython 使用默认构造函数有疑问我的 C 类 Node 如下 Node h class Node public Node std cerr lt lt calling no arg constructor lt lt std e
不同编程语言中的浮点数学

我知道浮点数学充其量可能是丑陋的但我想知道是否有人可以解释以下怪癖在大多数编程语言中我测试了 0 4 到 0 2 的加法会产生轻微的错误而 0 4 0 1 0 1 则不会产生错误两者计算不平等的原因是什么在各自的编程语言中可以采
为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍，而速度却没有任何提升？

我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议因此我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle
在本地网络上运行 Bokeh 服务器

我有一个简单的 Bokeh 应用程序名为app py如下 contents of app py from bokeh client import push session from bokeh embed import server do
Django-tables2 列总计

我正在尝试使用此总结列中的所有值文档 https github com bradleyayers django tables2 blob master docs pages column headers and footers rst 但页
使用随机放置的 NaN 创建示例 numpy 数组

出于测试目的我想创建一个M by Nnumpy 数组与c随机放置的 NaN import numpy as np M 10 N 5 c 15 A np random randn M N A mask np nan 我在创建时遇到问题mas

随机推荐

Android USB 配件多线程

我遇到了由多线程和 Android Open Accessory 引起的问题我需要与 USB 附件通信但我需要从 2 个线程进行通信一个线程生成并发送数据另一个线程读取数据为什么我不使用单线程因为在读取之前可能有 1 次或多次写
使用 Rust 从不同偏移量的文件中读取

我正在开发一个项目该项目涉及从不同偏移量的文件中读取不同的信息目前我正在使用以下代码 SECTORS PER CLUSTER starts at 13 opened file seek SeekFrom Start 13 unwrap
如果在 javascript 中返回，如何抓取搜索结果（使用 python）

我想要抓取的网站使用 JavaScript 填充返回我可以简单地以某种方式调用脚本并处理其结果吗当然没有分页我不想运行整个过程来抓取生成的格式化 HTML 但原始源是空白的看一看回报的来源很简单
问：在 rmarkdown html 中的 for 循环中创建传单地图

我正在尝试在 rmarkdown 文件中创建带有 for 循环的传单地图这是一个最小的例子 title Test output html document r quakes echo F data quakes library leafl
AMP Html 无法在 iphone safari 浏览器上运行以进入新窗口

最近我正在使用 Accelerated Mobile Pages AMP 开发渐进式 Web 应用程序我必须添加锚链接target blank 以便用户单击该链接将被重定向到带有锚点位置的新窗口 a href External Url
Angular.js ng-style 不会绑定值

我在 angularjs 上遇到了问题即使经过研究我也找不到错在哪里我需要重新计算元素的 css 值 left 我正在使用 ng style 指令和一个将返回具有 css 值的对象的方法这就是据我所知我必须做的但是当我更新值时
项目骑手 - 构建时查看 msbuild 输出

当我尝试构建解决方案时我想查看 msbuild 日志它最初是 Visual Studio 2015 的解决方案 Rider 的输出构建窗口视图 gt 工具窗口 gt 构建显示 Microsoft R 构建引擎版本 14 0 2542
使用 git rebase 时自动跳过空提交

通常你必须做git rebase skip 如果有一个开关可以自动跳过这些空提交那就太好了有人知道怎么做吗非常古老的话题但对我来说是搜索引擎上的第一个结果我终于发现有一个 empty参数可以采用以下值之一 keep drop 和
Android 词典应用程序

我想在字典之上开发一个应用程序即使用字典作为其一部分的应用程序市场上有用于此目的的任何字典应用程序吗遵循 GPL 的应用程序是更好的还有那些使用本地数据库的应用程序而不是使用网络连接是更好的选择如果没有市场上是否有可用的词典数据
使用 Android Studio 将 iTextG 包含在 Android 项目中

在 Android Studio 中包含 iTextG 时出现以下错误 com android dex DexException Multiple dex files define Lcom itextpdf awt geom Affine
GAE/P：API 调用的交易安全

假设您使用交易来处理 Stripe 付款并更新用户实体 ndb transactional def process payment user key amount user user key get user stripe payment
Python：捕获任何异常并将其放入变量中

为了弄清楚如何避免一些递归我需要捕获任何异常编辑不仅仅是从 Exception 派生的异常而是所有异常包括 KeyboardInterrupt 和用户异常将其放入变量中然后重新引发它位于 catch 块之外本质上我正在尝试
如何使用 mixpanel API？

我无法连接到 mixpanel 我尝试过使用正确的 api key 和 api secret 如下所示
调度程序 Invoke(...) 与 BeginInvoke(...) 混淆

我很困惑为什么我不能在 Count 方法中的 Dispatcher 上使用 BeginInvoke 来使此测试计数器应用程序与 2 个或更多同时运行的 countertextbox 一起使用您可以通过将 BeginInvoke 替换为
查找 CMake 的包 Eigen3

CMake 找不到我的Eigen3包裹我设置了一个名为的环境变量 EIGEN3 INCLUDE DIR 指向路径所在的位置FindEigen3 cmake is 然后在 CMakelists txt 中我写道 find package E
嵌入式 SurveyMonkey 调查未出现在移动设备上

我希望将现有的猴子调查嵌入到网页中请按照此处的说明进行操作 http help surveymonkey com articles en US kb Website Collector http help surveymonkey com
perl 从 imap 消息中获取所有消息头

I use Mail IMAPClient https metacpan org pod Mail IMAPClient 有一些变数 body imap gt body string msg header imap gt message s
JSON Post 调用错误函数

我有这个 jquery post 调用它以某种方式调用错误函数即使它将数据完美地输入数据库
对 Yampa 开关的图表感到困惑

有一些 Yampa 开关的图表 http www haskell org haskellwiki Yampa switch http www haskell org haskellwiki Yampa switch http www has
美丽的汤 - 去除外部标签

我有一个 HTML 文档其中包含一堆 div 的带着孩子 p 的和里面 p div

美丽的汤 - 去除外部标签

美丽的汤 - 去除外部标签 的相关文章

随机推荐

热门标签

美丽的汤 - 去除外部标签的相关文章