在 BeautifulSoup 中替换文本而不转义

2024-03-20

我想用 BeautifulSoup 中的锚链接包装一些尚未链接的单词。我用这个来实现它：

from bs4 import BeautifulSoup
import re

text = ''' replace this string '''

soup = BeautifulSoup(text)
pattern = 'replace'

for txt in soup.findAll(text=True):
    if re.search(pattern,txt,re.I) and txt.parent.name != 'a':
        newtext = re.sub(r'(%s)' % pattern,
                         r'<a href="#\1">\1</a>',
                         txt)
        txt.replaceWith(newtext)
print(soup)

不幸的是返回

<html><body><p>&lt;a href="#replace"&gt;replace&lt;/a&gt; this string </p></body></html>

而我正在寻找：

<html><body><p><a href="#replace">replace</a> this string </p></body></html>

有没有办法告诉 BeautifulSoup 不要转义链接元素？

在这里，一个简单的正则表达式无法替换，因为我最终不仅会拥有一个要替换的模式，而且还会有多个模式。这就是为什么我决定使用 BeautifulSoup 来排除所有已经是链接的内容。

您需要使用创建新标签new_tag http://www.crummy.com/software/BeautifulSoup/bs4/doc/#beautifulsoup-new-string-and-new-tag use insert_after http://www.crummy.com/software/BeautifulSoup/bs4/doc/#insert-before-and-insert-after插入您的一部分text在你新创建之后a tag.

for txt in soup.find_all(text=True):
    if re.search(pattern, txt, re.I) and txt.parent.name != 'a':
        newtag = soup.new_tag('a')
        newtag.attrs['href'] = "#{}".format(pattern)
        newtag.string = pattern
        txt.replace_with(newtag)
        newtag.insert_after(txt.replace(pattern, ""))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

escaping

beautifulsoup

在 BeautifulSoup 中替换文本而不转义的相关文章

在多核上运行 python 线程

我知道Python 2 7不允许在不同的内核上运行多个线程你需要使用multiprocessing模块以实现某种程度的并发性我正在看concurrent futuresPython 3 4 中的模块是否使用ThreadPoolExec
为什么我会收到 ValueError：系列的真值不明确。使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()

以下代码给出了值错误 major males for row in recent grads if recent grads Men gt recent grads Women major males append recent grads
Python Apache Beam 端输入断言错误

我对 Apache Beam Cloud Dataflow 还很陌生所以如果我的理解不正确我深表歉意我正在尝试通过管道读取大约 30 000 行长的数据文件我的简单管道首先从 GCS 打开 csv 从数据中提取标题通过 ParDo
C# html-helper 扩展现有方法而不覆盖？

我已经搜索过这个问题并发现可能answer https stackoverflow com questions 11232041 how to create an html helper to extend textboxfor to ad
lmfit模型拟合然后预测

我正在领养lmfit进行曲线拟合并使用拟合模型进行预测然而下面的代码并没有达到我想要的效果能否请你帮忙谢谢 import numpy as np from lmfit import Model def linearModel x a0
cxfreeze virtualenv 中缺少 distutils 模块

从 python3 2 项目运行 cxfreeze 二进制文件时我收到以下运行时错误 project dist project distutils init py 13 UserWarning The virtualenv distuti
如何在Python中手动对数字列表进行排序？

规格 Ubuntu 13 04 Python 3 3 1 背景 Python的初学者遇到了这个手动排序问题我被要求做的事情让用户输入 3 个数值并将它们存储在 3 个不同的变量中不使用列表或排序算法手动将这 3 个数字从小到大
Bootstrap 3 - 使用垂直滚动条水平拖动元素，overflow-y：滚动

在我的失败之后上一篇文章 https stackoverflow com questions 23586926 bootstrap grid with scrollable affixed column noredirect 1 comme
表单提交不起作用

我有一张桌子可以打印出所有可用的相机它使用表单来更改这些设置问题在于该表单仅更新条目中的最后一个摄像机换句话说如果我更改表单并为列表中的最后一个摄像机点击应用它将起作用如果我更改此列表中任何其他摄像机的表单它会将其更改为与
通过电子邮件发送在 HTML5 画布上创建的图像

我有一个画布用户可以通过交互来更改设计现在用户完成更改后可以提交他的设计及其电子邮件 ID 但为了提交设计我使用以下方法将画布转换为图像http www nihilogic dk labs canvas2image http ww
使图像宽度为父 div 的 100%，但不大于其自身宽度

我试图让图像动态放置对尺寸没有限制与其父 div 一样宽但前提是该宽度不比 100 时其自身宽度宽我已经尝试过这个但没有成功 img width 100 height auto max width 100 其中许多图像比它们的父
ImproperlyConfigured at / 不允许空静态前缀 - Django

我正在使用 Django 上传显示图像该网站部署在 Heroku 上下列的this https coderwall com p bz0sng教程我能够成功上传图像但是图像并未显示在模板中然后我了解到我的 urls py 末尾应该
Python GTK3 Treeview 向上或向下移动选择

如何在树视图中向上或向下移动所选内容我的想法是我可以使用向上和向下按钮将选择向上移动一行或向下移动一行我的 Treeview 使用 ListStore 不确定这是否重要首先我将使用我熟悉的 C 代码如果您在将其翻译为 Pytho
为什么我无法杀死 k8s pod 中的 python 进程？

我试图杀死一个 python 进程 ps aux grep python root 1 12 6 2 1 2234740 1332316 Ssl 20 04 19 36 usr bin python3 batch run py root 4
在 4K 屏幕上使用 Matplotlib 和 TKAgg 或 Qt5Agg 后端

我在 Ubuntu 16 04 上使用 Matplotlib 2 0 和 Python 3 6 来创建数据图电脑显示器的分辨率为 4k 分辨率为 3840x2160 绘图数字看起来非常小字体也很小我已经尝试过TKAgg and Qt5
python 中的 F 字符串前缀给出语法错误[重复]

这个问题在这里已经有答案了我有一个名为 method 的变量它的值是 POST 但是当我尝试运行时print f method method is used 它不断在最后一个双引号处给出语法错误我找不到它这样做的原因我正在使用 py
如何将Python包从旧版本安装到新版本？

我正在使用 python 3 7 最近在 Linux 中安装了 python 3 8 是否有任何 bash 命令或脚本可以获取 3 7 的所有软件包列表并在 3 8 版本中一一安装我想避免每个包裹都手工完成注意我将它们安装在我的系统中
Javascript 替换为正则表达式无法正常工作

我正在尝试使用正则表达式验证名称正则表达式阻止用户连续输入 2 个空格或点这是我的代码 function test input var regex A Za z 0 1 s 0 1 input value input value rep
Django 中使用外键的抽象基类继承

我正在尝试在 Django 支持的网站上进行模型继承以遵守 DRY 我的目标是使用一个名为 BasicCompany 的抽象基类来为三个子类提供通用信息 Butcher Baker CandlestickMaker 它们位于各自的应用程序
将二进制数转换为包含每个二进制数的数组

我试图将二进制值转换为每个 1 0 的列表但我得到默认的二进制值而不是列表我有一个字符串我将每个字符转换为二进制它给了我一个列表其中每个字符都有一个字符串现在我试图将每个字符串拆分为值为 0 1 的整数但我什么也得不到 if

随机推荐

Laravel 5 在测试之间重新播种数据库以进行单元测试

我从一个种子数据库开始并尝试在 Laravel 5 的单元测试之间重新种子数据库在 Laravel 4 中我知道您可以简单地使用 Illuminate Support Facades Artisan 并运行命令 Artisan cal
为什么java.nio.files.Path中没有Path构造函数？

Path 类没有记录的构造函数但可以通过以下方式创建实例 Paths get 这是FileSystems getDefault getPath 那么有人可以解释这个设计决策吗有人可以解释这个设计决定吗这是因为 JSR 203 允许从多
ManageUserViewModel 类在哪里？

我使用 ASP Net MVC 5 EF 6 和 Net 4 5 1 创建了一个项目在某些时候我需要更改项目所在的命名空间从 MyTestProject 更改为 MyRealProject 在整个网站上进行这些更改后我现在在一些视图
避免贫血域模型 - 一个真实的例子

我试图理解贫血领域模型以及为什么它们被认为是反模式这是一个现实世界的例子我有一个 Employee 类它有大量的属性姓名性别用户名等 public class Employee public string Name get se
WCF 与 Java 兼容吗？

哪些 WCF 服务协议与 Java 配合得很好 TCP 服务绑定是否可与 java 远程处理 Corba EJB JMS 等配合使用作为服务端点公开的 Web 服务又如何呢这些是否已经针对通用 Java WebServices 堆栈进
如何为特定目录设置open_basedir

我有一个目录 htdocs unsecured我想限制该目录或其子目录中的任何内容访问该目录之外的任何内容在哪里以及如何设置open basedir仅适用于此目录您可以设置open basedir在您的 Apache 配置文件 php
将 git lfs ls-files 与 git ls-files ':(attr:filter=lfs)' 进行比较是否是检测不受 lfs 管理的 lfs 文件的可靠方法？

我尝试找到一种方法来确定 git 存储库中的文件是否由 git lfs 正确管理到目前为止我发现比较结果git lfs ls files and git ls files attr filter lfs 似乎给了我我想要的 Add Ty
Ruby 相当于“grep -C 5”来获取匹配周围行的上下文？

我对此进行了一些搜索但我一定使用了错误的术语 ruby 是否有办法 grep 查找字符串正则表达式并返回周围的 5 行上面和下面我知道我可以打电话 grep C 5 或者甚至编写我自己的方法但这似乎是 ruby 拥有的东西而我只
Mac 上的 auctex 和 emacs

我想要的是能够成功使用 emacs 和 auctex 一些系统信息 ProductName Mac OS X ProductVersion 10 8 5 BuildVersion 12F45 Emacs Version 24 3 9 0 A
如何在 iPad 版 Objective C 中解析 PDF

我一直在解析 PDF 文件请指导我如何做到这一点头文件 PDFViewer h interface PDFViewer UIView CGPDFDocumentRef pdf void drawInContext CGContextRe
如何通过 XSLT 在 Java 中合并 2 个 XML 流

我想在 Java 中合并 2 个 XML 流字符串必须通过 XSLT 我可以更改转换但问题是 XML 作为字符串出现有很多例子但是通过文件可以在不将它们保存在文件中的情况下完成此操作吗 Thanks 我只知道一种使用自己的实现的
c++ max_element 每n个元素

有没有办法比较每 N 个元素来找到容器中的最大元素并返回索引使用 STL BOOST 或其他库对于每个 N 我的意思是使用 std max element 但将 for 的增加从 first 更改为 first n based on
该算法的名称是什么？它与其他图像重采样算法相比如何？

这个算法已经在我脑海中存在了很长一段时间但我找不到任何地方描述它虽然它是如此简单但我不可能是唯一一个想到它的人它的工作原理如下你从一张图片开始比如说 7x7px 您需要将其重新采样例如 5x5px 所以你要做的就是取每个新方块
UITextView 和浮动自动更正窗口的位置

我有一个启用自动更正的 UITextView 视图的高度约为 30 像素当自动更正启动时自动更正视图在文本下方几乎不可见有没有办法控制小自动更正窗口的位置或确保它是顶层以便它始终可见并且用户可以轻松查看并与之交互我发现在 UITe
Backbone.js 和 requirejs：如何将模型、视图和集合转换为 requirejs 模块？

我正在使用backbone js开发一个javascript应用程序也就是说为了便于开发我以这种方式构建我的文件 app views L movieRow js L movieDetail js models L movie js L
Java 8 构造函数参考的可怕性能和大堆占用？

我刚刚在我们的生产环境中经历了一次相当不愉快的经历导致OutOfMemoryErrors heapspace 我将问题追溯到我的使用ArrayList new在一个函数中验证这实际上比通过声明的构造函数正常创建执行得更差 t gt ne
等待设备时出错：等待模拟器上线 300 秒后超时

我一直在尝试使用 android studio 2 0 模拟器但我无法在模拟器上运行我的应用程序当我运行我的应用程序时它会显示模拟器其中包含以下详细信息哈克斯已启用 Hax ram size 0x800000000 HAx 正在运
如何设置 UIBarButtonItem 的字体大小？

我找不到自定义标题字体大小的方法UIBarButtonItem 我能想到解决这个问题的唯一方法是将其设置为图像我想避免这种情况还有其他建议吗 Objective C NSUInteger fontSize 20 UIFont font
在 Rails 中的 find 中使用 lambda

我有一个方法可以进行分页查找调用例如 1 coll paginate all lambda conditions gt status AND expires lt a DateTime now select gt Constants PO
在 BeautifulSoup 中替换文本而不转义

我想用 BeautifulSoup 中的锚链接包装一些尚未链接的单词我用这个来实现它 from bs4 import BeautifulSoup import re text replace this string soup Beauti

在 BeautifulSoup 中替换文本而不转义

在 BeautifulSoup 中替换文本而不转义 的相关文章

随机推荐

热门标签

在 BeautifulSoup 中替换文本而不转义的相关文章