如何编写一个仅解析标签之间具有特定文本的对象的 BeautifulSoup 过滤器？

2024-03-16

我正在使用 Django 和 Python 3.7。我想要更有效的解析，所以我正在阅读有关 SoupStrainer 对象的内容。我创建了一个自定义的来帮助我仅解析我需要的元素......

def my_custom_strainer(self, elem, attrs):
    for attr in attrs:
        print("attr:" + attr + "=" + attrs[attr])
    if elem == 'div' and 'class' in attr and attrs['class'] == "score":
        return True
    elif elem == "span" and elem.text == re.compile("my text"):
        return True

article_stat_page_strainer = SoupStrainer(self.my_custom_strainer)
soup = BeautifulSoup(html, features="html.parser", parse_only=article_stat_page_strainer)

条件之一是我只想解析其文本与特定模式匹配的“span”元素。因此

elem == "span" and elem.text == re.compile("my text")

条款。然而，这会导致

AttributeError: 'str' object has no attribute 'text'

当我尝试运行上面的内容时出错。编写过滤器的正确方法是什么？

TLDR;不，目前这在 BeautifulSoup 中不太可能实现（需要修改 BeautifulSoup 和 SoupStrainer 对象）。

解释：

问题是调用了 Strainer 传递的函数handle_starttag()方法。正如您所猜测的，您只有开始标记中的值（例如元素名称和属性）。

https://bazaar.launchpad.net/~leonardr/beautifulsoup/bs4/view/head:/bs4/init.py#L524 https://bazaar.launchpad.net/~leonardr/beautifulsoup/bs4/view/head:/bs4/__init__.py#L524

if (self.parse_only and len(self.tagStack) <= 1
    and (self.parse_only.text
     or not self.parse_only.search_tag(name, attrs))):
return None

正如您所看到的，如果您的 Strainer 函数返回 False，该元素将立即被丢弃，而没有机会考虑内部文本（不幸的是）。

另一方面，如果您添加“文本”进行搜索。

SoupStrainer(text="my text")

它将开始在标签内搜索文本，但这没有元素或属性的上下文 - 你可以看到讽刺：/

将它们组合在一起将一无所获。而且您甚至无法像 find 函数中所示那样访问父级：https://gist.github.com/RichardBrnosky/4060082 https://gist.github.com/RichardBronosky/4060082

所以目前过滤器可以很好地过滤元素/属性。您需要更改大量 Beautiful soup 代码才能使其正常工作。

如果你确实需要这个，我建议继承 BeautifulSoup 和 SoupStrainer 对象并修改它们的行为。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

django

python3x

Parsing

beautifulsoup

如何编写一个仅解析标签之间具有特定文本的对象的 BeautifulSoup 过滤器？的相关文章

从 ffmpeg 获取实时输出以在进度条中使用（PyQt4，stdout）

我已经查看了很多问题但仍然无法完全弄清楚我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出以便我可以创建进度条我看过这些问题 ffmpeg可以显示进度条吗 https stack
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
使用 OLS 回归预测未来值（Python、StatsModels、Pandas）

我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
使用鼻子获取设置中当前测试的名称

我目前正在使用鼻子编写一些功能测试我正在测试的库操作目录结构为了获得可重现的结果我存储了一个测试目录结构的模板并在执行测试之前创建该模板的副本我在测试中执行此操作 setup功能这确保了我在测试开始时始终具有明确定义的状态现在
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
将 JSON 对象传递给带有请求的 url

所以我想利用 Kenneth 的优秀请求模块 https github com kennethreitz requests 在尝试使用时偶然发现了这个问题自由库API http wiki freebase com wiki API 基本上
gitlab-ci 的缓存虚拟环境

我使用 Gitlab CI 脚本缓存了 Pip 包所以这不是问题现在我还想赶上Conda虚拟环境因为它减少了设置环境的时间我缓存了一个虚拟环境不幸的是最后需要很长时间才能缓存所有 venv 文件我尝试仅缓存 CI PROJEC
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
mac osx 10.8 上的初学者 python

我正在学习编程并且一直在使用 Ruby 和 ROR 但我觉得我更喜欢 Python 语言来学习编程虽然我看到了 Ruby 和 Rails 的优点但我觉得我需要一种更容易学习编程概念的语言因此是 Python 但是我似乎找不到适用于
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包
您可以使用关键字参数而不提供默认值吗？

我习惯于在 Python 中使用这样的函数方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default

随机推荐

未知的输入格式：'x11grab'

guys 当我编译 ffmpeg 并在 linux 中运行 ffmpeg 时遇到问题我的环境 1 ubuntu 17 10 x64 bit 我认为操作系统版本不是关键 2 gcc Ubuntu 6 3 0 19ubuntu1 6 3 0
我的异步调用在 forEach 循环中填充列表之前返回

我有一个例程它从设备获取文件名列表然后读取文件以构建列表然而调用例程总是返回零项我打印文件名所以我知道它们存在但是在我读取文件之前异步似乎正在返回我在进行 HTTP 调用时使用了类似的代码但是这里的某些事情导致例程返
什么是 ./.local/share/Trash (Unix) [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在使用虚拟机来运行 Java Web 应用程序操作系统是 XFCE Ubuntu 我使用命令找到了我想要的文件find name s
奇怪的 GCC 错误：程序中出现杂散 '\NNN'

我的开源库中出现了以下问题我无法弄清楚发生了什么我的两个用户有 GCC 编译器错误如下所示 home someone Source src regex cpp 1 1 warning null character s ignored
错误 ITMS - 90167 在包中找到的应用程序包数量

在开始撰写有关该错误的文章之前我正在 macOS Sierra 上运行并使用 Xcode 7 3 1 因此我从我的应用程序创建一个存档我验证该应用程序并通过验证但在上传到应用程序商店时我收到错误错误 ITMS 90167 在包中
从函数的签名中获取位置参数的名称

使用 Python 3 x 我尝试从某个函数获取所有位置参数的名称即 def foo a b c 1 return 现在我正在这样做 from inspect import signature empty args x for x p i
使用 log4net 进行日志记录的最佳实践是什么？

有人告诉我使用 log4net 将日志记录添加到我的代码中问题是没有人可以及时旅行并查看日志记录需要用来解决哪些现实世界问题因此是否有一套关于记录哪些内容以获得合理的成本收益权衡所以应该添加什么类型的日志记录到一个有用的应
更改 SweetAlert 上的图标图像大小

我正在尝试更改 SweetAlert 上的图标图像大小在 css 文件中我看到 sweet alert sa icon width 80px height 80px border 4px solid gray webkit border
从 R Studio 中的 mclapply 打印

我在 RStudio 中使用 mclapply 并希望从每个进程向控制台输出但这似乎以某种方式被抑制例如这里提到的 mclapply 是否保证按顺序返回其结果 https stackoverflow com questions 1469
避免派生类 C++ 中的“纯虚函数调用”

我对 C 相当陌生所以如果这个问题的水平稍微低于这里的通常标准我想道歉我试图让几个类从具有虚拟函数定义的基类继承然后我想创建一个 MainClass 数组它可以包含所有派生类以便输出派生定义的虚拟功能我收到错误 R6025
检测 stdout 是否重定向到管道（而不是文件、字符设备、终端或套接字）？

理想情况下这可以在 shell 中编写脚本但 Perl 或 Python 也可以 C 代码可能会有帮助但可能不符合成本效益我认识到重定向到 FIFO 命名管道可能与真实管道无法区分这已经是我并不真正关心的边缘情况了严格的 P
brew 安装 libusb 链接失败

我正在安装libusb with brew在我的 Mac 中酿造安装libusb 链接步骤失败如下所示 Error The brew link step did not complete successfully The formula
API 级别低于 9 的 android:filterTouchesWhenObscured 的类似物

从 API 级别 9 开始有android filterTouchesWhenObscured属性及对应setFilterTouchesWhenObscured方法上ViewGroup 例如当视图有onClickListener设置并且
从 XMLHttpRequest 中删除 HTTP 标头

我正在开发一个 ajax 长轮询类型应用程序我想最大限度地减少我使用的带宽量目前最大的成本之一是客户端 HTTP 标头一旦我建立了连接并在客户端上存储了会话 ID 我真的不想再浪费任何带宽来传输冗余的 http 信息例如浏览器类型
使用Java根据数据库中的最大ID生成下一个ID

我正在开发一个网络应用程序它将有多个用户我使用mysql作为数据库在我的应用程序中我正在获取最新的id from the database using max id 然后为新注册生成下一个 id 这种方法是不正确的因为 id 可能
Groupby 与 min 结合，同时保留整个数据帧[重复]

这个问题在这里已经有答案了我想结合 groupby 和 min 但保留整个数据框如果我使用下面的方法我最终只会得到 2 列即 col1 和 col2 对于这个 df col1 col2 col3 1 1 A 1 0 B 2 2 C
导入 BitTorrent Bencode 模块

我使用的是 Mac OS X 10 6 Python 是 2 6 1 我已经安装了 Bencode 模块 sudo easy install BitTorrent bencode 它出现在站点包中 Library Python 2 6 si
如何有效地将体素空间聚类成尽可能少的相似、连续的块？

我正在研究使用体素来表示大型 256x256x256 体素战场以及服务器托管的多人游戏的可破坏地形的可行性任何游戏一次只存在一个战场然而为了能够广播房间及其地形的变化我试图找到一种算法可以将体素分组为尽可能少的矩形块举一个简单
拖动 UITableView

我正在开发一个 iPhone 应用程序我想将表格视图而不是单元格拖动到屏幕中的某个点我的桌面视图位于屏幕的下半部分图像位于屏幕的上半部分当我滚动表格查看下面的行时表格实际上应该向上移动到图像上方 y pos 减小高度会增加
如何编写一个仅解析标签之间具有特定文本的对象的 BeautifulSoup 过滤器？

我正在使用 Django 和 Python 3 7 我想要更有效的解析所以我正在阅读有关 SoupStrainer 对象的内容我创建了一个自定义的来帮助我仅解析我需要的元素 def my custom strainer self ele

如何编写一个仅解析标签之间具有特定文本的对象的 BeautifulSoup 过滤器？

如何编写一个仅解析标签之间具有特定文本的对象的 BeautifulSoup 过滤器？ 的相关文章

随机推荐

热门标签

如何编写一个仅解析标签之间具有特定文本的对象的 BeautifulSoup 过滤器？的相关文章