在 beautiful soup 中使用 lambda 函数

2024-04-08

尝试匹配包含某些文本的链接。我正在做

links = soup.find_all('a',href=lambda x: ".org" in x)

但这会引发 TypeError: argument of type 'NoneType' is not iterable。

正确的做法显然是

links = soup.find_all('a',href=lambda x: x and ".org" in x)

为什么要额外加x and这里有必要吗？

原因很简单：其中之一<a>HTML 中的标签没有href财产。

这是重现异常的最小示例：

html = '<html><body><a>bar</a></body></html>'
soup = BeautifulSoup(html, 'html.parser')

links = soup.find_all('a', href=lambda x: ".org" in x)
# result:
# TypeError: argument of type 'NoneType' is not iterable

现在如果我们添加一个href属性，异常消失：

html = '<html><body><a href="foo.org">bar</a></body></html>'
soup = BeautifulSoup(html, 'html.parser')

links = soup.find_all('a', href=lambda x: ".org" in x)
# result:
# [<a href="foo.org">bar</a>]

发生的情况是 BeautifulSoup 正在尝试访问<a> tag's href财产，并返回None当该属性不存在时：

html = '<html><body><a>bar</a></body></html>'
soup = BeautifulSoup(html, 'html.parser')

print(soup.a.get('href'))
# output: None

这就是为什么有必要允许Nonelambda 中的值。自从None是一个假值，代码x and ...防止右侧and语句从何时执行x is None，正如您在这里看到的：

>>> None and 1/0
>>> 'foo.org' and 1/0
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ZeroDivisionError: division by zero

这就是所谓的短路 https://docs.python.org/3/library/stdtypes.html#boolean-operations-and-or-not.

也就是说，x and ...检查真实性x, and None并不是唯一被认为是虚假的值。所以比较一下会更正确x to None像这样：

lambda x: x is not None and ".org" in x

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

在 beautiful soup 中使用 lambda 函数的相关文章

有没有一种方法可以将python对象直接存储在mongoDB中而不需要序列化它们

我在某处读到过您可以使用 BSON 将 python 对象更具体地说是字典作为二进制文件存储在 MongoDB 中但是现在我找不到任何与此相关的文档有人知道具体如何做到这一点吗没有办法在不序列化的情况下将对象存储在文件数据库
嵌套字典中的 Django 模板

我正在使用 Django 模板并且遇到了嵌套字典的一个问题 Dict result dict type 0 file name abc count 0 type 1 file name xyz count 50 我的 HTML 文件中的模
ctypes 错误：libdc1394 错误：无法初始化 libdc1394

我正在尝试将程序编译为共享库我可以使用 ctypes 在 Python 代码中使用该库使用以下命令该库可以正常编译 g shared Wl soname mylib O3 o mylib so fPIC files pkg config
从 Python 下载/安装 Windows 更新

我正在编写一个脚本来自动安装 Windows 更新我可以将其部署在多台计算机上这样我就不必担心手动更新它们我想用 Python 编写这个但找不到任何关于如何完成此操作的信息我需要知道如何搜索更新下载更新并从 python 脚本安
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
无故运行测试时 PyCharm 抛出“AttributeError: 'module' object has no attribute”

因此我有一个 Django REST Framework 项目有一天它无法在 PyCharm 中运行测试从命令行我可以使用它们来运行它们paver or the manage py直接地曾经有一段时间当我们没有在文件顶部导入类的超
Pandas dataframe：每批行的操作

我有一个熊猫数据框df我想计算每批行的一些统计信息例如假设我有一个batch size 200000 对于每批batch sizerows 我想要一列的唯一值的数量ID我的数据框我怎样才能做这样的事情呢这是我想要的一个例子 prin
如何在VIM中设置文件的正确路径？

每当我击中 pwd在 vim 中命令总是返回路径C Windows system32 即使我在桌面上的 Python 文件中所以每当我跑步时 python 命令返回 python can t open file Users myname
小部件之间的自定义信号

尝试将信号从一个 gtk EventBox 子级发送到另一个在 init HeadMode 第 75 行上出现错误类型错误未知信号名称消息发送 why usr bin env python coding utf8 import p
将 numpy 代码点数组与字符串相互转换

我有一个很长的 unicode 字符串 alphabet range 0x0FFF mystr join chr random choice alphabet for in range 100 mystr re sub W mystr 我想
编辑 Jupyter Notebook 时 VS Code 中缺少“在选择中查找”

使用 Jupyter Notebook 时 VSCode 中缺少在选择中查找按钮它会减慢开发速度所以我想请问有人知道如何激活它吗第一张图显示了在 python 文件中的搜索替换第二张图显示了笔记本电脑中缺少的按钮 Python
如何在 Django 中使用基于类的视图创建注册视图？

当我开始使用 Django 时我几乎使用 FBV 基于函数的视图来处理所有事情包括注册新用户但当我更深入地研究项目时我意识到基于类的视图通常更适合大型项目因为它们更干净且可维护但这并不是说 FBV 不是无论如何我将整个项目
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
在 Spyder 的变量资源管理器中查看局部变量

我是 python 新手正在使用 Spyder 的 IDE 我欣赏它的一项功能是它的变量资源管理器然而根据一些研究我发现它只显示全局变量我找到的解决方法是使用检查模块 import inspect local vars def m
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
falcon，AttributeError：“API”对象没有属性“create”

我正在尝试测试我的猎鹰路线但测试总是失败而且看起来我把所有事情都做对了 my app py import falcon from resources static import StaticResource api falcon API
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
[cocos2d-x]当我尝试在 Windows 10 中运行“python android-build.py -p 19 cpp-tests”时出现错误

当我尝试运行命令时python android build p cpp tests 我收到如图所示的错误在此之前我收到了另一条关于 Android SDK Tools 版本兼容性的错误消息所以我只是将 sdk 版本从 26 0 0

随机推荐

禁用页面上的所有验证控件

在开发周期的早期阶段如果我们只想快速地从一个表单移动到另一个表单那么让所有验证控件强制执行其规则会有点烦人禁用页面上所有验证器控件的最简单方法是什么设置一个 javascript 来获取页面中的所有验证器控件并在 for 循环中将
将观察者添加到 BOOL 变量

是否可以将观察者添加到简单变量例如 BOOL 或 NSIntegers 并查看它们何时发生变化 Thanks 您观察键当它们的值发生变化时会收到通知数据类型可以是任何类型对于定义为 Objective C 属性的任何内容在 h 文
Camel如何以流模式处理json？

为了在流模式下读取 json 并解组 Camel OOB 中有哪些可用选项如果不是现成的如何实施我发现camel xstream 可能会有所帮助流模式是默认的还是我们需要做其他事情来使其以流模式读取还有 Jackson Strea
如何在 Symfony 4 中使用事件处理异常？

现在我正在尝试捕获这样的异常事件 try echo 1 0 catch Exception e subs new ExceptionSubscriber this gt dispatcher gt addSubscriber subs 我定
是否应该始终使用 boost::ptr_vector 代替 std::vector ？

这只是我遇到的一个概念性问题在我当前的项目中感觉我过度使用了 boostsmart ptr and ptr container图书馆我正在创造boost ptr vectors在许多不同的对象中并调用 Transfer 方法从一个对
AttributeError：“float”对象没有属性“lower”

我面临这个属性错误并且我陷入了如何处理浮点值如果它们出现在推文中的问题流式推文必须小写并标记化因此我使用了 split 函数有人可以帮我解决这个问题有任何解决方法或解决方案吗这是error我正在 AttributeError
如何清理redis中不活跃的玩家？

我正在制作一个使用 redis 来存储游戏状态的游戏它可以很好地跟踪位置和玩家但我没有一个好的方法来清理不活跃的玩家每当玩家移动时这是一个半慢速移动游戏想想每秒 1 5 帧我就会用新位置更新哈希并删除旧位置键跟踪活跃玩家的最佳
在 Mac OS X 上使用 docx2txt 和 Git 对 Word .docx 文件进行版本控制

On Git网站上有关于 Microsoft Word 版本控制的详细说明 doc文件与catdoc http git scm com book en Customizing Git Git Attributes http git scm
Android WebView LoadData - 土耳其字符

如何在 webview 中将土耳其语字符显示为 loadData 我的网络视图是 mWebView loadData detailsHtml text html UTF 8 thanks webView loadData htmlStr
我需要进行哪些更改才能使 Magento 与 PHP 5.3 配合使用？

我需要将我的服务器升级到 PHP 5 3 但安装了 Magento 而且我知道 Magento 不能很好地与 PHP 5 3 配合使用我认为变化不会太大根据我所读到的但是我想我应该向大众开放有人成功做到这一点吗如果是这样你记好
开关盒无法正常工作

当我离开现场时我发布了下面的代码ip空白空并向其他字段赋值 toast总是给出消息KATimer is invalid or missing 我期望看到一个toast显示一条消息指示空字段但下面的代码如果任何字段为空它总是说KA
有没有一种方法可以列出所有对象，例如使用同义词的视图？

就像罐头上说的那样如何确定哪些 SQL 对象正在使用给定的 SYNONYM 我想一种方法是搜索 PROC 或 VIEW 的所有内容并运行LIKE SYN NAME 但这看起来很笨拙 select from sys sql expressi
如何在.NET MAUI 中创建可重用组件？

我最近刚刚开始使用 Net MAUI 但现在我想知道如何使用一段代码例如我的所有页面上都有一个自制的导航栏因为在所有 10 个页面上编写相同的代码是没有意义的我想知道是否有办法创建一个可以像 React 或 Angular 一样重用的
使用 psycopg2 插入多行

根据psycopg2 用一个查询插入多行 https stackoverflow com questions 8134602 psycopg2 insert multiple rows with one query 使用 psycopg2
Visual Studio Windows 窗体预览以不同的分辨率？

我喜欢以 1680 x 1050 分辨率运行 Visual Studio 但是我们的客户通常使用 1024 x 768 是否有某种方法可以使我的编辑器保持原始分辨率但以不同的分辨率显示表单设计器谢谢 Austin 我建议您购买一个额外
如何获取 google+ 的公共数据以及如何使用 php 从我的网站发布到 google+

我的网站和 google plus 之间的身份验证工作正常但我的详细信息和我的活动现在没有显示我们得到 Googleplus 的 getAccessToken 就像 access token ya29 AHES6ZSTauVKgrdDU
继承后受保护的成员行为。

我对受保护的标识符有一些疑问在 K Sierra 编写的 Sun Certified Java Programmer Study Guide 的第一章中我发现了以下信息一旦包外子类继承了受保护的成员该成员由子类继承就成为子类外部
将 Pandas 数据帧转换为时间序列

我有一个熊猫数据框 Out 57 lastrun rate 0 2013 11 04 12 15 02 0 1 2013 11 04 13 14 50 4 2 2013 11 04 14 14 48 10 3 2013 11 04 16 1
迭代器的无限产量

我正在尝试学习一些红宝石想象一下我正在循环并执行一个长时间运行的过程在这个过程中我希望获得一个旋转器只要需要就可以所以我可以这样做 a aNow 0 skip setup a big loop print a aNow aNow
在 beautiful soup 中使用 lambda 函数

尝试匹配包含某些文本的链接我正在做 links soup find all a href lambda x org in x 但这会引发 TypeError argument of type NoneType is not iterabl

在 beautiful soup 中使用 lambda 函数

在 beautiful soup 中使用 lambda 函数 的相关文章

随机推荐

热门标签

在 beautiful soup 中使用 lambda 函数的相关文章