使用 CSS 选择器和 BeautifulSoup 获取属性值

2024-06-25

我正在抓取网页Python并使用BeutifulSoup library

I have HTML像这样的标记：

<tr class="deals" data-url="www.example2.com">
<span class="hotel-name">
<a href="www.example2.com"></a>
</span>
</tr>
<tr class="deals" data-url="www.example3.com">
<span class="hotel-name">
<a href="www.example3.com"></a>
</span>
</tr>

我想要得到data-url or the href全部价值<tr>s。如果我能得到就更好了href value

这是我的相关代码的一小段：

main_url =  "http://localhost/test.htm"
page  = requests.get(main_url).text
soup_expatistan = BeautifulSoup(page)

print (soup_expatistan.select("tr.deals").data-url)
# or  print (soup_expatistan.select("tr.deals").["data-url"])

您可以使用tr.deals span.hotel-name a用于访问链接的 CSS 选择器：

from bs4 import BeautifulSoup

data = """
<tr class="deals" data-url="www.example.com">
<span class="hotel-name">
<a href="wwwexample2.com"></a>
</span>
</tr>
"""

soup = BeautifulSoup(data)
print(soup.select('tr.deals span.hotel-name a')[0]['href'])

Prints:

wwwexample2.com

如果您有多个链接，请迭代它们：

for link in soup.select('tr.deals span.hotel-name a'):
    print(link['href'])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

css

python3x

beautifulsoup

htmlparsing

使用 CSS 选择器和 BeautifulSoup 获取属性值的相关文章

如何在CSS中水平对齐div

我在一个容器内有三个子 div 我想水平对齐这些 div 我尝试使用CSSfloat财产但圆圈正在变成椭圆形标记代码 div class container info box clearfix div class circle div
python 函数 *args 和 **kwargs 以及其他指定的关键字参数

我有一个 Python 类它的方法应该以这种方式接受参数和关键字参数 class plot def init self x y self x x self y y def set axis self args xlabel x ylabe
映射 2 个数据帧并替换目标数据帧中匹配值的标头

我有一个数据框 df1 SAP Name SAP Class SAP Sec Avi 5 C Rison 6 A Slesh 7 B San 8 C Sud 7 B df2 Name Fi Class Avi 5 Rison 6 Slesh
在 Python 中解压存档时出现错误

我使用 Python 下载 bz2 文件然后我想使用以下方法解压存档 def unpack file dir file cwd os getcwd os chdir dir print Unpacking file s file cmd
Python Jinja2 调用宏会导致（不需要的）换行符

我的 JINJA2 模板如下所示 macro print if john name if name John Hi John endif endmacro Hello World print if john Foo print if joh
CSS @import 及其顺序

是否可以使用 importone像这样的 css 文件 import file1 some css here import file2 chrome 无法识别上述第二个导入但这可以工作 import file1 import file2
Python 中没有名称属性的表单提交

背景在Python中使用urllib和urllib2 您可以进行表单提交您首先创建一个字典 formdictionary search stackoverflow 然后使用 urllib 的 urlencode 方法来转换这个字典 pa
导入tensorflow模块在tensorflow 2中很慢

有关的导入 TensorFlow contrib 模块在 TensorFlow 1 2 1 中速度很慢 https stackoverflow com questions 45093653 import tensorflow contri
基于 Pandas 中特殊字符分隔列中的每个项目进行聚合

我输入的数据如下 Date Investment Type Medium 1 1 2000 Mutual Fund Stocks Fixed Deposit Real Estate Own Online Through Agent 1 2
python请求ssl握手失败

每次我尝试这样做 requests get https url 我收到这条消息 import requests gt gt gt requests get https reviews gethuman com companies Trace
pip 升级到 pip 10.x.x 后解析需求文件的正确方法？

所以今天我确实发现随着发布pip 10 x x the req软件包更改了其目录现在可以在下面找到pip internal req 由于通常的做法是使用parse requirements功能在你的setup py从需求文件中安装所有依赖
如何隐藏 Tkinter python Gui

有人知道如何隐藏 python GUI Tkinter 我已经创建了键盘记录器对于 GUI 我使用了 python 模块 Tkinter 我想添加名为 HIDE 的按钮因此当用户单击它时它将隐藏 GUI 当用户按下 CTRL E 之类
如何使用 opencv python 根据检测到的物体的位置生成其热图

我需要根据对象的位置生成其热图示例视频帧中检测到的绿色球如果它长时间停留在某个位置那么该位置应该是红色的并且球在短时间内经过的帧中的位置必须是蓝色的这样我就需要生成热图提前致谢那么你在这里可以做的是 1 首先定义一个热图作为
pandas groupby 中两个系列的最大值和最小值

是否可以从 groupby 中的两个系列中获取最小值和最大值例如下面的情况分组时c 我怎样才能得到最小值和最大值a and b同时 df pd DataFrame a 10 20 3 40 55 b 5 14 8 50 60 c x x
Python pandas：向我的数据框中添加一列来计算变量

我有一个像这样的数据框 gt org group org1 1 org2 1 org3 2 org4 3 org5 3 org6 3 我想将列 count 添加到 gt 数据帧以计算组的成员数量预期结果如下 org group count
谷歌脚本抓取解析器有两个同名的类

我正在寻找在谷歌脚本中构建一个爬虫有 2 个班级同名我找不到获得第二个班级的方法它只输出第一个 function myFunction var url https www zchocolat com shop fr livraison
在 Python 中为非唯一列表创建虚拟列

目前我有下一个数据框 import pandas as pd df pd DataFrame ID 1 2 3 4 5 col2 a b c c d e f f b f a c b b a b print df ID c
VSCode IntelliSense 认为 Python 'function()' 类存在

VSCode IntelliSense 正在完成一个名为的 Python 类function 这似乎不存在例如这似乎是有效的代码 def foo value return function value foo 0 But functio
如何限制单元测试的最大运行时间？

我目前正在运行一些单元测试这些测试可能需要很长时间才能失败或无限期地运行在成功的测试运行中它们总是会在一定的时间内完成是否可以创建一个 pytest 单元测试如果在一定时间内未完成该测试就会失败您可以安装 pytest tim
定义Python类时，如何在其中设置随机变量？

假设我有一个名为Person 其中只有该人的姓名和性别性别应从男性和女性中随机选择为此我导入random randint 功能根据随机int确定随机性别 import random class Person alias random

随机推荐

使用 jquery 将一个 html 页面加载到另一页面中

我想在里面加载一个 html 文件 hello world html 另一个 html 页面 index html 这两个文件位于同一位置这是我写的代码但它没有加载任何东西两个警报都有效我故意发出来检查是否 jquery 是否工作
Surefire 未接受 Junit 4 测试

由于某种原因我无法让 Maven 2 Surefire 插件执行 JUnit 4 测试类 public class SimpleTest org junit Test public void simple System out print
带有命名参数的 vsprintf 或 sprintf，或者 PHP 中的简单模板解析

我正在寻找一种使用方法命名参数 for sprintf or printf Example sprintf Last time logged in was hours hours minutes minutes seconds second
Spark UDF 错误 - 不支持 Any 类型的架构

我正在尝试创建一个 udf 它将列中的负值替换为 0 我的数据框名为 df 包含一列名为 avg x 这是我创建 udf 的代码 val noNegative udf avg acc x Double gt if avg acc x lt
阻止直到表单关闭？窗体

我有一个启动 formB 的表单我希望将 forma 隐藏起来直到 form 关闭 formC 和其他人可能打开了一个更改表单所以我根本无法创建一个新表单有没有办法启动 formB 隐藏并阻止直到关闭这应该可以做到 this Vi
如何编写简单的SMPP服务器

我想编写一个简单的 SMPP 服务器基本上将流量转发到另一个 SMPP 服务器 C PHP 我需要知道哪些事情我该如何继续关于 Goran 的评论一种可能的解决方案是一个简单的 tcp 代理例如简单代理 http sourcefo
在 C#/VB.NET 或 C++ Win32 中启用/禁用 Aero

如何在 C NET 或 C Win32 中禁用航空效果这是我在 C C 中的测试代码但仅在我的应用程序运行时才有效 include
函数重载在运行时如何工作，为什么要重载？

假设我有一个名为 ClothingStore 的类该类有 3 个成员函数将访问者引导至商店的正确部门成员函数为 ChildrenDept MenDept 和 WomenDept 具体取决于访客是儿童男性还是女性函数重载可用于创建
QlikView 中的 TOTAL 与 Aggr

我试图理解如何TOTAL and Aggr在 QlikView 中工作有人可以解释一下下面两个例子之间的区别吗如果可能的话请用 SQL 查询来说明示例1 Max
使用 Android 检测用户活动（跑步、骑自行车、驾驶）

使用我的 Android 设备如何检测用户是否正在步行骑自行车或开车我已经检查过谷歌健身应用程序 https play google com store apps details id com google android apps f
DotNetOpenId —“此消息已被处理”错误（第 2 部分）

这已经被问过Here https stackoverflow com questions 727838 dotnetopenid this message has already been processed error 但不是我做的 OP
使用 openCV 检测 ROI

我正在做一项工作我必须找到感兴趣的区域 ROI 然后对图像执行阈值由于我不是计算机领域的所以我遇到了一些困难我开始尝试通过以下代码找到投资回报率 code string filename 2011 06 11 09 3A12 3A1
如何在不指定数据集的情况下调整函数

我有一个函数基本上可以过滤SPV行如下所示请注意我这样做return coef lt function df1 idd dmda CategoryChosse 然而我不希望df1作为函数的参数而是函数的属性df1数据集在本例中
C++循环引用问题

我有两节课 DataObject and DataElement DataObject保存指向仅的指针DataElements 和一个DataElement包含指向多种类型的指针其中一个DataObject 这曾经没有问题因为我只使
Twig 渲染与包含 - 何时何地使用其中之一？

我读了Twig 渲染与包含 https stackoverflow com questions 9077097 twig render vs include但这不是我要找的我不确定应该在何时何地使用 render 以及何时应该使用 inc
Spring + Thymeleaf 自定义验证展示

我一直在尝试让自定义 javax 验证工作 Spring Boot 和 Thymeleaf 但我不知道如何显示错误消息问题似乎是正常错误例如 Size NotNull 等似乎会向绑定结果添加 FieldError 不过我的自定义
为什么是 HSHELL_WINDOWDESTROYED、HSHELL_WINDOWCREATED？

MSDN ShellProc功能 RegisterShellHookWindow功能 HSHELL WINDOWCREATED gt A top level unowned window has been created HSHELL WI
Laravel /broadcasting/auth 总是失败并出现 403 错误

我最近深入研究了 Laravel 5 3 的 Laravel Echo 和 Pusher 组合我已成功建立公共频道并转向私人频道我在 Laravel 从 broadcasting auth 路由返回 403 时遇到了麻烦无论我做什么来
Symfony 4 应用程序可与 Docker Compose 配合使用，但无法与 Docker Swarm 配合使用（无法登录，分析器损坏）

我在用着Docker 组合本地 app容器 Nginx PHP FPM with a 交响乐4 app PostgreSQL容器 Redis容器它在本地运行良好但部署到开发中时效果很好码头工人群集群我无法登录 Symfony 应用程序
使用 CSS 选择器和 BeautifulSoup 获取属性值

我正在抓取网页Python并使用BeutifulSoup library I have HTML像这样的标记 tr class deals span class hotel name a href www example2 com a sp

使用 CSS 选择器和 BeautifulSoup 获取属性值

使用 CSS 选择器和 BeautifulSoup 获取属性值 的相关文章

随机推荐

热门标签

使用 CSS 选择器和 BeautifulSoup 获取属性值的相关文章