BeautifulSoup 获取 href [重复]

2024-01-02

我有以下内容soup:

<a href="some_url">next</a>
<span class="class">...</span>

我想从中提取 href，"some_url"

如果我只有一个标签就可以做到，但这里有两个标签。我也能得到文字'next'但这不是我想要的。

另外，是否有关于 API 的详细描述和示例。我在用着标准文档 http://www.crummy.com/software/BeautifulSoup/documentation.html，但我正在寻找更有组织性的东西。

您可以使用find_all通过以下方式找到每个a元素有一个href属性，并打印每一项：

# Python2
from BeautifulSoup import BeautifulSoup
    
html = '''<a href="some_url">next</a>
<span class="class"><a href="another_url">later</a></span>'''
    
soup = BeautifulSoup(html)
    
for a in soup.find_all('a', href=True):
    print "Found the URL:", a['href']

# The output would be:
# Found the URL: some_url
# Found the URL: another_url

# Python3
from bs4 import BeautifulSoup

html = '''<a href="https://some_url.com">next</a>
<span class="class">
<a href="https://some_other_url.com">another_url</a></span>'''

soup = BeautifulSoup(html)

for a in soup.find_all('a', href=True):
    print("Found the URL:", a['href'])

# The output would be:
# Found the URL: https://some_url.com
# Found the URL: https://some_other_url.com

请注意，如果您使用旧版本的 BeautifulSoup（版本 4 之前），则此方法的名称为findAll。在版本4中，BeautifulSoup的方法名称已更改为符合 PEP 8 http://www.crummy.com/software/BeautifulSoup/bs4/doc/#method-names，所以你应该使用find_all反而。

如果你想all带有一个标签href，你可以省略name范围：

href_tags = soup.find_all(href=True)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

BeautifulSoup 获取 href [重复] 的相关文章

xlrd.biffh.XLRDError：Excel xlsx 文件；不支持[重复]

这个问题在这里已经有答案了我正在尝试使用读取启用宏的 Excel 工作表pandas read excel与 xlrd 库它在本地运行良好但是当我尝试将其推送到 PCF 时我收到此错误 2020 12 11T21 09 53 441
如何使用 pyinstaller 包含文件？

我也使用 tkinter 使用 python 3 7 编写了一个程序由于我使用的是外部图片因此当我将所有内容编译为一个 exe 时我需要包含它们我试过做 add data bg png files 但我仍然收到此错误 tkinter
Python有条件求解时滞微分方程

我在用dde23 of pydelay包来求解延迟微分方程我的问题如何有条件地编写方程例如目标方程有两个选项 when x gt 1 dx dt 0 25 x t tau 1 0 pow x t tau 10 0 0 1 x othe
Kivy - 文本换行工作错误

我正在尝试在 Kivy 1 8 0 应用程序中换行文本当没有太多文字时一切正常但如果文本很长并且窗口不是很大它只是剪切文本这是示例代码 vbox BoxLayout orientation vertical size hint y
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
希伯来语中的稀疏句子标记化错误

尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
Jupyter Notebooks 不显示进度条

我正在尝试在 Jupyter 笔记本中显示进度条这是一台新电脑我通常做的事情似乎不起作用 from tqdm import tqdm notebook example iter 1 2 3 4 5 for rec in tqdm not
将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000
TF map_fn 或 while_loop 用于不同形状的张量列表

我想处理不同形状的张量序列列表并输出另一个张量列表考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
取消选择所有复选框后，客户端过滤器显示所有项目

加载时复选框将取消选中并显示所有列表项当选中过滤器时将显示相关的列表项我遇到的问题是当您再次取消选中所有复选框时我需要显示所有项目而不是隐藏这是我的小提琴 http jsfiddle net amesy B9Hnu 124
numpy 使用 datetime64 进行数字化

我似乎无法让 numpy digitize 与 datetime64 一起使用 date bins np array np datetime64 datetime datetime 2014 n 1 s for n in range 1 1
Python Pandas 根据另一列的总计从另一个数据帧中选择值

我下面有一个 DataFrame 但我需要根据取消和订单列从每个代码中选择行假设代码 xxx 的阶数为 6 1 5 1 阶数为 11 我需要一种算法可以选择满足总共 11 行的行阶数为 6 5 如果没有行匹配则选择最接近的 id 并
python是带有字符串的运算符行为[重复]

这个问题在这里已经有答案了我无法理解以下行为我正在创建 2 个字符串并使用 is 运算符来比较它对于第一种情况它的工作方式有所不同对于第二种情况它按预期工作当我使用逗号或空格时它显示是什么原因False与比较is当没有使用
与 while 循环一样，如何跳过 for 循环中的步骤？

我尝试像 while 循环一样跳过 for 循环中的几个步骤在 while 循环中步骤根据特定条件进行调整如下面的代码所示 i 0 while i lt 10 if i 3 i 5 else print i i i 1 result
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
Python 类型安全吗？

根据维基百科 https en wikipedia org wiki Type system Type safety and memory safety 如果一种语言不允许违反类型系统规则的操作或转换计算机科学家就认为该语言是类型安全的
如何使用 Keras ImageDataGenerator 预测单个图像？

我已经训练 CNN 对图像进行 3 类分类在训练模型时我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它现在我的网络在测试集上训练得非常准确但我不知道如何在单图像预测上应用预处理功能如
是否可以将 pd.Series 分配给无序 pd.DataFrame 中的列而不映射到索引（即不重新排序值）？

在 Pandas 中创建或分配新列时我发现了一些意外的行为当我对 pd DataFrame 进行过滤或排序从而混合索引然后从 pd Series 创建新列时 Pandas 会重新排序该系列以映射到 DataFrame 索引例如 d
使用 urllib 编码时保持 url 参数有序

我正在尝试用 python 模拟 get 请求我有一个参数字典并使用 urllib urlencode 对它们进行 urlencode 我注意到虽然字典的形式是 k1 v1 k2 v2 k3 v3 urlencoding 后参数的顺序切

随机推荐

简单的 TextView.setText 导致 40% CPU 使用率

运行我的应用程序会导致我的手机 CPU 使用率达到约 40 final String position String format 02d 02d 02d time getHours time getMinutes time getSeco
Excel VBA 中的定时警报

我在 Excel 2003 中制作了一个日历来跟踪任务和类似项目我需要做的是通过 VBA 设置计时器像这样的事情 run in x secs timetowait function to exec 有没有办法在 excel vba 中做
如何用字符串替换缩写？

我正在创建一个 XSL 文件该文件将从 XML 文件中提取有关在我所在区域被拖走的汽车的信息并按汽车被拖走的日期按升序对其进行排序我需要在转换后的文件中显示拖车日期车牌和汽车颜色我的问题是每辆车的颜色都有缩写我想要颜色的全名而不
在NancyFx中获取url参数

我正在使用 NancyFx 构建 Web API 但从 URL 获取参数时遇到一些问题我需要向 API 发送请求 consumptions hourly from 1402012800000 tags 171 1342 5D to 140
多个卷到单个目标目录？

有没有办法从主机挂载多个卷以形成单个目标挂载点有点像这样 docker run name ubuntu bash rm interactive tty volume media Large videos videos volume med
将 GIT 与在多个位置具有目录的项目一起使用

我正在尝试将 PHP MySQL Web 应用程序基于 CodeIgniter 2 01 框架构建移动到 GIT 存储库问题是为了增加安全性我实施了分离应用程序部分应用程序和系统文件夹和 Web 文件 index php 图像
使用非虚拟析构函数扩展基类是否危险？

在下面的代码中 class A class B public A class C public A int x int main int argc char argv A b new B A c new C in both cases on
Log4j2/JPA/Hibernate 日志记录不起作用

我无法使用 log4j2 生成休眠日志消息它仅记录信息和警告另一方面 HikariCP 与此配置完美配合这是 pom xml
vim 中的自适应 Tab 键

我碰巧处理的代码中某些模块使用制表符进行缩进而其他模块则使用空格许多文本编辑器例如 Np 具有某种自适应制表符功能如果前一行或代码块使用空格或制表符视情况而定则使用空格进行缩进我还没有在 vim 中看到过这样的东西有没
如何在 MariaDB 容器中运行 cron？

我想在 MariaDB 容器中包含一个基于最新映像的 cron 任务mariadb 但我坚持这个我尝试了很多方法但没有成功因为我无法同时启动 MariaDB 和 Cron 这是我实际的 dockerfile FROM mariadb 1
在 Backbone 视图渲染上动态设置 className

我有一个 Backbone 视图其中 className 使用函数动态设置 app Views ItemRequestView Backbone View extend tagName tr className function var
如何在React Native中从heic格式获取jpg图像

我从图库中挑选照片并上传到服务器但几天后我注意到有些照片的扩展名为 heic 并且浏览器无法渲染这些图像 1 有没有办法从上传的heic中提取照片 2 如何在React Native中从这种格式获取jpeg 您可以借助这个很棒的库在服务器
Android：在运行时更改矩形的颜色

我有一个LinearLayout我有一个自定义视图 public class myView extends View Rect rects new Rect 30 30 80 80 Canvas myCanvas Override publ
为什么 3 路合并比 2 路合并更有优势？

维基百科 http en wikipedia org wiki Merge 28revision control 29 Three way merge表示 3 路合并比 2 路合并更不容易出错并且通常不需要用户干预为什么会这样呢 3 路
org.openqa.selenium.ElementClickInterceptedException：在无头模式下使用 Selenium 和 Java 发生元素单击拦截错误

我有一个正在使用 java 和 selenium 的项目在UI模式下测试工作正常但是在无头模式下我收到此错误 org openqa selenium ElementClickInterceptedException element cl
Xcode/Cocoapods：我无法访问链接到我的项目的框架中的依赖项

我想将多个项目和框架嵌入到一个工作区中下面是 Xcode 中的结构 Project1 and Project2是应用项目并且BaseFramework是一个Cocoa Touch 框架现在我想做的是向框架添加一个 pod 依赖项然后
TextBlock.GetBindingExpression 返回 NULL

以下为我返回 NULL 知道为什么吗 MultiBinding collectionRange new MultiBinding collectionRange Bindings Add new Binding CurrentPositio
将 xml 文档转换为特定的点扩展 json 结构

我有以下 XML 文档
如何使用汇编制作小型二进制文件？

我正在为我的一些项目编写一些汇编代码我看到了一些有趣的东西链接时二进制文件的大小非常大所以我测试了又测试即使使用尽可能少的代码行输出的 Elf 二进制文件也很大例如 section text global start start
BeautifulSoup 获取 href [重复]

这个问题在这里已经有答案了我有以下内容soup a href some url next a span class class span 我想从中提取 href some url 如果我只有一个标签就可以做到但这里有两个标签我也能得到

BeautifulSoup 获取 href [重复]

BeautifulSoup 获取 href [重复] 的相关文章

随机推荐

热门标签