BeautifulSoup4（bs4）

2023-11-18

BeautifulSoup4是一个高效的网页解析库，可以从HTML或XML文件中提取数据

支持不同的解析器，比如，对HTML解析，对XML解析，对HTML5解析

就是一个非常强大的工具，爬虫利器

一个灵感又方便的网页解析库，处理高效，支持多种解析器

利用它就不用编写正则表达式也能方便的实现网页信息的抓取

由于BS4解析页面时需要依赖文档解析器，所以还需要安装lxml作为解析库。

安装
pip install BeautifulSoup4
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库
pip install lxml
lxml 是一种使用 Python 编写的解析库，可以迅速、灵活地处理 XML 和 HTML

1 常见对象

BeautifulSoup4将HTML文档转换成一个树形结构，每个节点都是Python对象。

Tag：是HTML中的一个个标签。我们可以利用soup加标签名轻松地获取这些标签的内容，这些对象的类型是bs4.element.Tag。但是注意，它查找的是在所有内容中的第一个符合要求的标签。
NavigableString：如果拿到标签后，还想获取标签中的内容。那么可以通过tag.string获取标签中的文字

string：获取某个标签下的非标签字符串。返回来的是个字符串。如果这个标签下有多行字符，那么就不能获取到了。

strings：获取某个标签下的子孙非标签字符串。返回来的是个生成器。

stripped_strings：获取某个标签下的子孙非标签字符串，会去掉空白字符。返回来的是个生成器。

h = """
<html>
    <head>
        <title>The Dormouse's story</title>
    </head>
    <body>
    <p class="title" name="dromouse"><b><span>The Dormouse's story</span></b></p>
    <p class="story">Once upon a time there were three little sisters; and their names were
    <a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
    <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
    <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
    and they lived at the bottom of a well.</p>
    <p class="story">...</p>
"""

# 1，导包
from bs4 import BeautifulSoup 
#,2，实例化对象
soup = BeautifulSoup(h, 'lxml')  # 参数1：要解析的内容  参数2：解析器

# 通过标签选取，会返回包含标签本身及其里面的所有内容
print(soup.head) # 包含head标签在内的所有内容
print(soup.p) # 返回匹配的第一个结果

# .string是属性,作用是获取字符串文本
print(soup.title.string)

2 find与find_all

find：找到第一个满足条件的标签就返回。
find_all：将所有满足条件的标签都返回。
- 在提取标签的时候，第一个参数是标签的名字。然后如果在提取标签的时候想要使用标签属性进行过滤，那么可以在这个方法中通过关键字参数的形式，将属性的名字以及对应的值传进去。或者是使用attrs属性，将所有的属性以及对应的值放在一个字典中传给attrs属性。
- 有些时候，在提取标签的时候，不想提取那么多，那么可以使用limit参数。限制提取多少个。

使用find_all()根据标签名查找

html='''
<div class="panel">
    <div class="panel-heading">
        <h4>Hello</h4>
    </div>
    <div class="panel-body">
        <ul class="list" id="list-1">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
            <li class="element">Jay</li>
        </ul>
        <ul class="list list-small" id="list-2">
            <li class="element">Foo-2</li>
            <li class="element">Bar-2</li>
        </ul>
    </div>
</div>
'''
from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'lxml')

# print(soup.find_all('ul'))  # 拿到所有ul标签及其里面内容
print(soup.find_all('ul')[0])
print(soup.find_all('div'))

get_text() 获取内容

for ul in soup.find_all('ul'):
#     print(ul)
    print(ul.get_text())

使用find_all()根据属性查找

html='''
<div class="panel">
    <div class="panel-heading">
        <h4>Hello</h4>
    </div>
    <div class="panel-body">
        <ul class="list" id="list-1" name="elements">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
            <li class="element">Jay</li>
        </ul>
        <ul class="list list-small" id="list-2">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
        </ul>
    </div>
</div>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')

# 特殊属性查找
# print(soup.find_all(class='element'))  #  注意：错误案例
# a = soup.find_all(class_='element')  # class属于Python关键字，做特殊处理 _
# print(a) 


# 推荐的查找方法！！！   --- 指定标签和属性
# print(soup.find_all('li',{'class':'element'}))  
print('----'*10)
print(soup.find_all('ul',{'id':'list-1'}))

text=() 根据文本值选择

html='''
<div class="panel">
    <div class="panel-heading">
        <h4>Hello</h4>
    </div>
    <div class="panel-body">
        <ul class="list" id="list-1">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
            <li class="element">Jay</li>
        </ul>
        <ul class="list list-small" id="list-2">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
        </ul>
    </div>
</div>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')

# 语法格式：text='要查找的文本内容'
print(soup.find_all(text='Foo')) # 可以做内容统计用

print(len(soup.find_all(text='Foo'))) # 统计数量

3 select方法

详情了解：https://baike.baidu.com/item/css%E9%80%89%E6%8B%A9%E5%99%A8/2819686?fr=aladdin

使用css选择器的语法找出元素。

如果对HTML里的CSS选择器很熟悉可以考虑用此方法

注意：

1，用CSS选择器时，标签名不加任何修饰，class类名前加. , id名前加# 

2，用到的方法是soup.select()，返回类型是list

3，多个过滤条件需要用空格隔开,严格遵守从前往后逐层筛选

通过标签名查找：
```
soup.select('a')
```
通过类名查找：
```
soup.select('.sister')
```
通过id查找：
```
soup.select("#link1")
```

组合查找：

soup.select("p #link1")
soup.select("head > title")

通过属性查找

soup.select('a[href="https://www.baidu.com/"]')

html='''
<div class="pan">q321312321</div>
<div class="panel">
    <div class="panel-heading">
        <h4>Hello</h4>
    </div>
    <div class="panel-body">
        <ul class="list" id="list-1">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
            <li class="element">Jay</li>
        </ul>
        <ul class="list list-small" id="list-2">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
        </ul>
    </div>
</div>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')

# 根据标签去找 标签不加任何修饰 多个条件用空格隔开
print(soup.select('ul li'))  
print("----"*10)

# class类名前加.  
print(soup.select('.panel-heading'))
print("----"*10)
# 多个条件用空格隔开
print(soup.select('ul.list')) 
print(soup.select('ul .element')) 
# print("----"*10)

# 注意：可以混合使用！！
# 比如：根据id和class去找
a = soup.select('#list-1 .element')#从这个例子可以看出.select方法会获取满足条件的所有内容
print(a)
for i in a:
    print(i.string)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

开发语言

BeautifulSoup4（bs4）的相关文章

在 sympy 绘图中，如何获得具有固定纵横比的绘图？

如果我用这个片段画一个圆 from sympy import x y symbols x y p1 plot implicit Eq x 2 y 2 1 aspect ratio 1 1 我会得到一个像这样的图形窗口现在长宽比不是我所期望
为什么最新的 Python 3.8.x 版本不提供 Windows 安装程序？

我需要在Windows计算机上安装Python 3 8并希望使用最新的小版本3 8 12 https www python org downloads release python 3812 官方发布网页提供了源代码的 tarball 文件
matplotlib 的 pcolor 中的白线

在某些 pdf 查看器例如 OSX 上的 Preview 中使用以下命令绘制的图matplotlib的 pcolor 有白线见下图我怎样才能摆脱它们源代码非常简单选择任何数据x y z import matplotlib mat
tkinter 上的“NoneType”对象没有属性“get”错误[重复]

这个问题在这里已经有答案了我最近开始使用 python 3 6 进行编码tkinter并尝试创建我自己的项目repl it 该项目是一个简单的交互式待办事项列表但是我陷入困境并且无法使该功能正常工作该函数只是简单地获取条目并将其添加到
Python绕相机轴旋转图像

假设我有一个图像是在对某些原始图像应用单应性变换 H 后获得的未显示原始图像将单应性 H 应用于原始图像的结果是该图像我想围绕合适的轴可能是相机所在的位置如果有的话将此图像旋转 30 度以获得此图像如果我不知道相机参数如何
使用 OpenCV 进行图像模糊检测

我正在研究图像的模糊检测我已经用过拉普拉斯方法的方差在 OpenCV 中 img cv2 imread imgPath gray cv2 cvtColor img cv2 COLOR BGR2GRAY value cv2 Laplacia
为什么 np.linalg.norm(..., axis=1) 比写出向量范数公式慢？

标准化矩阵的行X对于单位长度我通常使用 X np linalg norm X axis 1 keepdims True 在尝试优化算法的此操作时我非常惊讶地发现在我的机器上写出标准化的速度大约快了 40 X np sqrt X 0 2
PRAW 出现 SSLError？

我正在尝试开始使用 PRAW 但在使用 login 时遇到问题我有以下代码 import praw r praw Reddit This is a test bot r login myRedditUsername password 我收
简单 CAE 的问题

看起来简单的 CAE 不适用于 Carvana 数据集我正在尝试对 Carvana 数据集进行简单的 CAE 你可以下载它here https www kaggle com c carvana image masking challeng
桨在移动时留下痕迹（Pygame Pong 游戏）[重复]

这个问题在这里已经有答案了我的游戏中的球拍有问题每次我试图移动它时桨都会留下一条痕迹我想这是因为我的代码没有删除旧位置的前一个桨如果是的话怎么删除之前的呢我应该使用blit Code import pygame sys ran
Python textwrap.wrap 导致 \n 问题

所以我只是重新格式化了一堆代码以合并textwrap wrap 却发现我所有的 n都消失了这是一个例子 from textwrap import wrap def wrapAndPrint msg width 25 wrap msg to
如何在Python中比较列表列表中的元素以及比较列表列表中的键？

我有以下顺序 seq ATG ATG ATG ATG GAC GAT GAA CCT GCC GCG GCA GCT 这是一个字典键用于存储每个密码子的氨基酸值三联碱基例如ATG GCT etc aminoacid TTT F TTC
Python 的二进制字符串列表

我有一个像这样的二进制字符串 1100011101 我想将其解析为一个列表其中每个 1 或 0 块都是列表中的单独值例如 1100011101 变成 11 000 111 0 1 您可以通过使用正则表达式而不是从中获得一点次要性能g
Odoo：如何覆盖原始功能

在 Odoo 中每次打开产品表单时都会计算产品的数量这发生在模型中product product gt function product available 该函数返回一个名为 res 的字典 Example res 8 qty ava
pygame.image.load 不工作

我正在尝试为游戏创建世界地图但是当我尝试将世界地图加载到屏幕上时命令行告诉我无法执行此操作这是代码 import sys import pygame from pygame locals import pygame init Surf
如何在Python中一次比较二维数组的2列与另一个数组的列

我有两个字符串数组每个数组有三列我想比较两个二维数组的前两列有 3 列和 4000 行如果它们匹配那么我需要那些匹配的值但是我的代码不起作用这是一个示例 array1 1stcolumn 2ndColumn 3rdColumn
无法从源 pylance 解析导入烧瓶

我正在学习 Python 课程的一部分是使用 Flask 设置网络服务器我按照 Flask 安装文档执行了步骤由于某种原因 flask 模块带有下划线如下所示当我将鼠标悬停时我会得到如下附加信息无法从源 pylance 解析导入
如何在Python中仅列出顶级目录？

我希望能够仅列出某个文件夹内的目录这意味着我不需要列出文件名也不需要其他子文件夹让我们看看一个例子是否有帮助在当前目录中我们有 gt gt gt os listdir os getcwd cx Oracle doc DLLs Doc
从 Python 访问 802.11 无线管理帧

我想从 Linux 上的 Python 嗅探 802 11 管理探测请求帧这可以从 Scapy 中实现如下所示 coding utf 8 from scapy all import def proc p if p haslayer
我收到错误：rest_framework.request.WrappedAttributeError：'CSRFCheck'对象没有属性'process_request'

urls py from django conf urls import url from django contrib import admin from django conf import settings from django c

随机推荐

MATLAB基础语法总结

主体参照全网最全MATLAB学习归纳总结建模学习必备 MATLAB讲解PPT和MATLAB官方帮助文档这里对该教程做一定的完善与汇总 1 MATLAB编辑器常用快捷键 1 1 编辑器窗口操作编辑器窗口操作自动整理代码用鼠标选中代码
【粉丝问答11】如何实现内网穿透

本文章由网友邓工投稿 VX A18665908735 问题描述起因最近公司要做一个4G模块带GNSS 全球导航卫星系统定位功能的产品上传传感器数据和设备定位数据到服务器上我们选择了simcom7600G一个支持全球通的4G模块
基于Docker安装的MindSpore-1.2 GPU版本

技术背景在前面一篇博客中我们介绍过MindSpore CPU版本的Docker部署以及简单的案例测试当时官方还不支持GPU版本的Docker容器化部署经过MindSpore团队的努力 1 2 0版本的MindSpore GPU终于推
XCTF攻防世界Web12道简单题

0x00 准备内容在xctf官网注册账号即可食用目录目录 0x01 view source2 0x02 get post3 0x03 robots4 0x04 backup6 0x05 Cookie7 0x06 disabled
SSE3和SSSE3 Intrinsics各函数介绍

SIMD相关头文件包括 include
Linux入门篇-01 台式机安装Linux系统

材料台式机 U盘内存大于8G CentOs7 下载地址点击跳转步骤一 U盘启动电脑启动成功画面选择第一个按E 或者 Tab键进行编辑 vmlinuz initrd initrd img inst stage2 hd LABE
传感器响应时间与滤波器截止频率的关系

1 传感器响应时间与滤波器截止频率的关系详细看 https blog csdn net Old Street article details 108087826 2 滤波器中关于截止频率的理解 http www 360doc com co
孤立森林算法（Isolation Forest Algorithm）Python实现

孤立森林算法 Isolation Forest Algorithm Python实现孤立森林算法是一种用于检测异常值的无监督机器学习算法它通过构建一棵随机划分的二叉树来判断数据点的异常程度以此来识别异常值本文将介绍孤立森林算法的原理
ubuntu20.04 安装 Sophus库 slambook2

ubuntu20 04 安装 Sophus库 slambook2 slambook2 实践部分需要我们自行安装 sophus 库但是相关的依赖很多而且sophus分为模板类和非模板类两种安装起来还是比较繁琐的 slambook2中采
QT在子线程发送信号给主线程，主线程信号槽函数没有反应的解决办法

在编写线程时遇到了一个问题即子线程发送信号给主线程主线程信号槽函数没有反应这个问题卡了半天最终找到解决办法自己记录一下问题在子线程的run函数发送了一个信号在主函数中定义了一个信号槽函数用来响应这个信号但是槽函数不执行修
我要写一篇关于酒店管理系统论文，请说一说酒店管理系统的研究背景

酒店管理系统的研究背景是指针对旅游业和酒店业的扩大发展以及客户服务需求的日益增加许多酒店已经使用酒店管理系统来提高服务质量和管理效率酒店管理系统的研究着重于通过使用软件和信息技术来有效地管理酒店的各项运营活动从而提升酒店的服务质量
机器学习之多元线性回归

1 多元线性回归模型定义具有多个特征的线性回归模型多元线性回归模型见下图多元线性回归总结参数模型损失函数梯度下降算法见下图注意梯度下降算法每次都是同时更新wj和b 2 多维特征多维特征 x1 x2 xn 其中xj表
【Linux学习笔记】7. Linux文件IO详解（附代码实例）

Linux文件I O 前置知识 Linux文件I O分为系统IO和标准IO 常用于系统编程系统I O通过文件描述符 fd 来操作文件标准I O通过文件流 FILE 来操作文件 Linux下可以使用man命令来查看使用手册学习和使用这些
数据备份技术知识梳理(建议收藏)

所谓数据保护技术是指对当前时间点上的数据进行备份如果说原始数据被误删除了可以通过备份数据找回或恢复数据从底层来分数据保护可以分为文件级保护和块级保护文件级备份文件级备份将磁盘上所有文件通过调用文件系统接口备份到另一个介质上也
11-7 读写指定大小的字节

1 字节一个字节 8 位例如在 ASCII 码表中 0000 1010 表示换行若从十六进制角度看则结果为 0a CLion debug 便是以十六进制查看的字节 2 读字节 fread 函数用于指定字节大小的读取该函数可读取二进
重启大法好

在做springMVC服务器的时候出现解析不了URL 即dispatch映射不了action的时候 1 检查springname servlet xml 2 检查web xml 3 检查注解是否错误 4 重启eclipse 5 重启电脑
Unity3D射线检测

射线检测主要用于像子弹是否打中物体捡取物品等情况本来面向百度想找例子看看不过没找到合适的还是自己总结尝试吧以下测试Unity3D版本 2017 4 2f2 射线的检测步骤如下 1 Ray 这个类为了产生一个射线如果我们想要场景中
Acwing 906. 区间分组

1 将所有区间按照左端点从小到大排序 2 从前往后处理每个区间判断能否将其放到某个现有的组中 L i gt Max r 1 如果不存在这样的组则开新组然后将其放进去 2 如果存在这样的组将其放进去并更新当前组的Max r incl
cocoscreator 3.x 获取像素颜色

const pos v2 世界坐标 const color as camera rt targetTexture readPixels pos v2 x pos v2 y 1 1 获得颜色 cc color color as 0 color
BeautifulSoup4（bs4）

BeautifulSoup4是一个高效的网页解析库可以从HTML或XML文件中提取数据支持不同的解析器比如对HTML解析对XML解析对HTML5解析就是一个非常强大的工具爬虫利器一个灵感又方便的网页解析库处理高效支持多