【Python网络爬虫与信息提取】Request+BeautifulSoup

2023-11-12

1 Request库

import requests
r = requests.get("https://www.baidu.com/")
print(r.status_code)
print(type(r))
print(r.headers)
print(r.encoding)
print(r.apparent_encoding)
print(r.text)
print(r.content)
r.encoding = "utf-8"
print(r.text)

1.1 练习1

尽管Requests库功能很友好、开发简单（其实除了import外只需一行主要代码），但其性能与专业爬虫相比还是有一定差距的。请编写一个小程序，“任意”找个url，测试一下成功爬取100次网页的时间。（某些网站对于连续爬取页面将采取屏蔽IP的策略，所以，要避开这类网站）。

import requests
import time

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"


# Press the green button in the gutter to run the script.
if __name__ == '__main__':
    url = "http://www.baidu.com/"
    # print(getHTMLText(url))
    begin = time.perf_counter()  # 开始计时
    for i in range(100):
        text = (getHTMLText(url))
        # print(text)
    stop = time.perf_counter()  # 停止计时
    runtime = stop - begin
    print("爬取100次网页" + url + "共耗时：" + str(runtime)[0:4] + "s")

仅仅是requests库的入门知识，距离真实数据爬取还有好远；
考虑与计算机网络、网络安全中数据抓包等相关知识的关系；
与其他数据采集方法之间的关系.

1.2 练习2

京东商品页面的爬取（京东有对request对象hearder信息的识别）：

import requests
# Full code
url = "https://item.jd.com/100039135656.html"
kv = {'user-agent': 'Mozilla/5.0'}
try:
    r = requests.get(url, headers=kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")

练习2实验结果

1.3 练习3

网络图片的爬取和存储：

import requests
# # Simple Code：打开path,作为文件标识符f;请求图片，返回对象r，然后把r.content写入文件标识符f;关闭文件标识符；
# path = "D://abc.jpg"
# url = "https://img.bugela.com/uploads/2021/04/26/TX9474_01.jpg"
# r = requests.get(url)
# print(r.status_code)
# with open(path, 'wb') as f:
#     f.write(r.content)
#     f.close()

# Full code
import os
url = "https://img.bugela.com/uploads/2021/04/26/TX9474_01.jpg"
root = "D://pics//"
path = root + url.split('/')[-1]  # 自动读取最后一个反斜杠后面的内容，完成文件命名
try:
    if not os.path.exists(root):  # 根目录是否存在
        os.mkdir(root)
    if not os.path.exists(path):  # 文件是否存在
        r = requests.get(url)
        print(r.status_code)
        with open(path, 'wb') as f:
            f.write(r.content)
            f.close()
            print("文件保存成功")
    else:
        print("文件已存在")
except:
    print("爬取失败")

控制台输出
文件下载及命名

1.4 练习4

IP地址归属地的自动查询：http://m.ip138.com/ip.asp?ip=ipaddress

import requests
kv = {'user-agent': 'Mozilla/5.0'}
url = "https://m.ip138.com/ip.asp?ip="
# url = "https://user.ip138.com/ip/"
r = requests.get(url+'202.204.80.112', headers=kv)
print(r.status_code)
print(r.text[-500:])

控制台输出

2 网络爬虫之提取

2.1 Beautiful Soup库的安装

2.1.1 代码实现

import requests
from bs4 import BeautifulSoup
url = "https://python123.io/ws/demo.html"
r = requests.get(url)
demo = r.text
print(r.status_code)
print(demo)
print('--------------------------------------------------')
soup = BeautifulSoup(demo, 'html.parser') 
print(soup.prettify())

2.1.2 控制台输出

控制台输出

2.2 Beautiful Soup 库的基本元素

基本元素	说明
Tag	标签，最基本的信息组织单元，分别用<></>表明开头和结尾
Name	标签的名字， < p > . . . < / p > <p>...</p> <p>...</p>的名字是‘p’，格式是.name
Attributes	标签的属性，字典形式组织，格式是.attrs
NavigableString	标签内非属性字符串， < > . . . < / > <>...</> <>...</>中字符串，格式是.string
Comment	标签内字符串的注释部分，一种特殊的Comment类型

2.2.1 代码实现

import requests
from bs4 import BeautifulSoup
url = "https://python123.io/ws/demo.html"
r = requests.get(url)
demo = r.text
print(r.status_code)
# print(demo)  # 输出返回对象
print('--------------------------------------------------')
soup = BeautifulSoup(demo, 'html.parser')  # 解析返回对象
# print(soup.prettify())

# 查看BeautifulSoup类的基本元素（Tag, name, attrs, NavigableString, Comment）
# Name: .name
print(soup.title)
print(soup.a)
print(soup.a.name)
print(soup.a.parent.name)
print(soup.a.parent.parent.name)

# Attributes: .attrs
print(soup.a.attrs)  # {'href': 'http://www.icourse163.org/course/BIT-268001', 'class': ['py1'], 'id': 'link1'}
print(soup.a.attrs['class'])  # ['py1']
print(type(soup.a))  # bs4.element.Tag
print(type(soup.a.attrs))  # dict

# NavigableString: .string
print(soup.title.string)  # This is a python demo page
print(soup.a.string)  # Basic Python
print(soup.p.string)  # The demo python introduces several python courses
print(type(soup.p.string))

# Comment: .string
new_soup = BeautifulSoup("<b><!--This is a comment--></b><p>This is not a comment</p>", "html.parser")
print(new_soup.b.name)
print(new_soup.b.string)  # This is a comment
print(type(new_soup.b.string))  # <class 'bs4.element.Comment'>
print(new_soup.p.string)  # This is not a comment
print(type(new_soup.p.string))  # <class 'bs4.element.NavigableString'>

2.2.2 控制台输出

控制台输出

2.3 基于bs4库的HTML内容遍历方法

HTML其实是树形结构的文本信息：标签标明了信息结构的逻辑关系
根据HTML基本格式，按照从根节点到叶子结点或从叶子节点到根节点或平行节点之间的遍历方式，分为下行遍历、上行遍历和平行遍历三种。

2.3.1 标签树的下行遍历

（1）基本原理

属性	说明
.contents	子节点列表，将 < t a g > <tag> <tag>所有儿子节点存入列表
.children	子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
.descendants	子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

（2）代码实现

import requests
from bs4 import BeautifulSoup
url = "https://python123.io/ws/demo.html"
r = requests.get(url)
demo = r.text
# print(demo)

# 利用美味汤解析所返回的html文件
soup = BeautifulSoup(demo, 'html.parser')

# 下行遍历：1）.contents <tag>的儿子节点；2）.children <tag>的儿子节点的迭代类型，用于循环遍历儿子节点；
# 3）descendants <tag>的所有子孙节点的迭代类型，包含所有子孙节点，用于循环遍历
# BeautifulSoup 类是标签树的根节点
print(soup.head)  # <head><title>This is a python demo page</title></head>
print(soup.head.contents)  # [<title>This is a python demo page</title>]

print(soup.body.contents)
print(soup.body.contents[1])  # <p class="title"><b>The demo python introduces several python courses.</b></p>
print(len(soup.body.contents))  # 5

for child in soup.body.children:
    print(child)  # 遍历儿子节点
for child in soup.body.descendants:
    print(child)  # 遍历子孙节点

（3）控制台输出
下行遍历

2.3.2 标签数的上行遍历

（1）基本原理

属性	说明
.parents	节点的父亲标签
.parents	节点先辈标签的迭代类型，用于循环遍历先辈节点

（2）具体实现

# 上行遍历：1) .parent 节点的父亲标签；2）.parents节点先辈标签的迭代标签，用于循环遍历先辈节点
print(soup.title)  # <title>This is a python demo page</title>
print(soup.title.parent)  # <head><title>This is a python demo page</title></head>

# print(soup.html)
# print("--------------------------")
# print(soup.html.parent)  # 不理解：按理来说没有父亲节点应该返回none啊

# print(soup)
# print(soup.parent)  # none
print('a:', soup.a)
print(soup.a.parents)  # <generator object PageElement.parents at 0x000002ADEE6509E0>
print(type(soup.a.parents))  # <class 'generator'>
for parent in soup.a.parents:
    if parent is None:
        print(parent)
    else:
        print(parent.name)

（3）控制台输出

2.3.3 标签树的平行遍历

（1）基本原理

属性	说明
.next_sibling	返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling	返回按照HTML文本顺序的上一个平行节点标签
.next_siblings	迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
.previous_siblings	迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

（2）代码实现

# 平行遍历：发生在同一个父节点的各个子节点间
print(soup.a.next_sibling)
print(soup.a.next_sibling.next_sibling)
print(soup.a.previous_sibling)
print(soup.a.previous_sibling.previous_sibling)

print(soup.a.parent)

for sibling in soup.a.next_sibling:
    print(sibling)

for sibling in soup.a.previous_sibling:
    print(sibling)

2.4 信息标记与提取方法

2.4.1 信息标记

XML: <> …</>
JSON: 有类型key:value
YAML: 无类型key:value

2.4.2 信息提取

import requests
from bs4 import BeautifulSoup
import re
r = requests.get("https://python123.io/ws/demo.html")
demo = r.text

# BeautifulSoup：从HTML或XML文件中提取数据的python库，通过转换器实现文档导航、查找和修改文档的方式
# 查找标签：soup.find_all('tag')
# 查找文本：soup.find_all(text='text')
# 根据id查找：soup.find_all(id='tag id')
# 使用正则：soup.find_all(text=re.compile('you re')), soup.find_all(id=re.compile('your re'))
# 指定属性查找标签：soup.find_all('tag',{'id':'tag id', 'class':'tag class'})
soup = BeautifulSoup(demo, 'html.parser')
for link in soup.find_all('a'):   # 查找soup中的所有a标签
    print(link.get('href'))


print(soup.find_all('a'))
print(soup.find_all(['a', 'b']))

for tag in soup.find_all(True):
    print(tag.name)

for tag in soup.find_all(re.compile('b')):  # 不是很理解这个正则表达式这句
    print(tag.name)

print(soup.find_all('p', 'course'))
print(soup.find_all(id='link1'))
print(soup.find_all(id='link'))
print(soup.find_all(id=re.compile('link')))
print(soup.find_all('a', recursive=False))

print(soup.find_all(string='Basic Python'))
print(soup.find_all(string=re.compile('python')))

# 扩展方法
# <>.find() 搜索且只返回一个结果
# <>.find_parents() 在先辈节点中搜索返回列表类型，同.find_all()参数
# <>.find_parent() 在先辈节点中返回一个结果

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Knowledge learning

爬虫

beautifulsoup

python

【Python网络爬虫与信息提取】Request+BeautifulSoup 的相关文章

python sys.path 故障排除

python 文档位于http docs python org library sys html http docs python org library sys html比如说sys path is 从环境变量 PYTHONPATH 以及
将非常大的Python列表输出保存到mysql表中

我想将 python 生成的列表的输出保存在 mysql 数据库的表中该表如下所示 mysql 中的 myapc8 表 https i stack imgur com 4B4Hz png这是Python代码在此输入图像描述 https
在python中将数据库表写入文件的最快方法

我正在尝试从数据库中提取大量数据并将其写入 csv 文件我正在尝试找出最快的方法来做到这一点我发现在 fetchall 的结果上运行 writerows 比下面的代码慢 40 with open filename a as f writ
将 numpy 数组合并为单个 int

numpy 数组怎么可以这样 10 22 37 45 转换为单个 int32 数字如下所示 10223745 这可以工作 gt gt gt int join map str 10 22 37 45 10223745 基本上你使用map s
从 Azure ML 实验中访问 Azure Blob 存储

Azure ML 实验提供了通过以下方式读取 CSV 文件并将其写入 Azure Blob 存储的方法 Reader and Writer模块但是我需要将 JSON 文件写入 blob 存储由于没有模块可以执行此操作因此我尝试在Ex
Matplotlib：如何有效地将大量线段着色为独立渐变

Python 绘图库如何有效地将大量线段着色为独立渐变已经阅读this https stackoverflow com questions 8500700 how to plot a gradient color line in ma
使用 Paramiko 进行 DSA 密钥转发？

我正在使用 Paramiko 在远程服务器上执行 bash 脚本在其中一些脚本中存在与其他服务器的 ssh 连接如果我只使用 bash 不使用 Python 我的 DSA 密钥将被第一个远程服务器上的 bash 脚本转发并使用以连接
类型错误：需要二进制或 unicode 字符串，得到 618.0

I ve been trying to implement this ML Linear Model into my dataset https www tensorflow org tutorials estimator linear L
Python HMAC：类型错误：字符映射必须返回整数、None 或 unicode

我在使用 HMAC 时遇到了一个小问题运行这段代码时 signature hmac new key secret key msg string to sign digestmod sha1 我收到一个奇怪的错误 File usr loca
根据其他单元格值更改多个单元格值

我想更改包含的单元格moving to movingToOpenor movingToClose基于下一个单元格中给出的状态有时循环会被中断并且不会从open to close or close to open 这是我当前的数据框 Dat
使用 for 循环创建一系列元组

我已经搜索过但找不到答案尽管我确信它已经存在了我对 python 很陌生但我以前用其他语言做过这种事情我正在以行形式读取数据文件我想将每行数据存储在它自己的元组中以便在 for 循环之外访问 tup i inLine wher
Airflow 1.9 - 无法将日志写入 s3

我在 aws 的 kubernetes 中运行气流 1 9 我希望将日志发送到 s3 因为气流容器本身的寿命并不长我已经阅读了描述该过程的各种线程和文档但我仍然无法让它工作首先是一个测试向我证明 s3 配置和权限是有效的这是在我们
在骨架图像中查找线 OpenCV python

我有以下图片我想找到一些线来进行一些计算平均长度等我尝试使用HoughLinesP 但它找不到线我能怎么做这是我的代码 sk skeleton mask rows cols sk shape imgOut np zeros row
在Raspberry pi上升级skimage版本

我已经使用 Raspberry Pi 2 上的 synaptic 包管理器安装了 python 包然而 skimage 模块版本 0 6 是 synaptic 中最新的可用版本有人可以指导我如何将其升级到0 11 因为旧版本中缺少某些功
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
检测是否从psycopg2游标获取？

假设我执行以下命令 insert into hello username values me 我跑起来就像 cursor fetchall 我收到以下错误 psycopg2 ProgrammingError no results to fe
如何将带有参数的Python装饰器实现为类？

我正在尝试实现一个接受一些参数的装饰器通常带有参数的装饰器被实现为双重嵌套闭包如下所示 def mydecorator param1 param2 do something with params def wrapper fn def
如何编写一个接受 int 或 float 的 C 函数？

我想用 C 语言创建一个扩展 Python 的函数该函数可以接受 float 或 int 类型的输入所以基本上我想要f 5 and f 5 5 成为可接受的输入我认为我不能使用if PyArg ParseTuple args i v
如何使用 python 定位和读取 Data Matrix 代码

我正在尝试读取微管底部的数据矩阵条形码我试过libdmtx http libdmtx sourceforge net 它有 python 绑定当矩阵的点是方形时工作得相当好但当矩阵的点是圆形时工作得更糟如下所示另一个复杂问题是在某
用于插入或替换 URL 参数的 Django 模板标签

有人知道 Django 模板标签可以获取当前路径和查询字符串并插入或替换查询字符串值吗例如向 some custom path q how now brown cow page 3 filter person 发出请求电话 urlpar

随机推荐

华为机试题80-整型数组合并

描述题目标题将两个整型数组按照升序合并并且过滤掉重复数组元素输出时相邻两数之间没有空格输入描述输入说明按下列顺序输入 1 输入第一个数组的个数 2 输入第一个数组的数值 3 输入第二个数组的个数 4 输入第二个数组的数值输出
静态储存，堆，栈的理解

数据结构中的堆与栈栈可以理解为为一个瓶子他遵循着先进后出的原则堆是一种经过排序的树状结构每一个节点都有一个值我们通常说的堆是二叉堆堆的特点是跟节点最大或者最小且子节点也是一个堆所以我们在使用的堆的时候都是随便取一个节点
java ssh连接远程服务器_Ubuntu开启远程连接-开启ssh服务

ssh分为openssh client与openssh server 如果要连接某个远程就需要装openssh client 反之如果要被其他远程连接本机就需要安装openssh server 我们安装完ubuntu之后会发现无法通过外部使
【软路由】旁路由使用配置教程

软路由旁路由使用配置教程简介旁路由好处旁路由配置步骤 1 修改管理地址网段 2 关闭IPV6和DHCP服务 3 防火墙设置关于IP动态伪装 4 终端设置简介我们都知道软路由一般有两种使用方式一种是作为承担DHCP分配的主路
【JavaScript高级程序设计】重点-第五章笔记：Date、RegExp、原始值包装类、单例内置对象

文章目录基本引用类型 1 Date 1 1 继承的方法 1 2 日期格式化方法 1 3 日期时间组件方法 2 RegExp正则表达式 2 1 RegExp 实例属性 2 2 RegExp 实例方法 2 3 RegExp 构造函数属性 3
【Dev-C++】的dos控制台窗口大小设置

可以使用system 接口直接修改例 include
Spring 集成OpenOffice

第一步 openoffice jar包依赖
安卓scale动画fromDegrees toDegrees解释

注意以下实验都是相对于自己 0 0f 上 1 0f 下如果想了解安卓scale动画pivotX 请点击这里在安卓中 fromDegrees是开始的角度 toDegrees是介绍的角度其中X轴右面是0度如果toDegrees比from
【JS组件篇】使用拖拽组件 react-beautiful-dnd 实现工作台自定义布局功能

项目要求制作工作台页面模块可根据后端配置动态展示各模块可根据个人喜好进行拖拽布局并保存大致效果如下大致实现步骤整体布局首先需要对设计稿进行分析大致分为左右两部分可根据后端配置动态展示左右两模块的展示内容各模块相对独立
C++内存管理（2）new、delete详解

目录 new operator new操作 new类对象时加不加括号的差别 new工作任务 delete工作任务 new和delete 堆区空间操作对比malloc和free new和delete操作基本类型的空间 new和delete操
Direct3D纹理映射

借助纹理映射技术我们可将图像数据映射到三角形单元中这种功能可以显著地增加所绘制场景的细节和真实感例如创建一个立方体然后为其每个面映射一个板条纹理从而将该立方体变为一个板条箱在Direct3D中纹理用接口IDirect3DTextu
python判断工作日，节假日

python判断工作日节假日模块 chinesecalendar 爬虫式的方法模块 pandas 实例模块 chinesecalendar 针对中国的节假日强烈推荐 https pypi org project chineseca
王道考研计算机网络第二章--物理层

目录 2 1通信基础 2 1 1物理层基本概念 1物理层基本概念 2 1 2数据通信基础知识 1典型的数据通信模型 2数据通信相关术语 3三种通信方式 4两种数据传输方式 2 1 3码元波特速率带宽 1码元 2速率波特带宽 2 1
被入侵了怎么办？暴力破解被篡改了数据，该怎么处理？主机安全不容忽视

主机安全关系着整个服务器数据的一个安全性那么主机安全具体指什么呢指保证主机在数据存储和处理的保密性完整性可用性它包括硬件固件系统软件的自身安全以及一系列附加的安全技术和安全管理措施从而建立一个完整的主机安全保护环境我们进
Kubernetes: K8S 容器集群管理系统

虚拟机 gt 容器技术传统部署直接将应用程序部署在物理机上虚拟机 vmware openstack 可以在操作系统中模拟出多台子电脑 Linux 子电脑之间是相互隔离的独立但是虚拟机存在启动慢占用空间大不易迁移的缺点容器化技
openCV与freetype解决图片叠OSD的问题

一移植OPENCV3 4 1库 opencv 3 4 1 tar gz 功能实现对图片的处理移植文档见正点原子 I MX6U 移植 OpenCV V1 3 注意版本注意安装交叉编译工具注意这里不能使用 NXP yocto 所
Oracle 12 创建数据库

安装完oracle数据库软件后就可以创建oracle数据库了具体步骤如下 1 打开命令行输入命令 dbca 通过它我们可以对数据库进行管理 2 之后便会显示如下图所示的界面点击下一步 3 进入配置数据库的界面需要注意的是 a 全
ARL(Asset Reconnaissance Lighthouse)资产侦察灯塔系统

资产灯塔不仅仅是域名收集 https github com TophantTechnology ARL 简介旨在快速侦察与目标关联的互联网资产构建基础资产信息库协助甲方安全团队或者渗透测试人员有效侦察和检索资产发现存在的薄弱点和攻
Notepad++查看hex文件

一打开插件插件管理二找一下有没有一个hex开头的插件有的话就安装它然后重启软件三装完之后插件里面就会出现下面这个东西下面那张图百度上找的我的里面找不到这个插件四如果找不到的话上github下一个 https git
【Python网络爬虫与信息提取】Request+BeautifulSoup

1 Request库 import requests r requests get https www baidu com print r status code print type r print r headers print r e

【Python网络爬虫与信息提取】Request+BeautifulSoup

1 Request库

1.1 练习1

1.2 练习2

1.3 练习3

1.4 练习4

2 网络爬虫之提取

2.1 Beautiful Soup库的安装

2.1.1 代码实现

2.1.2 控制台输出

2.2 Beautiful Soup 库的基本元素

2.2.1 代码实现

2.2.2 控制台输出

2.3 基于bs4库的HTML内容遍历方法

2.3.1 标签树的下行遍历

2.3.2 标签数的上行遍历

2.3.3 标签树的平行遍历

2.4 信息标记与提取方法

2.4.1 信息标记

2.4.2 信息提取

【Python网络爬虫与信息提取】Request+BeautifulSoup 的相关文章

随机推荐

热门标签