爬虫示例一【简单爬虫实现】

2023-05-16

爬虫构建

回顾以上的接口分析过程，整个对我们有用的请求过程是，浏览器发送一个GET请求，直接获取到了我们想要的数据页面。

那么如何通过python代码复现以上的请求过程呢？

对于这样的简单爬虫，我们可以通过requests库里面提供的方法，发送请求，获取到接口响应。

以下是整个爬虫的代码

# 导入请求模块
import requests

url = 'https://top.baidu.com/board?tab=realtime'

# 使用get方法发送请求，并设置请求请求链接为 url
response = requests.get(url=url)  
print(response.status_code)  # 获取请求响应状态码
print(response.text)  # 获取响应结果文本

# 将结果保存为网页
with open('hot.html', 'w+', encoding='utf8') as s:
    s.write(response.text)

python的这个requests包非常有用，可以用于各种接口的请求。requests包功能全面，对于市面上能见到的大部分网络请求[http/https]都可以实现。后面的大部分爬虫项目，我都会通过这个包来发送请求。

requests库介绍

Requests库是一种用于发送HTTP请求的流行库。它提供了简单而强大的API，使发送GET、POST、PUT、DELETE等请求变得容易。

requests库是第三方库，我们在使用之前需要pip拉取一下,这里我通过清华大学的pip源设置拉取命令

pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple

requests 发送请求

import requests
response = requests.get(url, params=None, **kwargs)

url: 要发送请求的URL
params (可选): 一个字典或字节序列，作为请求参数发送到URL中
**kwargs: 可选参数，可以是headers、data、json等。

处理响应

response.status_code  # 获取状态码
response.content      # 获取响应内容
response.text         # 获取响应内容并自动解码为字符串
response.json()       # 获取响应内容并自动解码为JSON
response.headers      # 获取响应头

总结

本篇文章对百度热搜的接口进行了分析，通过爬虫复现了请求过程，并获取到了热搜接口的响应结果[html页面源码]。爬虫的请求发送时通过python的第三方库requests实现的。本文介绍的requests的用法只是冰山一角，更多的requests库用法可以参考这篇文章

或者官方文档

文中使用到的接口分析技术其实就是我们俗称的抓包，由于本人的水平有限，我的抓包过程描述可能不是很清晰，更多的抓包技巧与训练，我们可以参考这篇文章谷歌浏览器抓包。

如果你还有其他的问题，欢迎给我私信。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫示例一【简单爬虫实现】的相关文章

YOLO-darknet-on-Jetson-TX2

YOLO darknet on Jetson TX2 https github com Alro10 YOLO darknet on Jetson TX2 software https blog csdn net cherry dr art
#error This file requires compiler and library support for the ISO C++ 2011错误解决办法

CmakeLists txt 中添如下代码就OK include CheckCXXCompilerFlag CHECK CXX COMPILER FLAG 34 std 61 c 43 43 11 34 COMPILER SUPPORTS
docker pull 下来的镜像文件存放的位置

参考文献 xff1a http www tuicool com articles bENrUf 1 存放在 var lib docker 2 repositories aufs 文件 xff1a 34 Repositories 34 34
docker主要命令整理

docker docker info docker version docker images 展示镜像 docker ps 展示容器 docker ps a 会展示出所有正在运行的和已经停止的容器 docker rmi 镜像ID 删除镜像
python xml读写

1 xml例子 lt xml version 61 34 1 0 34 encoding 61 34 UTF 8 34 gt lt annotation gt lt folder gt VOC2007 lt folder gt lt fil
caffe2编译问题：avx、avx2

caffe2编译问题 xff1a 9898 init intrinsics check cc 54 CPU feature avx is present on your machine but the Caffe2 binary is no
【Hello,电赛】2020电赛从备战到回顾(F题)

瞎扯几句 2020应该让所有人难忘的一年赋闲大半年 xff0c 开学两行泪博主也是突然从大二被迫成了大三老油条大一的时候身边就有同学开始展露科创竞赛方面的头角 xff0c 后来成了学院有名的带佬咱当时觉得好玩也是羡慕 xff0c 奈
#C++#通过libcurl获取当前次HTTP请求的一些相关信息

libcurl库是一个非常完整和好用的HTTP请求库 xff0c 通过它 xff0c 我们可以方便的书写HTTP请求程序 xff0c 而且不需要关心HTTP协议内部的细节处理最近在做一个HTTP监测的程序 xff0c 就是通过libcur
运行Maven Web项目出现 org.eclipse.jdt.internal.compiler.classfmt.ClassFormatException错误

异常问题描述 xff1a 初学Maven xff0c 新建了一个基于Web骨架的Web项目 xff0c jar 包也导好了 xff0c 作用域也设置正确了 xff0c Tomcat也正常运行了 xff0c 可是就是说编译错误问题原因由于
解决mingw-w64外网下载太慢问题，离线包安装配置过程讲解

常规安装程序下载地址 xff1a http www mingw w64 org doku php 但用安装程序直接安装mingw w64 xff0c 由于国际网络链路问题 xff0c 很难安装成功 xff0c 于是做了打包了一个离线包 xf
HTTP安全-nonce和timestamp在Http安全协议中的作用

http www byywee com page M0 S591 591082 html 写道前段时间给客户网站做新浪微博账号登录功能 xff0c 对 OAuth协议以及相关的一些安全协议做了一些研究 xff0c 顺便就记录一下学习心得吧
NVIDIA TensorRT使用记录

1 准备工作 1 Pipeline train 在Host PC的GPU上训练test deployment 在TX1 TX2上部署使用 2 主机部署步骤 Running JetPack on the Host JetPack L4T 3
用C语言实现串口通讯程序

1 首先安装虚拟串口vspd软件 xff0c 用于创建虚拟串口进行互联调试 2 打开vspd软件 xff0c 选择COM1和COM4 xff0c 点击Add pair xff0c 把COM1和COM4互联 3 打开虚拟串口助手 xff0c
A2M7雷达在虚拟机的SLAM建图

准备 Ubuntu18 04 雷达A2M7 一前期准备安装建立工作空间并编译 mkdir p turtlebot ws src cd turtlebot ws src git clone https github com ncnynl
linux cmake分别指定编译/运行时动态库链接路径

1 背景在树莓派上开发执行程序 xff0c 需要用到opencv curl jsoncpp等库函数支持 xff0c apt get安装好后 xff0c 编译执行正常但是执行程序挪到别的板子上 xff0c 都要apt get安装这些库 x
C语言函数库之字符串连接函数(string.h)

1 字符串连接函数strcat 函数定义 xff1a char strcat char str1 const char str2 函数功能 xff1a 把str2 包括 39 0 39 拷贝到str1的尾部连接 xff0c 并返回str1
foc学习笔记3——电流环

foc学习笔记3 电流环电流环的作用前文不断强调 xff0c 进行磁场定向控制需要控制的是电流而非电压 xff0c 只是因为我们没有办法直接去控制电流才暂时退而求其次地去控制电压虽然电压控制的效果也还不错 xff0c 但由于电机不是单
ESP32之蓝牙配网blufi

概览 BluFi 是一款基于蓝牙通道的 Wi Fi 网络配置功能 xff0c 适用于 ESP32 它通过安全协议将 Wi Fi 配置和证书传输到 ESP32 xff0c 然后 ESP32 可基于这些信息连接到 AP 或建立 SoftAP B
机器人学习之项目- Project2 :Where Am I?

1 项目概述欢迎来到 Where Am I 我在哪里定位项目在这个项目中 xff0c 将学习如何利用ROS AMCL包在Gazebo模拟环境的地图中准确地定位移动机器人在完成本项目的过程中 xff0c 涉及机器人软件工程的几个方面
将不同类对象指针存放QVector中

需求 xff1a 将一系列操作步骤放在链表中按需调用我将每个操作步骤用一个类实现 xff0c 将各类继承于一个基类 xff0c 再将指向各子类的基类指针放在QVector Vector xff0c 即可通过C 43 43 的多态实现调用各

随机推荐

体感摄像头 realsense 系列硬件资料

一体感摄像头 Intel的体感摄像机是具有深度图像采集能力的摄像机 xff0c 目前已经出到了400系列与kinect 2 xff0c ZED xff0c leap motion比较 xff0c 属于比较中庸手势识别方面不如leap
C语言进度条的实现

C语言进度条的实现 buff N xff1a 进度条状态字符串 xff0c N大小决定进度条长度 xff08 自行调整 xff09 xff0c 使用前先将所有字符初始化置零 xff0c 我这里使用的是memset函数 xff1b label
numpy下的随机数

版权声明 xff1a 本文为博主原创文章 xff0c 未经博主允许不得转载 https blog csdn net m0 38061927 article details 75335069 在使用Python进行数据处理时 xff0c 往往
宏函数可变参数 C/C++

span class token macro property span class token directive hash span span class token directive keyword include span spa
排查ingress 404报错的方法--附：在容器中使用tcpdump抓包

出现这个问题 xff0c 一般是由于路由不通导致的 xff0c 需要进行抓包排查首先要解决的问题是 xff0c 如何在 ingress controller 容器中安装抓包工具 1 由于 ingress controller 的mando
fastApi介绍与重要版本更新细节

fastApi介绍 FastAPI 是用于使用 Python 构建 API 的现代 Web 框架它建立在 Starlette 框架之上 xff0c Starlette 框架是一个轻量级且可扩展的 ASGI xff08 异步服务器网关接口
3. fastApi查询参数详解

当声明的参数不是路径参数时 xff0c 路径操作函数会把该参数自动解释为查询参数如下路径操作函数将参数skip limit解释为查询参数 query parameter span class token decorator annota
4. fastApi请求体详解

简单介绍网络请求网络请求是指客户端 xff08 例如浏览器移动应用程序等 xff09 向服务器发送请求 xff0c 以获取特定资源或执行特定操作的过程 HTTP请求是一种常见的网络请求协议 xff0c 它通过互联网连接客户端和服务器 x
python多线程与多进程简略介绍

GIL介绍在python中GIL的限制导致不论是在单核还是多核条件下 xff0c 同时刻都只能运行一个线程 xff0c 这使得Python多线程无法发挥多核并行的优势 GIL全称为Global Interpreter Lock意思是全局
高并发场景下，python各web框架的优劣对比与示例分析

高并发场景下 xff0c python各个web框架的优劣对比与示例分析 Python有许多适合高并发场景的Web框架 xff0c 下面是其中几个 xff1a Flask Flask是一个轻量级的Web框架 xff0c 由Werkzeug和
6. fastApi文件上传请求处理示例

需求 xff1a 开发文件上传功能接口接口路径 files 请求类型 post 响应结果返回文件的大小单位bytes 实现方案使用post类型处理方法 xff0c 指定参数类型为bytes或UploadFile 使用File 方法处
7. fastApi表单数据处理详解与示例

需求前端通过表单数据的形式发送用户名与密码到后端 xff0c 后端通过用户信息校验 xff0c 过滤出合法用户 xff0c 并为用户设置cookie 超时时间为24h xff09 接口路径 login 请求类型 post方法发送的文件响
C语言结构体字节对齐规则

C语言结构体字节对齐规则基本规则规则1 xff1a 结构体 xff08 struct xff09 的数据成员 xff0c 第一个数据成员放在offset为0的地方 xff0c 以后每个数据成员存放在offset为该数据成员大小的整数倍的
如何处理C++构造函数中的错误

用C 43 43 写代码的时候总是避免不了处理错误 xff0c 一般来说有两种方式 xff0c 通过函数的返回值或者抛出异常 C语言的错误处理一律是通过函数的返回值来判断的 xff0c 一般是返回0 NULL 或者 1 表示错误 xff0c
改进后的A星三维路径规划完整算法(matlab语言)，包括障碍物模型优化

改进后的A星三维路径规划完整算法 matlab语言 xff0c 包括障碍物模型优化 xff0c 平滑处理 xff0c 启发函数的改进 xff0c 环境地图可以根据自己的实际情况进行改进 xff0c 算法包含了非常详细的代码注释 ID 695
8. fastApi请求错误处理方式与示例

请求错误处理某些情况下 xff0c 需要向客户端返回错误提示需要向客户端返回错误提示的场景主要如下 xff1a 客户端没有执行操作的权限客户端没有访问资源的权限客户端要访问的项目不存在服务器内部错误遇到这些情况时 xff0c 通常要返
9. fastApi的json编码器使用示例

JSON 编码器有时 xff0c 我们要把 Pydantic 模型等数据类型转换为字典列表等与 JSON 兼容的格式例如 xff0c 把 Pydantic 模型存入数据库时就要进行转换为此 xff0c FastAPI 提供了 jso
10. fastApi数据更新方法

用 PUT 更新数据把输入数据转换为 JSON 数据 xff08 例如 xff0c 使用 NoSQL 数据库时 xff09 xff0c 可以使用 jsonable encoder 例如 xff0c 把 datetime 转换为 str P
写在前面--(与各位读者聊聊)

xff61 xff65 xff65 xff89 xff9e 嗨 xff01 我是jesse xff0c 欢迎来到我的Python爬虫博客专栏 xff01 在本专栏中 xff0c 我将分享Python爬虫技术的各个方面 xff0c 包括基础知
爬虫示例一【简单爬虫实现】

爬虫构建回顾以上的接口分析过程 xff0c 整个对我们有用的请求过程是 xff0c 浏览器发送一个GET请求 xff0c 直接获取到了我们想要的数据页面那么如何通过python代码复现以上的请求过程呢 xff1f 对于这样的简单爬虫 x

热门标签