requests爬虫遇到404怎么办_Python爬虫基础库和实践

2023-11-09

爬虫有三大基础库Requests、BeautifulSoup和Lxml，这三大库对于初学者使用频率最高，现在大家一起来看看这基础三大库的使用。

Requests库

Requests库的作用就是请求网站获取网页数据。

Code：res=requests.get(url)

返回200说明请求成功
返回404、400说明请求失败

Code：res=request.get(url,headers=headers)

添加请求头信息伪装为浏览器，可以更好的请求数据信息

Code：res.text

详细的网页信息文本

BeautifulSoup库

BeautifulSoup库用来将Requests提取的网页进行解析，得到结构化的数据

Soup=BeautifulSoup(res.text,’html.parser’)

详细数据提取：

infos=soup.select(‘路径’)

路径提取方法：在固定数据位置右键-copy-copy selector

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

requests爬虫遇到404怎么办

requests爬虫遇到404怎么办_Python爬虫基础库和实践的相关文章

hivesql解析json格式的key与value

目录解析json格式中的key 解析json格式中的value json格式示例 city code 340100 county code 340111 orientation 东 road id 35204271 speed 35 72
NNDL 实验六卷积神经网络（3）LeNet实现MNIST

目录 5 3 基于LeNet实现手写体数字识别实验 5 3 2 模型构建 5 3 3 模型训练 5 3 4 模型评价 5 3 5 模型预测使用前馈神经网络实现MNIST识别与LeNet效果对比选做可视化LeNet中的部分特征图和卷积
docker安装redis Docker安装redis docker安装Redis 详细教程

docker安装redis Docker安装redis docker安装Redis 详细教程 Docker 上安装 Redis 的步骤选择要安装的Redis版本 1 拉取 Redis 镜像 2 创建并运行容器创建 redis conf
02-linux安装nodejs

1 前期准备 1 Node js简介简单的说 Node js 就是运行在服务端的 JavaScript Node js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境 Node js 使用了一个事件驱动非阻塞式
组态王、力控、MCGS、瑞尔、杰控等国内组态软件一点看法

2005年08月28日 23 26 00 从结构上说组态王和MCGS一样前台动画和后台集成在一起在运行模式下一起运行而力控瑞尔却分为后台驱动实时数据库前台三部分组成更为有意思的是瑞尔的每一个驱动就是一个EXE 其驱动DLL
Spring 中的事件监听机制

目录 1 标准的 Spring 事件机制 1 ApplicationEvent 自定义事件 2 ApplicationEventPublisher 发布事件 3 ApplicationListener 监听事件 2 基于 EventList
嵌入式与人工智能关系_嵌入式人工智能的发展趋势

嵌入式与人工智能关系嵌入式人工智能的发展趋势所谓嵌入式人工智能就是设备无须联网通过云端数据中心进行大规模计算去实现人工智能而是在本地计算在不联网的情况下就可以做实时的环境感知人机交互决策控制那么嵌入式与人工智能关系是什么嵌
spark学习6：应用程序的打包部署

standlone 集群模式下提交应用后可以在浏览器中输入 spark master 8080 查看执行情况 yarn集群模式下提交应用程序提交后可以在tracking URL 中查看记录如下图 ps 在 spark shell
python项目实现配置统一管理的方法

一个比较大的项目总是会涉及到很多的参数最好的方法就是在一个地方统一管理这些参数最近看了不少的python项目总结了两种很有意思的配置管理方法第一种基于easydict实现的配置管理首先需要安装numpy easydict以及ya
jmeter性能测试输出html报告

前言 jmeter在界面模式下执行性能测试会占用大量的系统资源导致测试数据不准确为了减少系统资源的占用我们建议在cmd 即非GUI模式模式输入命令进行性能测试 jmeter自带输出html测试报告功能 1 准备写好脚本 2 在j
mysql—注入点获取WebShell的几种方式

利用条件 1 有写文件条件 secure file priv show variables 要么禁用要么设置了路径 show variables like secure 目录权限对于MySQL来说有可以对某个目录进行读写的权限 Sel
【C++】【MATLAB】三元二次多项式拟合求极值点原理+代码

一需求描述本人最近需要对多个3维数据进行曲线的拟合并且找到极大值点难点 1 一组数据有125个点每个点有3个坐标值 x y z 以及一个对应的得分值t x y z范围不限 t的范围是0到1 2 得用C 语言去实现本人的需求因此在
npm安装compression-webpack-plugin插件报错问题记录

文章目录问题再现解决方案总结问题再现因项目需要在前端项目中安装compression webpack plugin插件运行npm install compression webpack plugin命令之后在package j
二分-最小值最大化问题

二分最小值最大化问题大家好鄙人第一次写CSDN博客多多关照大家共同进步什么是最小值最大化问题问题呢我们以一道经典例题为例例题 POJ2456 链接 http poj org problem id 2456 题目描述原文 D
MatrixDB 从4018个参赛项目中脱颖而出，获 HICOOL 全球创业大赛

MatrixDB 又获奖了聚焦全球创新创业趋势的 HICOOL 2021 全球创业大赛历时145天的激烈角逐遍布全球84个国家和地区 4018个参赛项目 5077名创业人才报名参加作为今年最火热的国际化创业赛事北京四维纵横数据技术
华为OD机试 - 优秀学员统计（Java）

题目描述公司某部门软件教导团正在组织新员工每日打卡学习活动他们开展这项学习活动已经一个月了所以想统计下这个月优秀的打卡员工每个员工会对应一个id 每天的打卡记录记录当天打卡员工的id集合一共30天请你实现代码帮助统计出打卡次数t
分享java操作mongodb的crud代码

代码中包括了mongodb的crud及其分页查询排序功能下载地址分享java操作mongodb的crud代码 package com zuidaima mongodb test import java net UnknownHostE
python中str类型_python中str指的是什么类型

python中str指的是什么类型发布时间 2020 11 20 11 07 28 来源亿速云阅读 72 作者小新这篇文章将为大家详细讲解有关python中str指的是什么类型小编觉得挺实用的因此分享给大家做个参考希望大家阅
VUE3中defineExpose的使用方法

使用

随机推荐

[Raspi][SnowBoy][教程]树莓派SnowBoy搭建教程

1 为什么使用SnowBoy 项目需要一个语音助手但是小爱同学天猫精灵这种方案可支持的唤醒方式太少了经过一番查询找到snowboy 像上面提到的几款语音助手唤醒好像都是基于snowboy开发的 2 开始环境搭建 1 获取SnowBoy
eclipse JDT Plug-in Developer Guide

文章目录 JDT Programmer s Guide JDT Programmer s Guide Eclipse平台是用一个全功能的Java集成开发环境 IDE 来传递的 Java开发工具 JDT 允许用户编写编译测试调试和编辑用
Redis集合类型数据的统计模式

Redis集合类型常见的四种统计模式包括聚合统计排序统计二值状态统计和基数统计聚合统计所谓的聚合统计就是指统计多个集合元素的聚合结果包括统计多个集合的共有元素交集统计把两个集合相比统计其中一个集合独有的元素差集统计
【论文笔记】VLMO: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

1 介绍 1 1 视觉语言 VL 预训练的两种主流架构 1 dual encoder 分别对图像和文本进行编码优点检索任务缺点图像和文本之间的浅层交互不足以处理复杂的VL分类任务 2 单编码器对模型图像文本对进行跨模态关注的融合
服务中找不mysql

右键计算机点击管理然后点击服务和应用程序双击服务发现里面没有 MySql的服务找到MySQL安装目录我的是C Program Files MySQL MySQL Server 8 0 bin 打开cmd 进入MySQL的
java杨辉三角根据用户输入的行数n来显示杨辉三角的行数。

import java util Scanner public class Main06 public static void main String args Scanner scanner new Scanner System in i
高斯白噪声及Matlab常用实现方法

http blog sina com cn s blog 4d7c97a00101cv5h html 一概念英文名称 white Gaussian noise WGN定义均匀分布于给定频带上的高斯噪声所谓高斯白噪声中的高斯是指概率分
关于硬链接和软连接（符号链接）的区别

linux系统下提供ln指令来进行文件链接文件链接主要分为硬链接和软链接硬链接由于linux下的文件是通过索引节点 Inode 来识别文件硬链接可以认为是一个指针指向文件索引节点的指针系统并不为它重新分配inode 每添加一个一
计算机科学导论(5):计算机网络

原文链接计算机科学导论 5 计算机网络远行的舟参考纪录片互联网时代计算机科学导论 TCP IP 入门经典维基百科阮一峰老师博客哈尔滨工业大学阿里巴巴技术联盟互联网笔试面试整理 HTTP 权威指南 1776 年 3 月瓦特
几种负荷预测方法及其应用

1 趋势分析法趋势分析法称之趋势曲线分析曲线拟合或曲线回归它是迄今为止研究最多也最为流行的定量预测方法它是根据已知的历史资料来拟合一条曲线使得这条曲线能反映负荷本身的增长趋势然后按照这个增长趋势曲线对要求的未来某一点估计出该
rust 学习笔记1

RUST Rust 语言是一种高效可靠的通用高级语言其高效不仅限于开发效率它的执行效率也是令人称赞的是一种少有的兼顾开发效率和执行效率的语言 Rust的应用 Rust 语言可以用于开发传统命令行程序 Rust 编译器可以直接生成目
MFC 单文档中添加OnPaint

单文档中添加OnPaint 方法 1 在xxxView h里添加生成的消息映射函数 protected DECLARE MESSAGE MAP public afx msg void OnPaint 2 实现OnPaint 3 在xxxV
微信小程序渗透测试

一工具准备 burpsuite 夜神模拟器把微信装好 node js wxappUnpacker 二获取源码 1 配置Burp和模拟器模拟器需导入ca证书打开模拟器的WLAN gt 高级设置 gt 输入物理机的ip以及一个没被占用
Gof23设计模式之原型模式

1 概述用一个已经创建的实例作为原型通过复制该原型对象来创建一个和原型对象相同的新对象 2 结构原型模式包含一下角色抽象原型类规定了具体原型对象必须实现的clone 方法具体原型类实现了抽象圆形类的clone 方法它是可被复
ASP.NET开发公众号时微信支付遇到签名错误

请求返回来xml数据
7-21 口罩发放(标准注释+测试点说明)

为了抗击来势汹汹的 COVID19 新型冠状病毒全国各地均启动了各项措施控制疫情发展其中一个重要的环节是口罩的发放某市出于给市民发放口罩的需要推出了一款小程序让市民填写信息方便工作的开展小程序收集了各种信息包括市民的姓名身份
事件流及事件处理程序总结

事件流事件捕获阶段处于目标阶段事件冒泡阶段事件捕获与事件冒泡的区别如何阻止事件的默认行为以及如何阻止事件冒泡事件捕获和事件冒泡的概念是相反的事件捕获不具体的节点更早接收到事件而最具体的节点最后接收到事件 DOM2级事件
EndNote在Word中插入文献不能自动生成编号 - 解决方案

本文出处新浪博客小数码植物摄影之http blog sina com cn s blog 629be3eb0100sih3 html 新浪博客小数码植物摄影首页 http blog sina com cn u 1654383595
Android Studio中怎样引用图片资源

随着不断接触Android Studio 越来越发现和Eclipse有着巨大的差别不管是表面的目录结构还是内在对各种资源的管理本篇就来聊聊Android Studio中怎样来显示图片以及与Eclipse中的差别在Eclipse中依
requests爬虫遇到404怎么办_Python爬虫基础库和实践

爬虫有三大基础库Requests BeautifulSoup和Lxml 这三大库对于初学者使用频率最高现在大家一起来看看这基础三大库的使用 Requests库 Requests库的作用就是请求网站获取网页数据 Code res reque

requests爬虫遇到404怎么办_Python爬虫基础库和实践

requests爬虫遇到404怎么办_Python爬虫基础库和实践 的相关文章

随机推荐

热门标签

requests爬虫遇到404怎么办_Python爬虫基础库和实践的相关文章