python爬虫笔记

2023-11-12

python爬虫笔记

找到了一个网址 https://blog.csdn.net/belalds/article/details/80694126

1.使用requests库

import requests#导入requests库
response = requests.get('https://douban.com/')  #使用requests的GET方法获得豆瓣首页
requests.post('jttps://www.douban.com/') #使用post方法

使用Requests请求方法后,系统会返回一个响应(response )对象,其存储了服务器响应的内容。现在回到最开始使用GET方法获取到的响应response,可以使用response.text获取文本方式的响应体内容,Requests 会自动解码来自服务器的内容,大多数unicode字符集都能被无缝地解码。请求发出后,Requests 会基于HTTP头部对响应的编码做出有根据的推测。当访问responsetext时,Requests 会使用其推测的文本编码。可以使用如下命令找出Requests使用了什么编码。

response .encoding

显然,Reqeusts 使用utf-8 解码了来自豆瓣服务器的内容。也可以修改response.encoding属性来让response.text使用其他编码进行解码,示例如下。

response.encoding = 'ISO-8859-11'

如果改变了编码, 每次访问response.text, Requests 都将会使用response encoding的新值。大多数情况下,Requests 会自动解码来自服务器的内容,所以并不需要改变response, encoding,只有在使用特殊逻辑计算出文本编码的情况下,才需要修改编码。例如HTTP和XML自身可以指定编码,这样的话,可以使用response.content 查看网页源码来找到其编码方式,然后设置response encoding为相应的编码。这样就能使用正确的编码解析response.text了。

response content以字节的方式访问请求响应体,假如获取的是一张图片,可以直接保存请求返回的response. content二进制数据。
with open('tupian.jpg', 'wb') as tp: tp. write (response . content)

响应状态码(HTTP Status Code )是用以表示网页服务器HTTP响应状态的3位觉字代码。可以使用response. status_code 查看响应状态码,200:请求成功;301:网页被永久转移到其他URL;404:请求网页不存在;500:内部服务器错误。

服务器通过读取请求头部的用户代理信息来判断该请求是正常的浏览器还是爬虫。可添加HTTP头部来伪装成正常浏览器。需要传递用户代理的dict给headers参数即可:

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)   Chrome/46.0.2490.80 Safari/537.36'}
res = requests.get(url            , headers=headers)

r.history追踪重定向
设置timeout = ?在经过?秒数时间之后会停止等待响应,以防止服务器没有响应。

requests.get(url            , timeout = 3)

Urllib库

Urllib内含4个模块:urllib.request--打开和读取url;urllib.error--包含Urllib.request各种 错误的模块;urllib.parse---解析URL;urllib.robotparse---解析网站robots.txt文件

重复爬取,简单理解为,网页A包含了网页B的链接,而网页B又包含了网页A的链接,那它们之间就会形成一个闭环。

发送GET请求

from urllib.request import urlopen
html = urlopen('http://baidu.com/')
response = html.read()
print(response)
print(response.decode('utf-8'))
首先从urllib.request引入urloprn函数,使用此函数向百度发送请求,会返回一个二进制对象html,对此html对象进行read操作,可得到一个包含网页内容的二进制响应。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫笔记 的相关文章

  • paddledetection在window使用cpu快速上手 & 在cpu端训练自己的VOC类型数据集

    使用cpu快速上手 配置文件 配置文件在configs文件夹下 包含了基本上所有常见模型的配置文件 以yolov3 mobilenet v1 roadsign yml为例 BASE datasets roadsign voc yml run
  • mysql完全卸载方法

    首先注意 一台机器上可以装不同的mysql实例 可以装不同版本的mysql 所以如果非十分必要 可不必对mysql进行完全卸载 下面给出MySQL的完全卸载方法 1 运行cmd 执行net start 查看与mysql相关的服务名称 并记录
  • QCC300x笔记(4) -- 蓝牙地址的规则

    哈喽大家好 这是该系列博文的第四篇 篇 lt lt 系列博文索引 快速通道 gt gt 蓝牙地址分为三部分 LAP 24位地址低端部分 UAP 8位地址高端部分 和NAP 16位无意义地址部分 其中 NAP和UAP是生产厂商的唯一标识码 必
  • ubuntu技巧--python查看已安装包

    1 打开terminal 输入python 进入交互环境 2 比如要查看是否安装numpy包 则输入 help numpy
  • Pnpm:高性能的 npm

    pnpm 英文里面的意思叫做 performant npm 意味 高性能的 npm 官网地址可以参考 https pnpm io 什么是pnpm Pnpm 本质上就是一个包管理器 这一点跟 npm yarn 没有区别 但它作为杀手锏的两个优
  • python中对于bool布尔值的取反

    背景 根据公司业务的需求 需要做一个对于mysql数据库的大批量更新 脚本嘛也是干干单单 使用了redis的队列做缓存 可以异步并发的多任务进行更新 有点难受的地方在于 请求访问时 因为一些网速 速率之内的原因 导致正常的数据会请求失败 处
  • 游戏在计算机丢失,运行游戏时提示丢失d3dx9_43.dll的多种解决方法

    很多人遇到dll文件被丢失首先想到的就是电脑被中毒了 电脑被入侵了 其实往往都是自己对电脑的认识不够深而导致遇到一些小故障就盲目不知道该如何下手 当然遇到没有找到d3dx9 43 dll我们该怎么办呢 下面就来好好认识这个d3dx9 43
  • layui table默认选中指定行

    表格默认选中行 在回调里写入 done function res curr count tableData res data data field id css display none var data res data var num
  • win10系统谷歌浏览器怎么用不了?谷歌浏览器打不开网页的解决方法

    1 我们下载好谷歌浏览器后 搜索时 界面一直卡在主界面 一直在刷新 就是弹不出东西 2 通过设置来是谷歌浏览器可以进行搜索 点击右上角的三个小黑点 在下拉界面中点击 设置 3 在 地址了使用的搜索引擎 后面 点击Google后面的小三角 选
  • 【Linux】进程地址空间

    需要云服务器等云产品来学习Linux的同学可以移步 gt 腾讯云 lt gt 阿里云 lt gt 华为云 lt 官网 轻量型云服务器低至112元 年 新用户首次下单享超低折扣 目录 一 虚拟地址 二 对进程地址空间的理解 三 32位下的进程
  • STM32CubeMX时钟源的选择

    使用STM32CubeMX进行时钟源RCC配置的时候 可以选择使用内部时钟或外部时钟 当程序对时钟精度要求较高时 通常使用外部时钟 下拉选框如下图 Disable 禁用外部时钟 BYPASS Clock Resource 外部有源晶振 旁路
  • 在windows上使用ubuntu(非虚拟机模式)

    工具 wsl ubuntu20 04 步骤 在powershell下执行wsl install等待进度条完成 在控制面板 gt 程序 gt 启用或者关闭windos功能 勾选适用于Linux的windos子系统 任务栏的搜索框输入Micro
  • python实验总结_python实训总结和体会_python实训心得体会 - CSDN

    1 字符串格式化表达式 功能 生成一个特定格式的字符串运算符 语法格式 格式化字符串 参数值或格式化字符串 参数值1 参数值2 参数值3 描述 左边是字符串的格式 右边是参数值 当有多个参数值 使用括号 分离格式字符串并使用一个逗号 分隔格
  • MySQL删除数据库

    删除数据库是指在数据库系统中删除已经存在的数据库 数据库删除之后 原来分配的空间将被收回 需要注意的是 数据库删除之后该数据库中所有的表和数据都将被删除 因此删除数据库要特别小心 一 通过SQL语句 MySQL中 删除数据库通过SQL语句D
  • tensorflow学习(二)——训练分类时,对图像进行增强(基于tf.image存在的一些问题)

    0 写作目的 好记性不如烂笔头 1 图像分类时 图像的数据增强 在博主进行图像增强时 存在一些问题 和大家分享一下 1 1 使用tensorflow自带的读取图像函数存在的问题 如果采用直接读取图像的方式 使用tf image进行读取图像
  • zookeeper介绍

    1 简介 Zookeeper 分布式服务框架是Apache Hadoop 的一个子项目 它主要是用来解决分布式应用中经常遇到的一些数据管理问题 如 统一命名服务 状态同步服务 集群管理 分布式应用配置项的管理等 Zookeeper 作为一个
  • Spring-Data-Jpa AuditingEntityListener @CreatedDate @LastModifiedDate 用法

    import com fasterxml jackson annotation JsonIgnoreProperties import org hibernate validator constraints NotBlank import
  • OpenStack学习笔记(二)计算服务NOVA

    本篇记录OpenStack的计算服务NOVA一些内容 很多看不懂 汗 只捡一小部分记录 一 逻辑图 OpenStack 计算服务NOVA 是基础设施服务IAAS的主要部分 采用Python实现 1 因为认证 与OpenStack 身份认证k
  • 如何将GB7714-2015格式的参考文献表转换为bib文件

    如何将GB7714 2015格式的参考文献表转换为bib文件 1 背景 latex使用参考文献是一个自动化的工作 但建立和维护bib文件其实一个长期的积累活动 有些参考文献的bibtex数据是存在 比如从各类学术网站上可以下载到 但有些网站
  • NIO-DO Java 线上笔试(编程)题,蔚来汽车

    NIO DO Java 线上笔试 编程 题 1 使用二分查找的方式来定位某一元素 2 请用你熟悉的开发语言 完成如下题目 输入 若干个集合 各集合中的元素不会重复 输出 求这些集合的笛卡尔积例如 输入 N个集合 这里N 3 a b x y

随机推荐

  • Laravel-Dcat-layer 手写的弹窗样式

    Dcat admin框架下重新写的弹窗样式 实现设置固定最大高度弹窗滚动 实现更好的页面效果 public function layer return lt lt
  • python使用KDDockWidget

    编译原理 KDDockWidget是一个C 库 通过shiboken转成python的绑定支持 针对特殊版本 需要在cmake文件中增加一些变量 注 本次编译 Qt版本统一指定为6 4 2 库支持Qt gt 5 12或6 2 0以上版本 下
  • yolov5数据集制作

    yolov5 数据集的格式 每个图像的标注信息存储在一个独立的txt文件中 每个txt文件的名称应该与其对应的图像名称相同 只是文件扩展名不同 例如 对于名为 image1 jpg 的图像 其标注信息应存储在名为 image1 txt 的t
  • FPGA微型板Verilog简单音频

    简单音调生成 该模块通过使用一个计数器生成一个1 kHz的信号 该计数器在CLK的每个刻度上都递增 当计数器达到32 000时 将切换输出BUZZER 并将计数器重置为0 音频输出 使用一个1 k 电阻器和一小段实心线将GPIO引脚P97和
  • Nginx多条件IF逻辑运算(与、或操作)不支持问题解决方法

    原文地址 Nginx多条件IF逻辑运算 与 或操作 不支持问题 BIGTREE Nginx配置不支持if条件的逻辑与 逻辑或运算 而且也不支持if嵌套 例如 if e request filename request uri apple b
  • 5 建立业务需求

    业务需求代表的是需求链的顶部 它们定义解决方案的愿景和实现该方案的项目范围 用户需求和功能需求和功能需求必须与业务需求建立的背景和目标保持一致 任何无助于项目达成业务目标的需求都不宜实现 如果项目没有清晰的定义和充分沟通方向 肯定会带来灾难
  • IDEA配置tomcat服务器

    需求背景 从Eclipse转IDEA后面对的第一个问题 就是要为IDEA配置tomcat服务 否则不可用 那么 功能需求 那么 该如何配置呢 1 点击 Edit Configurations 进入tomcat服务编辑页面 如下图所示 2 点
  • 漫谈数据库表设计及索引设计

    一 数据库表设计 在数据库表设计上有个很重要的设计准则 称为范式设计 什么是范式设计 范式来自英文Normal Form 简称NF MySQL是关系型数据库 但是要想设计 个好的关系 必须使关系满足一定的约束条件 此约束已经形成了规范 分成
  • 一阶RC低通滤波器(二)

    这篇文章补充下前面讲的一阶低通滤波器 在母线电压采样或是在电机的三相端电压采样时 往往是先分压 再经过RC低通滤波器 电路图如下 1 先求输出和输入的关系 Uao Ua 从上式可以看出系统相当于一个典型的一阶低通滤波器串联了一个R2 R1
  • python-opencv之形态学操作(腐蚀和膨胀)原理详解

    形态学操作作用 Removing noise Isolation of individual elements and joining disparate elements in an image Finding of intensity
  • frp login to server failed: i/o deadline reached

    使用kcp协议有时会出现这个问题 配置改为tcp即可
  • 【科研入门】会议、期刊、出版社、文献数据库、引文数据库、SCI分区、影响因子等基础科研必备知识

    大家好 我是洲洲 欢迎关注 一个爱听周杰伦的程序员 关注公众号 程序员洲洲 即可获得10G学习资料 面试笔记 大厂独家学习体系路线等 还可以加入技术交流群欢迎大家在CSDN后台私信我 本文目录 一 会议与期刊 二 如何辨别是否正规期刊or会
  • 进阶题解:链表相交,吊打代码随想录

    随想录解法 class Solution public ListNode getIntersectionNode ListNode headA ListNode headB ListNode curA headA ListNode curB
  • #pragma data_seg共享数据使用说明

    用 pragma data seg建立一个新的数据段并定义共享数据 其具体格式为 pragma data seg shareddata HWND sharedwnd NULL 共享数据 pragma data seg 1 pragma da
  • 样本方差为何除以n-1而不是n?

    很多人可能都会有疑问 为什么要除以n 1 而不是n 如果除以n 对样本方差的估计不是无偏估计 比总体方差要小 要想是无偏估计就要调小分母 所以除以n 1 那么问题来了 为什么不是除以n 2 n 3等 所以在这里彻底总结一下 首先交代一下无偏
  • wangEditor富文本编辑器+react+antd的使用

    1 github上发现富文本编辑器 官网地址及github地址 2 结合react antd的具体使用 案例使用场景 MyModal为弹窗 弹窗显示 编辑名称及描述 描述使用wangeditor富文本编辑器实现 MyModal js imp
  • 免费的HTML5连载来了《HTML5网页开发实例详解》连载(六)媒体查询

    响应式设计的另一个重要技术手段是媒体查询 如果只是简单的设计一个流式布局系统 那么可以保证每个网格按比例的放大和缩小 但有可能会使得在小屏幕下 如手机设备 网格太小而严重影响阅读 这样的设计称不上响应式设计 媒体查询可以来解决这一问题 媒体
  • VMware workstation 14.1.8 pro 下载地址 14最新版

    VMware Workstation 14 1 8 Pro 发布于2019年11月12日 官网下载地址如下 https download3 vmware com software wkst file VMware workstation f
  • linux如何查看安装了哪些软件

    linux查看安装了哪些软件的方法 1 利用 rpm qa 命令查看rpm方法安装的软件 2 利用 dpkg l 命令查看deb方法安装的软件 3 利用 yum list installed 命令查看yum方法安装的软件 本教程操作环境 l
  • python爬虫笔记

    python爬虫笔记 找到了一个网址 https blog csdn net belalds article details 80694126 1 使用requests库 import requests 导入requests库 respon