python爬虫基础知识的总结

2023-10-28

什么是爬虫？

一、爬虫概述
简单来说，爬虫就是获取网页并提取和保存信息的自动化程序。
1.获取页面（如urllib、requests等）

2.提取信息（Beautiful Soup、pyquery、lxml等）

3.保存数据（MySQL、MongoDB等）

4.自动化程序

二、关于JS渲染的页面？
1.使用urllib、requests 等库请求当前页面时，只是得到html代码，它不会帮助我们去继续加载这个JS文件。

2.使用基本HTTP请求库得到的源代码可能和浏览器的页面源代码不太一样，对于这种情况，我们可以分析其后台Ajax接口，也可以使用Selenium、
Splash 这样的库来实现模拟JS渲染。

三、会话和Cookies
...

四、代理的基本原理

1.代理实际上指的就是代理服务器，代理网络用户去取得网络信息。形象的说，网络信息中转站。

本机 -----------> 代理服务器 -------------->  Web服务器
        请求                     请求

本机 <----------- 代理服务器 <--------------  Web服务器
         响应                       响应

这样我们同样可以正常访问网页，这过程中Web服务器识别出真是IP 就不再是我们本机IP了，就可以成功IP伪装，这就是
代理的基本原理

2.代理的作用

1）突破自身IP访问限制，访问一些平时不能访问的站点
2）访问一些单位或团体内部资源
3）提高访问速度
4）隐藏真是IP，防止自身IP被封锁

3.爬虫代理
对于爬虫来说，爬虫爬虫速度过快，爬虫可能遇到同一个IP访问过去频繁的问题，此时网站就会让我们输入验证码或者直接封锁
IP，这样带给爬虫极大不便。
使用代理隐藏真是IP，让服务器误以为是代理服务器在请求自己。这样在爬取过程中通过不断的更换代理，就不会被封锁，可以
达到很好的效果

4.代理分类
1）FTP 代理服务器：访问 FTP 服务器，上传。下载以及缓存功能，端口 21、2121 等
2）HTTP 代理服务器：访问网页，内容过滤和缓存功能，端口 80、8080、3128等
3）SSL/TLS 代理：访问加密网站，一般有SSL 或TLS加密功能（最高支持128位加密功能），端口 443
4）RTSP 代理：Real 流媒体服务器，一般有缓存功能，端口：554
5）Telnet 代理：主要用于telnet远程控制（黑客入侵计算机时常用于隐藏身份），端口为23
6）POP3/SMTP 代理：POP3/SMTP 方式收发邮件，一般有缓存功能，端口：110/25


基本库的使用

一、urllib

在Python3中，urllib已经不存在urllib2，统一为urllib，官方文档链接：https://docs.python.org/3/library/urllib.html
urllib库，是Python 内置的HTTP请求库
它包含如下四个模块：
request：基本的HTTP请求模块
error：异常处理模块
parse：工具模块
robotparser（用的比较少）：识别网站的robots.txt文件

1.urlopen()
urllib.request模块提供最基本的HTTP请求方法，同时它还带有处理授权验证码、重定向、浏览器Cookies以及其他内容。

import urllib.request
response = urllib.request.urlopen('https://www.python.org')
print(type(response))
output: <class 'http.client.HTTPResponse'>
进行分析，HTTPResponse类型对象，包含read(),readinfo(),getheader(name),getheaders(),fileno()等方法，以及msg、version
、status、reason、debuglevel、closed等属性。

urllib.request.urlopen(url, data=None, [timeout,]*, cafile=None, capath=None, cadefault=False, context=None)
data （附加数据）、timeout（超时时间）等

# timeout 参数
import socket
import urllib.error
import urllib.request

try:
    response = urllib.request.urlopen("http://httpbin.org/get", timeout=0.1)
except urllib.error.URLError as e:
    if isinstance(e.reason, socket.timeout):
        print('TIME　OUT')


#其他参数
除了data参数和timeout参数外， 还有 context 参数，它必须是ssl.SSLContext 类型，用来指定SSL 设置。
此外， cafile 和 capath 这两个参数分别指定 CA证书和它的路径，这个在请求 HTTPS链接时会有用。

前面讲解了 urlopen() 方法的用法， 通过这个最基本的方法， 我们可以完成简单的请求和网页抓取。 若需要更加详细的信息，可以参考
官方文档： https://docs.python.org/3/library/urllib.request.html

2.Request()

class urllib.request.Request(url, data=None, headers={}, orgin_req_host=None, unverifiable=False, method=None)

示例：

from urllib import request, parse

url = 'http://httpbin.org/post'
headers = {
    'USER-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2132.2 Safari/537.36',
    'Host':'httpbin.org'
}
dict = {
    'name':'Germey'
}
data = bytes(parse.urlencode(dict), encoding='utf8')
req = request.Request(url = url, headers=headers, data = data, method='POST')
response = request.urlopen(req)
print(response.read().decode('utf-8'))

3、高级用法

1）文件上传

# requests 可以模拟提交一些数据

# import requests

# files = {'file': open('favicon.ico', 'rb')}

# r = requests.post("http://www.baidu.com", files = files)

# print(r.text)

2）Cookies

使用requests，获取和设置Cookies 只需一步即可完成

示例1：

import requests
r = requests.get("https://www.baidu.com")
print(r.cookies)
for key,value in r.cookies.items():
    print(key + '=' + value)

运行出结果，发现是RequestCookieJar类型，然后用items() 方法将其转化为元组组成在列表，遍历出

Cookie 的名称和值

示例2：

import requests

cookies = 'tgw_l7_route=9553ebf607071b8b9dd310a140c349c5; ' \
          '_zap=74b7fdae-0800-4485-85b3-aa07447a91cf;' \
          ' _xsrf=vyBIBWAXr6lQuxsCNIzKwJSb4zjqxRaS;' \
          ' d_c0="APAh_lT6mA6PTlfodNHDUqm1slkUFNb60xo=|1543564338";' \
          ' capsion_ticket="2|1:0|10:1543564343|14:capsion_ticket|44:YzRlNGViM2IxNjY5NDVkNDhlOGM1OTM4ZmFjODVjMDQ=|fcd395175baab35d7a674f5b7639097551230b1a0c5be9d34bc5ebe4b1f3f0f0"; ' \
          'z_c0="2|1:0|10:1543564360|4:z_c0|92:Mi4xcUthWUF3QUFBQUFBOENILVZQcVlEaVlBQUFCZ0FsVk5TRHJ1WEFEdWdEQ29zYTJQUzVNMDNCejdGNldZUnNCdVBB|8a367dc007da80cb3a844af327cf67cfe9b248f95cf5e585c46be5d0b396caab"; ' \
          'tst=r; ' \
          'q_c1=ab8ffad7fa864108bda8ff3971b5054b|1543564362000|1543564362000'
jar = requests.cookies.RequestsCookieJar()
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2132.2 Safari/537.36',
    'Host':'www.zhihu.com'
}
for cookie in cookies.split(';'):
    key, value = cookie.split('=', 1)
    jar.set(key, value)
    r = requests.get('http://www.zhihu.com', cookies=jar, headers= headers)
    print(r.text)

3、会话维持

1）Cookies 会话，请求这个网址时，可以设置一个Cookie，名称叫做number，内容

是123456789，随后访问http://httpbin.org/cookies

import requests
requests.get("http://httpbin.org/cookies/set/number/123456789")
a = requests.get("http://httpbin.org/cookies")
print(a.text)

结果如下：

随后，使用session()

import requests

s = requests.Session()
s.get("http://httpbin.org/cookies/set/number/123456789")
b = s.get("http://httpbin.org/cookies")
print(b.text)

output:

以上Cookie与Session可以对比出，利用Session，可以做到模拟同一个会话而不用担心Cookies的

问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python对爬虫的认识

python爬虫基础知识的总结的相关文章

通过 add_subplot 添加子图后如何共享轴？

我有一个像这样的数据框 df pd DataFrame A 0 3 0 2 0 5 0 2 B 0 1 0 0 0 3 0 1 C 0 2 0 5 0 0 0 7 D 0 6 0 3 0 4 0 6 index list abcd A B
使用 Python Multiprocessing Pool.map() 的问题在 Python 3.7.2 中变得棘手，但在 3.6.2 中很快完成

我刚刚将Python从3 6 2 gt 3 7 2并且遇到了问题multiprocessing图书馆我在 Django 应用程序中使用它该应用程序在工作函数中使用 Django 特定的函数见下文在我的代码中我有以下内容 impor
在 Python 2.7 中出现“ImportError：无法导入名称 HTTPSConnection”错误

我正在尝试在 AWS ElasticBeanstalk 中部署 django 当我按照所示步骤操作时here http docs aws amazon com elasticbeanstalk latest dg create deploy
Python 转换矩阵

我有一个如下所示的列表 2 1 3 1 2 3 1 2 2 2 我想要的是一个转换矩阵它向我显示如下序列 1 后跟 1 的频率是多少 1 后面跟着 2 的频率是多少 1 后跟 3 的频率是多少 2 后跟 1 的频率是多少 2 后跟 2 的
键入的完整命令行

我想获得输入时的完整命令行 This join sys argv 在这里不起作用删除双引号另外我不想重新加入已解析和拆分的内容有任何想法吗你太迟了当键入的命令到达 Python 时您的 shell 已经发挥了它的魔力例如引
为什么在访问 Python 对象属性时使用 getattr() 而不是 __dict__ ？

在具有一定程度的 Python 对象自省的源代码示例和 SO 答案中常见的模式是 getattr some object attribute name string 是否有理由优先选择这种模式 some object dict attri
Django 多对多关系（类别）

我的目标是向我的 Post 模型添加类别我希望以后能够按不同类别有时是多个类别查询所有帖子模型 py class Category models Model categories 1 red 2 blue 3 black title
为什么 re.findall 在查找字符串中的三元组项时不具体。 Python

所以我有四行代码 seq ATGGAAGTTGGATGAAAGTGGAGGTAAAGAGAAGACGTTTGA OR 0 re findall r ATG 9 TAA TAG TGA seq 首先让我解释一下我正在尝试做什么如果这令人困惑
ValueError：数据必须为正（boxcox scipy）

我正在尝试将我的数据集转换为正态分布 0 8 298511e 03 1 3 055319e 01 2 6 938647e 02 3 2 904091e 02 4 7 422441e 02 5 6 074046e 02 6 9 265747e
在 Linux 上使用多处理时，TKinter 窗口不会出现

我想生成另一个进程来异步显示错误消息同时应用程序的其余部分继续我正在使用multiprocessingPython 2 6 中的模块来创建进程我试图用以下命令显示窗口TKinter 这段代码在Windows上运行良好但在Linux上
在请求中设置端口

我正在尝试利用cgminer使用 Python 的 API 我对利用requests图书馆我了解如何做基本的事情requests but cgminer想要更具体一点我想缩小 import socket import json sock
Python-验证我的文档 xls 中是否存在工作表

我正在尝试在空闲时间设计一个小程序加载 xls 文件然后在要扫描的文档中选择一张纸步骤1 用户导入 xls文件导入程序后检查文件是否存在我能做到的第 2 步我要求用户提供要分析的文档表 xls 的名称这就是它停止的地方该程
是否可以在Python中将日+月（不是年）与当前日+月进行比较？

我正在获取 5 月 10 日格式的数据我试图弄清楚它是今年还是明年该日期仅一年因此 5 月 10 日表示 2015 年 5 月 10 日而 5 月 20 日表示 2014 年 5 月 20 日为此我想将字符串转换为日期格式并进
如何获取分类数据的分组条形图

I have a big dataset with information about students And I have to build a graph of dependencies between different value
如何在matplotlib中调整x轴

I have a graph like this x轴上的数据表示小时所以我希望x轴设置为0 24 48 72 而不是现在的值很难看到 0 100 之间的数据 fig1 plt figure ax fig1 add subplot 11
无法导入QUERY_TERMS

我正在运行一个网站Python and Django Django filters 2 1 installed Django 2 1 installed 当我运行时我收到以下错误 importError Could not import
从 wxPython 事件处理程序中调用函数

我正在努力寻找一种在 wxPython 事件处理函数中使用函数的方法假设我有一个按钮单击该按钮时它会使用事件处理程序运行一个名为 OnRun 的函数但是用户忘记单击 OnRun 按钮之前的 RadionButton 我想弹出一个
是否可以使用 Anaconda 包作为 Google Cloud Functions 的依赖项？

我正在使用 Python 运行时编写 Google Cloud Function 我需要包含一些无法使用的依赖项pip 如文档中所述here https cloud google com functions docs writing spe
Python 读取未格式化的直接访问 Fortran 90 给出不正确的输出

这是数据的写入方式它是一个二维浮点矩阵我不确定大小 open unit 51 file rmsd nn output form unformatted access direct status replace recl Npoints
如何使用 Python/Django 在 Facebook 中获取（和使用）扩展权限

我正在尝试编写一个简单的应用程序让用户授予我的代码写入其页面的 Facebook 流的权限据我了解它应该很简单让用户单击一个按钮启动一个弹出窗口其中包含我的 Facebook 应用程序中的页面在该页面中他们单击授予的内容流发

随机推荐

Vue常用的组件库大全【前端工程师必备】

Vue常用的组件库大全前端工程师必备一移动端常用组件库 1 Vant ui 2 Cube UI 3 VUX 4 NuTUI 3 0 6 倒计时组件库 7 表格组件库 8 富文本编辑器 9 Loading加载动画组件 10 Mint
【论文解读】元学习：MAML

一简介元学习的目标是在各种学习任务上训练模型这样它就可以只使用少量的训练样本来解决新任务论文所提出的算法训练获取较优模型的参数使其易于微调从而实现快速自适应该算法与任何用梯度下降训练的模型兼容适用于各种学习问题包括分类回
semantic-ui的使用

好久又没有写博客了总是以忙为借口哎知识如果只图一时的学习之快不加以总结输出总是会忘记希望自己可以好好规划一下吧最近任务需要学习了semantic ui这个前端框架这里先基本记录一下如何去使用它我在网上找到了一个seman
python-半省略号、三个点、点点点、...符号的用法小结

一符号省略号和Ellipsis对象在Python中一切皆对象符号在python中其实也有相应的对象 Ellipsis 如下面的代码所示和Ellipsis的地址是相同的打印显示的结果是Ellipsis 打印的类型显示el
直流输入过压保护电路

在嵌入式产品设计中许多都为电池供电或者USB接口供电当误操作使供电电压高于芯片工作电压时就会导致芯片烧坏带来严重的后果因此在电源的输入端到芯片的供电输入端还是很有必要加一个过压保护电路当输入电压超过设定值就切断电源保护芯片
java登录远程服务器

加入ssh的依赖 ch ethz ganymed ganymed ssh2 262 代码实现因为执行SHELL脚本的时候可能是给出正常的返回值也可能是异常的信息这里需要一个JAVA Bean来接收这两个消息代码如下 import j
OpenMMLab开源库总结——笔记1

摘要很高兴能加入OpenMMLab AI实战营成为第二期4班的一名学员 OpenMMLab经过几年的发展和沉淀其开源项目已经覆盖到计算机视觉的各个领域 OpenMMLab 为香港中文大学商汤科技联合实验室 MMLab 开源的算法平台
mysql软件架构

客户端是你的业务应用怎么连接mysql server 一般都是用jdbc Java odbc C 客户端连接mysql 服务发指令发sql语句等文件系统操作系统的文件系统比如windows的文件系统 linux的文件系统综上所述
蓝桥杯模拟-排列序数

问题 X星系的某次考古活动发现了史前智能痕迹这是一些用来计数的符号经过分析它的计数规律如下为了表示方便我们把这些奇怪的符号用a q代替 abcdefghijklmnopq 表示0 abcdefghijklmnoqp 表示1 abcd
数据结构例题--迷宫

迷宫问题要求定义一个二维数组N M 其中2 lt N lt 10 2 lt M lt 10 如5x5数组如下所示 int maze 5 5 0 1 0 0 0 0 1 1 1 0 0 0 0 0 0 0 1 1 1 0 0 0 0 1
记录红米k40解BL、Root、装XPOSED

一前言刚从一加转到红米不得不吐槽虽然一加系统简陋但社区搞基搞机氛围非常好官方支持root也保修和第三方ROM下大神层出不群小米的社区放眼望去基本没人讨论root 第三方ROM 都是各种吐槽提问但没人回复的帖子既然找不到教程那就按
qt,信号槽连接不成功原因

在 Qt 中信号槽连接不成功的原因可能有很多下面是一些可能的原因和解决方法 1 信号和槽的声明不匹配请确保信号和槽的参数类型和数量完全匹配如果它们不匹配连接将不会成功检查信号和槽的声明确保它们是兼容的 2 信号和槽的作用域问题
JSON数组，JSON对象，数组的区别与基本操作整理

JSON 语法规则 JSON 语法是 javascript 对象表示语法的子集数据在名称值对中数据由逗号分隔花括号保存对象方括号保存数组 JSON 名称值对 JSON 数据的书写格式是名称值对名称值对组合中的名称写在前面
三大WEB服务器对比分析（apache ,lighttpd,nginx）

一软件介绍 apache lighttpd nginx 1 lighttpd Lighttpd是一个具有非常低的内存开销 cpu占用率低效能好以及丰富的模块等特点 lighttpd是众多OpenSource轻量级的web server
微信小程序开发（七） swiper 组件

微信小程序swiper组件 banner 图广告页 splash 实现效果代码 js Page data iamgeUrls https img zcool cn community 0106445dc28607a801209e1f62
C++11右值 &&引用

C 11右值引用 2017年06月06日 11 56 25 Ink cherry 阅读数 2394 标签 C 右值引用完美转发个人分类 C C 感觉这篇讲的比较深入细致了存一下 via http www cnblogs com Ti
[技术经理]02 什么是技术经理？

目录 01什么是技术经理 02总结 01什么是技术经理什么是技术经理我用一句话概括为专业技术团队的管理者技术经理是一种管理职位通常是在软件开发互联网等科技公司或技术团队中担任技术经理的职责是管理和协调技术团队确保团队能够
java写一个圆类求面积_java编程:定义一个圆类,属性为半径,方法为对输入的半径计算其周长和面积？...

展开全部 java编程e68a8462616964757a686964616f31333365633864定义一个类圆属性半径方法计算周长面积设置半径读取半径急java编程定义一个类 java编程定义一个类圆属性半径方法计算周长面积设置
“3D 元宇宙技术”在汽车新零售领域的应用与实践

一引言随着不久前汽车之家新零售项目震撼发布我们直击用户看车选车痛点首次提出ABC新体验模式以元宇宙科技打造沉浸式交互服务开放元宇宙能源空间站体验店为用户打造更有用的体验其中 A 是指一站式选车试车服务 All in one
python爬虫基础知识的总结

什么是爬虫一爬虫概述简单来说爬虫就是获取网页并提取和保存信息的自动化程序 1 获取页面如urllib requests等 2 提取信息 Beautiful Soup pyquery lxml等 3 保存数据 MySQL Mongo

python爬虫基础知识的总结

python爬虫基础知识的总结 的相关文章

随机推荐

热门标签

python爬虫基础知识的总结的相关文章