目录
HTTP协议
基本概念
请求:
响应:
请求头中最常见的⼀些重要内容(爬虫需要):
响应头中⼀些重要的内容:
请求方式:
总结
HTTP协议
基本概念
协议: 就是两个计算机之间为了能够流畅的进行沟通而设置的⼀个君子协定。常见的协议有TCP/IP,SOAP协议,HTTP协议,SMTP协议等等.....
HTTP: Hyper Text Transfer Protocal 超文本传输协议,即浏览器和服务器之间数据交互遵守的协议,是用于从万维网(WWW:World Wide Web)服务器传输超文本到本地浏览器的传送协议。
HTTP协议把一条消息分为三大块内容,无论请求还是响应都是三块内容
请求:
请求行 -> 请求方式(get/post)请求url地址、协议
请求头 -> 放一些服务器要使用的一些附加信息
请求体 -> 一般放一些请求参数
响应:
状态行 -> 协议 状态码
响应头 -> 放一些客户端要使用的一些附加信息
响应体 -> 服务器返回的真正客户端要用的内容(HTML/json等)
后面我们写爬虫的时候要格外注意请求头和响应头,这两个地方通常都隐含着一些重要的内容。
请求头中最常见的⼀些重要内容(爬虫需要):
1. User-Agent : 请求载体的身份标识(用啥发送的请求)
2. Referer: 防盗链(这次请求是从哪个页面来的? 反爬会用到)
3. cookie: 本地字符串数据信息(用户登录信息, 反爬的token)
响应头中⼀些重要的内容:
1. cookie: 本地字符串数据信息(用户登录信息, 反爬的token)
2. 各种神奇的莫名其妙的字符串(这个需要经验了, ⼀般都是token字样, 防止各种攻击和反爬)
请求方式:
GET: 显示提交(查询)
POST: 隐示提交(更改)
总结
# HTTP: Hyper Text Transfer Protocal 超文本传输协议,即浏览器和服务器之间数据交互遵守的协议
# HTTP把一条消息分为三大块内容,请求和响应都是三大块内容
# 请求:请求行(请求方式get/post、请求url地址、协议)、请求头(服务器使用的附加协议)、请求体(请求参数)
# 响应:状态行(协议、状态码)、响应头(客户端使用的附加协议)、响应体(服务器返回的客户端真正需要的内容如html,json等)
# 请求头中常见的一些重要内容(爬虫需要):
# User-Agent(UA):请求载体的身份标识(用什么发送的请求)
# Referer:防盗链(这次请求是从哪个页面来的?反爬会用到)
# cookie:本地字符串数据信息(用户登录信息,反爬的token)
# 响应头中常见的一些重要内容:
# cookie:本地字符串数据信息(用户登录信息,反爬的token)
# 各种神奇的莫名其妙的字符串(需要经验,一般都是token字样,防止各种攻击和反爬)
# 请求方式
# GET: 显示提交(查询等)
# POST: 隐示提交(更改等)