爬虫有三大基础库Requests、BeautifulSoup和Lxml,这三大库对于初学者使用频率最高,现在大家一起来看看这基础三大库的使用。
- Requests库
Requests库的作用就是请求网站获取网页数据。
Code:res=requests.get(url)
返回:
- 返回200说明请求成功
- 返回404、400说明请求失败
Code:res=request.get(url,headers=headers)
添加请求头信息伪装为浏览器,可以更好的请求数据信息
Code:res.text
详细的网页信息文本
- BeautifulSoup库
BeautifulSoup库用来将Requests提取的网页进行解析,得到结构化的数据
Soup=BeautifulSoup(res.text,’html.parser’)
详细数据提取:
infos=soup.select(‘路径’)
路径提取方法:在固定数据位置右键-copy-copy selector