需求:
爬取https://spa3.scrape.center/电影名称,电影分类,上映时间和评分
接口分析
直接在浏览器请求https://spa3.scrape.center/,并查询网页源码,发现数据并不在页面内。
我由此推测数据为异步接口加载,最后渲染到页面内。则需要通过chrome浏览器抓包分析,定位数据接口。
数据接口为https://spa3.scrape.center/api/movie/?limit=10&offset=10 GET接口,无特定防爬。只需要常规请求即可获得数据。
爬虫构造
只需要构造一般常规的请求头,通过requests发送常规的get请求即可获取到数据,最后将响应对象解析为json,并转换为python dict类型处理即可。
合理请求头
headers = {
'Accept': 'application/json, text/plain, */*',
'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
'Cache-Control': 'no-cache',
'Connection': 'keep-alive',
'Pragma': 'no-cache',
'Referer': 'https://spa3.scrape.center/',
'Sec-Fetch-Dest': 'empty',
'Sec-Fetch-Mode': 'cors',
'Sec-Fetch-Site': 'same-origin',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36',
'sec-ch-ua': '"Google Chrome";v="111", "Not(A:Brand";v="8", "Chromium";v="111"',
'sec-ch-ua-mobile': '?0',
'sec-ch-ua-platform': '"Windows"',
}
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)