Python3 爬取PAT个人乙级题所有答案
进入PAT乙级题题目页面,下面是链接
https://pintia.cn/problem-sets/994805260223102976/problems/type/7
点开两个题目,观察两个链接有什么不同
两个链接的URL分别是
https://pintia.cn/problem-sets/994805260223102976/problems/994805325918486528
https://pintia.cn/problem-sets/994805260223102976/problems/994805324509200384
两个URL链接只有最后一串数字不同,说明这是区别题目的方式
回到所有题目的页面,打开开发者工具找到所有题目的链接的位置
写个正则表达式只提取链接最后的数字就行了
r'problems/(\d*?)" class="">.*?</a>'
https://pintia.cn/problem-sets/994805260223102976/problems/+提取出的数字字符串
就是每题的链接
下面是重点
打开的链接是没有登录的,所以代码块是空的
所以我们要模拟登录
用selenium库模拟登录需要用浏览器对象先打开一遍网页