2种方法简单爬取JS加载的动态数据

2023-11-01

参考原文:http://www.cnblogs.com/buzhizhitong/p/5697683.html

需要爬取的网站数据: http://gkcx.eol.cn/soudaxue/queryProvince.html?page=1 一共是165页，将page=1 变成其他的数字即可访问。

获取所有的url: urls = ('http://gkcx.eol.cn/soudaxue/queryProvince.html?page={}'.format(i) for i in range(1,166))

用火狐浏览器打开需要爬取的网页，右键，查看页面源代码，CTRL + F 查找输入293，源代码里面并没有这个值，说明是动态加载的数据。

对于动态加载的数据目前我熟知的有两中办法，一是使用selenium，二是分析网页元素，找出该数据的原始网页，提交表单，获取不同的数据，用来达到爬取的目的。

方法一:

#coding=utf-8
from bs4 import BeautifulSoup 
from selenium import webdriver

urls = ('http://gkcx.eol.cn/soudaxue/queryProvince.html?page={}'.format(i) for i in range(1,166))

driver=webdriver.Firefox()

driver.maximize_window()

for url in urls:
    #print ("正在访问{}".format(url))
    driver.get(url)
    data = driver.page_source
    soup = BeautifulSoup(data, 'lxml')
    grades = soup.find_all('tr')
    for grade in grades:
        if '<td>' in str(grade):
            print(grade.get_text())

代码说明:

from bs4 import BeautifulSoup 使用BeautifulSoup 解析网页数据

from selenium import webdriver 使用selenium爬取动态数据

urls = ('http://gkcx.eol.cn/soudaxue/queryProvince.html?page={}'.format(i) for i in range(1,166)) 一个包含所有需要爬取的网站生成器

driver=webdriver.Firefox() 打开Firefox浏览器

driver.maximize_window() 窗口最大化

driver.get(url) 浏览器自动跳转到该url链接

data = driver.page_source 获取页面元素，里面就包含了需要爬取的数据

soup = BeautifulSoup(data, 'lxml')
    grades = soup.find_all('tr')
    for grade in grades:
        if '<td>' in str(grade):
            print(grade.get_text())

通过对数据的分析，写出上面的查找方法，即可获取所有数据。

通过这种方法获取数据，简单，也比较直观，缺点是太慢了。

现在通过方法二是获取数据。

用火狐浏览器打开需要爬取的网页，右键查看元素，选择网络，默认就好。

(有些老版本的火狐浏览器可能需要安装firebug插件)

点击第二页，看看都加载了哪些网页和数据。

分析如下图:

分析得知类型为json的那一栏即是我们需要的数据

查看消息头里面的请求网站

https://data-gkcx.eol.cn/soudaxue/queryProvince.html?messtype=jsonp&callback=jQuery183005011523805365803_1512185796058&luqutype3=&province3=&year3=&luqupici3=&page=2&size=10&_=1512185798203

真正的请求网站 https://data-gkcx.eol.cn/soudaxue/queryProvince.html

参数 messtype=jsonp&callback=jQuery183005011523805365803_1512185796058&luqutype3=&province3=&year3=&luqupici3=&page=2&size=10&_=1512185798203

也可以点击右侧的参数栏参看参数

page 表示当前页数

size表示每页显示的条目数

写出代码

#coding=utf-8
import requests
import json
from prettytable import PrettyTable  


if __name__=='__main__':
    
    url = 'https://data-gkcx.eol.cn/soudaxue/queryProvince.html'

    row = PrettyTable()
    row.field_names = ["地区", "年份", "考生类别", "批次","分数线"]
    
    for i in range(1,34):
        data ={"messtype":"json",
              "page":i,
              "size":50,
              "callback":
              "jQuery1830426658582613074_1469201131959",
              "_":"1469201133189",
              }
        school_datas  = requests.post(url,data = data).json()
        datas = school_datas["school"]
        for data in datas:
            row.add_row((data["province"] ,data["year"],data["bath"],data["type"], data["score"]))


    print(row)

代码说明

for i in range(1,34):

一共是 1644条，每页显示的最大条数是50条，1600/50 = 32，还有44条就是33页，所以范围就应该是(1,34)

        data ={"messtype":"json",
              "page":i,
              "size":50,
              "callback":
              "jQuery1830426658582613074_1469201131959",
              "_":"1469201133189",
              }

分析得出的提交数据，使用post方式。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python，爬虫

python爬虫

2种方法简单爬取JS加载的动态数据的相关文章

Python实现超简单【抖音】无水印视频批量下载

前言本文的文字及图片来源于网络仅供学习交流使用不具有任何商业用途版权归原作者所有如有问题请及时联系我们以作处理作者 python乱炖 PS 如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资
爬取中国移动用户问答

最近一个好朋友在搞爬虫问了很多问题所以干脆直接写了一个范例这个程序整体要两次解析网页第一层是分析网页中的json数据来获取qtid 第二层是用qtid来解析获得问答所在的网页因为在问答网页里的数据存储是引用的数据库中的数据所以不
零基础学完Python的7大就业方向，原来赚钱的路子这么多？

我想学 Python 但是学完 Python 后都能干啥现在学 Python 哪个方向最简单哪个方向最吃香相信不少 Python 的初学者都会遇到上面的这些问题大家都知道 Python 很吃香薪资高就业面广但具体的有哪些方
直接使用POST方法登录网站

浏览器在 POST 数据之后能够自动登录那么我能不能在代码中直接模拟这个过程呢于是我设定了这样的一个流程 1 设置浏览器的 headers 设置请求等 2 使用 httpfox 工具获取post data 3 将post data 写下
[Python爬虫] 在Windows下安装PhantomJS和CasperJS及入门介绍(上)

最近在使用Python爬取网页内容时总是遇到JS临时加载动态获取网页信息的困难例如爬取CSDN下载资源评论搜狐图片中的原图等此时尝试学习Phantomjs和CasperJS来解决这个问题这第一篇文章当然就是安装过程及入门介绍
python模拟登录京东网页

目标网站京东网首页登录目标网址 https www jd com 任务要求 1 导入selenium库并使用该库驱动Chrom浏览器完成请求 2 驱动浏览器对象找到登录按钮点击 3 在新页面中选择账号登录 4 找到用户名和密码输
Python笔记(基本入门函数）

第一章快速上手基础知识 1 3 x y x x y y 注意求余运算符向下圆整如果是负数则更远离0 10 3 10 3 10 3 10 3 十六进制 0x 八进制 0o 十进制 0b 0xAF 175 0o10 8 0b10110
04_两种常见的网页反爬措施及应对方法

一封禁IP地址反爬 1 应对思路理解这种反爬方法的含义当我们用自己电脑的ip地址短时间高频率访问某个具有此类反爬设置的网站这种网站就会把我们的ip地址封禁一般都是封24小时或者其他时间解决方案通过代理ip访问这种方式只不过
Python爬虫实战之电影爬取过程

俗话说兴趣所在方能大展拳脚 so结合兴趣的学习才能事半功倍更加努力专心 apparently本次任务是在视频网站爬取一些好看的小电影地址不放狗头保命只记录过程实现功能从网站上爬取采用m3u8分段方式的视频文件对加密的 ts
python爬虫：抓取页面上的超链接

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库它能够通过你喜欢的转换器实现惯用的文档导航查找修改文档的方式 Beautiful Soup会帮你节省数小时甚至数天的工作时间页面上的超链接在H
Python实现输入电影名字自动生成豆瓣评论词云图（带GUI界面）小程序

Python实现输入电影名字自动生成豆瓣评论词云图带GUI界面小程序一项目背景电影逐渐成为人们生活的不可或缺的一部分而了解一部电影的可以通过电影评分与大众推荐度但以上的方式都太过于片面了解一部电影的方法是通过已经观看完电影的
Python爬虫10-Selenium模拟登录

目录 10 1Selenium和PhantomJS和headless chrome 10 1 1Selenium的概念和安装 10 1 2浏览器的选择和安装 10 2Selenium和PhantomJS与Chrome的配合使用 10 2 1
抓取得物数据出现验证码的解析思路

原创来自本人的公众号阿嚏个技术公众号文章地址得物采集数据出现geetest验证码的解析方式本文仅提供反爬技术的分析思路勿做商业用途如有侵权请联系删除之前写过一篇爬得物数据的文章毒得物 APP历史购买数据抓取阅读数还是挺
[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒

前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒同样可以通过Spider获取网站内容最近学习了Selenium Phantomjs后准备利用它们获取百度百科的旅游景点消息盒 InfoBox 这也是毕业设计实体对齐和属
Python 快速验证代理IP是否有效

有时候我们需要用到代理IP 比如在爬虫的时候但是得到了IP之后可能不知道怎么验证这些IP是不是有效的这时候我们可以使用Python携带该IP来模拟访问某一个网站如果多次未成功访问则说明这个代理是无效的代码如下 import r
python爬虫——爬取快读小说app

1 爬取结果 csv文件出现了有两个表头不明所以无关大雅 2 使用fiddler4进行抓包通过观察url 我们不难发现其中的规律要实现进行分类抓取需要更改url第一个数字如下 https sc canrike com Cate
高考失利，还适合选计算机专业吗？？

前言高考落榜人生陷入低谷对于很多人来说这意味着梦想的破灭和无尽的绝望但是对于我来说这只是人生旅程的一个起点我喜欢编程也热爱编程虽然网上很多言论说计算机行业已经很卷了但是我却认为无论再哪个行业你不卷也同样落后于人所以
python3GUI--抖音无水印视频下载工具（附源码）

文章目录一准备工作二预览 0 复制抖音分享短链接 1 启动 2 运行 3 结果三设计流程 1 总体设计 2 详细设计四源代码五说明总结 hello 大家好啊失踪人口回归了捂脸本次使用tkinter撰写一篇抖音无
Python爬虫-MongoDB

Python爬虫 MongoDB 文章目录 Python爬虫 MongoDB 前言与MySQL对比启动关闭MongoDB 操作数据库操作集合操作数据操作增删改查保存运算符高级操作聚合常用管道常用表达式安全性
为什么要学习Python？

前言 Python 是当今非常流行的编程语言在互联网上经常可以看到他的身影它应用非常广泛例如编程 Web 开发机器学习和数据科学Q 等 TIOBE 官网近日公布了 2023 年 8 月的编程语言排行榜 Python 依然排行第一

随机推荐

内存数据库简介-内存数据库性能排行

内存数据库性能排行内存数据库很多人还不知道现在让我们一起来看看吧在网络技术和计算机技术广泛普及的今天数据库已经成为IT领域最重要的课题之一所谓数据库是指一种用于存储数据的库存可以为IT开发者访问数据提供极大的便利目前很多管理
eplan怎么生成端子图表_自定义EPLAN表格模板

缘起使用eplan制图一个方便之处就是它能自动生成表格如端子图表插头图表等但是有时候软件自带的图表模板又不符合我们的要求想要自己定义表格比如系统自带的端子图表是图1样式的我想要的是图2样式的如何做到呢本文就以自定义端子图
根据后序或者前序 + 中序建树的多种方法!

根据后序or前序中序建树的多种方法以下例子都是实战题值得收藏值的学习 1 堆的方式完全二叉树利用了完全二叉树的特性根结点i的孩子结点左孩子为2i 右孩子为2i 1 注意此时i是从1开始编号但是每棵子树的根结点没有直接给出
python输入一个字符、如果是大写字母、转换为小写_python语言输入一个字母如果它是一个小写英文字母则把它转换为对应的大写字母输出？...

展开全部 char1 input 请输bai入一个小写英文du字母zhi if ord char1 gt ord a and ord char1 lt ord z print char1 upper else print 不是小写字母 da
JNI基本使用

编译运行首先介绍一些编写JNI的大致流程可以直接调过这部分生成头文件这步可以不做但是JNI对C C 函数的命名有严格要求同时函数的命名会很长所以还是直接生成头文件然后从头文件里边复制函数声明使用下面的命令生成头文件记得代
SourceTree提交合并流程

先写提交流程缓存提交获取拉取解决冲突提交推送下面和多分支开发合并先保证拉取到最新的把项目切到主分支鼠标点到被合并分支右击选中合并到当前分支
ARM9/13——用C语言实现LED1/LED2/LED3灯点亮

目录代码 gpio h gpio c main c 运行效果代码 gpio h ifndef GPIO H define GPIO H 1 RCC寄存器封装用宏定义进行封装 define RCC AHB4 ENSETR volatil
【Unity3D自学记录】Unity3D之KeyCode键值

Backspace 退格键 Delete Delete键 TabTab键 Clear Clear键 Return 回车键 Pause 暂停键 Escape ESC键 Space 空格键 Keypad0 小键盘0 Keypad1 小键盘1 K
为什么要在C ++ 11中使用“override”说明符？

如果您知道Java 那么您可能已经很熟悉Java了这对您来说可能是完全简单的 Override annotation 如果您一直使用C C 进行编码那么这可能是新的您可能会问自己一个问题为什么在不必要的时候为什么要放一个额外的说明符
数独基本规则_数独入门：你必须掌握的那些规则和技巧

很多人想涉足数独领域但苦于不知该如何入门和上手甭愁了北京市数独运动协会贴心地为菜鸟们总结了这一篇数独的元素规则和技巧满满的都是干货如果你看完还觉得不够过瘾那就移步至数独女王的达人攻略接受高阶的训练和挑战吧数独的规则在空格
获取OpenHarmony源码：从DevEco Marketplace获取（2）

引言 OpenHarmony源码的获取方式有三种从gitee GitHub等基于git的代码托管平台获取从华为的DevEco Marketplace网站获取从镜像站点获取本文介绍如何在Ubuntu版本的DevEco Device T
大数据知识目录

第一阶段安装虚拟机第二阶段 Linux操作系统第三阶段 zookeeper分布式协调服务框架第四阶段 Hadoop分布式文件系统HDFS 第五阶段 Hadoop分布式计算Mapreduce和资源管理第六阶段数据仓库Hive 第七
对于uts namespace共享的测试

前言单单以下列命令运行虽然是root 还不行我们需要加 privileged 不然会报 hostname you must be root to change the host name docker run it uts host u
python写程序计算无穷级数_圆周率 π 展开为无穷级数

圆周率展开为无穷级数其实很简单如图可以用黄色小三角形和橙色小三角形以及依此类推下去的无数个小三角形来逼近圆面积把这个无限逼近的圆面积称为 S 因为圆面积 r 所以有 S r S r 即
【VC++类型转换】CString和System::String类型的转换

1 CString 转换为System String类型这里的CString是指MFC的CString System String为CLR中的字符串类我认为最简单的做法是 CString text System String str1
【HBZ分享】Mysql的InnoDB原理

没有配置主键时Mysql的InnoDB是如何做的 Mysql会使用自带的rowid作为主键 InnoDB的底层数据结构是什么 B Tree BTree的特点 MyISAM 非聚集索引即索引和对应数据是分开的两个文件找到对应数据后
两年来主要工作框架图

两年来主要工作框架图包含了从MES到SAP的全程流程从收集一线数据开始到汇总历史数据归档直到最后的BI DW分析展现主要工作流程图
Java中正则表达式的使用

在Java中我们为了查找某个给定字符串中是否有需要查找的某个字符或者子字串或者对字符串进行分割或者对字符串一些字符进行替换删除一般会通过if else for 的配合使用来实现这些功能如下所示 Java代码 public cla
以互联网思维做好客户端软件

加入爱奇艺的时间不长但我感受到的震撼却不小在外企打拼了十几个春秋今年终于有机会进入一家国内顶尖的互联网企业真真切切地有一番不太一样的体验不过我今天并不想说在外企工作与国内企业的差别目前我负责爱奇艺PPS影音 PC客户端软件
2种方法简单爬取JS加载的动态数据

参考原文 http www cnblogs com buzhizhitong p 5697683 html 需要爬取的网站数据 http gkcx eol cn soudaxue queryProvince html page 1 一共是1

2种方法简单爬取JS加载的动态数据

2种方法简单爬取JS加载的动态数据 的相关文章

随机推荐

热门标签

2种方法简单爬取JS加载的动态数据的相关文章