python爬取研究生招生网招生信息

2023-11-14

import requests
from bs4 import BeautifulSoup
from pandas.core.frame import DataFrame
import re
import time


class Graduate:
    def __init__(self, province, category):
        self.head = {
            "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKi"
                         "t/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36"

        }
        self.data = []
        self.province = province
        self.category = category

    def get_list_fun(self, url, name):
        """获取提交表单代码"""
        response = requests.get(url, headers=self.head)
        province = response.json()
        with open("{}.txt".format(name), "w") as f:
            for x in province:
                f.write(str(x))
                f.write("\n")

    def get_list(self):
        """
        分别获取省，学科门类，专业编号数据
        写入txt文件
        """
        self.get_list_fun("http://yz.chsi.com.cn/zsml/pages/getSs.jsp", "province")
        self.get_list_fun('http://yz.chsi.com.cn/zsml/pages/getMl.jsp', "category")
        self.get_list_fun('http://yz.chsi.com.cn/zsml/pages/getZy.jsp', 'major')

    def get_school_url(self):
        """
        输入省份，
        发送post请求，获取数据
        提取数据
        必填省份，学科门类，专业可选填
        返回学校网址

        """
        url = "http://yz.chsi.com.cn/zsml/queryAction.do"
        data = {
            "ssdm": self.province,
            "yjxkdm": self.category,
        }
        response = requests.post(url, data=data, headers=self.head)
        html = response.text
        reg = re.compile(r'(<tr>.*? </tr>)', re.S)
        content = re.findall(reg, html)
        schools_url = re.findall('<a href="(.*?)" target="_blank">.*?</a>',str(content))
        return schools_url

    def get_college_data(self, url):
        """返回一个学校所有学院数据"""
        response = requests.get(url, headers=self.head)
        html = response.text
        colleges_url = re.findall('<td class="ch-table-center"><a href="(.*?)" target="_blank">查看</a>',html)
        return colleges_url

    def get_final_data(self, url):
        """输出一个学校一个学院一个专业的数据"""
        temp = []
        response = requests.get(url, headers=self.head)
        html = response.text
        soup = BeautifulSoup(html, features='lxml')
        summary = soup.find_all('td',{"class":"zsml-summary"})
        for x in summary:
            temp.append(x.get_text())
        self.data.append(temp)

    def get_schools_data(self):
        """获取所有学校的数据"""
        url = "http://yz.chsi.com.cn"
        schools_url = self.get_school_url()
        amount = len(schools_url)
        i = 0
        for school_url in schools_url:
            i +=1
            url_ = url + school_url
            # 找到一个学校对应所有满足学院网址
            colleges_url = self.get_college_data(url_)
            print("已完成第"+str(i)+"/"+ str(amount)+ "学院爬取")
            time.sleep(1)
            for college_url in colleges_url:
                _url = url + college_url
                self.get_final_data(_url)


    def get_data_frame(self):
        """将列表形数据转化为数据框格式"""
        data = DataFrame(self.data)
        data.to_csv("查询招生信息.csv", encoding="utf_8_sig")

if __name__ == '__main__':
    province = input("请输入查询学校省份编号:")
    category = input("请输入查询专业代码:")
    #province = "11"
    #category = "0812"
    spyder = Graduate(province, category)
    spyder.get_schools_data()
    spyder.get_data_frame()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

算法

python爬取研究生招生网招生信息的相关文章

Python自学笔记2-语法

这里介绍Python的基本语法和编程风格 Python的保留字如下表不能以这些名字给函数或变量命名 and exec not assert finally or break for pass class from print conti
UE5 C++插件开发指南目录

这一篇原本的标题是如何将插件上架到UE虚幻商城但是Up主聆枫LingFeng已经分享了相关议题而且非常详细 UE 虚幻商城上架指南所以这一篇就改写目录了其实由谁来讲并不重要重要的是讲的内容是否是读者需要的希望大家可以从中受益

随机推荐

SQL练习（less-5\8)延时注入

本文为学习笔记仅限学习交流不得利用从事危害国家或人民安全荣誉和利益等活动 SQL注入字符型延时注入延时型语句 sleep 参数任意正整数一般为秒 If a b c 它的意思就是如果条件A成立则输出结果B 否则输出结果C
HTML 好看界面

无聊逛外网的时候突然看见一个用HTML写的界面我觉得挺好看对于我这个才接触这个的学生来说挺厉害的所以我也把他分享出来你们可以去参考参考
第50讲：Scrapy 部署不用愁，Scrapyd 的原理和使用

上节课我们的分布式爬虫部署完成并可以成功运行了但是有个环节非常烦琐那就是代码部署我们设想下面的几个场景如果采用上传文件的方式部署代码我们首先需要将代码压缩然后采用 SFTP 或 FTP 的方式将文件上传到服务器之后再连接服务器
linux磁盘分区以及配置文件设置

硬盘分区有三种主磁盘分区 83 扩展磁盘分区 5 逻辑分区包括swap交换分区82 一个硬盘主分区至少有1个最多4个扩展分区可以没有最多1个且主分区扩展分区总共不能超过4个逻辑分区可以有若干个交换分区必须存在但一般不用补
hdu 6121 Build a tree

Problem acm hdu edu cn showproblem php pid 6121 Meaning 一棵 n 个点的完全 k 叉树结点标号从 0 到 n 1 求以每一棵子树的大小的异或和 Analysis 一层层地统计答案找
LED 数码管共阴共阳的区别+静态/动态显示

51单片机数码管动态显示 1 共阴共阳定义 LED 共阴极指的是LED共同的接点是GND 接地而共阳极指的是LED共同的接点是电源 LED亮灯的条件是两端有电势差最后一段h dp小数点在高位第一段a在低位 hgfedcba xxxx
【算法学习笔记】19：拓扑排序

1 简述计算拓扑序列的一个方式是用BFS来尝试访问所有的节点但是有一个约束就是只有入度为 0 0 0的节点才能被加入到扩展队列里每次从队列里取出一个节点也就同时在图中将这个节点拆除所以它的所有后继的节点都减少 1 1 1 如果已
STM32使用串口（空闲中断IDLE+DMA）接收ESP8266数据

串口空闲中断 ESP8266收发数据一在使用ESP8266模块时遇到的一些问题首先是对模块数据的收发我们在发送AT指令时会收到模块发送的反馈数据在我们没有使用实时操作系统的情况下通过HAL库的串口收发函数是比较难以完成工作的我
aaa计费请求_什么是AAA（身份验证，授权和计费）？

aaa计费请求 AAA or Authentication Authorization and Accounting is a term used to describe 3 functions in IT Mainly AAA is us
导航样式

鼠标滑过 bottom 黄线从中间展开到两边
NLP: 0基础应用T5模型进行文本翻译代码实例～

文章目录前言一目标文本是什么二模型调用步骤 1 引入库 2 导入模型本文使用 t5 base 3 使用分词器对目标文本进行分词 4 对刚刚生成的分词结果进行目标语言的生成工作 5 对生成的目标语言进行解码工作就可得到目标语言的
一文读懂Matter协议的前世今生和未来

从事Zigbee行业的应该都知道今年Zigbee联盟已经改名为CSA联盟并推出一个全新的定位于解决IOT碎片化的统一协议即Matter协议 Matter协议的由来 Matter协议的前身CHIP Connected Home Over
从一个数组中随机取出若干个数

随机取数下面给出从一个数组随机取出若干数字组成新书组和从一个数组随机取出一个数字的方法代码如下从一个数组中随机取出若干个元素组成数组 param Array arr 原数组 param Number count 需要随机取得个数 co
如何确保事务提交后才执行异步操作

参考博客TransactionSynchronizationManager和TransactionSynchronizationAdapter 场景业务流程背景对于法律法规法规库标签管理列表中的某一条数据操作完标注和解析按钮后
Angular离线API文档安装指南

需要的材料 nginx 官方angularjs zip 完整包步骤 1 先上www angular org 下载个完整的zip包 2 到nginx 网站下载 nginx 3 修改 nginx 1 6 2 conf nginx conf 文
利用win10自带的工具测硬盘读写速度

利用win10自带的硬盘测试工具测读写速度一 win q 打开搜索框输入 cmd 找到命令提示符右击以管理员身份运行二在命令框里输入 winsat disk 是默认测试系统盘的速度不出意外都是C盘三当我们要想测试其他盘的时候
MySQL学习笔记——MySQL数据类型（拉勾教育数据分析实战训练营学习笔记）

MySQL学习笔记 MySQL数据类型 MySQL数据库中每一条数据都有其数据类型主要可以分为数值型字符串型和日期时间型三大类说明如下所示数值类型 TINYINT 一个非常小的整数占1字节如果是有符号范围是 128 127
MFC窗口销毁过程

MFC窗口销毁过程考虑单窗口情况假设自己通过new创建了一个窗口对象pWnd 然后pWnd gt Create 则销毁窗口的调用次序 1 手工调用pWnd gt DestroyWindow 2 DestroyWin
Elasticsearch实战-磁盘IO被打满

背景事情是这样的一天下午4点42分左右业务反馈我开发的服务在测试环境出现问题返回资源数据是0 查日志发现是ES访问超时相当于数据库挂了持续了20多分钟自己恢复咨询了ES团队最终得到下面的答复当前集群现状 1 当前集群数据I
python爬取研究生招生网招生信息

import requests from bs4 import BeautifulSoup from pandas core frame import DataFrame import re import time class Gradua

python爬取研究生招生网招生信息

python爬取研究生招生网招生信息 的相关文章

随机推荐

热门标签

python爬取研究生招生网招生信息的相关文章