内附源码！使用Python和requests库轻松爬取全国高校排名

2023-10-29

前言

中国的大学排名数据比较分散，一些权威机构会发布综合排名，如教育部的“双一流”、“985”、“211”计划，还有一些机构会发布专业排名等。因此，具体爬取哪些排名数据可能需要根据实际需要来进行筛选。

代码实现

导入requests库和BeautifulSoup库：import requests和from bs4 import BeautifulSoup。requests库用于发送HTTP请求、获取响应数据，BeautifulSoup库则用于解析HTML数据，提供了方便的HTML DOM结构遍历和搜索的方法。

import requests
from bs4 import BeautifulSoup

定义get_rank_data()函数，用于爬取排名数据：函数内部首先定义了目标URL：url = 'https://www.shanghairanking.cn/rankings/bcur/2021'，用于访问全国高校排名主页面。然后定义了请求头信息：headers = {'User-Agent': '...'}，该信息包含了当前访问者的浏览器、操作系统等信息，有助于模拟浏览器对目标站点进行访问。
使用requests库发送HTTP请求：response = requests.get(url, headers=headers)，requests.get()方法向目标URL发送了一条GET请求，同时传入了请求头信息，返回的响应数据保存在response对象中。

# 发送HTTP请求并获取响应数据
def get_rank_data():
    url = 'https://www.shanghairanking.cn/rankings/bcur/2021'
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    response = requests.get(url, headers=headers)

解析HTML数据：使用BeautifulSoup库对响应数据进行解析：soup = BeautifulSoup(response.text, 'html.parser')，response对象的text属性包含了获取到的HTML文本数据，将其传入BeautifulSoup()构造函数中，返回一个BeautifulSoup对象。接着，使用该对象的find()和find_all()方法轻松定位和提取目标元素。

    # 解析HTML数据
    soup = BeautifulSoup(response.text, 'html.parser')
    tbody = soup.find('tbody')
    trs = tbody.find_all('tr')

提取排名数据：tbody = soup.find('tbody')和trs = tbody.find_all('tr')，分别使用find()和find_all()方法定位到排名数据所在的HTML元素，在这里是table的tbody和tr元素。然后遍历所有的tr元素，使用find_all()方法提取每个tr元素下的td元素，并使用get_text()方法获取元素中的文本内容。将排名数据存入一个列表中，使用字典的形式保存：rank_data.append({'rank': rank, 'name': name, 'location': location, 'category': category})。

    # 提取排名数据
    rank_data = []
    for tr in trs:
        tds = tr.find_all('td')
        if tds:
            rank = tds[0].get_text()
            name = tds[1].get_text()
            location = tds[2].get_text()
            category = tds[3].get_text()
            rank_data.append({'rank': rank, 'name': name, 'location': location, 'category': category})

    return rank_data

if __name__ == '__main__':
    rank_data = get_rank_data()
    for data in rank_data:
        print(f'{data["rank"]}: {data["name"]} ({data["location"]}) - {data["category"]}')

总结

上述代码使用了第三方库requests和BeautifulSoup，首先访问了教育部网站中“双一流”高校名单所在的页面，然后使用BeautifulSoup解析HTML页面中的表格数据（表格的HTML结构可能会随着页面结构的变化而变化），最后将数据以元组的形式存入了results列表中。

哈哈哈哈哈哈哈，人工智能果然牛批

可以将代码中的url修改为别的具有相关数据的地址，如各大高校的官网、排名网站等，然后对爬取到的数据进行处理和清洗，以适应你的可视化需求。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

开发语言

内附源码！使用Python和requests库轻松爬取全国高校排名的相关文章

当我有自定义身份验证模型时，如何登录 Django Rest 可浏览 API？

我有一个自定义用户模型如下所示account models py from django contrib auth modles import AbstractUser from django db models signals impo
如何避免使用 python 处理空的标准输入？

The sys stdin readline 返回之前等待 EOF 或新行所以如果我有控制台输入 readline 等待用户输入相反我想打印帮助并在没有需要处理的情况下退出并显示错误而不是等待用户输入原因我正在寻找一个Pytho
使用python查找txt文件中字母出现的次数

我需要从 txt 文件中读取该字母并打印 txt 文件中出现的次数到目前为止我已经能够在一行中打印内容但计数有问题有人可以指导吗 infile open grades txt content infile read for char
如何返回 cost, grad 作为 scipy 的 fmin_cg 函数的元组

我怎样才能使 scipy 的fmin cg使用一个返回的函数cost and gradient作为元组问题是有f对于成本和fprime对于梯度我可能必须执行两次操作非常昂贵 grad and cost被计算此外在它们之间共享变量可
按边距（“全部”）值列对 Pandas 数据透视表进行排序

我试图根据 pandas 数据透视表中的行总和对最后一列边距 aggrfunc 进行降序排序我知道我在这里错过了一些简单的东西但我无法弄清楚数据框数据透视表 WIDGETS DATE 2 1 16 2 2 16 2 3 16 Al
如何过滤 Pandas GroupBy 对象并获取 GroupBy 对象？

当对 Pandas groupby 操作的结果执行过滤时它返回一个数据帧但假设我想执行进一步的分组计算我必须再次调用 groupby 这似乎有点绕有更惯用的方法吗 EDIT 为了说明我在说什么我们无耻地从 Pandas 文档中窃取
类型错误：需要二进制或 unicode 字符串，得到 618.0

I ve been trying to implement this ML Linear Model into my dataset https www tensorflow org tutorials estimator linear L
两个不同长度的数据帧的列之间的余弦相似度？

我在 df1 中有文本列在 df2 中有文本列 df2 的长度将与 df1 的长度不同我想计算 df1 text 中每个条目与 df2 text 中每个条目的余弦相似度并为每场比赛给出分数输入样本 df1 mahesh suresh
python中basestring和types.StringType之间的区别？

有什么区别 isinstance foo types StringType and isinstance foo basestring 对于Python2 basestring是两者的基类str and unicode while type
从 Flask 运行 NPM 构建

我有一个 React 前端我想在与我的 python 后端 API 相同的源上提供服务我正在尝试使用 Flask 来实现此目的但我遇到了 Flask 找不到我的静态文件的问题我的前端构建是用生成的npm run build in s
pandas 相当于 np.where

np where具有向量化 if else 的语义类似于 Apache Spark 的when otherwise数据帧方法我知道我可以使用np where on pandas Series but pandas通常定义自己的 API
给定一个排序数组，就地删除重复项，使每个元素仅出现一次并返回新长度

完整的问题我开始在线学习 python 但对这个标记为简单的问题有疑问给定一个排序数组就地删除重复项使得每个元素只出现一次并返回新的长度不分配另一个数组的额外空间您必须通过修改输入来完成此操作数组就地具有 O 1 额外内
Ubuntu systemd 自定义服务因 python 脚本而失败

希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏这更像是一个问题而不是一个有用的功能该脚本可以工作但我不想一直启动它这就是为什么我想到编写
使用 Python 将连续日期分组在一起

Given dates datetime 2014 10 11 datetime 2014 10 1 datetime 2014 10 2 datetime 2014 10 3 datetime 2014 10 5 datetime 201
在Raspberry pi上升级skimage版本

我已经使用 Raspberry Pi 2 上的 synaptic 包管理器安装了 python 包然而 skimage 模块版本 0 6 是 synaptic 中最新的可用版本有人可以指导我如何将其升级到0 11 因为旧版本中缺少某些功
使用 PIL 在 Tkinter 中显示动画 GIF

我正在尝试制作一个程序来使用 Tkinter 显示动画 GIF 这是我最初使用的代码 from future import division Just because division doesn t work right in 2 7 4
无法通过 Python 子进程进行 SSH

我需要通过堡垒 ssh 进入机器因此该命令相当长 ssh i
minizinc python 安装

我通过 anaconda 提示符在 python 上安装了 minizinc 就像其他软件包一样 pip install minizinc 该软件包表示已成功安装我可以导入该模块但是我正在遵循基本示例https minizinc py
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不
IndexError - 具有匀称形状的笛卡尔 PolygonPatch

我曾经使用 shapely 制作一个圆圈并将其绘制在之前填充的图上这曾经工作得很好最近我收到索引错误我将代码分解为最简单的操作但它甚至无法执行最简单的循环 import descartes import shapely geome

随机推荐

【Linux】——实现一个简单shell(命令行解释器)

进程替换替换原理用fork创建子进程后执行的是和父进程相同的程序但有可能执行不同的代码分支子进程往往要调用一种exec函数以执行另一个程序当进程调用一种exec函数时该进程的用户空间代码和数据完全被新程序替换从新程序的启动例程
数据库SQLite在Qt5+VS2012使用规则总结---中文乱码

VS2012默认格式为 GB2312 80 而有时我们用到字符串需要显示中文时就会出现乱码下面仅就Qt5和VS2012中使用数据库SQLite时做一个简单的备忘录 1 include
Android Studio格式化代码设置和代码风格设置、代码提示键

自从google大力推出android studio开发android IDE工具之后最近大家都切换到android studio 但是切换过来之后各种不顺手快捷键就是一个大问题本来在eclipse中用的好好的快捷键愣是不顺手了
Telink BLE MESH开发环境搭建（Windows版本）

windows系统环境搭建获取Telink IDE 下载Telink IDE 安装Telink IDE 解压软件包用管理员权限运行TelinkSDKv1 3 1 exe 如上图安装到C盘不可安装到其他盘会报错打开运行Eclipse
【带你了解C++标准库为何在八大链表结构中选择了它】双向循环带头链表的实质性操作

文章目录八大链表结构为何选择了它初始化和打印尾插和尾删头插和头删查找和插入删除和销毁小结链表功能动画演示逻辑实现text c 头文件List h 函数实现List c 八大链表结构为何选择了它 C 的STL库选择的最终链表
AE已支持M1芯片mac安装（After Effects 20直装版M1安装方法）M1芯片处理器安装AE问题教程

作为一名视频编辑创作者一直都是用苹果的Mac电脑运行AE制作影片就在今年11月份苹果发布了基于Apple Silicon M1 SoC芯片打造新Mac产品全新的M1处理器的诞生带来了很多革命性的变化因为这标志着苹果正式开启了从In
Kaptcha实现验证码

文章目录依赖配置类使用依赖
华为OD机试 - MELON的难题 - 动态规划（Java 2023 B卷 100分）

目录一题目描述二输入描述三输出描述四动态规划五解题思路六 Java算法源码七效果展示 1 输入 2 输出 3 说明华为OD机试 2023B卷题库疯狂收录中刷题点这里一题目描述 MELON有一堆精美的雨花石
van-field输入数字失焦后强制保留两位小数

van field输入数字失焦后强制保留两位小数一 html 二 JS部分 1 watch监听 2 强制控制有两位小数一 html
设计模式浅析-适配器模式

前言 2017年悄悄的来了无声无息的以至于我都还没好好缅怀一下荒诞的2016 不得不说 2016没能通过努力达到应该有的程度看样子目标还是要有的那就先设定一个小目标吧设计模式当你学会了设计模式就要忘记设计模式辉哥适配器模式
华为手机隐藏指令的5个代码

第一个拨号键输入 6130 这个指令主要用于查看手机当前的网络信号手机基本信息以及手机的使用情况数据的统计尤其是手机使用情况统计数据可以查看当前手机上次使用了哪些应用使用的具体时间以及使用的时长第二个拨号键输入 2846579
MySQL 数据库存储引擎

目录一存储引擎简介二 MyISAM存储引擎 1 MylSAM介绍 2 MyISAM表支持3种不同的存储格式 3 MylSAM的特点 4 MyISAM使用的生产场景三 InnoDB存储引擎 1 InnoDB介绍 2 InnoDB的特点
ubuntu18.04下pass-through直通realteck PCI设备到qemu-kvm虚拟机实践

设备直通是一种虚拟化资源分配方式通过将物理设备直通给虚拟机环境达到虚拟机可以直接访问物理设备的目的直通功能对设备的要求不高不需要设备支持PF VF 目前市面上的显卡网卡一般都支持直通典型场景比如有两块显卡一块主机用另一块虚拟
前端如何实现浏览器适配？

1 根据window screen width获取当前浏览器的宽度然后根据宽度加载不同的样式文件注意这里的script一定要写在head标签里面这样在加载页面的之前会先把css文件加载出来 2 媒体查询根据设备显示器的特性为其设
python 根据索引取值_Python 从列表中取值和取索引的方法

如下所示 name list zhangsan lisi wangwu 1 取值 print name list 0 print name list 1 print name list 2 2 取索引 print name list ind
北京市经济和信息化局：鼓励布局区块链算力中心

近日北京市经济和信息化局印发北京市数据中心统筹发展实施方案 2021 2023年的通知方案提出鼓励布局人工智能区块链算力中心推动形成 4000PFlops 即每秒 4 百亿亿次浮点运算总算力规模的人工智能公共算力基础设施重
GEN 自动生成 GORM 模型结构体文件及使用示例

GEN 自动生成 GORM 模型结构体文件及使用示例背景 GEN 是一个基于 GORM 的安全 ORM 框架由字节跳动无恒实验室与 GORM 作者联合研发主要功能说白了就是帮助生成数据表对应的模型文件和更安全方便地执行SQL 直接使用
短链服务架构实践

1 存储采用REDIS做数据存储 2 id keyword gt long url hset key long url id keyword long url 3 md5 long url gt id keyword hset key sh
队列的实际应用和操作（顺序表）

题目利用队列求解报数问题设有n个人站成一排从左向右的编号分别为1 n 现在从左往右报数 1 2 1 2 数到 1 的人出列数到 2 的立即站到队伍的最右端报数过程反复进行直到n个人都出列为止要求给出他们的出列顺序头文件SqQ
内附源码！使用Python和requests库轻松爬取全国高校排名

目录前言代码实现总结前言中国的大学排名数据比较分散一些权威机构会发布综合排名如教育部的双一流 985 211 计划还有一些机构会发布专业排名等因此具体爬取哪些排名数据可能需要根据实际需要来进行筛选代码实现导入req

内附源码！使用Python和requests库轻松爬取全国高校排名

目录

前言

代码实现

总结

内附源码！使用Python和requests库轻松爬取全国高校排名 的相关文章

随机推荐

热门标签

内附源码！使用Python和requests库轻松爬取全国高校排名的相关文章