爬取中国大学排名并以csv格式存储

2023-11-01

爬取中国大学排名并以csv格式存储

import requests
from bs4 import BeautifulSoup
import bs4

def get_content(url):
    try:
        user_agent = "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.109 Safari/537.36"
        response = requests.get(url,  headers={'User-Agent': user_agent})
        response.raise_for_status()   # 如果返回的状态码不是200, 则抛出异常;
        response.encoding = response.apparent_encoding  # 判断网页的编码格式, 便于respons.text知道如何解码;
    except Exception as e:
        print("爬取错误")
    else:

        print(response.url)
        print("爬取成功!")
        return  response.content

def getUnivList(html):
    """解析页面内容,需要获取:学校排名,学校名称,省份,总分"""
    soup = BeautifulSoup(html, 'lxml')
    # 该页面只有一个表格,也只有一个tbody标签;
    # 获取tbosy里面的所有子标签,返回的是生成器: soup.find('tb
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

爬取中国大学排名并以csv格式存储 的相关文章

随机推荐

  • 时间序列分析状态空间模型粒子滤波器

    时间序列分析是研究时间序列数据的统计方法 而状态空间模型是一种描述时间序列的框架 粒子滤波器是一种用于状态空间模型的推断方法 下面我将详细解释时间序列分析 状态空间模型和粒子滤波器的概念以及它们之间的关系 时间序列分析是一种研究时间上观测数
  • 瞧瞧别人家的API接口,那叫一个优雅

    前言 在实际工作中 我们需要经常跟第三方平台打交道 可能会对接第三方平台API接口 或者提供API接口给第三方平台调用 那么问题来了 如果设计一个优雅的API接口 能够满足 安全性 可重复调用 稳定性 好定位问题等多方面需求 今天跟大家一起
  • 线程池的使用与分析(ThreadPoolExcutors)

    开发中为什么使用线程池 1 降低资源的消耗 通过重复利用已经创建好的线程降低线程的创建和销毁带来的损耗 2 提高响应速度 因为线程池中的线程数没有超过线程池的最大上限时 有的线程处于等待分配任务的状态 当任务来时无需创建新的线程就能执行 3
  • PyQT5 设置文本颜色

    from PyQt5 import QtWidgets import sys app QtWidgets QApplication sys argv dialog QtWidgets QDialog label1 QtWidgets QLa
  • linux net.ipv4.tcp_tw_reuse和net.ipv4.tcp_tw_recycle设置多大比较合适

    调整 net ipv4 tcp tw reuse 和 net ipv4 tcp tw recycle 这两个内核参数的值需要根据实际情况进行评估和测试 以下是对这两个参数的简要说明 net ipv4 tcp tw reuse 该参数控制是否
  • C语言数据结构 顺序表的输入与输出

    include
  • css 文字之间的间隔

    line height 行间距 ling height 属于用于设置行间距 就是行与行之间的距离 text aligh 水平对齐方式 text aligh属性用于设置文本内容的水平对齐 相当于html中的align对齐属性 其可用属性值 l
  • Apache Beam+Spark教程

    本文是基于Apache Beam 2 0编写代码 调用Apache Spark 1 6 2集群 读取Mongodb数据进行相应逻辑处理的例子 配置环境 首先通过Maven构建Apache Beam项目的依赖 不清楚的 可以去官网下载word
  • Castle Windsor 的AOP 实践

    前言 最近接手了一个二手项目 该项目的最大特点就是 拥有众多的上下游 外部产品或项目 运维时总会时不时出现各种异常 有系统本身的 有业务的 这时要求能最快定位到问题点 这就需要有详细的日志流来支撑这样的工作 翻开代码查看 记录日志的模式主要
  • 初学者了解mounted和this.$nextTick()的区别,在哪种情况下使用;

    其实看下图 就应该很清除的了解两个命令在vue中的执行阶段 就可以知道该如何使用了 两者的使用区别 mounted适合在初始化渲染完成后数据和页面没有发生变化的情况下使用 nextTick 适合初始化完成后 我们对数据进行操作并且页面发生了
  • win10+cuda10.0+vs2017+pytorch1.2.0+anaconda3+maskrcnn_benchmark+python3.6

    首先 版本不重要 cuda9 2也好9 0也好10 1也好 pytorch1 1 0也好 应该都能配置maskrcnn benchmark 为什么呢 网址 https github com NVIDIA apex issues 433 ht
  • 设计模式系列3 观察者模式

    什么是观察者模式 观察者模式的定义 在对象之间定义了一对多的依赖 这样一来 当一个对象改变状态 依赖它的对象会收到通知并自动更新 说白了就是发布订阅模式 发布者发布信息 订阅者获取信息 订阅了就能收到信息 没订阅就收不到信息 为什么用观察者
  • 腾讯云免费服务器 如何领取?

    经常看到很多人都在询问免费的服务器如何试用 怎么获得 每个云平台只要注册了账号 都是有免费的服务器试用的 因企业和个人账号的不同 试用的时间是不一样的 想要长期免费的是不存在的 下面我以腾讯云的服务器为例 详细看看有哪些产品 配置 试用时间
  • MobaXterm连接到Linux虚拟机教程

    一 启动虚拟机 鼠标右击 点击 Open Terminal 打开后端 输入ifconfig查看自己虚拟的的host和用户名 二 打开MobaXterm 依次点击 Session gt SSH 输入host和用户名 然后会让你输入自己Linu
  • 什么是域名解析?

    域名解析就是域名到IP地址的转换过程 IP地址是网路上标识您站点的数字地址 为了简单好记 采用域名来代替ip地址标识 站点地址 域名的解析工作由DNS服务器完成 12 域名可以使用哪些字符 英文26个字母和10个阿拉伯数字以及横杠 减号 可
  • 生产遇到的疑难问题汇总

    一 有一个这样的需求 统计出在每个国家的销量并排序 所得的结果应该包含国家 销量 排名等字段 排序好办 有一个问题是如何新增排名这个字段 可以有如下几种方式 假设对销量排序的结果是中间表temp 包括国家 delivery country
  • 一个TCP长连接设备管理后台工程(三)---TCP应用层协议说明

    TCP协议整合JTT808协议 前面简单说明了基于golang的net库进行TCP通讯 现在我们需要将现有的协议整合进去 行业内车辆终端一般都是对接交通部的JTT808协议 此处我们要实现的是JTT808 2019版本 消息结构 标识位 消
  • Git安装、基本使用、团队协作树状图

    前言 学习任何新知识 最重要的永远都是搭建属于自己的知识框架 随后学习的细碎知识点往框架里面填入 最后形成一棵属于自己的知识大树 本系列的博客专注更新总结好的思维导图 非md笔记 希望可以帮助大家快速理清知识结构 持续更新 更多可见 7Gi
  • Python实现简单的插入排序

    Python插入排序 要求 生成一个包含20个 1 50 随机整数的列表 然后使用插入法对给定整数列表中的所有元素升序排序 思路如下 1 将列表切片 并在切片的列表中 找到最小值的位置 2 根据切片的最小值 i i代表循环的第几次 的来确定
  • 爬取中国大学排名并以csv格式存储

    爬取中国大学排名并以csv格式存储 import requests from bs4 import BeautifulSoup import bs4 def get content url try user agent Mozilla 5