Html文件读取与爬取（个人笔记篇）

2023-05-16

Html文件读取与爬取（个人笔记篇）

文章目录

Html文件读取与爬取（个人笔记篇）
html文件读取
解析html数据
存储爬取到的数据
完整代码展示

html文件读取

1.通过open：打开文件地址，‘r’：读取文件，encoding：读取文件的格式

2.再通过html.read()

3.获取到html

def get_html(self, url):
     html = open(url, 'r', encoding='utf-8')
     h = html.read()
     # print(h)
     return h

解析html数据

1、利用bs4 进行解析数据

2、在通过循环利用item｛｝存储数据

再将保存在item中的数据存储到data_list中

    def parse_data(self, html):
        soup = BeautifulSoup(html, 'lxml')
        tr_list = soup.find_all('tr')
        for index, tr in enumerate(tr_list):
            if index == 0:
                continue
            else:
                td_list = tr.find_all('td')
                item = {}
                # print(td_list)
                td1 = td_list[0]
                item['courseId'] = td1.string
                td2 = td_list[1]
                item['name'] = td2.string
                td3 = td_list[2]
                item['university'] = td3.string
                td4 = td_list[3]
                item['summary'] = td4.string
                td5 = td_list[4]
                item['teacher'] = td5.string
                td6 = td_list[5]
                item['term'] = td6.string
                td7 = td_list[6]
                item['assessment_number'] = td7.string
                td8 = td_list[7]
                item['assessment_score'] = td8.string
                td9 = td_list[8]
                item['category'] = td9.string
                self.data_list.append(item)

存储爬取到的数据

利用with open以及csv模块创建和存储爬取到的数据

    def __init__(self):
        self.header = {
            "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                          "Chrome/97.0.4692.99 Safari/537.36 "
        }
        self.head = ['courseId', 'name', 'university', 'summary', 'teacher', 'term', 'assessment_number',
                     'assessment_score', 'category']
        self.data_list = []

    def save_data(self):
        with open('train.csv', 'w', encoding='utf-8', newline='') as file_obj:
            DictW = csv.DictWriter(file_obj, self.head)
            DictW.writeheader()
            DictW.writerows(self.data_list)

完整代码展示

import csv
from bs4 import BeautifulSoup


class Html_pq():
    def __init__(self):
        self.header = {
            "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                          "Chrome/97.0.4692.99 Safari/537.36 "
        }
        self.head = ['courseId', 'name', 'university', 'summary', 'teacher', 'term', 'assessment_number',
                     'assessment_score', 'category']
        self.data_list = []

    def get_html(self, url):
        html = open(url, 'r', encoding='utf-8')
        h = html.read()
        # print(h)
        return h

    def parse_data(self, html):
        soup = BeautifulSoup(html, 'lxml')
        tr_list = soup.find_all('tr')
        for index, tr in enumerate(tr_list):
            if index == 0:
                continue
            else:
                td_list = tr.find_all('td')
                item = {}
                # print(td_list)
                td1 = td_list[0]
                item['courseId'] = td1.string
                td2 = td_list[1]
                item['name'] = td2.string
                td3 = td_list[2]
                item['university'] = td3.string
                td4 = td_list[3]
                item['summary'] = td4.string
                td5 = td_list[4]
                item['teacher'] = td5.string
                td6 = td_list[5]
                item['term'] = td6.string
                td7 = td_list[6]
                item['assessment_number'] = td7.string
                td8 = td_list[7]
                item['assessment_score'] = td8.string
                td9 = td_list[8]
                item['category'] = td9.string
                self.data_list.append(item)

    def save_data(self):
        with open('train.csv', 'w', encoding='utf-8', newline='') as file_obj:
            DictW = csv.DictWriter(file_obj, self.head)
            DictW.writeheader()
            DictW.writerows(self.data_list)

    def main(self):
        url = './2.Train.html'
        html = self.get_html(url)
        self.parse_data(html)
        self.save_data()


if __name__ == '__main__':
    pq = Html_pq()
    pq.main()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

html

文件读取与爬取

个人笔记篇

Html文件读取与爬取（个人笔记篇）的相关文章

如何在同一个
中设置两种不同的字体大小

我有一段 HTML 代码我一直坚持不下去我怎样才能将这个文本的第一部分的字体大小设置为 20px 以及后面的文本 br 标签字体大小为 15px 或者如果我做的完全错误我该如何做而不将它们放在不同的标签中 p Los Santos
通过 Javascript 更改 Webkit 属性？

请帮助我可能是因为我对 CSS 动画和 Javascript 相当陌生但我使用的代码应该更改它的属性当我运行代码时它会执行代码中的所有其他操作除了更改所需 div 的 CSS 属性我已经尝试了所有这四种方法但似乎都不起作用它
为什么该消息没有出现在 Chrome 中的手风琴上方？

我正在尝试新的 HTML5 验证当我尝试使用required里面的属性
保存下拉列表中的值

这是我的情况我有 2 页一页用于选择值一页用于编辑与该值关联的数据库相关内容现在我对如何将从下拉列表中选择的值保存到 PHP 的变量中一无所知并且已经进行了相当多的研究有任何想法吗 HTML
如何去除html源代码中的空格

我正在使用 django 和 python 在模板文件中我有一个下拉列表如下所示有用唯一的问题是源 html 代码之间有很多空白有什么办法可以去除空白吗谢谢 for lang ele in video languages all
从函数在 python 3 中创建全局变量

我想知道为什么在函数结束后我无法访问变量 variable for raw data 代码是这样的 def htmlfrom Website URL import urllib request response urllib request
检测 html 选择框上的编程更改

有没有办法让 HTML 选择元素在每次以编程方式更改其选择时调用函数当使用 JavaScript 修改选择框中的当前选择时 IE 和 FF 都不会触发 onchange 此外更改选择的 js 函数是框架的一部分因此我无法更改它以在结束
如何更改数据表中标题单元格的内容？

我正在使用数据表 http datatables net plugin 在我的可排序列上我想用按钮替换列文本但是这样做 oSettings aoColumns i nTh text 我可以检索相应列的文本但是 oSettings ao
从 Google Chrome v20 中的日期输入中删除背景箭头

自 Google Chrome v20 起已添加新的日历来输入日期问题是我正在使用 javascript 创建自己的日历并且我的图标已经位于与默认镶边箭头相同的位置我想知道如何删除箭头背景据我所知您目前无法禁用它这里正在进行一
添加额外的字形到引导程序

亲爱的设计师开发人员同事我为我的 bootstrap 网站创建了 8 个额外的字形图标将它们上传到 icomoon 并下载为字体这一切都很完美我可以将我的字体添加到我的 CSS 中并在 HTML 中使用它没有任何问题但我想使用
行高如何使文本垂直居中？

我试图理解为什么line heightCSS 属性将文本垂直放置在此按钮的中间 btn order width 220px height 58px font size 24px padding 0 text align center ver
如何像facebook和twitter一样显示帖子更新时间？

我正在制作一个通知平台而不是显示通知到来的时间我想显示自通知到达以来经过的时间就像在 Twitter 和 Facebook 上发生的那样他们显示 32m 1 小时前等我想用JavaScript Java来实现这段代码任何帮助将非
滚动部分滚动并溢出

我正在尝试使用脚本 Scrollify https github com lukehaas Scrollify https github com lukehaas Scrollify 但我的部分比用户的屏幕长这意味着您首先必须向下滚动才能
允许指针（单击）事件穿过元素，同时保持滚动功能

我的目标是拥有一个允许下面要点击交互的元素滚动众所周知 1 的解是pointer events none 这正如中所描述的单击 DIV 到底层元素 https stackoverflow com questions 3680429
通过 HTML5 文件和 URL API 正确创建和提供 PDF Blob

好吧假设我有文档数据存储在某处让我们任意取this pdf http www grida no climate ipcc tar wg1 pdf tar 01 pdf 问题 1 我想要做的是对此 URL 进行 AJAX 调用因为我需要
在原生 Android 应用程序中使用 WebView 整个布局有用吗？

我目前正在开发一个原生 Android 应用程序我的应用程序有很多活动我要发展native安卓应用程序但在某些情况下我想使用webview整个布局只是一个网络视图不是线性的或相对的或其他布局只是一个网络视图所有图像和其他内容都
当我“显示：无”一个 SVG 时，另一个（独立的）SVG 会以不同的方式呈现

我已经伤透了几个小时了这没有任何意义我将遇到的问题减少到这个codepen https codepen io Octopous pen OJORpJQ https codepen io Octopous pen OJORpJQ HTML
禁用任何类型的浏览器窗口滚动？

有没有办法禁用滚动不仅仅是滚动条还有浏览器窗口的全部功能根据您对 Keit 的回答您不想在打开灯箱时滚动处于活动状态如果是这种情况您可以使用以下 css 在打开灯箱的同时向正文添加一个类这个解决方案的好处是它保留了滚动空间
Chrome Prerender 功能每次都会被取消

我正在尝试 Chrome 中的预渲染功能但是当我检查网络时我可以看到任何链接的请求都被取消我使用以下语法我尝试了现场演示http prerender test appspot com http prerender test apps
Javascript / jQuery - 转换特殊 html 字符

我有一个pre元素中包含一些 html 代码该代码中有特殊字符例如 lt 所以它不会破坏页面然后我有一个 javascript 函数它获取此 pre 元素的内容突出显示它使用 codemirror 并用突出显示的文本替换元素内容

随机推荐

Jetson TX2入门之开箱刷机跑demo

Jetson TX2 开箱配置 43 刷机 43 跑demo xff08 常见坑总结 xff09 简介 JetSon系列是Nvidia公司推出的面向无人智能化领域的嵌入式平台 xff0c 这块嵌入式板子的出现使得我们可以在边缘设备上处理复杂
集成显卡安装pytorch

Inter集成显卡安装pytorch 安装pytorch 计算机右键管理 gt 设备显示器 gt 显示适配器 xff0c 查看显卡我的电脑只有Inter的集成显卡 xff0c 没有独显刚开始接触 xff0c 对GPU不懂 xff0c
ROS可视化动态查看所有topic的频率/带宽/消息类型/数值

在程序运行或者回放数据包时 xff0c 希望实时查看到所有的正在向外发送的topic名字类型带宽频率数值等除了rostopic list以外还可使用rqt辅助包打开rqt rqt 选择Plugins插件 Topics信息 top
PID与MPC控制方法

记录udacity 无人驾驶工程师课程中控制部分 MPC代码和实践链接https github com udacity CarND MPC Quizzes 本文按照对udacity课程的理解和翻译而来 1 PID P xff1a Propo
C++STL容器及其优缺点介绍

STL容器介绍及选择方式容器类型容器优缺点一序列容器vectordequelistforward list xff08 C 43 43 11 xff09 queuepriority queue stackarray 二关联容器setm
word中插入noteExpress和页码出现乱码解决方法

在word中出现页码变成PAGE MERGEFORMAT xff0c noteExpress插入的代码也变成了乱码打开出问题的word文档 xff0c 按照如下设置 xff1a 文件选项高级显示文档内容不勾选显示域代码而非阈值修
FreeRTOS内核实现04：空闲任务与阻塞延时

目录 1 引入原因 2 实现空闲任务 2 1 定义空闲任务组件 2 2 创建空闲任务 3 实现阻塞延时 3 1 vTaskDelay函数实现 3 2 修改vTaskSwitchContext函数 3 3 SysTick初始化函数实现 3 4
NoteExpress对参考文献格式修改

文章目录 NoteExpress格式修改1 将带DOI的模板另存为 Revised GBT 7714 20152 编辑自定义的nes文件3 保存选择使用 NoteExpress参考文献格式修改规则GTB 7714 2015下载 NoteEx
ubuntu Nvidia显卡驱动安装后屏幕不能外接显示（扩展显示）的问题

文章目录结论安装历程问题详细描述解决方法结论配置文件 etc X11 xorg conf未正确配置 xff0c 安装历程安装显卡驱动后 xff0c 依旧无法正常扩展屏幕显示 xff0c 仔细一看发现在nvidia smi时出现No
ubuntu 16.04无法locate boot-repair的解决方法

ubuntu16 04 07加windows10后无法启动ubunu的问题解决boot repair的安装方法同样适用于ubuntu18 04 ubuntu20 01等系统不能启动的问题对boot repair修复的原理进行分析文章目录
论文降低word大小——图像免费压缩方法

在期刊和毕业论文提交盲审过程中 xff0c 时常对word和pdf的大小进行限制 xff0c 但是在多图的论文中 xff0c 将大小限制在20MB以内较为困难梳理以下两种方法 xff1a 1 visio图片大小压缩 visio图片插入到w
C/C++获取路径下所有文件及其子目录的文件名

一功能描述需要提取某个文件夹下所有文件名字 xff0c 当包含子目录时 xff0c 将子目录及其路径获取到二实现方式使用C语言的opendir函数 DIR span class token operator span dp spa
C/C++删除目录文件夹下所有文件（递归）

一问题想要删除目录文件夹 xff0c 类似于rm r的操作方式1 xff1a 可以使用system直接执行rm r的指令 xff0c system 34 rm r 34 方式2 xff1a 通过C语言内置的函数remove和rmdir
Git GUI 的使用

权限校验首先 xff0c 服务器需要身份识别一段RSA加密字符串启动GUI xff0c 菜单帮助 Step1 创建密钥 Generate SSH KEY Step2 添加密钥去你的代码托管服务器 xff0c 你的账号设置中 xff
推荐系统遇上深度学习(九)--评价指标AUC原理及实践

欢迎关注天善智能 xff0c 我们是专注于商业智能BI xff0c 人工智能AI xff0c 大数据分析与挖掘领域的垂直社区 xff0c 学习 xff0c 问答求职一站式搞定 xff01 对商业智能BI 大数据分析挖掘机器学习 xff0
VR版“半条命”大火，VR游戏迎来消费级市场的春天？

彼之砒霜 xff0c 汝之蜜糖 2020年的艰难开局 xff0c 在让众多行业陷入困顿之际 xff0c 却让游戏业迎来了一场流量的盛宴除了日进斗金的王者吃鸡 xff0c 还有火爆朋友圈的动森 xff0c 一款3A级VR游戏 Half L
读懂海尔智家大脑：深度体验的本质是深度生活

了解科技行业的读者 xff0c 应该都对大脑这个名词不陌生黑灯工厂里指挥生产的工业大脑 xff0c 繁忙机场里运筹帷幄的航空大脑 xff0c 还有智慧城市建设的灵魂城市大脑如果家也有一颗总揽全局的大脑 xff0c 生活会发生
FreeRTOS内核实现05：支持多优先级

目录 1 支持多优先级的方法 1 1 任务优先级 1 2 基于优先级的就绪列表 1 3 实现基于优先级的调度 2 查找最高优先级就绪任务的方法 2 1 通用方法 2 2 体系结构优化方法 3 修改代码支持多优先级 3 1 创建任务相关 3
无人机和激光雷达，会是一对好cp吗？

占据一辆无人驾驶汽车成本40 的激光雷达 xff0c 以精准和无死角的空间探测能力 xff0c 成为是无人驾驶领域不可或缺的存在但和汽车相比 xff0c 似乎激光雷达在无人机上更有用武之地 xff1a 成像精度要求不高行动自由范围大成
Html文件读取与爬取（个人笔记篇）

Html文件读取与爬取 xff08 个人笔记篇 xff09 文章目录 Html文件读取与爬取 xff08 个人笔记篇 xff09 html文件读取解析html数据存储爬取到的数据完整代码展示 html文件读取 1 通过open xff1a

Html文件读取与爬取（个人笔记篇）

Html文件读取与爬取（个人笔记篇）

文章目录

html文件读取

解析html数据

存储爬取到的数据

完整代码展示

Html文件读取与爬取（个人笔记篇） 的相关文章

随机推荐

热门标签

Html文件读取与爬取（个人笔记篇）的相关文章