python 爬取网站首页并获取资源文件

2023-05-16

一、使用requests模块，如果没有安装请使用如下命令，安装requests模块

pip install requests

二、打开PyCharm，创建一个新的py文件

1.请求网站，获取网页信息

首先使用浏览器，获取请求头信息，用于python模拟浏览器行为请求

封装请求方法

def get_html(url):
    """ 请求网址 返回网页内容 """
    A = requests.Session()
    A.headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:103.0) Gecko/20100101 Firefox/103.0',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8',
    }
    web = A.get(url, timeout=7)
    # 设置解析编码的方式
    web.encoding = 'gb2312'
    return web

2.通过re模块来匹配获取相应资源路径，os模块创建文件夹及创建写入文件

（1）js 路径为src

（2）image 路径为src

（3）css 路径为href 但会与a标签的href重复故要多增加一点字符串以作区分

代码如下：

def get_all_img(content):
    """获取网页所有 img css js"""

    # 更换编码方式
    content = content.replace('charset=gb2312', 'charset=utf-8')
    # 获取所有img js文件路径
    f_re = 'src="(.*?)"'
    file_paths = re.findall(f_re, content)
    # 获取单引号的img js文件路径
    f_re2 = "src='(.*?)'"
    file2_paths = re.findall(f_re2, content)
    # 获取所有css文件路径
    c_re = 'type="text/css" href="(.*?)"'
    css_paths = re.findall(c_re, content)
    # 合并到一个列表中
    file_paths.extend(css_paths)
    if file2_paths:
        file_paths.extend(file2_paths)
    for file in file_paths:
        # 获取文件链接后缀名 只获取css image文件
        file_infos = file.split('/')
        fileName = file_infos[len(file_infos) - 1]
        fileExts = fileName.split('.')
        ext = fileExts[len(fileExts) - 1].strip()
        if file.find('.js') > -1:
            dirName = 'js/'
        elif ext == 'css':
            dirName = 'css/'
        elif ext in ['jpg', 'png', 'gif']:
            dirName = 'images/'
        else:
            continue
        # 文件夹不存在 则创建文件夹
        if not os.path.exists(dirName):
            os.mkdir(dirName)
        # # 判断文件格式及是否已存在
        fileName_end = dirName + fileName
        if not os.path.isfile(fileName_end):
            # 处理相对路径资源
            if file[1:8] == 'uploads':
                file = main_url + file
            elif file[0:7] == 'scripts':
                continue
            try:
                pic = get_origin_img(file, main_url)
                fp = open(fileName_end, 'wb')
                fp.write(pic.content)
                fp.close()
            except BaseException:
                print('获取【%s】失败' % file)
                continue
        content = content.replace(file, '../' + fileName_end)
    return content

获取资源的请求方法

def get_origin_img(url, referer):
    """ 请求网址图片 增加请求头 返回图片二进制 """

    A = requests.Session()
    A.headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:86.0) Gecko/20100101 Firefox/86.0',
        'Accept': 'image/webp,*/*',
        'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
        'Connection': 'keep-alive',
        'Referer': referer,
    }
    return A.get(url, timeout=10)

3.把网页内容写入本地文件

def record_article(fileName, dirName, content):
    """ 文章内容写入处理 """

    if not os.path.exists(dirName):
        # 递归创建目录
        os.makedirs(dirName)

    f = os.open(dirName + '/' + fileName, os.O_RDWR | os.O_CREAT)
    os.write(f, str.encode(content))
    os.close(f)

最后调用方法：

html = get_html(url)
content = get_all_img(html.text)
record_article('首页.html', '首页', content)

效果如下：

访问本地首页html文件，与原网站一致

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python 爬取网站首页并获取资源文件的相关文章

程序员与工匠精神

前几天和一个朋友聊天时说 xff1a 我有强迫症 xff0c 每次看到不符合自己审美的代码时 xff0c 总想重构一下朋友的观点与大多数人相仿 xff0c 程序只要满足要求 xff0c 运行正确就可以在现实的工作中一样 xff0c 每当
【Linux tools】串口log打印抓取---minicom使用记录

在linux上抓取串口log 网上minicom介绍的很多自己选取自己要关注的记录一下 xff11 xff0e 首先是串口线插入pc的设备节点是哪一个的问题串口是tty设备 xff0c 节点是 dev ttyUSB 我这个插入串口线前后
SpringMvｃ的配置文件部分解析

今天写毕业设计用SpringMV xff43 又重新发现了一些问题 xff0c 很基础 xff0c 希望对基础薄弱的同学有帮助 lt servlet gt lt servlet name gt SpringMVC lt servlet na
关于ftp上传changeWorkingDirectory()方法的路径切换问题

在上传时 FTPClient提供了upload方法 xff0c 对于upload file path 的第二个参数path xff0c 上传到哪里这个路径 xff0c ftp是利用changeWorkingDirectory 方法来代替l
Jetpack系列：ViewBinding的使用及原理

ViewBinding是什么 ViewBinding是Android Studio3 6推出的新特性 xff0c 旨在替代findViewById来查找视图 xff0c 为开发者减少编写重复的模板代码 xff0c 提高代码的安全性原理在
数组中删除数据

定义长度20的int数组 xff0c 键盘读入20个1位数写入数组键盘再输入一个要删除的数 xff0c 从数组中删除此数编写函数int delnum int a 20 int n int num xff0c 功能是 xff1a 在数组a
利用pytesseract进行图片文字识别

pytesseract是基于Python的OCR工具 xff0c 底层使用的是Google的Tesseract OCR 引擎 xff0c 支持识别图片中的文字 xff0c 支持jpeg png gif bmp tiff等图片格式安装 pi
华硕B660重炮手主板核显无法识别硬盘处理方案

高高兴兴装完机 xff0c 发现没有找到相应的硬盘可以做启动盘 xff0c 但是主板又可以识别到有硬盘 xff0c 这时候普通的U盘启动器装系统就失去效果了解决办法 xff1a 1 按 F7 进入 bios 61 gt Advanced
使用火币提现WAXP会出现需要填写地址标签的解决办法
Mac OS系统上用命令行方式启动VNC Server

Mac OS X 上打开VNC Server服务 xff08 不带vnc密码 xff09 xff1a sudo System Library CoreServices RemoteManagement ARDAgent app Conten
在Ubuntu中出现权限不够和找不到文件的解决方法

在Ubuntu中出现权限不够和找不到文件的解决方法权限不够 xff1a 在运行文件夹中的文件时 xff0c 可能会出现因权限不够而运行不了的情况这时 xff0c 可以使用 1 sudo passwd 来更新密码 2 更新密码后 xff0
搞定pygtk在WINDOWS下运行时提示字体错误的问题

搞定pygtk在WINDOWS下运行时提示字体错误的问题错误提示 Noname1 py 12 PangoWarning couldn 39 t load font 34 瀹嬩綋 9 34 falling back to 34 San s
ubuntu18.04脚本开机自启动 root用户和非root用户

前言 xff1a Ubutnu18 04 xff0c 在新版本全部统一使用systemctl来管理服务 xff0c 包括开机自启动服务打开rc local service文件 sudo vim span class token opera
Android使用logback日志框架

logback android使用基本介绍 Logback 继承自 log4j Logback 的架构非常的通用 xff0c 适用不同的使用场景 Logback 被分成三个不同的模块 xff1a logback core xff0c lo
ubuntu使用Xubuntu,XFCE，更轻量级的桌面环境

系统默认的gnome太卡了 xff0c 运行几天可能出现gnome shell占用cpu等资源超高 xff0c 系统无法继续改用 XFCE 安装命令 sudo apt get install xubuntu desktop sudo ap
IntelliJ IDEA版本：Ultimate、Community、EAP版本的区别

Community xff1a 社区版 xff0c 免费 xff0c 但是功能有限制 xff0c Android Studio就是基于这个版本定制的 http idea intellij com intellij community Ult
Dell Inspiron 3443 BIOS升级问题解决

问题解决方法可直接拖到文末 xff01 xff01 今天太难了早上单位一位领导将笔记本拿来 xff0c 说是用起来很卡 xff0c 想让帮忙重装一下系统欣然答应查看型号 xff0c DELL Inspiron 14 3443 xff0
任务栏可以点，电脑桌面却不显示内容的解决方法

今天同事遇到了一个奇怪的问题 xff1a 台式电脑电源被踢掉了 xff0c 重新插电重启电脑后 xff0c 发现桌面上的东西都不见了 xff0c 只剩下边的任务栏空荡荡而且只有点击win键 xff0c 能向上弹出菜单界面 xff0c 其他
一条简单命令校验MD5

最近在重新制作工具U盘 xff0c 要下载很多文件 xff0c 有些较大文件需要校验MD5码网上搜索MD5码校验工具 xff0c 感觉弹出来的下载站多数不靠谱得很因为是在Windows平台 xff0c 觉得还是用自带的工具CertUti
Broadcom 802.11n网络适配器，网络连接没有有效的ip配置问题解决

昨天帮同事解决了一个无线网络的问题 xff1a 可以连接公司的无线热点 xff0c 但无法上网 xff1b 但是连接自己家里的网络后可以正常上网问题的奇怪之处在于 xff0c 检查了网络设置 xff0c 并没有发现什么配置错误 IP也是自

随机推荐

关于电脑出厂时间查询工具的构思

在做一个单位的计算机盘点管理的时候 xff0c 很容易遇见需要知道电脑的采购时间 xff0c 或者出厂时间这个信息能够帮助管理人员决定电脑是否该按定期报废制度进行报废或更换目前为止 xff0c 作者接触过的各类电脑 xff0c 没有看
Outlook频繁崩溃解决方法

这几天新换了笔记本 xff0c IT部门帮忙进行了配置 xff0c 拿到手上却屡屡发现邮件系统这出问题那出问题 xff0c 好生烦躁经过几天的修修补补 xff0c 今天总算完全OK了 xff0c 又恢复到正常的轨道上来了由于被折磨得够呛
Manifest文件详解

一关于AndroidManifest xml AndroidManifest xml 是每个android程序中必须的文件它位于整个项目的根目录 xff0c 描述了package中暴露的组件 xff08 activities servi
Android蓝牙完全学习手册

1 前言市面上关于Android的技术书籍很多 xff0c 几乎每本书也都会涉及到蓝牙开发 xff0c 但均是上层应用级别的 xff0c 而且篇幅也普遍短小对于手机行业的开发者 xff0c 要进行蓝牙模块的维护 xff0c 就必须从An
【高级】深入理解Word里的字号、行距、段距、间距、样式

昨天领导交给我一份文档 xff0c 让我帮忙修改一下改完后最后一页只有单独的一行 xff0c 打印出来不够美观因此 xff0c 我缩小了行距 xff0c 把默认的单倍行距改为了固定值28磅结果是 xff0c 整个文档的确少了一页 xf
笔记本插上耳机后仍在外放Realtek Audio Console不支持此机器

大年初七 xff0c 开工第一天下午办公室新来的同事请教的如题问题他用的华硕笔记本 xff0c 飞行堡垒FX86FE 插上华为耳机 xff0c 耳机始终播放不出来声音显示已经检测到耳机插入了耳机孔 xff0c 点击弹窗会显示 Real
git Filename too long

全局 git config global core longpaths true 当前仓库 git config core longpaths true 转载于 https www cnblogs com EasonJim p 108038
VxWorks入门级开发环境学习

由于实习需要 xff0c 最近在学习VxWorks xff0c 久闻该操作系统大名 xff0c 一直被其深厚的内力震撼着从未敢去了解 xff0c 直到最近操作系统Vxworks本身的优点特点等详细信息不多说了 xff0c 这里讲讲几天来我
树莓派 Retropie 4.4中文版使用说明含roms资源

漫步云端服务器 http chdong top bbs http www chdong top 相关名词 Retropie Retropie可以将你的树莓派或者PC变成一台复古游戏机 Retropie基于完整的操作系统之上 xff0c 你可
selenium 中 css-寻找元素

等同于 tag名不改变 elements 61 wd find elements by css selector 39 div 39 elements 61 wd find elements by tag name 39 div 39 i
解决　The following packages have unmet dependencies: 问题

The following packages have unmet dependencies libvtk5 dev Depends libfreetype6 dev but it is not going to be installed
2.1Ubuntu20.4安装QT5.14.2

QT简介 xff1a Qt是一个跨平台的C 43 43 图形用户界面库 xff0c 我们平时所说所使用的Qt xff0c 准确的来说是它的GUI编程部分 Qt提供给应用程序开发者建立图形用户界面所需要的功能 xff0c 并且Qt很容易扩展
美国出台最严技术出口管制！14项前沿科技面临封锁

关注ITValue xff0c 查看企业级市场最新鲜最具价值的报道 xff01 xff08 本文转载自量子位公众号 xff0c ID xff1a QbitAI xff0c 作者 xff1a 乾明夏乙问耕 xff09 美国又打出一套七伤
sftp文件上传详解

JSch是Java Secure Channel的缩写 JSch是一个SSH2的纯Java实现它允许你连接到一个SSH服务器 xff0c 并且可以使用端口转发 xff0c X11转发 xff0c 文件传输等 xff0c 当然你也可以集成它
数据库设计 ER图

一 E R图构成要素 E R图也称实体联系图 Entity Relationship Diagram xff0c 提供了表示实体类型属性和联系的方法 xff0c 用来描述现实世界的概念模型它是描述现实世界关系概念模型的有效方法是表示
ssh-keygen -t rsa详解

ssh keygen q 安静模式 b bits 位数 t dsa ecdsa ed25519 rsa rsa1 加密算法 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 6
samba源码编译安装（版本4.13.0）

目录前言编译安装samba下载三个包安装依赖共需要安装samba gnutls nettle1 进入解压后的samba目录执行 xff1a 2 进入解压后的gnutls目录执行3 进入解压后的nettle目录执行3 1 卸载已存在nett
mybatis+postgresql10插入返回主键ID

MyBatis如果使用useGeneratedKeys去生成自增列会造成不成功 xff0c 因为官方提供只支持这些数据库 xff1a mybatis generatedkeys xff0c 那么如果要用在oracle和postgresql上
Mac 环境下使用 homebrew 安装和彻底卸载 MySQL5.7

一安装 MySQL5 7 在终端执行下列命令 xff1a brew install mysql 64 5 7 使用 brew 安装好 MySQL 5 7 版本后 xff0c 此时 MySQL root 用户的密码是空的我们需要修改一下
python 爬取网站首页并获取资源文件

一使用requests模块 xff0c 如果没有安装请使用如下命令 xff0c 安装requests模块 pip install requests 二打开PyCharm xff0c 创建一个新的py文件 1 请求网站 xff0c 获取网

python 爬取网站首页并获取资源文件

python 爬取网站首页并获取资源文件 的相关文章

随机推荐

热门标签

python 爬取网站首页并获取资源文件的相关文章