python爬虫爬取高清图片——爬虫入门

2023-10-27

自动抓取某图片网站高清壁纸并下载保存

使用requests请求网页，bs4解析数据

话不多说直接看代码，刚学不久欢迎指点

#-*- codeing = utf-8 -*-
#@Time : 2022/11/7 15:22
#@Author : 摸摸头发在不在
#@File : getimg.py
#@Software: PyCharm

'''    思路
1.拿到主页面的源代码
2.提取子页面的链接地址 href
3.通过href拿到子页面的url，前往子页面中找到图片下载地址
4.下载图片
'''

import requests
from bs4 import BeautifulSoup
import time

def main():
    gaveurl = "https://www.umei.cc/bizhitupian/fengjingbizhi/"
    html = get_html(gaveurl) #得到主页面源码
    page = BeautifulSoup(html,"html.parser")
    href = page.find("div",id = "infinite_scroll").find_all('a',class_='img_album_btn')#生成列表所有符合要求的数据为元素
    for a in href:  #循环遍历每一个元素（子网页部分网址）
        hf = a.get("href")
        hf_html_child = hf.split("/")[-1]
        hf_html = gaveurl + hf_html_child  #拼接得到子页面完整网址
        chile_html = get_html(hf_html)    #调用解析函数得到子页面源码.text格式
        chile_page = BeautifulSoup(chile_html,"html.parser") #对源码进行处理，生成bs4对象
        resp = chile_page.find("div",class_="big-pic").find("img") #在对象中根据标签查找
        src = resp.get("src")
        img = requests.get(src).content  #拿到图片字节
        with open("img/"+ hf_html_child+".jpg",mode="wb") as f:
            f.write(img) #写入文件
        print("over!!!",hf_html_child)
        time.sleep(1)


def get_html(url):
    '''
     拿到页面源码
    :param url: 目标网址
    :return: 页面源码
    '''
    header = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36"
    }
    resp = requests.get(url,headers = header)
    resp.encoding = 'utf-8'
    html = resp.text
    return html


if __name__ == "__main__":
    main()

图片已拿到

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

开发语言

pycharm

python爬虫爬取高清图片——爬虫入门的相关文章

保存为 HDF5 的图像未着色

我目前正在开发一个将文本文件和 jpg 图像转换为 HDF5 格式的程序用HDFView 3 0打开似乎图像仅以灰度保存 hdf h5py File Sample h5 img Image open Image jpg data np
使用 python requests 模块时出现 HTTP 503 错误

我正在尝试发出 HTTP 请求但当前可以从 Firefox 浏览器访问的网站响应 503 错误代码本身非常简单在网上搜索一番后我添加了user Agent请求参数但也没有帮助有人能解释一下如何消除这个 503 错误吗顺便说一句
Django 的内联管理：一个“预填充”字段

我正在开发我的第一个 Django 项目我希望用户能够在管理中创建自定义表单并向其中添加字段当他或她需要它们时为此我在我的项目中添加了一个可重用的应用程序可在 github 上找到 https github com stephen
如何使用 opencv.omnidir 模块对鱼眼图像进行去扭曲

我正在尝试使用全向模块 http docs opencv org trunk db dd2 namespacecv 1 1omnidir html用于对鱼眼图像进行扭曲处理Python 我正在尝试适应这一点C 教程 http docs op
Python 中的舍入浮点问题

我遇到了 np round np around 的问题它没有正确舍入我无法包含代码因为当我手动设置值而不是使用我的数据时返回有效但这是输出 In 177 a Out 177 0 0099999998 In 178 np rou
处理 Python 行为测试框架中的异常

我一直在考虑从鼻子转向行为测试摩卡柴等已经宠坏了我到目前为止一切都很好但除了以下之外我似乎无法找出任何测试异常的方法 then It throws a KeyError exception def step impl contex
Python getstatusoutput 替换不返回完整输出

我发现了这个很棒的替代品getstatusoutput Python 2 中的函数在 Unix 和 Windows 上同样有效不过我觉得这个方法有问题output被构建它只返回输出的最后一行但我不明白为什么任何帮助都是极好的 def
datetime.datetime.now() 返回旧值

我正在通过匹配日期查找 python 中的数据存储条目我想要的是每天选择今天的条目但由于某种原因当我将代码上传到 gae 服务器时它只能工作一天第二天它仍然返回相同的值例如当我上传代码并在 07 01 2014 执行它时它
如何在 Python 中解析和比较 ISO 8601 持续时间？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 Python v2 库它允许我解析和比较 ISO 8601 持续时间may处于不同单
从Python中的字典列表中查找特定值

我的字典列表中有以下数据 data I versicolor 0 Sepal Length 7 9 I setosa 0 I virginica 1 I versicolor 0 I setosa 1 I virginica 0 Sepal
在Python中检索PostgreSQL数据库的新记录

在数据库表中第二列和第三列有数字将会不断添加新行每次每当数据库表中添加新行时 python 都需要不断检查它们当 sql 表中收到的新行数低于 105 时 python 应打印一条通知消息警告数量已降至 105 以下另一方面
在 Sphinx 文档中*仅*显示文档字符串？

Sphinx有一个功能叫做automethod从方法的文档字符串中提取文档并将其嵌入到文档中但它不仅嵌入了文档字符串还嵌入了方法签名名称参数我如何嵌入only文档字符串不包括方法签名 ref http www sphinx do
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
仅第一个加载的 Django 站点有效

我最近向 stackoverflow 提交了一个问题标题为使用mod wsgi在apache上多次请求后Django无限加载 https stackoverflow com questions 71705909 django infini
如何断言 Unittest 上的可迭代对象不为空？

向服务提交查询后我会收到一本字典或一个列表我想确保它不为空我使用Python 2 7 我很惊讶没有任何assertEmpty方法为unittest TestCase类实例现有的替代方案看起来并不正确 self assertTrue
如何在 Windows 命令行中使用参数运行 Python 脚本

这是我的蟒蛇hello py script def hello a b print hello and that s your sum sum a b print sum import sys if name main hello sys
Python：XML 内所有标签名称中的字符串替换（将连字符替换为下划线）

我有一个格式不太好的 XML 标签名称内有连字符我想用下划线替换它以便能够与 lxml objectify 一起使用我想替换所有标签名称包括嵌套的子标签示例 XML
在本地网络上运行 Bokeh 服务器

我有一个简单的 Bokeh 应用程序名为app py如下 contents of app py from bokeh client import push session from bokeh embed import server do
python import inside函数隐藏现有变量

我在我正在处理的多子模块项目中遇到了一个奇怪的 UnboundLocalError 分配之前引用的局部变量问题并将其精简为这个片段使用标准库中的日志记录模块 import logging def foo logging info fo
如何计算Python中字典中最常见的前10个值

我对 python 和一般编程都很陌生所以请友善我正在尝试分析包含音乐信息的 csv 文件并返回最常听的前 n 个乐队从下面的代码中每听一首歌曲都是一个列表中的字典条目格式如下 album Exile on Main Street

随机推荐

【华为机试真题 JAVA】最长连续子序列-100

编程题目 100分最长连续子序列 2021 H2 2022 H1考试题时间限制 C C 1秒其他语言 2秒空间限制 C C 262144K 其他语言524288K 64bit IO Format lld 本题可使用本地IDE编码不
Python3 输入和输出

在前面几个章节中我们其实已经接触了 Python 的输入输出的功能本章节我们将具体介绍 Python 的输入输出输出格式美化 Python两种输出值的方式表达式语句和 print 函数第三种方式是使用文件对象的 write 方法
Mac mkdir创建文件夹提示Permission denied

B00011347 wanghan mkdir map car mkdir map car Permission denied 处理办法 B00011347 wanghan sudo mkdir map car Password 输入密码
tensorflow错误：InvalidArgumentError (see above for traceback): Cannot assign a device for operation

一错误 InvalidArgumentError see above for traceback Cannot assign a device for operation shuffle batch Could not satisfy e
java项目远程调试

背景目前大家调试项目比较通用的就是使用修改log进行调试每次调试都会相应的修改配置log的地方重复性的进行提交编译部署比较浪费时间由于环境连接问题又需将项目部署到服务器上所以为了节省无用的时间开销大家可以使用java
AIO-3588MQ 车规级AI主板

AIO 3588MQ采用Rockchip全新的车规级八核AI SOC芯片RK3588M 支持8K视频编解码支持六屏同时显示支持多达16路摄像头输入可实现大广角无缝拼接可扩展硬盘千兆网 WiFi6和5G 4G网络支持虚拟机支持多
arr1 = [1,2]arr2=[1,2,3,4,5,6]用javascript的方式将以上两组数据处理成 1:1,2:2,3:1,4:2,5:1,6:2

1 使用循环和取余运算符 const arr1 1 2 const arr2 1 2 3 4 5 6 const length1 arr1 length const length2 arr2 length const maxLength M
ArcObjects拾遗之一——初始化许可

ArcObjects是ArcGIS的底层API 基于COM技术搭建所以能够自然地支持C VB Net在内的多种语言然而也因为是基于COM的所以它的API很是难用相比 Net framework那样的虽然我用它来开发也有些时日了但
配置好JDK后，如何在cmd下运行java程序

我们都知道两条命令 javac 类名 java和java 类名具体操作举例说明 1 如果 java文件放在了部分C盘用户自己建立的文件夹或C盘以外的位置比如D盘步骤一 win R 输入cmd回车进入命令提示符窗口步骤二跳转到
DVWA通关攻略零到一【全】

概述 DVWA Damn Vulnerable Web Application 一个用来进行安全脆弱性鉴定的PHP MySQL Web 应用旨在为安全专业人员测试自己的专业技能和工具提供合法的环境帮助web开发者更好的理解web应用安全
学不会设计模式，是因为你还没用过这个神奇的网站！

公众号关注 GitHubDaily 设为星标每天带你逛 GitHub 大家好我是小 G 如果我们将程序员简单分为两类人一类对于软件设计模式一头雾水代码写的随心所欲另一类将设计模式玩的炉火纯青代码写的优雅如诗那么后者写出来的
molyx2.6.1论坛转换至Discuz!x3.2

molyx是一个很久前的论坛程序了开发维护早已停止网上也搜不到什么资料坛子用的还是molyx2 6 1的程序数据库规模变大以后论坛会出各种问题所以决定要迁移到更大众化的Discuz上去转换程序是从discuz官网上下载的Com
2.4.12 Profile虚拟SCSI卡参数

最后更新2021 07 24 在本节我们参考 lt 图 250 虚拟SCSI卡参数设置 gt 来了解虚拟SCSI卡参数其中左图来自普通AIX分区右图来自VIO Server 图 251 虚拟SCSI卡参数设置第一个参数与虚拟以太网卡相
Error generated. /dvs/git/dirty/git-master_linux/multimedia/nvgstreamer/gst-nvarguscamera/gstnvargus

使用Jetson TX2连接猎豹相机程序报错自动退出后相机无法再次启动报错 Error generated dvs git dirty git master linux multimedia nvgstreamer gst nvarg
dash 机器人 Android,用于 Dash 和 Dot 机器人的Blockly

编辑点评可视化少儿编程工具用于 Dash 和 Dot 机器人的Blockly 介绍用于 Dash 和 Dot 机器人的Blockly 请注意要使用此应用程序需要有 Wonder Workshop 机器人 Dash 或 Dot 以及
IDEA 中，Gradle:Download https:// jcenter.bintray.com/ 下载不下来

1 找到C盘中当前目录将gradle下来好的压缩包解压到该目录下个人的根基目录不一致根据实际情况看 2 修改自己电脑的DNS 晚上随便搜索例如 202 96 128 68 3 再次运行IDEA 就可以正常打包了
王者体验服服务器注册人数已满,王者官方大厅奖励有多难获得？服务器直接崩溃，玩家：别发红包了...

可乐要加冰乔妹在你心大家好我是小乔妹每天为您分享有趣的王者资讯感谢您的关注王者荣耀一直以来都有许许多多的活动有限时活动也有长久活动但官方专属大厅奖励活动确实王者史上第一次奖励因此就有很多玩家期待这次专属活动的福利是什么这次
xp系统打开ping服务器地址,WinXP如何用批处理文件鉴定IP地址Ping是否连通

内容来源系统之家今天来聊聊一篇关于WinXP如何用批处理文件鉴定IP地址Ping是否连通的文章现在就为大家来简单介绍下WinXP如何用批处理文件鉴定IP地址Ping是否连通希望对各位小伙伴们有所帮助鉴定方法打开记事本在窗口中输
2021年10月程序员薪资出炉，你在哪个层级？

叮咚 10月份程序员薪资表新鲜出炉先从地域上来看城市的平均工资排行依然是北上深占据着前三位其中北京以18094 3的平均工资成为了众多城市的天花板接下来我们一起来看看新出炉的 10 月份程序员工资表城市 10月程序员薪资排名靠前
python爬虫爬取高清图片——爬虫入门

自动抓取某图片网站高清壁纸并下载保存使用requests请求网页 bs4解析数据话不多说直接看代码刚学不久欢迎指点 codeing utf 8 Time 2022 11 7 15 22 Author 摸摸头发在不在 File geti

python爬虫爬取高清图片——爬虫入门

自动抓取某图片网站高清壁纸并下载保存

图片已拿到

python爬虫爬取高清图片——爬虫入门 的相关文章

随机推荐

热门标签

python爬虫爬取高清图片——爬虫入门的相关文章