python爬虫——校花网

2023-11-08

爬取校花网图片

校花网http://www.xiaohuar.com/list-1-0.html

1.进入网站,我们会发现许多图片，这些图片就是我们要爬取的内容。
这里写图片描述
2.对网页进行分析，按F12打开开发着工具（本文使用谷歌浏览器）。我们发现每个图片都对应着一个路径。

3.我们访问一下img标签的src路径。正是图片的路径，能够获取到图片。因此我们需要获取网页中img标签下的src。
这里写图片描述
4.找到网页中的src。查看一下网页源代码，谷歌查看网页源代码快捷键（ctrl+u）。所有图片的src都在源代码中，我们使用正则表达式，可以轻松获取src路径。

5.想获取多个网页的图片，就要分析网页网址的规律，打开第二页，第三页，
发现网址分别为http://www.xiaohuar.com/list-1-1.html，http://www.xiaohuar.com/list-1-2.html
，很容易发现url的规律。

6.所有内容我们都分析完了，用代码实现起来很简单。用for循环遍历所有的网址，获取每页的页面内容，从中用正则表达式提取出图片的src。再用for循环去遍历所有图片的image_url。请求image_url，获取到内容，以二进制格式写入文件。

完整代码：

import requests
import re
#获取网页地址
#http://www.xiaohuar.com/list-1-3.html
#http://www.xiaohuar.com/list-1-5.html


url='http://www.xiaohuar.com/list-1-%s.html'

for i in range(4):#4表示要爬取4页图片，这里可根据需求做出修改。
    temp=url % i
    print(temp)
    #获取网页源码
    response=requests.get(temp)
    html=response.text
    #从源码文本中匹配我们需要的url
    img_urls=re.findall(r'/d/file/\d+/\w+\.jpg',html)

    for img_url in img_urls:
        img_response=requests.get('http://www.xiaohuar.com%s'%img_url)
        print(img_url)
        #图片的二进制信息
        img_data=img_response.content
        girl=img_url.split('/')[-1]
        with open('%s'%girl,'wb') as f:
            f.write(img_data)

爬取结果：

这里写图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫

校花网图片

爬取校花网

python爬虫——校花网的相关文章

python爬虫爬取使用Ajax请求的网站数据解析——以梅老板微博为例（m.weibo.cn）

文章目录前言什么是Ajax Ajax基本原理发送请求解析内容渲染网页 Ajax分析方法查看请求过滤请求 Ajax结果提取 1 分析请求 since id解析 2 分析响应 3 爬取微博数据后记前言前面学习了使用正则表达式
Python爬虫爬取LOL所有英雄皮肤

import requests import os import jsonpath from urllib request import urlretrieve 获取ID def get id url https game gtimg cn
‘NoneType‘ object has no attribute ‘find_all‘问题解决

Python爬虫问题描述原因分析解决方案问题描述 Python爬虫学习过程中遇到的AttributeError NoneType object has no attribute find all 问题解决 Traceback mos
Python 爬虫库以及库函数总结&&踩坑

1 Re库的基本使用 Re库介绍 Re库是Python的标准库主要用于字符串匹配调用方式 import re 正则表达式的表示类型 raw string类型原生字符串类型 re库采用raw string类型表示正则表达式表示为 r
sublime text3下搭建Python IDE--Anaconda插件（自动补全）

今天自己想在sublime text3下装个python自动补全插件当安装一个包管理器时 Package Contral 时 ctrl shift p输入Install Package时总是报错说没有这个包在网上也找了很多解决办法有
大数据采集概述

文章目录大数据采集概述 1 互联网大数据与采集 1 1互联网大数据来源 1 社交媒体 2 社交网络 3 百科知识库 4 新闻网站 5 评论信息 6 位置型信息 1 2 互联网大数据的特征 1 大数据类型和语义更加丰富 2 数据的规范化程度
Python爬虫（一）：编写简单爬虫之新手入门

最近学习了一下python的基础知识大家一般对爬虫这个词一听就比较熟悉都知道是爬一些网站上的数据然后做一些操作整理得到人们想要的数据但是怎么写一个爬虫程序代码呢相信很多人是不会的今天写一个针对新手入门想要学习爬虫的文章
python爬虫第9天用爬虫测试网站远程采集

网站的前端通常并没有自动化测试尽管前端才是整个项目中真正与用户零距离接触的唯一一个部分想象有一个由测试驱动的网络开发项目每天进行测试以保证网络接口的每个环节的功能都是正常的每当有新的特性加入网站或者一个元素的位置改变时就执行
知乎美女挖掘指南--Python实现自动化图片抓取、颜值评分

声明文中所有文字图片以及相关外链中直接或间接明示或暗示涉及性别颜值分数等信息全部由相关人脸检测接口给出无任何客观性仅供参考 1 数据源知乎话题美女下所有问题中回答所出现的图片 2 抓取工具 Python 3 并使用第三方
TXT文本文件存储

个人简介作者简介大家好我是W chuanqi 一个编程爱好者个人主页 W chaunqi 支持我点赞收藏留言愿你我共勉若身在泥潭心也在泥潭则满眼望去均是泥潭若身在泥潭而心系鲲鹏则能见九万里天地文章目录 TXT
python是真刑啊！爬虫这样用，离好日子越铐越近了~

一个程序员写了个爬虫程序整个公司200多人被端了不可能吧刚从朋友听到这个消息的时候我有点不太相信做为一名程序员来讲谁还没有写过几段爬虫呢只因写爬虫程序就被端有点夸张了吧朋友说消息很确认并且已经进入审判阶段了 01 对消息进
python三位数水仙花数（附零基础学习资料）

前言所以直接上代码 python输入一个水仙花数三位数输出百位十位个位从控制台输入一个三位数num 如果是水仙花数就打印num是水仙花数否则打印num不是水仙花数任务 1 定义变量num用于存放用户输入的数值 2 定义变量gw
使用Postman抓取Chrome请求快速生成Request请求代码

最近在练习爬虫的时候爬取网站时常常需要模拟浏览器去访问但是使用request发送请求时需要填写headers也就是头部信息但我又是一个懒得复制的人尝试了很多软件最后找到了一款特别适合我自己的方便快捷话不多说放链接下载地址
05笔趣阁小说爬取--爬取作者所有小说

前面的程序已经实现了从笔趣阁自动爬取整部小说接下来在之前的基础上将功能进一步扩展实现自动爬取某一作者在笔趣阁中的所有小说继续以方想为例下图是方想作品列表的页面 https www 52bqg com modules article
淘特app x-sign参数签名分析

之前看见大佬说淘特app的风控比tb的要小很多于是学习了下t特的签名分析一抓包分析通过Charles抓包分析分析请求参数 headers x sgext JAWowlF3DRjHdjoiU 2Flc38K43prxmuGa9Jv3
[python爬虫] Selenium常见元素定位方法和操作的学习介绍

这篇文章主要Selenium Python自动测试或爬虫中的常见定位方法鼠标操作键盘操作介绍希望该篇基础性文章对你有所帮助如果有错误或不足之处请海涵前文目录 Python爬虫在Windows下安装PhantomJS和Caspe
python爬取豆瓣电影json数据

由于豆瓣里的电影都有专属的id 获取到id后可以进一步爬取其他页面的内容首先来到主界面 https movie douban com 观察网页点击选电影进入需要爬取的界面打开Chrome开发模式并下拉网页观察新生成的文件可以观
python3GUI--抖音无水印视频下载工具（附源码）

文章目录一准备工作二预览 0 复制抖音分享短链接 1 启动 2 运行 3 结果三设计流程 1 总体设计 2 详细设计四源代码五说明总结 hello 大家好啊失踪人口回归了捂脸本次使用tkinter撰写一篇抖音无
python爬虫概述及简单实践

文章目录一先了解用户获取网络数据的方式二简单了解网页源代码的组成 1 web基本的编程语言 2 使用浏览器查看网页源代码三爬虫概述 1 认识爬虫 2 python爬虫 3 爬虫分类 4 爬虫应用 5 爬虫是一把双刃剑 6 pyt
Python采集猎聘网站招聘数据内容，看看现在职位风向

嗨喽大家好呀这里是爱看美女的茜茜呐环境使用 Python 3 10 Pycharm 模块使用第三方模块需安装 requests gt pip install requests pandas gt pip install panda

随机推荐

Linux常用命令(帮助命令、用户管理命令和压缩解压命令)

详细目录帮助命令 man whatis apropos help 用户管理命令 useradd passwd who w 压缩解压命令 gzip gunzip tar zip unzip bzip2 bunzip2 帮助命令 man 功能
全球与中国移动健康传感器市场未来发展趋势及十四五投资战略规划研究报告2021-2027年版

2020年全球移动健康传感器市场规模达到了亿元预计2027年将达到亿元年复合增长率 CAGR 为本报告研究全球与中国市场移动健康传感器的产能产量销量销售额价格及未来趋势重点分析全球与中国市场的主要厂商产品特点产品规格
为什么要重写hashCode和equals方法【深入分析版】

在回答这个问题前我们先来看看Object类中的这两个方法 public native int hashCode public boolean equals Object obj return this obj 其中hashCode调用的是
界面设计软件都有哪些？推荐这7款

本文总结了7种知名软件界面设计工具建议您尝试各种选择以找到最适合您的UI设计工具对于UI设计师来说应用程序的界面设计和制作是最常见的面对设计师的需求市场上出现了各种各样的软件界面设计工具百花齐放的情况不禁让设计师们大吃一惊
异常eclipse Hadoop Failed to set permissions of path的解决

eclipse Hadoop Failed to set permissions of path window下在eclipse中执行hadoop程序时报错如下原因文末有写来自网友所有的解决方案都是修改FileUitl文件然后重新
串口同步和异步理解

串口同步和异步理解 https blog csdn net cs74184235 article details 48438727 本文主要三大块一串口同步和异步在底层通信上的区别这部分点到为止不是主要探讨内容有个基本理解即可
信捷plc，9伺服通用程序架构

信捷plc 9伺服通用程序架构程序已经升级程序高度模块化可轻易拓展十几二十多个轴 plc是目前性价比最高的方案 60个点10轴高速脉冲输出走s形正弦曲线加减速程序采用C语言梯形图架构玩转信捷系统可运用于三菱西门子欧姆龙
小游戏《唐僧大战白骨精》

小游戏唐僧大战白骨精有点小无语的小游戏当时做的还挺认真的 rint 欢迎光临 xxx 游戏 n 请选择你的身份 n 1 唐僧 n 2 白骨精 n sf input 请选择 1 2 if sf 1 print 你已经选择了1 你将以 g
pandas写入字典，或者pandas以各种格式输出数据

1 将字典列表写入到pandas import pandas as pd rows buyer percent 23 2 tier city 1 buyer percent 18 54 tier city 2 df pd DataFrame
Python中利用xpath解析HTML的方法

本文主要介绍了Python中利用xpath解析HTML的方法利用其lxml html的xpath对html进行分析获取抓取信息具有一定的参考价值感兴趣的小伙伴们可以参考一下在进行网页抓取的时候分析定位html节点是获取抓取信息的
SpringBoot整合LogBack

本文演示SpringBoot整合LogBack 一项目搭建新建一个SpringBoot项目引入依赖
【shell中判断是否是整数】

方法一使用expr 看该数字是否可以进行加运算 root manager day4 cat ifnum sh bin bash Author pyy Date 2020 06 15 FileName ifnum sh 判断用户输入的是否是
Java是值传递还是引用传递？区别是什么？

文章目录值传递引用传递两者区别 Java到底是值传递还是引用传递在Java中参数的传递主要有两种值传递和引用传递值传递实参传递给形参的是值形参和实参在内存上是两个独立的变量对形参做任何修改不会影响实参也就是说在方法调
Java 数组初始化方式和遍历方式

Java 数组初始化方式总结第一种静态初始化所谓静态初始化初始化时由程序员显式指定每个数组元素的初始值有系统决定数组的长度简单实例 String strArr 张三李四王五第二种动态初始化所谓动态初始化初始化时由程
CTF-Web13（涉及哈希长度扩展攻击，难度偏大）

13 让我进去首先拿到题目查看源代码源代码没问题直接开始burpsuite尝试key 两行直接admin admin测试通过burpsuite可以看到以下内容在Response中看到set cookies无疑是最容易注意到的东西
sql查询小记

1 在MySQL中判断某个字段是否为空需要使用IS NULL 或者 IS NOT NULL 在MySQL5 2 7中测试通过例子1 Select FROM Test WHERE CODE IS NULL 例子2 Select FROM T
等保测评--通信网络安全测评要求

信息安全等级保护是对信息和信息载体按照重要性等级分级别进行保护的一种工作在中国美国等很多国家都存在的一种信息安全领域的工作在中国信息安全等级保护广义上为涉及到该工作的标准产品系统信息等均依据等级保护思想的安全工作狭义上一般
Python的迭代器和生成器使用示例

迭代器和生成器是Python中强大而灵活的工具用于处理可迭代对象的数据它们提供了一种高效的方式来遍历和处理大型数据集同时节省内存在本文中我们将介绍迭代器和生成器的概念并提供一些实例来展示它们的用法迭代器 Iterators 迭
repeat多级嵌套

效果图前台的 repeat asp 代码 C 代码
python爬虫——校花网

爬取校花网图片校花网http www xiaohuar com list 1 0 html 1 进入网站我们会发现许多图片这些图片就是我们要爬取的内容 2 对网页进行分析按F12打开开发着工具本文使用谷歌浏览器我们发现每个图片都

热门标签