20行Python代码爬取网站美女图,哇太多了,我U盘装满了

2023-10-31

淘女郎爬虫,可动态抓取淘女郎的信息和照片。
在这里插入图片描述

需要额外安装的第三方库

requests
pip install requests
pymongo
pip install pymongo

模块功能

TaoLady.py:负责发送POST请求和抓取个人信息和图片地址并保存到MongoDB中。

Download_Pic.py:负责从MongoDB中抽取出淘女郎照片的网址,并下载。

想要全部完整源码,以及python爬虫资料的,文末免费领取哦

原理

淘女郎的网站使用了AJAX技术。通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。这意味着通过直接抓取网页源代码然后分析出信息的方式是行不通的,因为网站是动态加载的,直接抓取的方式只能抓到网页原始的源代码,并不能抓到动态加载出的淘女郎的信息。
在这里插入图片描述

对于这一类网站,一般有两种抓取办法:

1.利用selenium库来模拟浏览器的用户行为,让服务器以为是真正的用户在浏览网页,从而获得完整的网页源代码
2.利用Chrome等浏览器自带的分析工具,对网页的Network进行监控,分析出数据交换的API,从而利用API抓取到数据交换的JSON数据,从而进行抓取。

一般来讲,第一种方法速度较慢,并且运行时占用较多的系统资源,所以,条件允许的情况下,尽量使用第二种方法。

在Chrome浏览器中打开淘女郎:
https://mm.taobao.com/search_tstar_model.htm? 按F12切换到开发者模式,在Network一栏选择XHR可以看到目前没有网络活动,但是,在网页中按下一页的时候,会出现一个POST活动,当再次按下下一页的时候,会再次出现一次该活动,所以,可以断定,数据交换使用的就是这个API。

然后我们再来对比这两次请求,在Headers框的FromData栏中,可以看到两次请求的差别在currentPage的不同,一个是2,一个是3,这说明,要想得到第几页的数据,这个currentPage的值就是多少。所以我们就根据这个,来编写请求,从而得到全部淘女郎信息的JSON文件。
在这里插入图片描述

发送请求,得到JSON数据,将其加工并转化为Python的字典类型返回
在这里插入图片描述

连接到MongoDB, 将信息保存

在这里插入图片描述

抽取出照片的网址,下载,保存在pic文件夹中
在这里插入图片描述

爬完了,成果斐然啊
在这里插入图片描述

最后

最后多说一句,小编是一名python开发工程师,这里有我自己整理了一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!(文末领取

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。在这里插入图片描述

二、Python必备开发工具

在这里插入图片描述

三、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。(文末领读者福利
在这里插入图片描述
在这里插入图片描述

四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(文末领读者福利
在这里插入图片描述

五、Python练习题

检查学习结果。
在这里插入图片描述

六、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。 (文末领取哦
在这里插入图片描述
在这里插入图片描述

这份完整版的Python全套学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

20行Python代码爬取网站美女图,哇太多了,我U盘装满了 的相关文章

随机推荐

  • 拉结尔6月21日服务器维护,拉结尔6月23日停服维护公告

    拉结尔手游将在6月23日进行短暂的维护更新哦 不清楚具体更新内容究竟是什么的小伙伴们 接下来就让我们一起来看一下吧 拉结尔6月23日停服维护公告 尊敬的探索者 拉结尔 于6月19日更新了全新周年庆版本 针对近日部分探索者反馈的关于新版本的问
  • Cocos2dx-OpenGL ES2.0教程:你的第一个立方体(5)

    在上篇文章中 我们介绍了VBO索引的使用 使用VBO索引可以有效地减少顶点个数 优化内存 提高程序效率 本教程将带领大家一起走进3D 绘制一个立方体 其实画立方体本质上和画三角形没什么区别 所有的模型最终都要转换为三角形 同时 本文还会介绍
  • Nginx构建反向代理缓存服务器

    防伪码 曾经沧海难为水 除却巫山不是云 代理服务可简单的分为正向代理和反向代理 正向代理 用于代理内部网络对Internet的连接请求 如 NAT 客户端指定代理服务器 并将本来要直接发送给目标Web服务器的HTTP请求先发送到代理服务器上
  • springboot2.0整合logback日志(详细)-禁止logback内部日志

    本文转载自作者 70KG 出处 https www cnblogs com zhangjianbing p 8992897 html 一 近期自己的项目想要一个记录日志的功能 而springboot本身就内置了日志功能 然而想要输入想要的日
  • Spring Boot 中的多线程事务处理太繁琐?一个自定义注解直接搞定!

    前言 我们开发的时候常常会遇到多线程事务的问题 以为添加了 Transactional注解就行了 其实你加了注解之后会发现事务失效 原因 数据库连接spring是放在threadLocal里面 多线程场景下 拿到的数据库连接是不一样的 即是
  • Android项目连接手机

    1 下载和环境配置 首先要在android上面下载Android WiFi ADB 点击File setting Plugins 搜索Android WiFi ADB下载安装然后关掉Android重启打开 然后需要配置SDK里面ADB的环境
  • 电气间隙和爬电距离的测量方法

    目录 电气间隙和爬电距离的测量方法 电气间隙Clearance 爬电距离creepage 一 名词解释 二 从 GB4943 2001 中 2 10 条款定义理解 具体测量步骤步骤如下 一 电气间隙的测量步骤 二 确定爬电距离步骤 三 从
  • Spring Boot之定时任务

    定时任务是我们在项目中经常遇到的场景 也是进场需要使用的场景 比如说订单 没10分钟需要取消没有未支付的订单等等 Timer Timer是 JDK 自带的定时执行的工具类 无需任何的处理就可以直接使用 使用起来特别的方便 但是使用该定时任务
  • 如何保护数据安全?企业该从部署SSL证书开始

    数字化时代 大数据开始蔓延到各行各业 影响着生活的方方面面 在犹如 皇帝穿新衣 般透明的大数据时代 数据泄露无孔不入 存在问题层出不穷 未知的漏洞隐患 安全边界的模糊 新的网络攻击手段 个人隐私的无处藏身等一系列问题不断出现 因此 如何保护
  • linux.zip文件怎么解压,linux怎么解压zip文件

    ZIP是最广泛使用的归档文件格式 支持无损数据压缩 ZIP文件是包含一个或多个压缩文件或目录的数据容器 在此文中将向您展示如何使用unzip命令通过命令行解压缩Linux系统中的文件 Unzip命令 可帮助您列出 测试和提取压缩的ZIP归档
  • 函数命名技巧

    以动词开头 函数总是做些什么 所以当然要以动词开头 尽量不要以 do 开头 do 并不能给我们提供任何函数的信息 相比之下 search compute handle 之类的动词暗示着函数大概做了什么 合理的使用 get 作为函数名字的开头
  • 2019 5/13 Linux基础指令1

    LINUX基础指令1 换执行等级 init Linux共有七种执行等级 run level 0 关机 run level 3 纯文本模式 run level 5 含有图形接口模式 run level 6 重新启动 重启reboot 键盘指令
  • 最大化最小值问题(二分法)

    二分中非常典型的应用就是 最小化最大值问题 和 最大化最小值问题 本篇结合三道例题来说明最小化最大值问题 最大化最小值 会给你一些可取的数据范围 这个范围有时候需要自己发现 不过一般来说都很明显 然后在这些范围中找到符合要求的数值 通过函数
  • PyTorch、TensorFlow和Jax构建神经网络模型的标准化流程

    文章目录 开始之前 一 PyTorch 1 1 PyTorch 版本1 x阶段 二 TensorFlow 2 1 TensorFlow 版本 1 x 阶段 2 2 TensorFlow 版本 2 x 阶段 三 Jax 3 1 Jax 版本
  • @Transactional 事务调用与生效场景总结

    1 同一个类中 事务publicA掉非事务B B抛异常 AB事务生效 具有传播性 Override Transactional public void A User u new User u setAccount test u setNam
  • 深入研究webpack之Tree Shaking相关属性sideEffects用处

    Tree Shaking我原来也只是了解 这次碰巧深入研究了下 就写个博客记录一下 网上有很多讲Tree Shaking的 我写的这篇跟他们侧重点不一样 Tree Shaking相关的基础知识 1 webpack会从入口文件开始不断的获取你
  • 中科院分区2020_一文读懂SCI期刊分区和实时影响因子计算方法

    作者 恺忻 排版 审核 恺忻 SCI分区 sci分区是一个sci基本常识 国内很多有sci论文发表要求的高校或者科研单位 在发表要求中对期刊分区一般都有明确要求 因为分区不同关系着影响因子高低 很多作者不知道如何查看sci期刊分区 目前sc
  • 文件操作(详细总结)

    文章目录 为什么要使用文件 什么是文件 文件的打开和关闭 文件顺序读写 流 文件的随机读写 文本文件和二进制文件 文件读取结束的判定 文件读取结束的原因 文件缓冲区 为什么要使用文件 为了更好的保存数据 可以将数据写到文件里 在硬盘中 什么
  • 1.4 顺序与选择结构

    第一关 顺序结构 任务描述 本关介绍顺序结构 程序最基本的结构就是顺序结构 顺序结构就是程序按照语句顺序 从上到下依次执行各条语句 本关要求读者理解顺序结构 对输入的三个数changeone changetwo plus能够先交换chang
  • 20行Python代码爬取网站美女图,哇太多了,我U盘装满了

    淘女郎爬虫 可动态抓取淘女郎的信息和照片 需要额外安装的第三方库 requests pip install requests pymongo pip install pymongo 模块功能 TaoLady py 负责发送POST请求和抓取