python爬虫记录一次爬取淘宝的过程

2023-05-16

淘宝可以说是一个检验爬虫技术是否过关的最强关卡了，下面来打破它吧。

淘宝的所有操作差不多都是在登录的状态下进行的，这时候想要对淘宝进行请求获取信息就必须在登录的状态下进行了。

方式一：（selenium）
使用selenium模块，使用自动化模块进行爬取淘宝，对自己需要的信息进行爬取下来，这是一个很简单的方式，但是这也是一个效率比较低下的爬虫形式。这个简单的自动化爬取形式就不详细讲解了。但是有一个值得注意的点就是登陆的时候，会被检测出内容输入的速度过快，之后弹出一个滑动验证条，需要对验证条进行处理才能够登陆成功。

方式二：（requests）
使用requests模块，对淘宝页面发起请求，但是在发起请求之前就需要携带上淘宝账号的cookies信息，如果没有携带cookies信息，那么对淘宝发起的所有请求都没有任何有用信息返回。

第一步：登录淘宝保存cookies信息，这个只需要登录一次保存cookies信息，那么很长一段时间都可以不会过期了。所以首先写一个简单的代码获取登录之后的cookies信息，这个可以直接使用selenium模块进行登录，保存cookies信息，毕竟发起登录post请求，不好破解淘宝的加密参数。这个简单就不详细讲解了。

第二步：淘宝对于搜索页面的网址请求反爬措施很强，这个可以不考虑，但是在淘宝的首页却有我们想要的一切，这需要在淘宝的首页找到对应的链接，就可以对这个链接发起请求了。

淘宝首页列出了各种产品信息，这需要找到自己需要的产品，点击进去，获取对应的url，这时候就可以进行我们熟悉的环节了（爬虫）。
在这里插入图片描述

第三步：使用第二步中提取到的url（例如：https://s.taobao.com/list?spm=a21bo.2017.201867-links-0.10.5af911d9L2LhUy&q=JK%E5%88%B6%E6%9C%8D&cat=16&style=grid&seller_type=taobao 这是一个女装下的JK制服链接）

导入需要使用到的模块

import requests            # 发起网络请求
import parsel              # xpath 分析页面
import json                # 读取保存在文件中的cookies信息 
import time              
import re                  # 分析提取页面复杂信息
from requests.cookies import RequestsCookieJar          # 为请求添加从cookies信息
from fake_useragent import UserAgent                    # 设置请求头，可以直接使用浏览器请求头

读取保存在文件中自己账号的cookies信息：

session = requests.session()     # 创建一个会话
    session.headers = header         # 设置会话请求头
    # 这里对保存在文件中的cookie对象进行提取
    jar = RequestsCookieJar()
    with open("cookies.txt", "r") as f: 
        cookies = json.load(f)
        for cookie in cookies:
            jar.set(cookie['name'], cookie['value'])         # 插入cookies信息

3.检测保存的cookies信息是否过期，使用自己账号的主页面进行检测（主页面url：https://i.taobao.com/my_taobao.htm）

def main():
    #  请求自己账号的主页面，测试cookies是否过期，如果过期及时更换
    res = session.get('https://i.taobao.com/my_taobao.htm',cookies=jar)
    time.sleep(3)
    if "自己的账号名称" in res.text:
        print("cookies还是可用的")
        parse()           # 发起商品网页请求

    else:
        print("cookies已经过期，登陆不成功，重新获取")

4.对商品页面发起请求，提取商品信息

def parse():
    res = session.get(url, cookies=jar)  # 使用cookies进行请求网页
    res.encoding = 'UTF-8'
    if res.status_code == 200:
        html = parsel.Selector(res.text)
        contents = html.xpath('//head/script[last()]/text()').extract_first()          # 提取页面的中所有商品信息内容
        contents = re.findall(r'"itemlist":(.*?),"p4p"', contents, re.S)               # 提取有用商品的信息
        if len(contents) != 0:
            content = contents[0][:-1:] + "}"                                          # 构造字典格式
            true = True                 # 特殊关键字的处理
            false = False
            content = eval(content)                                                    # 把字符串格式内容转换为字典
            print(type(content))
            itemlists = content['data']['auctions']                                    # 使用字典提取所有商品信息
            print(type(itemlists))
            print(len(itemlists))
            for item in itemlists:
                print("商品名称:", item['raw_title'])
                print("商品链接：", item['detail_url'])

        else:
            print("length:", len(contents))
            print("没有提取到商品信息，重新分析页面")
    else:
        print("登录失败")

5、这样子就可以提取到了淘宝的网页商品信息了，还有就是需要提取每一个商品的总页数，之后使用一个循环直接遍历全部的页面就可以了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

记录一次爬取淘宝的过程

python爬虫记录一次爬取淘宝的过程的相关文章

用户警告：MovieWriter ffmpeg 不可用

尝试在 google colab 上制作动画收到此警告用户警告 MovieWriter ffmpeg 不可用 warnings warn MovieWriter s 不可用 writer did pip 安装 ffmpeg 标准化但没有
使用组合时如何解决循环依赖？

我遇到了如下所示的情况其中每个类都需要另一个类并且它创建了循环依赖关系我在使用 ctypes 包装一些 C 代码时遇到了这种情况已经有很多关于这个主题的帖子但我发现它们没有帮助我需要一些例子 Module A from B im
LSTM - 一段时间后预测相同的常数值

我有一个变量我想预测未来 30 年的情况不幸的是我没有很多样品 df pd DataFrame FISCAL YEAR 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 199
python：如何检查一行是否为空行

试图弄清楚如何编写一个 if 循环来检查一行是否为空该文件有许多字符串其中之一是一个空行用于与其他语句分隔开不是我认为是一个回车符后面跟着另一个回车符 new statement asdasdasd asdasdasdasd ne
Jupyter Notebook 找不到 IQSharp

我一直在尝试为 Quantum Katas 运行 Q 但在找到 Q 内核方面遇到了一些困难唯一显示的内核是用于 Jupyter Notebook 的 Python 3 内核奇怪的是当我执行 jupyter kernalspec lis
lxml/python 使用 CDATA 部分读取 xml

在我的 xml 中我有一个CDATA部分我想保留 CDATA 部分然后剥离它有人可以帮忙解决以下问题吗默认不起作用 from io import StringIO from lxml import etree xml
Python：像石英一样的事件调度程序[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Groupby Sum 忽略几列

在此数据框中我想按位置进行分组并获得分数的总和但我不希望纬度经度和年份在此过程中受到影响 sample pd DataFrame Location A B C A B C Year 2001 2002 2003 200
函数内部变量的赋值会改变外部的赋值 - Python

我从使用 Matlab 转向使用 Python 使用函数时的变量赋值让我感到困惑我有一个代码如下 a 1 1 1 def keeps x y x y 1 2 return y def changes x y x y 1 2 return
使用 selenium 和 firefox 保存图像

我正在尝试使用 selenium 服务器和 python 客户端从网站保存图像我知道图像的 URL 但我无法找到保存它的代码无论是当它是文档本身还是当它嵌入到当前浏览器会话中时到目前为止我找到的解决方法是保存页面的屏幕截图有两种硒方
如何使用httplib2进行相互证书认证

我正在使用 httplib2 从我的服务器向另一个 Web 服务发出请求我们想要使用相互证书身份验证我了解如何使用证书进行传出连接 h set certificate 但是如何检查应答服务器使用的证书这张票 http code goo
CTRL-C 在 Python 中的行为有所不同

I ve recently started learning Python long time Java programmer here and currently in the process of writing some simple
如何将 MP3 音频文件读入 numpy 数组/将 numpy 数组保存到 MP3？

有没有办法从 MP3 音频文件中读取写入 MP3 音频文件numpy具有类似 API 的数组scipy io wavfile read https docs scipy org doc scipy 0 14 0 reference gen
python中的unicode错误[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 在下面的代码中我收到错误mailSe
如何让 IPython 按类别组织制表符补全的可能性？

当一个对象有数百个方法时制表符补全很难使用通常有趣的方法是由被检查对象的类而不是其基类定义或重写的方法如何让 IPython 对其制表符完成可能性进行分组以便首先检查对象的类中定义的方法和属性然后是基类中的方法和属性看起来像是
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
从由空格分隔的单个输入整数列表创建二维数组

我正在解决一些问题geeksforgeeks我遇到了一个特定的问题其中在测试用例中提供了输入如下所示 2 2 denotes row column of the matrix 1 0 0 0 all the elements of th
使用 Python 3.x 基本获取 URL 的 HTML 正文

我是Python新手我对 Python 2 x 中的旧 urllib 和 urllib2 与 Python 3 中的新 urllib 之间的差异有点困惑除此之外我不确定数据在发送到 urlopen 之前何时需要编码我一直在尝试使用
python 根据日期创建目录结构

我使用以下函数根据今天的日期创建目录 usr bin python import time datetime os today datetime date today todaystr today isoformat os mkdir to
Python google云函数部署失败-Madmom pip包

我正在尝试使用 madmom python pip 包部署 Python3 7 Google Cloud Function 但是指定madmom 0 16 1requirements txt 中的内容导致部署失败当我从requiremen

随机推荐

正点原子MiniFly V1.2学习笔记一

之前看过原子哥的FreeRTOS开发手册 xff0c 但是对整个项目怎么架构还不是很清楚由于最近工作需要上FreeRTOS xff0c 所以决定通过MiniFly来学习一下FreeRTOS的架构一 main 函数 int main s
正点原子MiniFly V1.2学习笔记三---atkpRxAnlTask

第5个任务解析处理接收到的指令 xTaskCreate atkpRxAnlTask 34 ATKP RX ANL 34 300 NULL 6 NULL 上面第1个任务 xff0c 把串口接收到的数据解包后得到指令 xff0c 然后把指令发
正点原子MiniFly V1.2学习笔记五---sensorsTask

这里先学习第8个任务sensorsTask xff0c 2 xff0c 3 xff0c 6 xff0c 7任务后面再学 xff0c 先学重要的 xTaskCreate sensorsTask 34 SENSORS 34 450 NULL 4
嵌入式项目管理学习——001重点明确和心态转换

相信做嵌入式的码哥们在参与一定数量的产品设计和生产之后 xff0c 都会发现一个问题 xff0c 如果没有一个负责的产品经理 xff0c 就会陷入到产品延期沟通缺失目标不清晰需求不明确等等的问题 xff0c 我目前也是达到了这样一个状
正点原子MiniFly V1.2学习笔记六---stabilizerTask

第9个任务 xff0c 优先级5 xTaskCreate stabilizerTask 34 STABILIZER 34 450 NULL 5 NULL 一任务函数使用绝对延时 xff0c 周期执行任务二传感器数据是怎么传到这个任务
正点原子MiniFly V1.2学习笔记七---configParamTask

第6个任务 xff0c 优先级1 xff0c 最低优先级配置参数任务 xTaskCreate configParamTask 34 CONFIG TASK 34 150 NULL 1 NULL 一全局参数configParam 1 参数
C++码农要读的经典

刚大四 xff0c 还在忙着找工作 xff0c 读过的书不是很多 xff0c 还有一些好书在读 xff0c 还有一些书将来必读 C语言程序设计谭浩强版本这个版本一致被人说误导子弟 xff0c 当然还有很多人推崇我觉得这本书不是什么好书
解读gazebo_ros_control gazebo_ros

本篇的目的是想解读gazebo ros control 以及 gazebo ros 因为gazebo本身是独立于ros的通过教程Intermediate Control plugin 以及教程 Category Write a plugi
vtaskstartscheduler()； //开启任务调度语句不执行

项目场景 xff1a FreeRTOS实时嵌入式操作系统开发基于stm32 第一章移植代码问题描述 xff1a 任务调度器执行到vtaskstartscheduler 开启任务调度语句不执行 span class token keywo
python3中定义类变量，并使用类函数修改类变量的值

定义类变量的方式有两种 1 在 init 中定义self elements 其中self elements是类变量名 a是传入Difference类的参数名 xff0c 这里的 init 作用是定义了类变量名 xff0c 将外部参数a传给类
printf函数的内涵以及造成的严重内存问题

问题的引出 xff1a 在某型号的核心网络交换机设备中 xff0c 为调试方便 xff0c 实现了一个把内存内容从终端打印的功能 xff0c 也就是dump memory xff0c 屏幕的左边显示十六进制 xff0c 右边以ASCII形式
关于docker那点事儿——Dockerfile编写

Dockerfile编写前言一 Dockerfile创建镜像二 Dockerfile常用指令三示例1 Dockerfile构建nginx镜像2 Dockerfile构建微服务四 CMD与ENTRYPOINT比较前言 Dockerfi
SylixOS信号量（二进制信号量、计数型信号量、互斥信号量（简称互斥量）、读写信号量）

目录二进制信号量互斥信号量计数器信号量读写信号量 SylixOS 信号量多个线程在读写某个共享数据 xff08 全局变量等 xff09 时必须通过某种方法实现共享数据的互斥访问或者同步访问 xff08 例如线程 B 等待线程 A
什么是优先级反转及解决方法

什么是优先级反转优先级反转 xff0c 是指在使用信号量时 xff0c 可能会出现的这样一种不合理的现象 xff0c 即 xff1a 高优先级任务被低优先级任务阻塞 xff0c 导致高优先级任务迟迟得不到调度但其他中等优先级的任务却能抢
STM32CubeMX在F103上的ADC注入通道配置异常问题

前言最近业余时间在搞无刷电机FOC的控制 xff0c 其中有一部分是关于流过电机三相绕组电流采集的 xff0c 需要用到STM32内置的ADC xff0c 核心是需要使用注入通道以确保ADC数据采集的实时性 xff0c 但是我在STM32
C++ static静态成员变量用法

C 43 43 static静态成员变量用法参考网址 xff1a 1 http c biancheng net cpp biancheng view 209 html 2 https www runoob com cplusplus cp
解决AndroidStudio 控制台编译输出中文乱码，黑方块+问号之类的

100 有效解决AndroidStudio 控制台编译输出中文乱码 xff08 黑色方框问号 xff09 xff0c 亲测解决 xff01 xff08 转载 xff09 Pdx 666的博客 CSDN博客背景在AndroidStudio
sphinx安装及简单使用

sphinx安装及简单使用如果你要编写技术文档可以用 reStructuredText 或 Markdown 格式编辑文件 xff0c 然后使用 Sphinx 工具转换成 html PDF ePub等格式 xff0c 或者托管到 git
cmake之CMakelist.txt的使用

文章目录常用命令1 指定 cmake 的最小版本2 打印信息2 1 打印普通信息2 2 打印告警2 3 打印错误 3 项目名称4 设置变量5 查找指定的库文件6 设置包含的目录7 设置链接库搜索目录8 指定编译包含的源文件8 1 明确指定
python爬虫记录一次爬取淘宝的过程

淘宝可以说是一个检验爬虫技术是否过关的最强关卡了 xff0c 下面来打破它吧淘宝的所有操作差不多都是在登录的状态下进行的 xff0c 这时候想要对淘宝进行请求获取信息就必须在登录的状态下进行了方式一 xff1a xff08 seleni

python爬虫 记录一次爬取淘宝的过程

python爬虫 记录一次爬取淘宝的过程 的相关文章

随机推荐

热门标签

python爬虫记录一次爬取淘宝的过程

python爬虫记录一次爬取淘宝的过程的相关文章