【python】爬虫实战流程

2023-10-27

一、采集步骤

（1）网页解析

（2）引入第三方模块

import requests  #请求数据
import json #数据解析
from jsonpath import jsonpath #数据解析
import pandas as pd # 数据处理
import random # 随机函数
import time #间隔时间

（2）request请求

    def __init__(self,sku):

        self.headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.5005.62 Safari/537.36'
                       ,'referer':'https://item.jd.com/'}

    def get_data(self):
        response = requests.get(self.url,headers = self.headers)
        response = response.content.decode()
        
        return response

（3）数据解析

def parse_data(self,data):

        # 因为还采集了一些其他相关信息，有的数据格式不一样，所以下面使用了两种json语法解析数据
        def try_1(data,path):      
            try:
                re = jsonpath(data,path)[0]
            except:
                re = '无'

            return re
        
        def try_2(data,path,value):      
            try:
                re_list = jsonpath(data,path)[0]
                for re in re_list:
                    info = re[value]
                return info
                
            except:
                info = '无'
                return info
                

        data = '{'+ data.split('({')[1].split('})')[0] + '}'
        json_data = json.loads(data)

        data_price_p = try_1(json_data,'$.price.p')
        data_gift_value = try_2(json_data,'$.promotion.gift','value')
        
        data_dict ={,'页面':data_price_p
                   ,'赠品名':data_gift_value
                   ,'时间':time.strftime("%Y-%m-%d %H:%M:%S",time.localtime(time.time()))
                   }
        
        df = pd.DataFrame(data_dict,index=[0])    
    
        return df

（4）数据输入&保存

这一步主要就是实现批量输入和输出

    sku_list = pd.read_excel(r'data/输入文件.xlsx',header=None).iloc[:,0].to_list()
    print('需采集共{}个\n'.format(len(sku_list)))
    df_list = []
    for sku in sku_list: 
        try:
            price = Price(sku)
            df = price.run()
            df_list.append(df)
            time.sleep(random.random()*3)
            if (sku_list.index(sku)+1)%10 == 0:
                print('已采集{}条\n'.format(sku_list.index(sku)+1))

        except:
            print('共采集{}条，剩余未采集成功\n'.format(sku_list.index(sku)))
            break
    df_tmp = df_list[0]
    for i in range(1,len(df_list)):
        df_tmp = pd.concat([df_tmp,df_list[i]],join='outer')
    print('全部采集完成\n')
    df_tmp.to_excel(r'data/输出文件.xlsx', index=False)

二、遇到的问题

问题1：response部分数据为空值

问题描述：浏览器页面是有显示满减优惠券的，且在抓包数据里也是存在的，但实际采集的时候返回的是空值
问题原因：经过多次测试之后后来发现是登录问题，因为是针对新用户的优惠券，而我在采集的时候并没有设置cookie，所以采集不到数据，设置之后应该是可以采集成功的（后续实践后更新）

三、源代码

以下是源代码

import requests
import random
import time
import json
from jsonpath import jsonpath
import pandas as pd

class Price(object):
    
    def __init__(self,sku):

        self.headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.5005.62 Safari/537.36'
                       ,'referer':'https://item.jd.com/'}

    
    def get_data(self):
        response = requests.get(self.url,headers = self.headers)
        response = response.content.decode()

        return response
    
    def parse_data(self,data):
        
        def try_1(data,path):      
            try:
                re = jsonpath(data,path)[0]
            except:
                re = '无'

            return re
        
        def try_2(data,path,value):      
            try:
                re_list = jsonpath(data,path)[0]
                for re in re_list:
                    info = re[value]
                return info
                
            except:
                info = '无'
                return info
                

        data = '{'+ data.split('({')[1].split('})')[0] + '}'
        json_data = json.loads(data)

        data_ad = try_1(json_data,'$.adText')
        data_coupon_ad = try_2(json_data,'$.couponInfo','addDays')
        data_coupon_btime = try_2(json_data,'$.couponInfo','beginTime')
        data_coupon_discount = try_2(json_data,'$.couponInfo','discountText')
        data_coupon_etime = try_2(json_data,'$.couponInfo','endTime')
        data_coupon_id = try_2(json_data,'$.couponInfo','couponId')
        data_coupon_label = try_2(json_data,'$.couponInfo','labelTxt')
        data_coupon_name = try_2(json_data,'$.couponInfo','name')
        data_ms = try_1(json_data,'$.miaoshaInfo.miaosha')
        data_ms_title = try_1(json_data,'$.miaoshaInfo.title')
        data_ms_stime = try_1(json_data,'$.miaoshaInfo.startTime')
        data_ms_etime = try_1(json_data,'$.miaoshaInfo.endTime')
        data_ms_op = try_1(json_data,'$.miaoshaInfo.originPrice')
        data_ms_p = try_1(json_data,'$.miaoshaInfo.promo')
        data_price_id = try_1(json_data,'$.price.id')
        data_price_m = try_1(json_data,'$.price.m')
        data_price_op = try_1(json_data,'$.price.op')
        data_price_p = try_1(json_data,'$.price.p')
        data_promotion = try_2(json_data,'$.promotion.activity','value')
        data_gift_id = try_2(json_data,'$.promotion.gift','proId')
        data_gift_value = try_2(json_data,'$.promotion.gift','value')
        data_rank = try_1(json_data,'$.rankUnited.revertItem.name')
        

        
        df = pd.DataFrame(data_dict,index=[0])    
    
        return df
        
        
    def run(self):
        re = self.get_data()
        data = self.parse_data(re)
        
        return data
        
        
        
if __name__ == "__main__":
    sku_list = pd.read_excel(r'data/输入文件.xlsx',header=None).iloc[:,0].to_list()
    print('需采集共{}个\n'.format(len(sku_list)))
    df_list = []
    for sku in sku_list: 
        try:
            price = Price(sku)
            df = price.run()
            df_list.append(df)
            time.sleep(random.random()*3)
            if (sku_list.index(sku)+1)%10 == 0:
                print('已采集{}条\n'.format(sku_list.index(sku)+1))

        except:
            print('共采集{}条，剩余未采集成功\n'.format(sku_list.index(sku)))
            break
    df_tmp = df_list[0]
    for i in range(1,len(df_list)):
        df_tmp = pd.concat([df_tmp,df_list[i]],join='outer')
    print('全部采集完成\n')
    df_tmp.to_excel(r'data/输出文件.xlsx', index=False)

声明：本博客均用于个人学习&分享，有错误欢迎指正

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫

python

json

【python】爬虫实战流程的相关文章

如何修复 Apache mod_wsgi 的 Python 版本不匹配问题？

我收到此错误 Thu Jul 12 14 31 36 2012 error python init Python version mismatch expected 2 6 7 found 2 6 8 当尝试启动 Apache 服务器时在
如何测试使用 XCom 的 Apache Airflow 任务

我正在尝试找出一种测试 DAG 的方法其中有几个任务使用 XCom 进行通信由于控制台命令只允许我从 DAG 运行任务有没有一种方法可以测试通信而无需通过 UI 运行 DAG Thanks 这是一种对我有用的方法尽管 Airflow
scipy.misc.imshow RuntimeError('无法执行图像视图')

我正在测试scipy misc imshow https docs scipy org doc scipy 0 15 1 reference generated scipy misc imshow html我得到了运行时错误无法执行图像查
如何移动我的图像？ python 3.10.4 pygame

我会移动我的图像图像是matiskinfinal png 我尝试将像素添加到 x 或其他我不知道它是什么的东西因为我真的是 python 的初学者 pygame但是是 x x 变化但图像没有移动 import os import py
Python 按照层次结构按多个分隔符分割字符串

我只想根据多个分隔符例如 and 和按顺序分割字符串一次例子 121 34 adsfd gt 121 34 adsfd dsfsd and adfd gt dsfsd adfd dsfsd adfd gt dsfsd adfd dsf
如何使用 HTTP 标头发送非英语 unicode 字符串？

我是 HTTP 相关问题的新手我的问题是在 iOS 开发中我想使用 HTTP 标头发送一个字符串所以我使用 httpRequest setValue nonEnglishString forHTTPHeaderField custom
使用 Pymongo 从 Windows 连接到 AWS 实例上的 MongoDB

此行反复抛出错误 client MongoClient ec2 12 345 67 89 us east 2 compute amazonaws com 27017 ssl True ssl keyfile C mongo pem 由于显而
如何从 Lua 调用 Python 函数？

我想从我的 lua 文件运行 python 脚本我怎样才能实现这个目标 Example Python代码 sum py file def sum from python a b return a b Lua code main lua f
使用 boto3 从 s3 下载时使用 filename 作为文件名

我正在使用 boto3 上传文件如下所示 client boto3 client s3 aws access key id id aws secret access key key client upload file tmp test
Flask 中的 import 和 extends 有什么区别？

我正在阅读 Flask Web 开发在例4 3中 extends base html import bootstrap wtf html as wtf 我想知道 extends 和 import 有什么区别我认为它们在用法上很相似在什
读取文件特定行号的有效方法。（奖励：Python 手册印刷错误）

我有一个 100 GB 的文本文件它是来自数据库的 BCP 转储当我尝试导入它时BULK INSERT 我在第 219506324 行上收到一个神秘错误在解决此问题之前我想看看这一行但可惜的是我最喜欢的方法 import line
python：是否有用于对输入流进行分块的库函数？

我想对输入流进行分块以进行批处理给定一个输入列表或生成器 x in 1 2 3 4 5 6 我想要一个能够返回该输入块的函数说如果chunk size 4 then x chunked 1 2 3 4 5 6 这是我一遍又一遍地做的事
pandas to_sql sqlalchemy 与 secure_transport 的连接

我正在尝试将数据发送到具有 require secure transport ON 的服务器上的 mysql 数据库当我尝试使用以下代码连接到它时 import pandas as pd import pymysql from sqlal
根据给定列表中的值替换列中的值[重复]

这个问题在这里已经有答案了我在数据框中有一列仅允许定义列表中存在的值例如给定列表 l1 1 2 5 6 如果列表中不存在列中的值我需要将每个值替换为 0 column Expected column 1 1 5 5 2 2 3 0
使 np.loadtxt 使用多个可能的分隔符

我有一个程序可以读取数据文件用户可以选择他们想要使用的列我希望它对于输入文件更加通用有时列可能如下所示 10 34 24 58 8 284 6 121 有时它们可能看起来像这样 10 34 24 58 8 284 6 121 我希
如何在 Pytorch 中将一维 IntTensor 转换为 int

如何将一维 IntTensor 转换为整数这 IntTensor int 给出错误 KeyError Variable containing 423 torch IntTensor of size 1 我所知道的最简单最干净的方法 In
如何在数据框中绘制包含三列的无向图，形成 3 种不同类型的节点（三方）？

我正在尝试使用三个不同的列表绘制网络的可视化这三个列表形成 3 种类型的节点下面的代码正在运行如图所示需要两个列表用户 ID 评分但是我希望我的图表是三部分的即 user userId review ratings prod
Python 中的十进制到二进制半精度 IEEE 754

我只能使用以下命令将十进制转换为二进制单精度 IEEE754struct pack模块或者使用相反的方法 float16 或 float32 numpy frombuffer 是否可以使用 Numpy 将十进制转换为二进制半精度浮点数我
只返回 $.ajax 传递的 JSON 数据的前 20 个结果？

我有以下简单的 jquery 片段 document ready function ajax url myjson json dataType json success function json each json function al
在多个图表上绘制一条线

I don t know how this thing is called or even how to describe it so the title may be a little bit misleading The first a

随机推荐

vs2019+QT新建UI窗口

在vs2019中新建一个QT的widget窗口第一步第二步其中可以选择MainWindow或者Widget窗口填写好ui的名字第三步建立好对应ui名字的 h 和 cpp文件即可双击新建的ui文件如果打不开的话可以重新配置一
解决nes_py在pip安装报错的问题

目录项目场景问题描述原因分析解决方案解决结果项目场景想跟随油管某视频复现强化学习方法玩超级马里奥的过程结果在在Anaconda3虚拟环境中用pip安装nes py时一直报错报错信息如下 Building wheel for
浏览器与Node的事件循环(Event Loop)有何区别?

前言本文我们将会介绍 JS 实现异步的原理并且了解了在浏览器和 Node 中 Event Loop 其实是不相同的一线程与进程 1 概念我们经常说JS 是单线程执行的指的是一个进程里只有一个主线程那到底什么是线程什么是进程
PAT乙级1043 输出PATest (20 分)

1043 输出PATest 20 分一问题描述给定一个长度不超过 10 4 的仅由英文字母构成的字符串请将字符重新调整顺序按 PATestPATest 这样的顺序输出并忽略其它字符当然六种字符的个数不一定是一样多的若某种
初识微服务技术栈

目录什么是微服务注册中心配置中心服务网关分布式缓存和数据库分布式搜素消息队列分布式日志服务系统的监控链路追踪持续集成 1 认识微服务 1 0 学习目标 1 1 单体架构 1 2 分布式架构 1 3 微服务 1 4 微服务
由于找不到packet.dll,无法继续执行代码的多种解决方法分享

在计算机领域中 packet dll是一个重要的动态链接库文件它被用来进行网络数据包的捕获和分析然而有时我们可能会遇到packet dll缺失的问题这将导致我们无法正常执行代码下面我们将为你详细介绍如何解决这个问题以确保你的代码
JS的执行上下文，变量声明提升，函数声明提升

目录一什么是执行上下文 execution content 二执行上下文的类型三执行上下文的生命周期以函数执行上下文为例四变量声明提升五函数声明提升一什么是执行上下文 execution content 一句话执行
java子类构造器第一行没有写super()为什么还会调用父类？

子类构造器第一行会默认隐藏了super 隐式语句如果第一行是this 的话隐式super 会消失备注第一行只能允许this或者super 不可同时都写入
Nginx配置WebSocket（WS）和WebSocket Secure（WSS）的完整指南

点点关注点点关注点点关注 Nginx是一款广泛使用的高性能Web服务器和反向代理服务器除了传统的HTTP和HTTPS协议支持外 Nginx还可以配置WebSocket WS 和WebSocket Secure WSS 以便实现实时双向
android override报错,android @override 报错解决方案

android override 报错解决方案现象 java 1801 method does not override a method from its superclass Override 原因 Eclipse is defaul
利用pytorch 实现深度残差网络(deep_residual_neural_network)

利用pytorch 实现深度残差网络深度残差网络代码实现输出结果深度残差网络残差网络是由来自Microsoft Research的4位学者提出的卷积神经网络在2015年的ImageNet大规模视觉识别竞赛 ImageNet La
Spring Autowire自动装配

在应用中我们常常使用
C语言基础-选择语句之成绩判断

文章目录前言一 C语言是什么二基础选择语句 1 if else 2 数据解读 3 switch case 总结前言只是基础取悦自己一 C语言是什么官方解释 c语言是一门面向过程抽象化的通用程序设计语言广泛应用于底层开发
Vue使用echarts(完整版，解决各种报错)

前言 Echarts 它是一个与框架无关的 JS 图表库但是它基于Js 这样很多框架都能使用它例如Vue 估计IONIC也能用下次研究因为我的习惯每次新尝试做一个功能的时候总要新创建个小项目做做Demo 首先看自己电脑是否安装
k8s yml 样例

文章目录 db deploy yml db service yml app deploy yml app service yml db deploy yml apiVersion apps v1beta1 kind Deployment m
linux报错 /bin/bash^M:解释器错误:没有那个文件或目录

在Linux中运行脚本时会出现linux报错 bin bash M 解释器错误没有那个文件或目录这是因为我们将在Windows下编写的脚本拷贝到Linux环境中运行时会出现运行不了的情况主要还是Windows的换行符为 r n 而L
2023电赛思路 E题：运动目标控制与自动追踪系统

1 E题运动目标控制与自动追踪系统基本思路 1 1 实现步骤设计红色光斑位置控制系统选择合适的红色激光笔并将其固定在一个二维电控云台上使用电机和编码器来控制电控云台的水平和垂直运动设计一个控制电路可以通过输入控制信号来控制电
unity3d学习笔记-动画（3.导入动画）

一配置动画类型在准备要导入 Unity 的动画时动画师可以为每个单独的动画创建不同的文件或者在一个文件中为所有内容制作动画将包含多个动画的单个文件导入 Unity 时可以在剪辑部分的导入设置中对其进行拆分在这里您可以定义
uniapp如何应用onNeedPrivacyAuthorization实现微信小程序隐私政策

前言微信小程序要求9 15日前实现隐私政策弹窗但是uniapp文档一直没有更新尝试直接使用wx onNeedPrivacyAuthorization 是可以生效的步骤在微信小程序后台的设置服务内容与声明设置好小程序所需要
【python】爬虫实战流程

一采集步骤 1 网页解析 2 引入第三方模块 import requests 请求数据 import json 数据解析 from jsonpath import jsonpath 数据解析 import pandas as pd 数据处